Zeerak Ahmed在美國工作了多年,為一些世界上最大的科技公司工作。但讓他感到沮喪的一件事是“計算機將非拉丁語言視為二等公民”。其中一種語言是他的母語烏爾都語,巴基斯坦的國家語言和共同語言,在印度也被廣泛使用。Ahmed來自拉合爾,他與朋友和家人討論過使用現有烏爾都語鍵盤或閱讀烏爾都語輸入文本的困難。他也目睹了許多年輕人轉而使用英語或所謂的羅馬烏爾都語,使用拉丁字母進行拼音轉寫,因為沒有更好的解決方案。

在哈佛大學攻讀工程設計碩士學位期間,他想出了自己的解決方案。 在這項工作5年後,去年他推出了Matnsaz iOs應用程序。該應用程序為用戶提供了一種更精緻的烏爾都語鍵盤,該鍵盤按字母形狀分組,具有自動更正功能,甚至可以建議後續單詞。與主流設備上提供的標準烏爾都語鍵盤相比,這是一個顯著的改進。

儘管根據參考出版物Ethnologue的資料,烏爾都語是世界上使用最廣泛的第10種語言,但由於多重限制,在數字時代,烏爾都語落後了。Ahmed說,巴基斯坦許多人認為烏爾都語文本與計算不兼容。但他認為這是計算方面的缺陷,而不是語言的缺陷。正在進行一項努力來改變這種說法。

烏爾都語文字的挑戰

“我們生活在一個文字飽和的社會,所以年輕一代對印刷複雜性的接觸非常高,”平面設計師兼網頁開發人員Abeera Kamran說。“他們期望得到精緻的結果。”在烏爾都語中經常可用的東西通常無法滿足這些期望,因為由於Nastaliq字體的複雜性以及對Naskh的替代方案缺乏興趣,作家長期以來一直抵制數字化。 (烏爾都語使用Nastaliq字體,這是阿拉伯文書寫的一種華麗流暢的變體,特別複雜,因為每個字母的形狀取決於下一個字母。)這現在意味著真正的書面語言數字化版本可用的數字內容很少能與用戶所習慣的拉丁腳本相媲美。 網絡上經常使用羅馬烏爾都語作為替代品。 早期對烏爾都語文字的數字化嘗試依賴於Naskh阿拉伯字體,後者更直,因此更容易編碼。 但有人認為與Nastaliq相比,在書寫烏爾都語時使用Naskh字體是不充分的。 隨著我們的生活越來越依賴於數字信息和通信,一些人擔心真正書寫形式數字化版本的缺乏可能導致烏爾都語對於花更多時間上網而不是像他們的老一輩那樣的年輕一代變得不相關。

“人們相信您不能將烏爾都語用於現代目的,這使語言難以發展並與年輕人保持相關性,”Ahmed說。

Ahmed和Kamran是正在推動防止發生這種情況的人中的領導者。 Matnsaz應用程序是同名更大倡議的一部分,該倡議旨在為烏爾都語在線建立消費者和開發者工具。 Ahmed目前的工作包括Makhzan,一個開源的烏爾都語文本語料庫,以及Naqqash,一個用於阿拉伯語腳本的字符串處理庫。

Ahmed說,他多年來一直在玩弄這個想法,直到2017年才認真開始這項工作。 “在歐洲,大多數人都是用母語使用計算機,但在巴基斯坦我們不這樣做,”他說。 “如果您與巴基斯坦科技行業以外的人交談,他們會認為您無法在烏爾都語中進行現代計算。” Ahmed認為,如果給予烏爾都語與拉丁語言同等的重要性,並建立支持它的工具,烏爾都語可以輕鬆地在計算中使用。 這個想法成為Matnsaz的基礎,因為烏爾都語中的大部分進步都被阻礙,僅僅是因為基本構建塊不存在,他說。

烏爾都語在全球範圍內有大約2.3億人使用——主要在巴基斯坦和印度,以及世界各地的僑民社區。 儘管已經有過個別嘗試將該語言數字化,但需要在不同努力之間架起橋樑,才能產生全球影響,Kamran說。 她指出,烏爾都語的印刷字體採用直到20世紀末才發生,因為Nastaliq字體的複雜性以及對Naskh的替代方案缺乏興趣巴基斯坦社會。 在此之前,報紙和書籍都是手寫的,然後照相複印以製作所需的多份副本。

文化複雜性

巴基斯坦與Nastaliq,尤其是拉合爾Nastaliq——烏爾都語書寫所用的風格——有著長期的文化聯繫,這在現有數據集編碼時可能很複雜,Kamran說。 理解並考慮語言的文化聯繫在努力使烏爾都語數字化也很重要,她補充說。 “我意識到如果我們不對烏爾都語和Nastaliq在意識形態上如何聯繫在一起進行文化反思,我們就無法做任何這些事情。”

巴基斯坦的社會政治鬥爭和推動創建穆斯林巴基斯坦民族認同的努力,導致了抵制某些被認為是西方或外國影響的發展,Kamran說。 烏爾都語與巴基斯坦身份緊密相連,並且是該國的官方語言,儘管巴基斯坦還講其他語言。 在印巴分治之前的印度,烏爾都語使用者使用該語言反抗英國殖民統治。 今天,它仍然是印度的一個緊張點,那裡仍有數百萬人講這種語言,但受到威脅。 儘管烏爾都語不僅由穆斯林講,但它與該地區宗教實踐緊密相關。 “當談到拉合爾Nastaliq時,我們同時想到巴基斯坦人和穆斯林身份,並且因此我們抵制變革,”Kamran說。

這種聯繫促使Zeeshan Nasar和他的父親Nasrullah Mehr創立了MehrType,一家專注於定制烏爾都語、阿拉伯語和波斯語字體的數字字體 foundry。 Mehr是巴基斯坦一位知名的書法家,他使用拉合爾Nastaliq腳本。 對他來說,可用的連字鍵盤——它允許在鍵入阿拉伯語和Nastaliq等腳本時靈活輸入,通過適應變化的字母樣式來輸入——根本不夠。 Nasar將基於連字的烏爾都語方法稱為“jugad”,這是烏爾都語中對臨時解決方案的稱呼。 “使用基於連字的字體,如果您向鍵盤輸入一個新單詞,並且它無法識別,它會將其分解並破壞單詞和字母的樣式,”Nasar說。

這就是為什麼MehrType專注於創建性能良好的輕量級字體,這些字體適合嵌入網頁。 Nasar說,如果文件太大,嵌入到鏈接中時需要太長時間才能工作,並可能使網站變慢。 該團隊目前正在測試一種新的設置工具,不僅將為他們的字體提供更好的在線安全性,而且還將包括排版功能。 在