西藏自治區(qū)黨委統(tǒng)戰(zhàn)部版權所有????藏ICP備18000039號-1????
藏公網安備 54010202000133號
“祝賀你,你為西藏爭得了榮譽。”2023年12月5日,西藏自治區(qū)黨委書記王君正與新晉院士尼瑪扎西座談,向他表示祝賀。
就在2023年11月23日,中國工程院公布了2023年院士增選當選院士名單,尼瑪扎西榜上有名。這是繼多吉院士之后,西藏的第二位工程院院士。
在2023年當選院士頒證儀式上,尼瑪扎西作為新當選院士代表登臺發(fā)言。他深情地說:“我是沐浴著新西藏的陽光雨露,在黨和國家的關懷培養(yǎng)下成長起來的。”
30多年來,尼瑪扎西傾盡所學,回饋著養(yǎng)育他的這片大地,為西藏搭建信息化橋梁。
深耕不輟,藏文信息化讓更多的人受益
本世紀初,手機在全國普及程度已經很高,但對于西藏廣大農牧民來說,還有些遙不可及。原來,當時價格較為親民的國產手機無法支持藏文輸入,能夠支持藏文輸入的進口手機價格又讓人望而卻步。
“藏文的國際編碼標準都是由我們確立的,我們沒理由生產不出可以支持藏文輸入的國產手機。”尼瑪扎西再一次投入到緊張的研發(fā)中。
功夫不負有心人。尼瑪扎西帶領的西藏大學團隊和中國電信西藏分公司等公司共同研發(fā)數字移動操作系統(tǒng)藏文版,并推出了基于此的藏文數字移動電話,于2005年首次實現了手持電子通訊設備的藏文信息處理,受到廣大農牧民的歡迎。
尼瑪扎西并不滿足于此。智能手機已經普及,使用藏語文作為主要溝通語言的人如何更便捷地使用智能手機?
2014年,尼瑪扎西團隊與中國電信西藏分公司、華為集團合作研發(fā)智能移動操作系統(tǒng)藏文版——“漢藏安卓操作系統(tǒng)”,并共同推出基于此的智能移動電話,用戶可以通過藏文方便地使用移動電話各項功能。這一操作系統(tǒng)之后被廣泛應用于我國的國產手機中。
2019年起,尼瑪扎西團隊開始專注于研發(fā)國產計算機操作系統(tǒng)多語言支撐技術版。2021年,由西藏大學、國防科技大學和麒麟軟件公司歷時18個月共同開發(fā)的“銀河麒麟操作系統(tǒng)(藏文版)V10”正式發(fā)布。尼瑪扎西團隊心無旁騖、馳而不息,深耕藏文信息處理系統(tǒng)技術領域,不斷推出新的研究成果,服務西藏的信息化建設,特別是基層干部群眾的工作和生活。
精益求精,藏漢翻譯系統(tǒng)更加“博學”
在文字信息化過程中,最基礎的工作就是“輸入和輸出”。隨著藏文國際編碼標準的確立,通過尼瑪扎西等一批藏文信息處理專家的不懈努力,藏文“輸入和輸出”已不再是問題。
一個新的課題擺在了尼瑪扎西面前,那就是“溝通”。
“如果一個人只會藏文,或者只會普通話,能不能通過機器實現溝通?”想要解決這個問題,“機器翻譯”成為首選。
尼瑪扎西開始涉獵機器翻譯領域,這對于他來說,又是一個全新的挑戰(zhàn)。
2016年,歷時近5年的艱難探索,由尼瑪扎西主持、近30名成員組成的團隊自主研發(fā)的“陽光藏漢機器翻譯系統(tǒng)”正式上線,并免費向公眾提供服務,從前要花費十幾個小時的翻譯工作,通過機器翻譯系統(tǒng),只需要十幾分鐘就可以完成。
想要讓翻譯更加精準,就必須讓系統(tǒng)足夠“博學”。為此,尼瑪扎西主持研發(fā)了藏文文獻資源數字化平臺和全文檢索技術,數字化各類藏文文獻資源,構建了藏文文獻資源庫。
“這個系統(tǒng)就像一個牙牙學語的稚童,要不停地教給它各領域各行各業(yè)的知識,它才可以說出更漂亮的句子來。”尼瑪扎西團隊成員、機器翻譯項目成員仁青東主這樣形容“陽光藏漢機器翻譯系統(tǒng)”。
如今,經過團隊成員的共同努力,“陽光藏漢機器翻譯系統(tǒng)”歷經多次升級,不僅將準確率提升至90%以上,系統(tǒng)的最高日訪問量更是達到11萬余次。在此基礎上研發(fā)的語音翻譯、圖文識別等系列技術和軟件系統(tǒng)將逐步應用于社會生活的方方面面,服務西藏信息化建設和數字經濟發(fā)展。
對于尼瑪扎西團隊來說,這些遠遠不夠。
“藏文是中國文化的瑰寶,已有1300多年的歷史,是世界上古老的文字之一。我們希望能收錄更多更專業(yè)的藏文文獻,讓那些流傳千百年的以藏文承載的文化遺傳得到準確地翻譯。”仁青東主說,目前,團隊依然在不斷擴充大規(guī)模高質量藏文數據資源,努力提升漢藏機器翻譯系統(tǒng)在藏醫(yī)藥、文學和古籍等專業(yè)性更強的領域的翻譯準確率。
攻堅克難,發(fā)力藏文古籍文獻數字化
藏文古籍文獻種類繁多,卷帙浩繁。我國存世藏文古籍總數約在百萬函以上,其中,約三分之二收藏于西藏。2012年,尼瑪扎西團隊又開拓了全新的領域——藏文古籍文獻深度數字化。
要想將古籍數字化,最先要攻克的難題就是圖像識別技術。圖像識別可以將藏文文檔圖片識別成計算機可以閱讀的文檔,這樣就有可能利用信息技術對古籍內容進行檢索、翻譯、分析和理解等進一步的處理和利用。
藏文屬于拼音文字,字形無定長、無定寬、字符形態(tài)變化大。古籍存在版式多樣、圖文混排、結構緊密等現象,不同抄錄人的筆跡、書寫習慣也不盡相同,導致識別難度高,藏文古籍文獻的數字化技術研發(fā)和全文數據庫的建設極為復雜。
通過承擔國家重點研發(fā)計劃重點專項,尼瑪扎西帶領團隊應用新一代人工智能技術集智攻關,攻克了藏文古籍文獻掃描識別、數字化無損采集、數字化協(xié)同工作、全文數據庫構建和檢索等制約藏文古籍文獻數字化保護和利用的系列技術瓶頸,研發(fā)了藏文古籍版面分析與多字體文字識別系統(tǒng),工程化應用于藏文古籍數字化保護和利用、藏醫(yī)藥知識工程技術研發(fā)等諸多領域,實現了藏文古籍保護和利用的重要突破。
2022年,尼瑪扎西團隊“藏文古籍文獻數字化技術研發(fā)和應用”榮獲西藏自治區(qū)科學技術獎一等獎。
“目前,研發(fā)成果已經在西藏圖書館、布達拉宮古籍數字化保護中得到了廣泛應用。”尼瑪扎西團隊成員、西藏大學信息科學技術學院教授擁措介紹說,在該項研發(fā)成果的基礎上,團隊還承擔了自治區(qū)有關圖文識別研究項目,通過利用前沿的人工智能算法,對多場景多字體識別技術做了更進一步的研究,包括古籍和其他場景下的多字體文字識別技術。
如今的西藏,信息化高速發(fā)展,當選中國工程院院士的尼瑪扎西并沒有停下奮斗的腳步,他和團隊又把目光瞄準了人工智能領域。“要讓技術賦能民生改善,利用人工智能技術研發(fā)語言技術,使農牧區(qū)群眾在醫(yī)院看病、在銀行辦事等社會生活中更加方便,使所有人都能感受到國家經濟發(fā)展和信息技術進步帶來的便捷生活。”尼瑪扎西說。
?。ㄓ浾摺懨鳌∷骼嗜号唷】禎嵃啄贰〈稳势酱搿x巴次成 洛桑平措 對本文亦有貢獻)