中華經(jīng)典資源庫、古漢語大語言模型等成果涌現(xiàn)
生僻字更易輸入 文言文更快釋讀
“頔”寓意美好、“燊”表示熾盛、“鋆”意為金子……古籍里的這些生僻字,曾因無法輸入電腦,給文化傳承、學術(shù)研究,乃至人們?nèi)粘I顜聿槐?。?shù)字時代,如何讓漢語言文字更完整地活躍在“云”端?
日前,教育部圍繞推進語言文字信息化發(fā)展舉辦新聞發(fā)布會。“從‘鉛與火’到‘光與電’,中文信息處理技術(shù)不斷創(chuàng)新發(fā)展。”北京大學王選研究所所長湯幟介紹,北京大學作為國家語委中文文字字體設計與研究中心的依托單位,設計開發(fā)國家重大基礎性規(guī)范《通用規(guī)范漢字表》的配套字庫,研制人口信息生僻字超大字庫解決方案,在第二代居民身份證、護照上應用,協(xié)助解決銀行、稅務等社會應用系統(tǒng)的人名、地名缺字問題。
語言文字信息化是經(jīng)濟社會信息化的重要組成部分,是數(shù)字中國建設的基礎性工作。記者了解到,近年來,教育部聯(lián)合有關(guān)部門發(fā)布了國家通用語言文字和民族語言文字信息化規(guī)范標準100多項,推動建成國家語委媒體語言語料庫、冬奧會多語言術(shù)語庫等,上線國家語言資源服務平臺、中國語言文字數(shù)字博物館等,持續(xù)推動語言文化資源共建共享。
隨著智慧化學習的廣泛開展,語言文化優(yōu)質(zhì)資源惠及更多人。教育部語言文字信息管理司司長劉培俊介紹,為推進語教融合,教育部打造“中華經(jīng)典資源庫”,總瀏覽量超6000萬;打造“中小學語文示范誦讀庫”,惠及全國約1.6億中小學生和上千萬教師及社會大眾;上線中國語言文字數(shù)字博物館,收納海量資源,構(gòu)建全民學習新課堂。
此外,數(shù)智賦能也讓國家通用語言文字推廣普及效率不斷提升。目前,普通話測試方式已實現(xiàn)從人工到智能的轉(zhuǎn)變,機輔測試已服務超過9200萬人次。廣東省教育廳副廳長朱建華介紹:“我們支持研發(fā)普通話水平智能測試艙、聲紋分析系統(tǒng)等,打造了全國首個以智能化為核心的普通話水平測試智慧考場,能夠做到‘隨到隨考’。”
語言文字信息化讓古籍里的文字展現(xiàn)出新的活力。打開“AI太炎”古漢語大語言模型,輸入待分析的古籍文本,系統(tǒng)便能根據(jù)用戶選擇進行釋讀,包括字詞釋義、文白翻譯、句讀標點、用典分析等。北京師范大學黨委常委、副校長康震介紹,“‘AI太炎’依靠自主可控、安全可信的技術(shù)路線,理解力強、準確率高,能夠高質(zhì)量完成多種文言文理解任務,目前已廣泛應用于學術(shù)科研、基礎教育、編輯出版等多個領(lǐng)域。”
近日,教育部、國家語委、中央網(wǎng)信辦共同印發(fā)《關(guān)于加強數(shù)字中文建設推進語言文字信息化發(fā)展的意見》。意見提出創(chuàng)新應用自然語言處理、大語言模型、多模態(tài)信息處理、知識圖譜、語料加工等5項前沿技術(shù)。
“我們要將數(shù)字中文建設作為全面推進語言文字信息化發(fā)展的突出重點,服務大語言模型等人工智能技術(shù)創(chuàng)新應用‘制高點’,夯實國家關(guān)鍵語料基礎設施‘新基建’,全方位釋放語言文字在經(jīng)濟社會發(fā)展中的數(shù)據(jù)要素價值。”劉培俊說。(人民日報記者 丁雅誦)中華經(jīng)典資源庫、古漢語大語言模型等成果涌現(xiàn) 生僻字更易輸入
來源:人民日報2025-04-10 10:17
中華經(jīng)典資源庫、古漢語大語言模型等成果涌現(xiàn)
生僻字更易輸入 文言文更快釋讀
“頔”寓意美好、“燊”表示熾盛、“鋆”意為金子……古籍里的這些生僻字,曾因無法輸入電腦,給文化傳承、學術(shù)研究,乃至人們?nèi)粘I顜聿槐?。?shù)字時代,如何讓漢語言文字更完整地活躍在“云”端?
日前,教育部圍繞推進語言文字信息化發(fā)展舉辦新聞發(fā)布會。“從‘鉛與火’到‘光與電’,中文信息處理技術(shù)不斷創(chuàng)新發(fā)展。”北京大學王選研究所所長湯幟介紹,北京大學作為國家語委中文文字字體設計與研究中心的依托單位,設計開發(fā)國家重大基礎性規(guī)范《通用規(guī)范漢字表》的配套字庫,研制人口信息生僻字超大字庫解決方案,在第二代居民身份證、護照上應用,協(xié)助解決銀行、稅務等社會應用系統(tǒng)的人名、地名缺字問題。
語言文字信息化是經(jīng)濟社會信息化的重要組成部分,是數(shù)字中國建設的基礎性工作。記者了解到,近年來,教育部聯(lián)合有關(guān)部門發(fā)布了國家通用語言文字和民族語言文字信息化規(guī)范標準100多項,推動建成國家語委媒體語言語料庫、冬奧會多語言術(shù)語庫等,上線國家語言資源服務平臺、中國語言文字數(shù)字博物館等,持續(xù)推動語言文化資源共建共享。
隨著智慧化學習的廣泛開展,語言文化優(yōu)質(zhì)資源惠及更多人。教育部語言文字信息管理司司長劉培俊介紹,為推進語教融合,教育部打造“中華經(jīng)典資源庫”,總瀏覽量超6000萬;打造“中小學語文示范誦讀庫”,惠及全國約1.6億中小學生和上千萬教師及社會大眾;上線中國語言文字數(shù)字博物館,收納海量資源,構(gòu)建全民學習新課堂。
此外,數(shù)智賦能也讓國家通用語言文字推廣普及效率不斷提升。目前,普通話測試方式已實現(xiàn)從人工到智能的轉(zhuǎn)變,機輔測試已服務超過9200萬人次。廣東省教育廳副廳長朱建華介紹:“我們支持研發(fā)普通話水平智能測試艙、聲紋分析系統(tǒng)等,打造了全國首個以智能化為核心的普通話水平測試智慧考場,能夠做到‘隨到隨考’。”
語言文字信息化讓古籍里的文字展現(xiàn)出新的活力。打開“AI太炎”古漢語大語言模型,輸入待分析的古籍文本,系統(tǒng)便能根據(jù)用戶選擇進行釋讀,包括字詞釋義、文白翻譯、句讀標點、用典分析等。北京師范大學黨委常委、副校長康震介紹,“‘AI太炎’依靠自主可控、安全可信的技術(shù)路線,理解力強、準確率高,能夠高質(zhì)量完成多種文言文理解任務,目前已廣泛應用于學術(shù)科研、基礎教育、編輯出版等多個領(lǐng)域。”
近日,教育部、國家語委、中央網(wǎng)信辦共同印發(fā)《關(guān)于加強數(shù)字中文建設推進語言文字信息化發(fā)展的意見》。意見提出創(chuàng)新應用自然語言處理、大語言模型、多模態(tài)信息處理、知識圖譜、語料加工等5項前沿技術(shù)。
“我們要將數(shù)字中文建設作為全面推進語言文字信息化發(fā)展的突出重點,服務大語言模型等人工智能技術(shù)創(chuàng)新應用‘制高點’,夯實國家關(guān)鍵語料基礎設施‘新基建’,全方位釋放語言文字在經(jīng)濟社會發(fā)展中的數(shù)據(jù)要素價值。”劉培俊說。(人民日報記者 丁雅誦)
免責聲明:凡本網(wǎng)注明“來源:XXX(非駐馬店廣視網(wǎng)、駐馬店融媒、駐馬店網(wǎng)絡問政、掌上駐馬店、駐馬店頭條、駐馬店廣播電視臺)”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責,作品版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。凡是本網(wǎng)原創(chuàng)的作品,拒絕任何不保留版權(quán)的轉(zhuǎn)載,如需轉(zhuǎn)載請標注來源并添加本文鏈接:http://www.s-designstudio.com/showinfo-33-351017-0.html,否則承擔相應法律后果。