在數位化中國歷史文獻的過程中,由於電腦系統內,中文字編碼空間有限,時常會遇到不在既有編碼中的文字,這就是所謂的缺字問題。數位典藏技術發展組(DAAL)以漢字構形資料庫為基礎,構字式為主軸,發展了在網路上解決中文缺字問題的技術,此技術稱為未編碼中文字處理技術,俗稱缺字處理技術。

缺字處理技術發展至今,在網路應用上提供了一些服務,包括

  • 1.漢字檢索的網站:讓使用者可以在網頁上查詢漢字以及漢字的構字式

    缺字系統:缺字查詢功能

  • 2.提供字型圖片製作的功能,能將字型圖片下載回電腦使用。

線上呈現字形圖片API;是一個讓網頁上呈現缺字的Java Script程式,網頁載入處理的程式後,當使用者開啟網頁時,處理的程式會轉換頁面中的構字式成為適當大小的字形圖片,呈現在網頁的對應位置。如果漢字構形資料庫中尚未儲存對應的文字,我們的程式則會利用動態組字的方式來產生字形圖片。這項機制可以跨平台使用,以便利使用者存取及瀏覽含有缺字的頁面,而不需要額外在電腦中安裝字形檔。

缺字系統:正規化API功能,利用動態組字產生字形圖片。

利用缺字處理技術的中研院「漢籍電子文獻資料庫」

目前行政院主計處採用的全字庫(CNS 11643),是一個字碼的交換平台,在中文字編碼不足的處理上,提供使用者自行造字上傳,在透過CNS 11643來做交換。相較於全字庫的使用方式,我們在缺字問題的處理上,透過中研院資訊所文獻處理實驗室來針對中文字做分析與造字,對中文字的字形結構解析,將漢字拆解成基本部件,並利用構字式來表達漢字。另外也擁有古漢字中不同字集的字形可使用。

在網頁呈現缺字的方式跟全字庫比起來也較為方便,全字庫雖然有提供字型即時顯示的方式,不過在編輯網頁內容時,必須先找出該字在CNS 11643上的編碼,才能使用;而我們提供的方式是讓使用者在著錄資料時,缺字的部份採用構字式來輸入,而網頁再利用我們提供的JavaScript API即可自動將構字式轉換成字形圖片。

目前這項技術已經使用在許多系統上,如:中研院漢籍電子文獻、傅斯年典藏系統、拓片典藏系統、考古典藏系統、漢代簡牘系統、中研院史語所藏內閣大庫系統、殷周青銅器地理資訊系統、上博簡(一)~(六)電子文字篇…等。

利用缺字處理技術的「上博簡(一)~(六)電子文字篇」

結合缺字處理技術的電子賀卡系統

此外缺字技術也和近年來熱門的電子賀卡做了進一步的結合,提供使用者在線上進行賀卡的製作。我們特地配合這次數位典藏語言特展的機會,讓這套電子賀卡系統正式和大家見面,透過簡單的編輯程序,便能夠快速的製作出一張獨特且精美的賀卡,在製作完成後,使用者也能夠選擇將賀卡列印輸入或是直接將電子賀卡寄給對方。未來我們除了不斷持續改良缺字技術外,也會努力的將缺字技術轉化成更多樣、更普遍的的應用方式。 立即體驗電子賀卡製作!!!

缺字系統網址: http://char.iis.sinica.edu.tw