2010年8月20日 星期五

文字編碼為內容資訊處理的基礎

資訊處理的基礎則是建立文字編碼(數位化),例如台灣的Big-5碼、日本的JIS1-4碼、中國大陸的GB碼、歐美的ASCII,各地區的編碼的制定,純粹考量滿足當時及當地的需求,隨著資訊的國際交流愈見頻繁的需求,後來各地區參與制定的Unicode碼(或稱萬國碼),然而數位化要貼近真實的生活或文化仍有不足的地方,尤其在亞洲的為數眾多的方塊文字(一個文字代表一個語意),同一個語意的文字在亞洲便有不同的書寫方式(歷史發展的相互影響),甚至是同一地區也都有正體字、異體字(俗體字,註1)的分別。

最近公佈的Unicode 3.0版本,已經將台灣、大陸、日本和南韓所使用之漢字整理整合成獨立的中日韓認同表意文字區(CJK Unified Ideographs),並予以編碼,使得亞洲幾個主要使用漢字的國家,得以有圓滿的解決方案。中國大陸於1995年底將其GB碼擴充為GBK碼,包括了Unicode的全部字集,做為將來使用Unicode的中間跳板。而台灣地處在東西文化資訊交流的樞紐,有必要瞭解東西方文字在文字編碼的原理及雷同差異之處。

●英文ASCII碼:
西方語系的字母加上其它符號,一套英文字有256個字元空間,除了可視的字元224個外,其餘32個空間及被規劃為控制符號(例:page Up, page Down, Insert, Delete, Esc, Tab)不能作為字形。

●繁體中文BIG-5碼
中文BIG-5碼:中文的字碼以BIG-5碼定義出常用字13051字,排碼原則為——筆畫數由小到大排列,相同筆畫則以部首為序的方式來編中文碼。由於BIG-5碼已不符所需,因此有BIG-5+和BIG-5E等擴充碼設計,而於1986年經中央標準局審定的國家標準中文交換碼CNS11643已定義48,027字的字碼,稱為中文標準交換碼 (Chinese Standard Interchange Code),對照國外的ISO10646及UNICODE目前共收編26,783個漢字,其中22,892字係納入CNS11643第1、2字面及第3字面之6,073字、第4字面之2,975字、第5字面之395字、第6字面之196字、第7字面之133字及第15字面之86字。未來ISO10646及UNICODE發展成熟後,現用中文碼亦得以順利轉換。
目前國內兩大家造字廠商(文鼎、華康)造字量大都符合第1、2字面的常用字量,而外字(一般為第3到第7字面)則是俗體寫法或是罕用字,由於不在BIG-5碼定義內,因此兩家造字廠商各自定義出自己的字碼(舉例說明),在做文字轉換時不可不查。(參見附錄/外字字碼表)

台灣地區所使用的BIG5碼主要版本
版本 說明
BIG5-1984 最早由資策會所定的版本
BIG5-ETen 倚天版本
CP950 微軟所使用的版本
BIG5-2003 2003年由財團法人中文數位化技術推廣基金會接受經濟部標準檢驗局委託,召集國內業者代表、專家和學者,就BIG-5編碼字元表原始版本和各主要業界版本予以重整之最新版本。
BIG5-IBM IBM所使用的版本。

●Unicode碼

台灣地區所使用的Unicode碼版本
目前華康金蝶150(PC版)內有三套字符合需求、華康OpenType100每套均符合需求,且字型都造滿14,650個字。文鼎的UniFonts2002(PC版)之OFFICE應用版採用ISO 10646國際編碼標準(Unicode編碼),其中2套為Unicode 3.0字型,內含27484個漢字及歐美多國字型。

中國地區所使用的Unicode碼版本
中國政府信標委認證合格GB18030編碼的華康中文字型,獨家符合大陸最新國家標準。
亞洲地區的Unicode碼版本使用
如果文件裡含有中日韓認同表意文字與歐文等內容,最好使用Unicode 3.0的字形。根據目前筆者的瞭解,只有華康字形在台灣與日本兩地的漢字設計是一致的,只是字形名稱不同。


註1:所謂「異體字」,是指在一個標準字體(正體字)標準下,與此正體字的音、義相同而形體有異的字。字的形體通常因約定俗成而用異體字,在習慣的稱為:某字的「或體」、「俗體」、「古文」等。歷來對它的稱呼很多,除異體字外 ,還有俗字、訛字、雜體、別體等,其中最能具體表現其文字特性的,應該就是「異體字」。

沒有留言:

張貼留言