2010年8月20日 星期五

文字編碼為內容資訊處理的基礎

資訊處理的基礎則是建立文字編碼(數位化),例如台灣的Big-5碼、日本的JIS1-4碼、中國大陸的GB碼、歐美的ASCII,各地區的編碼的制定,純粹考量滿足當時及當地的需求,隨著資訊的國際交流愈見頻繁的需求,後來各地區參與制定的Unicode碼(或稱萬國碼),然而數位化要貼近真實的生活或文化仍有不足的地方,尤其在亞洲的為數眾多的方塊文字(一個文字代表一個語意),同一個語意的文字在亞洲便有不同的書寫方式(歷史發展的相互影響),甚至是同一地區也都有正體字、異體字(俗體字,註1)的分別。

最近公佈的Unicode 3.0版本,已經將台灣、大陸、日本和南韓所使用之漢字整理整合成獨立的中日韓認同表意文字區(CJK Unified Ideographs),並予以編碼,使得亞洲幾個主要使用漢字的國家,得以有圓滿的解決方案。中國大陸於1995年底將其GB碼擴充為GBK碼,包括了Unicode的全部字集,做為將來使用Unicode的中間跳板。而台灣地處在東西文化資訊交流的樞紐,有必要瞭解東西方文字在文字編碼的原理及雷同差異之處。

●英文ASCII碼:
西方語系的字母加上其它符號,一套英文字有256個字元空間,除了可視的字元224個外,其餘32個空間及被規劃為控制符號(例:page Up, page Down, Insert, Delete, Esc, Tab)不能作為字形。

●繁體中文BIG-5碼
中文BIG-5碼:中文的字碼以BIG-5碼定義出常用字13051字,排碼原則為——筆畫數由小到大排列,相同筆畫則以部首為序的方式來編中文碼。由於BIG-5碼已不符所需,因此有BIG-5+和BIG-5E等擴充碼設計,而於1986年經中央標準局審定的國家標準中文交換碼CNS11643已定義48,027字的字碼,稱為中文標準交換碼 (Chinese Standard Interchange Code),對照國外的ISO10646及UNICODE目前共收編26,783個漢字,其中22,892字係納入CNS11643第1、2字面及第3字面之6,073字、第4字面之2,975字、第5字面之395字、第6字面之196字、第7字面之133字及第15字面之86字。未來ISO10646及UNICODE發展成熟後,現用中文碼亦得以順利轉換。
目前國內兩大家造字廠商(文鼎、華康)造字量大都符合第1、2字面的常用字量,而外字(一般為第3到第7字面)則是俗體寫法或是罕用字,由於不在BIG-5碼定義內,因此兩家造字廠商各自定義出自己的字碼(舉例說明),在做文字轉換時不可不查。(參見附錄/外字字碼表)

台灣地區所使用的BIG5碼主要版本
版本 說明
BIG5-1984 最早由資策會所定的版本
BIG5-ETen 倚天版本
CP950 微軟所使用的版本
BIG5-2003 2003年由財團法人中文數位化技術推廣基金會接受經濟部標準檢驗局委託,召集國內業者代表、專家和學者,就BIG-5編碼字元表原始版本和各主要業界版本予以重整之最新版本。
BIG5-IBM IBM所使用的版本。

●Unicode碼

台灣地區所使用的Unicode碼版本
目前華康金蝶150(PC版)內有三套字符合需求、華康OpenType100每套均符合需求,且字型都造滿14,650個字。文鼎的UniFonts2002(PC版)之OFFICE應用版採用ISO 10646國際編碼標準(Unicode編碼),其中2套為Unicode 3.0字型,內含27484個漢字及歐美多國字型。

中國地區所使用的Unicode碼版本
中國政府信標委認證合格GB18030編碼的華康中文字型,獨家符合大陸最新國家標準。
亞洲地區的Unicode碼版本使用
如果文件裡含有中日韓認同表意文字與歐文等內容,最好使用Unicode 3.0的字形。根據目前筆者的瞭解,只有華康字形在台灣與日本兩地的漢字設計是一致的,只是字形名稱不同。


註1:所謂「異體字」,是指在一個標準字體(正體字)標準下,與此正體字的音、義相同而形體有異的字。字的形體通常因約定俗成而用異體字,在習慣的稱為:某字的「或體」、「俗體」、「古文」等。歷來對它的稱呼很多,除異體字外 ,還有俗字、訛字、雜體、別體等,其中最能具體表現其文字特性的,應該就是「異體字」。

2010年8月19日 星期四

Quark v.s InDesign 的整理與比較

●從建立新文件開始
新文件的設定,從頁面尺寸(寬度、高度)、文字走向、裝釘、對頁設定、主頁文字框、分欄數、欄間距,體貼一點的還包括頁數設定。
○Quark的新文件
○InDesign的新文件

柵格線設定
InDesign2.0在頁面設定中,增加了【佈局柵格對話框】以區分一般頁面設定的【邊空和分欄】的不同,這對亞洲語系的方塊字而言,對於文字的精密控制是一大進步。一般的中文排版皆以每行的字數來決定欄寬,但由於產生新文件的設定先於內文字元定義,因此就容易發生以字元去遷就欄寬的情形。這種做法,對於文字字間要求甚高的人是不能接受的。

在InDesign中若以選【佈局柵格對話框】來設定文字柵格,便解決上述的困擾了,在新建佈局柵格中,有以文字為基礎的各項設定,包含了文字走向、字型、大小、垂直與水平變化、字距、行距,在行和欄的設定仍是以文字為單位,每行字數、佔多少行、幾欄、間距多少一項不少,在版心與頁邊的設定上起始點也有選項可供設定。
○佈局柵格對話框
在【佈局柵格對話框】所設定的版心數值,使用者應把他視為版面構思中最初的稿紙預設(柵格框為淺綠色),並不代表就可依此版心排入文字。如果使用者在新文件設定中勾選主頁文本框架(文本框為淺灰色),就等於設定自動文字框的功能,當然也能排入文字。

邊界分欄設定
與一般排版文件沒有不同,但是如果以邊界分欄的設定,可否也像柵格設定中幫文字框打格子呢?使用者可以利用【顯示】下的【顯示佈局柵格】來檢視文字欄框的設定有無符合每行的字數。

.在【佈局】下的設定佈局柵格和邊空與分欄都可以針對上述的數值設定作修改。
.柵格線為淺綠色,是提供Layout用不能排字。文本框為淺灰色,是可以在框架內排字。
.Quark的文件邊界分欄修正,在主頁模式中頁面的主頁參考線作數值修改。


●建立主頁
主頁的設定讓版面的變化更顯豐富,也都能在現有的主頁基礎上,產生新主頁或複製主頁修改等功能。InDesign在主頁的功能上,可針對對頁主頁上的單一頁作獨立的設定,這點是Quark主頁所辦不到的。

.主頁的修改是利用【佈局】下的設定佈局柵格和邊空與分欄作數值修改。
·想在頁面中改變主頁所設定的物件,按Cmmd+shift由游標點選該物件即可解除鎖定的狀態。
.單頁起頭還是雙頁開始,InDesign最初的設定一定從單頁起頭(應該是符合裝釘台的設定),如果要改變從雙頁開始,要利用頁面旁的延伸選單允許頁拖動的勾選取消即可。

●參考線的選項設定
除了可供對位的柵格線外,InDesign還提供了文件柵格(格點)、參考線、文字基線四種對齊方式,Quark則提供參考線、文字基線二種對齊方式。
InDesign的製作參考線,能讓使用者以直式和橫式的方式劃分版面,還包含參考線的欄距及應用在頁面及版心的選項。

●文字框與柵格框
文本框的設定與Quark中文字框修改的框和文字大致相似,Quark在於對文字框的內距只能作單一數值,InDesign則提供文本框四邊的邊空值。柵格框除了延續柵格線的概念,更增加了對齊設定的方式,有行對齊、柵格對齊、字元對齊三項設定。
.文本框柵格可以透過文本框選項修改,文本框卻不能被柵格框修改,只能先透過文框類型轉換才能被修改。
.文本框可作四邊的邊空值設定,但柵格框不行,但是以文本框設定邊界後再透過文框類型轉換成柵格框,也可在柵格框留空四邊的文字內距。

●柵格框樣式
這是InChinese所沒有的功能。如同文字、段落樣式,InDesign提供也提供柵格的樣式管理。
.柵格樣式內的文字設定是強制性的,也就是不管之前的文字,是拷貝自SimpleText或是來自其他段式,柵格框內的文字會依所定義的文字屬性強制修正,這對以一個文字流,要容納多樣的段落格式時,使用柵格未必是一個好的排版方式。相反的如果版面上有多塊不同樣式的文字(框),預先使用柵格框樣式定義多種樣式,在使用上也比先產生文字框再做段落樣式選擇,來的更有效率。

●縱中橫
在Quark中有直排轉橫排的功能,而在InDesign2.0中這項功能,更可以設定轉縱中橫的字數、上下的移位,還可以把這項功能當作是段落樣式來設定(2.0J有此一功能)。自動縱中橫可以預先設定段落中遇到數字(或英文)的位元數自動轉縱中橫。

●旁注
這個在Quark中以注音為名的功能,就是旁注功能。跟Quark不一樣的是,InDesign2.0還提供旁注位置、間隔設定、旁注長度調整等項。一般排版軟體只允許在文字的上方/右方加旁注,InDesign可讓你選擇下方/左方加旁注。

●著重號
這個與旁注相當類似的功能,差別的是它只能針對固定(一個)的字元或符號,重複的出現在文字旁,標示著重點或是書名號。

●割注(折題)
●文字組微調設定
●工作平台、預覽平台

電腦字形的基本知識

點陣字型(Bitmap Font) 
所謂點陣字型,指的是電腦傳送一個位元(bit)的電子資料到螢幕上的某些點(或稱pixels),然後開關這些像素使之變白或黑,所創造出來的字型。中文通常是方塊矩陣(1616或2424),矩陣內由點所構成,放大時可清楚看到構成字形的點,因此文字的外型呈現鋸齒狀。過去電腦的處理速度還不是很快時,電腦的螢幕字形多半是點陣字型。
外框字型(Outline Font) 
外框字形則是透過數學向量的描述所構成,不會因為尺寸縮放而改變字形的外觀。由於是以程式描述的記錄方式,無須太大的記憶容量。目前電腦的處理速度普遍都已升級加速,新一代電腦所使用的字形(螢幕顯示、列印)是以向量字型技術為基礎而發展出不同規則的字型。

TureType
TureType字形格式是Apple及Microsoft所共同制定但分別開發的字形規格,它是利用三個控制點來描述一段曲線,與PostScript字型的差別是Truetype字型解析度較差,但其規格開放,可由廠商字形開發,因此價格較便宜,使用者較多。列印速度較慢,大多運用在點陣式(噴墨式)印表機上。目前在Windows作業系統上都是使用TureType字形。

數位化圖像品質的迷思

隨著數位化的腳步加快,DTP的圖像來源也愈見多樣性,手繪插圖也演變成數位板插圖,傳統的攝影專業的沖印演變為今日的數位攝影;掃描器的價格也降到較能為一般人所接受的行情;但是這些產品所產生的數位圖像能作為DTP的數位原稿嗎?誰來控制數位圖像的品質?重點不在這些設備能產生多「高」的畫素,或多「快」的處理速度,而是該如何利用這些工具來達到「好」或是「更好」的品質,才能符合DTP的「專業」的需求。

數位圖像檔案類型
1.向量插圖(vector)
運用PostScript來描述Illustrator或FreeHand所創作的物件,透過三個以上「錨點」的邊線所構成的物件,我們稱為路徑(Path)。PostScript語言描述每個路徑的位置、大小的資料,並有路徑的資料,可改變的堆疊次序等。由於它是利用數學方法運算,因此完成的插圖可以任意放大縮小而且不受解析度的限制,特色是它佔的容量很小。

2.點陣影像(bitmap)
一般圖素影像獲得多半是利用掃描機和數位相機,因此掃描(輸入)決定圖像的品質。最初應先決定圖像使用的目的,再配合輸出解析度及輸出機的特性來讀取圖像,這樣才能得到高品質圖像的竅門。多半的印刷原稿即是利用專業的掃描分色作成點陣影像的數位圖像。

數位圖像原稿
1.正片
傳統DTP最理想的原稿,一般常見的正片規格有135、120、45三種,由於能夠直接看到真實色彩的底片,有飽滿的濃度域看起來最漂亮。如果應用於A4大小的版面時,最好使用120、45底片,才能得到豐富細膩的圖像品質。正確的正向原片,底片的藥膜面是朝下(複製過的底片則是藥膜面朝上)。正片的透射稿運用時必須標示圖片的方向位置(標示『正』向或『↑』上方)。

2.負片
由於負片上有一層橘色的掩色層(Mask)且隨著不同廠牌、型號、感光度(ISO)而有所不同,因此在分色掃描的判斷上較花時間,且不易辨識出正確圖像的分色品質,通常是沖洗出相片後再做為圖像原稿。

3.相片
相片是經過底片複製的結果,因此很難保持品管的標準與穩定,尤其是數位沖印店;而目前經由噴墨相片印表機所印出來的照片,也許肉眼無法辨識由亂數顆粒的噴墨點構成的圖像,但經過專業分色滾筒掃描後則鉅細靡遺,實在無法作為圖像原稿。通常相片掃描後都需要做影像校正。

4.手繪圖稿
手繪圖稿目前多見於表現手繪筆觸質感的插圖,手繪原稿的染料如有特別鮮豔色彩時,掃描時無法避免色彩會有失真的情形發生。手繪圖原稿通常被要求於版面的1.5到2倍的比例繪製,全張圖稿大於A3尺寸時盡量利用正片翻拍成為正片原稿。

5.黑白線條的繪圖稿
常見於建築結構、工程配置圖中多以黑白線條呈現且沒有任何階調層次的原稿,這類的原稿會以線條圖稿中最精密的部份決定最高的解析度掃描(600到1200dpi),儲存圖檔格式為1 bit單色線稿圖(Line Art)檔案。

6.印刷稿
印刷稿是不適合作為掃描原稿,一旦無法避免以印刷稿作為第二原稿時,應作「去網點」設定掃描,然後透過螢幕一比一顯示狀態下看不到網點,即可避免因再次RIP(網點生成處理器)後產生網花的情形。印刷稿中遇到有文字、線條的部份,則可以黑白線條的繪圖稿的方式處理。

上面介紹的圖像原稿多半與色彩管理無關,因為圖像的原稿本身即是色彩判斷的依據(例如:透過標準色溫的看片箱預檢正片的色彩),而數位檔案本身即附有色彩描述檔和檔案壓縮處理的格式,因此在接受數位檔案時,應該謹慎地瞭解數位檔案轉換過程中的差異性。

7.數位相機檔案
數位相機由於普及化程度高,作為圖像原稿的比例愈來愈高,但也是其中應注意的是數位檔案的像素矩陣(長邊像素寬邊像素)與使用版面的大小是否符合。數位相機的檔案儲存格式最好為CCD最初生成的原始圖像RAW(Camera Raw)格式(JPEG格式雖能儲存更多的圖像,但圖檔會經過JPEG破壞性的壓縮),數位相機如有色彩管理的參數設定,請設為「Adobe RGB」(目前所知能提供較大色域空間轉換)。

8.自來數位檔案
圖像數位化的普及,檔案的交流也顯得平常了,對於來源圖像的取得為何?是數位相機檔?是低階的平台掃描圖像?還是第二數位檔案(經修改的圖檔非原始檔)?檔案的格式為何?取得圖檔的通道為何?還有圖檔的色彩模式、解析度、色彩描述等是否符合製作的需求,組頁排版前都需要一一釐清。

數位檔案的交接
傳統圖像原稿的保存都要稿面清潔、平整,稿件內容的損傷、刮痕、灰塵都會影響掃描的品質,因此原稿(尤其是正片)都必須使用透明保護袋(夾)內,盡量避免折損。數位檔案的圖像原稿則多了儲存的媒體、光碟格式(ISO9660)的相容、檔案加附屬檔名的習慣,還有許許多多的數位資訊或是檔案格式的使用確認。
另外,由於出版是一場接力的馬拉松賽跑,在交接企劃編輯的委託與交付印前掃描分色的說明等都必須建立一套交接原則,在圖像原稿的分類上,我們的經驗是將插圖、反射稿以「P」為字首;正片、自來影像以「S」為字首;線性稿以「L」為字首;而後2-3碼緊接頁次或是篇號的編碼,最末4-5碼為該頁(篇)的順序碼。如此在哪頁的第幾圖?圖檔來源一目了然。建立起上中下的共識,才能節省時間、增進效率、減低錯誤。圖碼編訂完全視運用情形調整,但應避免使用英文的I、J、O、Q字母為編碼,容易與數字1、0混淆。
圖稿簡易圖碼編例:
S2402 第24頁02圖,幻燈片
S2403e 第24頁03圖,幻燈片低圖須分色
P1211 第12頁11圖,插圖
L0201 第02頁01圖,單色線條稿