(Chinese BIG5 text) BGconv 1.0.34 簡繁轉換工具 軟體名稱:BGconv 簡繁轉換工具 ∥版本:1.0.34 ∥分類:補綴工具 ∥環境:win98/2K/XP 簡體中文/繁體中文 ∥性質:免費軟體 ∥首頁: http://cpatch.org/glossary/ 程式:陳寬達 (Kuan-Ta Chen) ∥mailto:xshadow@cpatch.org ∥網頁: http://kuan.ilife.cx/ 字集對照表格: 黃國書 (Kii Ali) 詞彙轉譯表格: 黃國書 (Kii Ali) ∥mailto:kiiali@cpatch.org ∥ICQ:5107476 ∥網頁: http://cpatch.org/kiiali/ ■v34 修改範圍 1.字碼對照表: (未完成) + 字碼表轉換範圍加大,納入造字範圍 (中國海) 和 GBK extension。 BIG5 (原): A140 - F97E , A1A1 - F9FE BIG5 (現): 8240 - FE7E , 82A0 - FEFE GB2312 (原): A1A1 - F7FE GB2312 (現): 8240 - FE7E , 82A0 - FEFE (與 BIG5 一致) 2.詞彙對照表: (未完成) + 一個簡體字對多個繁體字的判別。出於 Kii Ali 的報告。 加入 4152 個對照組。 如「重複」「回覆」「復興」「複製」。 「重复」「回覆」「复興」「复制」。 3.支援多個轉碼表 (已完成) 可隨時選擇要替換專有名詞,還是只替換特定用語,包括 term_acronym.tab" 大陸慣用字頭縮寫詞彙 term_b2g_only.tab" 只用於 BIG5 -> GB2312 轉換 term_computer.tab" 電腦詞彙校正 term_fontid.tab" 轉換字型專用 term_g2b_only.tab" 只用於 GB2312->BIG5 轉換 term_gb2312_zhu.tab" 校正「著」字,在簡體裡面有兩個用法校正 term_langid.tab" 語言 RC 的轉碼對應校正 term_living.tab" 大陸生活用法校正 term_phrase.tab" 大陸文法用詞校正 term_placename.tab" 地名人名翻譯用語校正 term_singleword.tab" 單一字校正 4.設定值改為 BGconv.ini 檔案方式,不再使用註冊表項目。 完全的可攜性。 ■BGconv 軟體描述 這是 Kii Ali 麻煩陳寬達做的程式。用來轉換 GB2312 <-> BIG5 的字碼,並同時轉換常用的詞彙,因為兩岸的電腦辭彙不 相同,實在是個大問題。我都是拿來做為簡體中文化的工具。 用途 1: 把繁體 RC, TXT, HTM 等等檔案,轉換成簡體。 用途 2: 包含兩岸詞匯校正。 用途 3: 包含 [逆向] 簡轉繁 功能。 用途 4: GB2312 <-> UTF 8 <-> BIG5 也可以啦。 當然,BGconv 不能代表全部的轉換,到此完美,卻可以省下不少力 氣。之前也有許多朋友跟我要,總算有個可見人的版本了。 ■聲明 程式內建的「字碼、詞彙對照表」為 Kii Ali 所提供,歡迎用於 非商業性中文化作品製作、或其他非營利、非商業性使用。格式為 純文字檔。 「字碼、詞彙對照表」部分將會是公益軟體,並由 Kii 不定期更新 。雖然它只是純文字檔案,除非 Kii 書面同意,不歡迎用於商業性 加值利用,亦不歡迎於「任何」商業營利型網站提供下載。使用者 應有此認知。 ■BGconv 特點 1.Win32 GUI/command line 皆可執行。方便您做批次轉換,或是做 GUI 方式轉換文字。請開啟 bgconv.doc 便可知道 commandline 的 參數用法。 2.可自行定義轉換辭彙。BGconv 會自動在第一次執行時 compile 詞庫。 您可以使用 UltraEdit 修改,或直接在 BGconv 內修改。也可以選 擇該文要不要轉換辭彙。 格式如下: (S: Source term D: Destination term) S 電腦 D 計算機 S 更名 D 重命名 S 新信 D 新郵件 S 版邊 D 頁邊距 3.可自行定義 BGconv 的 Big5, Gb2312 字碼對換表。 檔案: gb2bg.map GB2312 <-> BIG5 字碼對應表。 bg2gb.map GB2312 <-> BIG5 字碼對應表。 格式: (內碼後面的任何文字,皆為註解,系統不會處理) A1A1 A140 ﹛   A1A2 A142 ﹜ 、 A1A3 A143 ﹝ 。 A1A4 A145 ﹞ • A1A5 A1C2 ‘ ‾ A1A6 2020 ’ 4.顯示 即使在繁體中文 win98 底下,可直接用「細明體」「宋體」顯示 轉換結果。 5.換行處理 5.1 按照原始格式:維持文章原有縮排。若啟用辭彙替換機 制,可能使每行文字長度有所變動。 5.2 不換行:完全不換行,視為同一段落,適合貼入具備換 行功能或排版功能的軟體,如 UltraEdit 或 Word。 5.3 程式自動換行:放棄文章原有縮排,填入每行文字長度, 由程式自動為您換行。 ■一些質疑 有人會說:Word 2000 不是內建有簡繁轉換的功能嗎,轉碼又可 以轉詞。 是的,您可以拿 wordconv.txt 當範本給 Word2000 轉換看看。 一般電腦用語只有 40 分,多媒體 0 分,生活用語 20 分 。根 本不能信任。 ■詞彙說明 簡體中文化工具 - 繁簡詞彙轉換 在做英文軟體的簡體中文化時,通常,會先把英文軟體翻譯成繁 體中文,等到除錯完,再進一步做簡體中文的版本。如果是 *.rc 檔,流程將會如下 英文 rc 檔 => 繁體中文 rc 檔 => 調整對話方塊 => 簡體中文 rc 檔 雖然我們可以不做用詞的轉換,直接 big5 <-> GB2312 轉換 rc 檔就可以中文化了,雖可接受,但總不滿意。我們看到大陸的用 詞,「軟件」「光盤」「橫向平鋪窗口」或許不難懂,但「網關 」「句柄」「假脫機數據格式」「後台操作」很多人就要搞不懂 了。至於 「檔案(big5) = 文件(gb)」 「文件(big5) = 文檔(gb)」 「連結(big5) = 鏈接(gb)」 「連線(big5) = 連接(gb)」 這種兩岸都在用卻各自定義不同的詞彙,更叫人昏頭轉向。另外 ,臺灣的翻譯以動詞型態為多,如「選擇連線」,大陸則是「鏈 接選擇」,名詞型態並不少。 因此,找出和比對了 cwin98, pwin98 兩版所有程式的 resource (大概有六萬多行吧,絕對會比對到頭昏的) ,再找出 mfc 和 vb 所定義的標準話語,整理出對照表。希望能突破文化上翻譯的困境 ,讓大家對簡體中文化能儘快上手。 ■檔案下載 □原始檔案 (737KB) 香港中大 ftp://ftp.cuhk.edu.hk/pub/cpatch/patchutil/bgconv/bgconv1034.exe 臺灣大學 ftp://ftp.ntu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 中山大學 ftp://ftp.nsysu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 中央大學 ftp://ftp.ncu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 成功大學 ftp://ftp.ncku.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 交通大學 ftp://hw-driver.nctu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 中興大學 ftp://ftp.nchu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 暨南大學 ftp://ftp.ncnu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 臺灣科大 ftp://ftp.ntust.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 臺北科大 ftp://ftp.ntut.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 屏東科大 ftp://ftp.ntut.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 淡江大學 ftp://ftp.tku.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 輔仁大學 ftp://ftp.fju.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 元智大學 ftp://ftp.yzu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 義守大學 ftp://ftp.isu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 東海大學 ftp://ftp.thu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 靜宜大學 ftp://ftp.pu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 大葉大學 ftp://ftp.dyu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 中華大學 ftp://ftp.chu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 中原大學 ftp://ftp.cycu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 崑山科大 ftp://ftp.ksut.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 龍華科大 ftp://ftp.lhu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 新竹師院 ftp://ftp.nhctc.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 成大電機 ftp://ftp.ee.ncku.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 交大資科 ftp://ftp.cis.nctu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 逢甲紡織 ftp://ftp.te.fcu.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe 中縣教網 ftp://ftp.boe.tcc.edu.tw/cpatch/patchutil/bgconv/bgconv1034.exe ■安裝方式 NSIS 2.0a7 多語言安裝格式。 在中文化前,請詳閱 bgconv1034.txt 文件。 無須取得原英文版本,下載後直接安裝即可。預設安裝目錄為 "C:\UTIL\BGconv\" ■Kxx 的垃圾文章 ===================================================== 如果有人喜歡看,請參照底下 Kxx 的垃圾文章。 ===================================================== Date: Fri, 26 Oct 2001 22:14:16 +0800 To: "patch-author List Member" From: Kii Ali Subject: [patch-author] gb-b5 對照表「又再做一次」 {01} 我沒有開玩笑,但的確這次「又再做一次」。原理很簡單。 1.在 cwin98 底下,把所有 big5 的排列組合全部印出來。 ,也包含「中國海字集」。總共 16 頁。多少字就不用提了。 含造字的內碼範圍,包括 7E40-FE7E 7EA0-FEFE 2.在 pwin98 底下,把所有 GB2312 和所有 gbk 擴充字集 全部印出來,也是 16 頁。 含造字的內碼範圍,包括 7E40-FE7E (GBK 內碼範圍,裡面包含相當多對 BIG5 的相容字) 7EA1-7EFE (GB2312 範圍,和其他雜項) 然後,人工比對,真不是人幹的事情。 之前我曾經綜合了 evdict ,譯典通,大陸金山字典,他們 的轉換表多少都會有一些缺陷。尤其是在表格字元,和一些特別 在 GBK 裡面有提供字,但是一般對照表找不到的。 至於 evdict 和其他,多多少少對照表有問題,轉換還是照樣漏 字者一堆。我不敢說自己的對照表沒有缺陷,簡體轉繁體我不敢 擔保。但是繁體轉簡體,應該是都夠了。只要看到那一堆表格字, 雙線表格、單線表格、半單半雙表格、粗線表格,然後切來切去 轉來轉去,你會跟我一樣很有腦袋燒壞的顧慮。還好啦,只有 一萬出頭的字,也不會太難。(苦笑) GBK 的擴充字面非常龐大,幾乎包括所有的繁體字,我想暫時 不去動它了。喂,把那一堆做完會死人的。但感觸很深,大陸 訂的 GBK 碼延伸性的確夠高,比起早有缺陷又無法改進的 BIG5 ,如果你知道有些 pwin98 的字無法順利轉換為繁體字, 那真的會幹到沒力。雖然這種簡體字實在非常少出現。比如 河北省「禾蒿」城縣。這個「禾蒿」字非常難寫,「禾」是在 下面而「蒿」是在上面的。 unicode 呢?我沒有仔細看。不過的確如單教授的文章所提,多半 是削足適履的作法。把繁體和簡體的一些字,各削一些掉,然後 跟日文韓文擠在一起的後果。 =============================================================== 舊版本文件,以其值得參考,故列如下。 =============================================================== ■1.0.33 更版說明 1.程式: + 同時支援繁體簡體 win98/win2k 底下的作業。 + 變更圖示,與 Eudora plugins 一致。 + 字碼對照表可使用 ";" 為註解,或使用空白行。 + 詞彙對照表可使用 ";" 為註解,或使用空白行。 ! 解決 wordconv.txt 日期檢查,導致當機問題。 ! 解決 wordb2g.txt wordg2b.txt 大小不為零時,無法重新 再行編譯 termb2g.tab termg2b.tab ,導致當機問題。 ! 解決 wordb2g.txt wordg2b.txt 檔案不存在,無法執行問題。 ! 解決多餘的 button1 問題。 2.詞彙對照表: ! 更新和停用部分大陸地區俚俗詞語。 3.轉換優先順序: + 繁體(BIG5) : 先以轉 GB2312 為主,若找不到則找 GBK extension。 + 繁體(中國海造字) : 先以轉 GB2312 為主,若找不到則 找 GBK extension。 + 簡體(GB2312): 先以轉 BIG5 為主,找不到則找中國海 範圍,但盡量不使用。音標、重音節字母、俄文、希臘 文、日文、數字序號、特別符號,皆從中國海規格。 + 簡體(GBK extension): 其中的繁體字,先以轉 BIG5 為 主,找不到則找中國海範圍,但盡量不使用。出現雙線 表格則可在 BIG5 範圍找到。 4.字碼對照表: + BIG5 -> GB2312 使用部分 GBK 延伸字集,但尚未完 全支援,這需要時間。 + 雙線和單線表格字元集支援。加入 GBK extension 段落的表格字元。 + 開始支援中國海部分字元集,對應於 GBK extension 段落找到的部分。 ■ 1.0.32 改採用了陳寬達 BGconv 架構,所有的 mapping table 均可自訂。 ■ 1.31 1.31 版本:特別感謝 brucez 對 eudora 的簡體支援,因此才產生了 這個版本。 ■ 1.3 1.多媒體詞彙 弟剛到某視訊多媒體公司上任,取得了不少中國大陸多媒體的技術手冊。 強迫自己看完整本「英漢廣播電視常用縮語手冊」。再加上最近到深圳 一趟,執行簡體中文化的心得。 這就是硬逼著自己,幹完整本字典的結果。 另外,大陸北京與南方深圳等地的用語已有不同,南方多受香港影響,而 香港又受臺灣影響,因此在廣州深圳等地的電腦用語已有不同,如 digital ,北方稱「數字」,深圳和香港「數碼」,臺灣「數位」等等。 2.逆向 (簡->繁) 功能 重新提供。 注意:逆向轉換弟並沒有相當仔細的校閱,使用務請小心。 ■ 1.2 版更版說明 1.兩岸的文字轉換 常常在兩岸文字上轉換的朋友,大概會都碰到這個問題:BIG5 對 GB2312 並不是一對一轉換的。也因此繁體轉簡體通常沒有問題,而簡體轉回繁體 就問題多多。 原因很簡單,大陸在推行簡體字之後,很多字的意思被合併掉了,甚至兩 字合為一字。而這些字在臺灣還有原來的意義。比如說... 吊 弔 = 吊 e.g. (臺灣) 吊橋 弔唁 (大陸) 吊橋 吊唁 姦 奸 = 奸 e.g. (臺灣) 強姦 奸詐 (大陸) 強奸 奸詐 范 範 = 范 e.g. (臺灣) 范仲淹 規範 (大陸) 范仲淹 規范 註 注 = 注 e.g. (臺灣) 註冊 注意 (大陸) 注冊 注意 遊 游 = 游 e.g. (臺灣) 遊戲 游泳 (大陸) 游戲 游泳 乾 干 = 干 e.g. (臺灣) 乾燥 干涉 (大陸) 干燥 干涉 以上的字,在 GB2312 的編碼下看起來都相同 (字被合併了),但在 BIG5 編碼底下看起來,和臺灣民眾的實際用法上,卻是有所分別。有些簡化的 的確實際,有些讓臺灣民眾看起來「很不習慣」。 因此,我把這部分找出來了。怎麼找的?BIG5 字集 5401 個常用字 , 一個一個繁體簡體人工比對。大概還有遺漏吧,還請諸方家指正。 比對這個,實在不是人幹的工作。後面七千多個次常用字比對,歡迎 有人接力下去。 2.rehot.pro 如果您使用 cpatch 1.3 來做翻譯,會發現 cpatch 1.3 在翻譯完的句子上 hotkey 的位置不對。這個小程式就是來代換 hotkey 位置,和剔除部分常見 垃圾子句用的。 ■ 1.1 版更版說明 1.巨集代換詞庫,膨脹一倍。 原先都是電腦詞彙的代換為主。已經可以解決大部分問題,但沒有完整 生活用語的對照。因為我儘可能把找到的兩岸不同生活用語加進去,甚至 包括國名對照、俚俗語、名人譯名兩岸不同、政府單位、兩岸地名等。欲求 用字用詞上,能夠更符合對岸的習慣。 大部分的詞庫參考於此地: http://china.management.org.tw/usua_word/home.htm ■更版前的考慮事項 很少有軟體叫人不要更換版本的。 :) 偏偏這種 copyLEFT 的軟體,考慮比較多。 1.執行時間增加一倍 當然, RC 轉換的精確度也提高不少。本來如果你的中文化 rc 檔想做簡體, 大概從 80 分的水準,可以拉到 90 分吧。以 teleport 1.29 (949) 在 486 上的轉換,要 20 分鐘的時間。加上除錯,浪費的時間相當可觀。如果您急著 丟出中文化懶得除錯,那麼換詞也可以省了,用轉碼器轉過去,反正大陸同胞 也大部分看得懂,套上 vc 就是所謂「完美簡體中文化」了。 如果您像我一樣,追求用詞完美極致,那就換版吧。 2.完美簡體中文化?(純 murmur) 至於要 95 分?我想得到大陸住個幾年才成。馬英九或宋楚瑜講台語,大家都 聽得懂,只是講得「輪不輪轉」而已。簡體中文化的意味也是如此。就像用 客家話硬翻「土地公」而不用客家人習稱的「伯公」,恐怕也沒有幾個客家人 聽得下去,因為沒有人這樣用。 這個巨集,只不過儘可能試圖把「土地公」轉成「伯公」,讓大陸人容易接受罷了。 100 分完美中文化?啊,沒有這種東西啦。我的經驗是,凡是在作品上號稱 「完美中文化」的,通常下載之後,後悔居多。(笑) ■在中文化之前 兩岸的電腦用詞一直是個問題。這問題太大了。JQJQ 之前介紹弟使用兩岸簡繁通 ,號稱可以轉詞兼轉碼,雖然可以用,可惜詞彙對照表實在太少,在軟體的翻譯 上仍不免出現一堆問題,是以不用。這是文化上的問題,想要憑弟一己之力,讓 對岸的大陸朋友看弟中文化的軟體順眼,畢竟奢求。不是看不懂,卻總是怪怪的 ,難道沒有更好的方法嗎? 兩岸電腦詞彙對照表,有,在臺北重慶南路「政府出版品中心可以」找到,不過 實在有些陳腐而不實用。網路上也可以找,行政院陸委會有做一個,但以生活用 語為多,電腦用詞沒幾個。march 所服務的臺擎公司雖有,但總不好拿別人現成 的工具。 因此,我挖出了 cwin98, pwin98 的 shell33.dll 的 resource 檔,人工比對 出一堆名詞對照表,勉強可用,但總不滿意。後來,狠下心,把兩個版本 win98 所有的 *.exe, *.dll, *.drv, *.cpl 全挖出來,用 bc 把每一個檔案的 resource 打開,再用 chiwizard 做出對照檔。然後,開始比對吧。win98 大概有六七百 個符合的檔案,花掉多少時間,您可以試做一個比對檔來預估看看。 第一個 shell33.dll 的比對,由於沒經驗,三天。後來看習慣簡體用詞,比對 速度就快多了。 如果嫌不太夠,還可以各加上 中文繁體版簡體版的 office97 來比對。總之, 我看完了所有 win98 檔案和部分 office97 檔案的 resource,偶爾還得加上 ewin98 對照,唉,真變態,現在滿腦子都是繁簡 reource 在飛舞,作夢都要 夢到專有名詞。實在不是人幹的工作。 ■文化上的問題 這樣做出來的東西,有沒有比臺擎內部的工具好,我不敢說。在自己中文化的 所有場合而言,已經夠用,繁體中文化得再好,換成簡體中文化就只能有七八 十分,但現在要提到九十五分,已經沒有問題。弟有這樣的自信。 專有名詞的單純替換,簡單。如何在小小的巨集內,把大陸的翻譯語調,用詞 方式,思考習慣放進巨集 (雖然都是中文),取捨上並不容易。繁體轉簡體, 在用詞上是多對一轉換,沒有太大問題,簡體轉繁體時,由於大陸的用詞用語 也簡化了,反轉回繁體容易出現匹配不上的問題。這實在是文化上的問題,筆 者只能盡量依照自己的國文程度,在巨集上做改進。雖然在弟這裡測試已經沒 有問題,但不能保證,轉換後對照上下文會不會偏離或漏失原意? 所以,要提醒的是,簡體反轉回繁體時,一定要在 resource 上乖乖做除錯工 作。這個工具你可以給與百分之九十八的信任,剩下的百分之二,還是要靠 自己。 ■ 版權聲明 您可以免費使用,和任意修改它 (反正是文字檔,要改很簡單,只是我再也找不 出可供對照的兩岸電腦用語加進去了)。 如果你用了這個巨集覺得好用,很爽快,想要感謝,就多做出一些簡體中文化吧 。如您願意,在簡體作品說明的最後,提一下 Kxx 某人的巨集,這樣我就會很 暗爽了(笑)。 簡體中文化,對 patch-author 來說,再也不是遙不可及的事了。