(Chinese BIG5 text) BGconv 1.0.35 簡繁轉換工具 軟體名稱:BGconv 簡繁轉換工具 ∥版本:1.0.35 ∥分類:補綴工具 ∥環境:win98/2K/XP 簡體中文/繁體中文 ∥性質:免費軟體 ∥首頁: http://cpatch.org/glossary/ 程式:陳寬達 (Kuan-Ta Chen) ∥mailto:xshadow@cpatch.org ∥網頁: http://kuan.ilife.cx/ 字集對照表格: 黃國書 (Kii Ali) 詞彙轉譯表格: 黃國書 (Kii Ali) ∥mailto:kiiali@cpatch.org ∥ICQ:5107476 ∥網頁: http://cpatch.org/kiiali/ ■1.0.35 修改範圍 0. v1.0.35 主程式 EXE 會有轉換不完全的錯誤,因此改為使用 2002-05-07 的 EXE 版本。 1.詞彙對照表: + 一個簡體字對多個繁體字的判別。出於 Kii Ali 的報告。 加入 2275 個對照組。可以做底下的簡繁互換測試 繁體 簡體 豆乾 豆干 乾隆 乾隆 (注意這個 "乾" 在簡體仍然會 "乾") 乾燥 干燥 干預 干預 師範 師范 頭髮 頭發 發生 發生 順發 順發 盪鞦韆 蕩秋千 2.詞庫大幅擴張。目前如下。 縮寫字 term_acronym.tab 電腦 term_computer_b2g.tab 電腦 term_computer_both.tab 電腦 term_computer_g2b.tab 文件 term_document_both.tab 檔案 term_file_b2g.tab 檔案 term_file_both.tab 資料夾 term_folder_both.tab 字型id term_fontid_b2g.tab 字型id term_fontid_both.tab 語言id term_langid.tab 生活 term_living.tab 詞彙轉換 term_phrase.tab 地名 term_placename.tab 單字 term_singleword.tab 工作 term_task_both.tab 著迷 term_zhaomi_gb2312.tab ■1.0.36 預計修改範圍 1.字碼對照表: (未完成) + 字碼表轉換範圍加大,納入造字範圍 (中國海) 和 GBK extension。 BIG5 (原): A140 - F97E , A1A1 - F9FE BIG5 (現): 8240 - FE7E , 82A0 - FEFE GB2312 (原): A1A1 - F7FE GB2312 (現): 8240 - FE7E , 82A0 - FEFE (與 BIG5 一致) 2. 解決 v1.0.35「只做部分更換」的問題。 3.多個 Option, 針對 *.rc *.htm *.txt 或其他檔案, 4.可按滑鼠右鍵,直接轉換 B->G。 Eudora Plugins 的部分,增加 可轉換 UTF-8 編碼。 ■BGconv 軟體描述 這是 Kii Ali 麻煩陳寬達做的程式。用來轉換 GB2312 <-> BIG5 的字碼,並同時轉換常用的詞彙,因為兩岸的電腦辭彙不 相同,實在是個大問題。我都是拿來做為簡體中文化的工具。 用途 1: 把繁體 RC, TXT, HTM 等等檔案,轉換成簡體。 用途 2: 包含兩岸詞匯校正。 用途 3: 包含 [逆向] 簡轉繁 功能。 用途 4: GB2312 <-> UTF 8 <-> BIG5 也可以啦。 當然,BGconv 不能代表全部的轉換,到此完美,卻可以省下不少力 氣。之前也有許多朋友跟我要,總算有個可見人的版本了。 ■聲明 程式內建的「字碼、詞彙對照表」為 Kii Ali 所提供,歡迎用於 非商業性中文化作品製作、或其他非營利、非商業性使用。格式為 純文字檔。 「字碼、詞彙對照表」部分將會是公益軟體,並由 Kii 不定期更新 。雖然它只是純文字檔案,除非 Kii 書面同意,不歡迎用於商業性 加值利用,亦不歡迎於「任何」商業營利型網站提供下載。使用者 應有此認知。 ■BGconv 特點 1.Win32 GUI/command line 皆可執行。方便您做批次轉換,或是做 GUI 方式轉換文字。請開啟 bgconv.doc 便可知道 commandline 的 參數用法。 2.可自行定義轉換辭彙。BGconv 會自動在第一次執行時 compile 詞庫。 您可以使用 UltraEdit 修改,或直接在 BGconv 內修改。也可以選 擇該文要不要轉換辭彙。 格式如下: (S: Source term D: Destination term) S 電腦 D 計算機 S 更名 D 重命名 S 新信 D 新郵件 S 版邊 D 頁邊距 3.可自行定義 BGconv 的 Big5, Gb2312 字碼對換表。 檔案: gb2bg.map GB2312 <-> BIG5 字碼對應表。 bg2gb.map GB2312 <-> BIG5 字碼對應表。 格式: (內碼後面的任何文字,皆為註解,系統不會處理) A1A1 A140 ﹛   A1A2 A142 ﹜ 、 A1A3 A143 ﹝ 。 A1A4 A145 ﹞ • A1A5 A1C2 ‘ ‾ A1A6 2020 ’ 4.顯示 即使在繁體中文 win98 底下,可直接用「細明體」「宋體」顯示 轉換結果。 5.換行處理 5.1 按照原始格式:維持文章原有縮排。若啟用辭彙替換機 制,可能使每行文字長度有所變動。 5.2 不換行:完全不換行,視為同一段落,適合貼入具備換 行功能或排版功能的軟體,如 UltraEdit 或 Word。 5.3 程式自動換行:放棄文章原有縮排,填入每行文字長度, 由程式自動為您換行。 ■一些質疑 有人會說:Word 2000 不是內建有簡繁轉換的功能嗎,轉碼又可 以轉詞。 是的,您可以拿 wordconv.txt 當範本給 Word2000 轉換看看。 一般電腦用語只有 40 分,多媒體 0 分,生活用語 20 分 。根 本不能信任。 ■詞彙說明 簡體中文化工具 - 繁簡詞彙轉換 在做英文軟體的簡體中文化時,通常,會先把英文軟體翻譯成繁 體中文,等到除錯完,再進一步做簡體中文的版本。如果是 *.rc 檔,流程將會如下 英文 rc 檔 => 繁體中文 rc 檔 => 調整對話方塊 => 簡體中文 rc 檔 雖然我們可以不做用詞的轉換,直接 big5 <-> GB2312 轉換 rc 檔就可以中文化了,雖可接受,但總不滿意。我們看到大陸的用 詞,「軟件」「光盤」「橫向平鋪窗口」或許不難懂,但「網關 」「句柄」「假脫機數據格式」「後台操作」很多人就要搞不懂 了。至於 「檔案(big5) = 文件(gb)」 「文件(big5) = 文檔(gb)」 「連結(big5) = 鏈接(gb)」 「連線(big5) = 連接(gb)」 這種兩岸都在用卻各自定義不同的詞彙,更叫人昏頭轉向。另外 ,臺灣的翻譯以動詞型態為多,如「選擇連線」,大陸則是「鏈 接選擇」,名詞型態並不少。 因此,找出和比對了 cwin98, pwin98 兩版所有程式的 resource (大概有六萬多行吧,絕對會比對到頭昏的) ,再找出 mfc 和 vb 所定義的標準話語,整理出對照表。希望能突破文化上翻譯的困境 ,讓大家對簡體中文化能儘快上手。 ■檔案下載 □原始檔案 (737KB) 香港中大 ftp://ftp.cuhk.edu.hk/pub/cpatch/patchutil/bgconv/bgconv1035.exe 臺灣大學 ftp://ftp.ntu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 中山大學 ftp://ftp.nsysu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 中央大學 ftp://ftp.ncu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 成功大學 ftp://ftp.ncku.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 交通大學 ftp://hw-driver.nctu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 中興大學 ftp://ftp.nchu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 暨南大學 ftp://ftp.ncnu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 臺灣科大 ftp://ftp.ntust.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 臺北科大 ftp://ftp.ntut.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 屏東科大 ftp://ftp.ntut.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 淡江大學 ftp://ftp.tku.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 輔仁大學 ftp://ftp.fju.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 元智大學 ftp://ftp.yzu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 義守大學 ftp://ftp.isu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 東海大學 ftp://ftp.thu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 靜宜大學 ftp://ftp.pu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 大葉大學 ftp://ftp.dyu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 中華大學 ftp://ftp.chu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 中原大學 ftp://ftp.cycu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 崑山科大 ftp://ftp.ksut.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 龍華科大 ftp://ftp.lhu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 新竹師院 ftp://ftp.nhctc.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 成大電機 ftp://ftp.ee.ncku.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 交大資科 ftp://ftp.cis.nctu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 逢甲紡織 ftp://ftp.te.fcu.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe 中縣教網 ftp://ftp.boe.tcc.edu.tw/cpatch/patchutil/bgconv/bgconv1035.exe ■安裝方式 NSIS 2.0a7 多語言安裝格式。 在中文化前,請詳閱 bgconv1035.txt 文件。 無須取得原英文版本,下載後直接安裝即可。預設安裝目錄為 "C:\UTIL\BGconv\" ■Kxx 的垃圾文章 ===================================================== 如果有人喜歡看,請參照底下 Kxx 的垃圾文章。 ===================================================== Date: Fri, 26 Oct 2001 22:14:16 +0800 To: "patch-author List Member" From: Kii Ali Subject: [patch-author] gb-b5 對照表「又再做一次」 {01} 我沒有開玩笑,但的確這次「又再做一次」。原理很簡單。 1.在 cwin98 底下,把所有 big5 的排列組合全部印出來。 ,也包含「中國海字集」。總共 16 頁。多少字就不用提了。 含造字的內碼範圍,包括 7E40-FE7E 7EA0-FEFE 2.在 pwin98 底下,把所有 GB2312 和所有 gbk 擴充字集 全部印出來,也是 16 頁。 含造字的內碼範圍,包括 7E40-FE7E (GBK 內碼範圍,裡面包含相當多對 BIG5 的相容字) 7EA1-7EFE (GB2312 範圍,和其他雜項) 然後,人工比對,真不是人幹的事情。 之前我曾經綜合了 evdict ,譯典通,大陸金山字典,他們 的轉換表多少都會有一些缺陷。尤其是在表格字元,和一些特別 在 GBK 裡面有提供字,但是一般對照表找不到的。 至於 evdict 和其他,多多少少對照表有問題,轉換還是照樣漏 字者一堆。我不敢說自己的對照表沒有缺陷,簡體轉繁體我不敢 擔保。但是繁體轉簡體,應該是都夠了。只要看到那一堆表格字, 雙線表格、單線表格、半單半雙表格、粗線表格,然後切來切去 轉來轉去,你會跟我一樣很有腦袋燒壞的顧慮。還好啦,只有 一萬出頭的字,也不會太難。(苦笑) GBK 的擴充字面非常龐大,幾乎包括所有的繁體字,我想暫時 不去動它了。喂,把那一堆做完會死人的。但感觸很深,大陸 訂的 GBK 碼延伸性的確夠高,比起早有缺陷又無法改進的 BIG5 ,如果你知道有些 pwin98 的字無法順利轉換為繁體字, 那真的會幹到沒力。雖然這種簡體字實在非常少出現。比如 河北省「禾蒿」城縣。這個「禾蒿」字非常難寫,「禾」是在 下面而「蒿」是在上面的。 unicode 呢?我沒有仔細看。不過的確如單教授的文章所提,多半 是削足適履的作法。把繁體和簡體的一些字,各削一些掉,然後 跟日文韓文擠在一起的後果。 =============================================================== 舊版本文件,以其值得參考,故列如下。 =============================================================== ■1.0.34 更版說明 3.支援多個轉碼表 (已完成) 可隨時選擇要替換專有名詞,還是只替換特定用語,包括 term_acronym.tab" 大陸慣用字頭縮寫詞彙 term_b2g_only.tab" 只用於 BIG5 -> GB2312 轉換 term_computer.tab" 電腦詞彙校正 term_fontid.tab" 轉換字型專用 term_g2b_only.tab" 只用於 GB2312->BIG5 轉換 term_gb2312_zhu.tab" 校正「著」字,在簡體裡面有兩個用法校正 term_langid.tab" 語言 RC 的轉碼對應校正 term_living.tab" 大陸生活用法校正 term_phrase.tab" 大陸文法用詞校正 term_placename.tab" 地名人名翻譯用語校正 term_singleword.tab" 單一字校正 4.設定值改為 BGconv.ini 檔案方式,不再使用註冊表項目。 完全的可攜性。 ■1.0.33 更版說明 1.程式: + 同時支援繁體簡體 win98/win2k 底下的作業。 + 變更圖示,與 Eudora plugins 一致。 + 字碼對照表可使用 ";" 為註解,或使用空白行。 + 詞彙對照表可使用 ";" 為註解,或使用空白行。 ! 解決 wordconv.txt 日期檢查,導致當機問題。 ! 解決 wordb2g.txt wordg2b.txt 大小不為零時,無法重新 再行編譯 termb2g.tab termg2b.tab ,導致當機問題。 ! 解決 wordb2g.txt wordg2b.txt 檔案不存在,無法執行問題。 ! 解決多餘的 button1 問題。 2.詞彙對照表: ! 更新和停用部分大陸地區俚俗詞語。 3.轉換優先順序: + 繁體(BIG5) : 先以轉 GB2312 為主,若找不到則找 GBK extension。 + 繁體(中國海造字) : 先以轉 GB2312 為主,若找不到則 找 GBK extension。 + 簡體(GB2312): 先以轉 BIG5 為主,找不到則找中國海 範圍,但盡量不使用。音標、重音節字母、俄文、希臘 文、日文、數字序號、特別符號,皆從中國海規格。 + 簡體(GBK extension): 其中的繁體字,先以轉 BIG5 為 主,找不到則找中國海範圍,但盡量不使用。出現雙線 表格則可在 BIG5 範圍找到。 4.字碼對照表: + BIG5 -> GB2312 使用部分 GBK 延伸字集,但尚未完 全支援,這需要時間。 + 雙線和單線表格字元集支援。加入 GBK extension 段落的表格字元。 + 開始支援中國海部分字元集,對應於 GBK extension 段落找到的部分。 ■ 1.0.32 改採用了陳寬達 BGconv 架構,所有的 mapping table 均可自訂。 ■ 1.31 1.31 版本:特別感謝 brucez 對 eudora 的簡體支援,因此才產生了 這個版本。 ■ 1.3 1.多媒體詞彙 弟剛到某視訊多媒體公司上任,取得了不少中國大陸多媒體的技術手冊。 強迫自己看完整本「英漢廣播電視常用縮語手冊」。再加上最近到深圳 一趟,執行簡體中文化的心得。 這就是硬逼著自己,幹完整本字典的結果。 另外,大陸北京與南方深圳等地的用語已有不同,南方多受香港影響,而 香港又受臺灣影響,因此在廣州深圳等地的電腦用語已有不同,如 digital ,北方稱「數字」,深圳和香港「數碼」,臺灣「數位」等等。 2.逆向 (簡->繁) 功能 重新提供。 注意:逆向轉換弟並沒有相當仔細的校閱,使用務請小心。 ■ 1.2 版更版說明 1.兩岸的文字轉換 常常在兩岸文字上轉換的朋友,大概會都碰到這個問題:BIG5 對 GB2312 並不是一對一轉換的。也因此繁體轉簡體通常沒有問題,而簡體轉回繁體 就問題多多。 原因很簡單,大陸在推行簡體字之後,很多字的意思被合併掉了,甚至兩 字合為一字。而這些字在臺灣還有原來的意義。比如說... 吊 弔 = 吊 e.g. (臺灣) 吊橋 弔唁 (大陸) 吊橋 吊唁 姦 奸 = 奸 e.g. (臺灣) 強姦 奸詐 (大陸) 強奸 奸詐 范 範 = 范 e.g. (臺灣) 范仲淹 規範 (大陸) 范仲淹 規范 註 注 = 注 e.g. (臺灣) 註冊 注意 (大陸) 注冊 注意 遊 游 = 游 e.g. (臺灣) 遊戲 游泳 (大陸) 游戲 游泳 乾 干 = 干 e.g. (臺灣) 乾燥 干涉 (大陸) 干燥 干涉 以上的字,在 GB2312 的編碼下看起來都相同 (字被合併了),但在 BIG5 編碼底下看起來,和臺灣民眾的實際用法上,卻是有所分別。有些簡化的 的確實際,有些讓臺灣民眾看起來「很不習慣」。 因此,我把這部分找出來了。怎麼找的?BIG5 字集 5401 個常用字 , 一個一個繁體簡體人工比對。大概還有遺漏吧,還請諸方家指正。 比對這個,實在不是人幹的工作。後面七千多個次常用字比對,歡迎 有人接力下去。 2.rehot.pro 如果您使用 cpatch 1.3 來做翻譯,會發現 cpatch 1.3 在翻譯完的句子上 hotkey 的位置不對。這個小程式就是來代換 hotkey 位置,和剔除部分常見 垃圾子句用的。 ■ 1.1 版更版說明 1.巨集代換詞庫,膨脹一倍。 原先都是電腦詞彙的代換為主。已經可以解決大部分問題,但沒有完整 生活用語的對照。因為我儘可能把找到的兩岸不同生活用語加進去,甚至 包括國名對照、俚俗語、名人譯名兩岸不同、政府單位、兩岸地名等。欲求 用字用詞上,能夠更符合對岸的習慣。 大部分的詞庫參考於此地: http://china.management.org.tw/usua_word/home.htm ■更版前的考慮事項 很少有軟體叫人不要更換版本的。 :) 偏偏這種 copyLEFT 的軟體,考慮比較多。 1.執行時間增加一倍 當然, RC 轉換的精確度也提高不少。本來如果你的中文化 rc 檔想做簡體, 大概從 80 分的水準,可以拉到 90 分吧。以 teleport 1.29 (949) 在 486 上的轉換,要 20 分鐘的時間。加上除錯,浪費的時間相當可觀。如果您急著 丟出中文化懶得除錯,那麼換詞也可以省了,用轉碼器轉過去,反正大陸同胞 也大部分看得懂,套上 vc 就是所謂「完美簡體中文化」了。 如果您像我一樣,追求用詞完美極致,那就換版吧。 2.完美簡體中文化?(純 murmur) 至於要 95 分?我想得到大陸住個幾年才成。馬英九或宋楚瑜講台語,大家都 聽得懂,只是講得「輪不輪轉」而已。簡體中文化的意味也是如此。就像用 客家話硬翻「土地公」而不用客家人習稱的「伯公」,恐怕也沒有幾個客家人 聽得下去,因為沒有人這樣用。 這個巨集,只不過儘可能試圖把「土地公」轉成「伯公」,讓大陸人容易接受罷了。 100 分完美中文化?啊,沒有這種東西啦。我的經驗是,凡是在作品上號稱 「完美中文化」的,通常下載之後,後悔居多。(笑) ■在中文化之前 兩岸的電腦用詞一直是個問題。這問題太大了。JQJQ 之前介紹弟使用兩岸簡繁通 ,號稱可以轉詞兼轉碼,雖然可以用,可惜詞彙對照表實在太少,在軟體的翻譯 上仍不免出現一堆問題,是以不用。這是文化上的問題,想要憑弟一己之力,讓 對岸的大陸朋友看弟中文化的軟體順眼,畢竟奢求。不是看不懂,卻總是怪怪的 ,難道沒有更好的方法嗎? 兩岸電腦詞彙對照表,有,在臺北重慶南路「政府出版品中心可以」找到,不過 實在有些陳腐而不實用。網路上也可以找,行政院陸委會有做一個,但以生活用 語為多,電腦用詞沒幾個。march 所服務的臺擎公司雖有,但總不好拿別人現成 的工具。 因此,我挖出了 cwin98, pwin98 的 shell33.dll 的 resource 檔,人工比對 出一堆名詞對照表,勉強可用,但總不滿意。後來,狠下心,把兩個版本 win98 所有的 *.exe, *.dll, *.drv, *.cpl 全挖出來,用 bc 把每一個檔案的 resource 打開,再用 chiwizard 做出對照檔。然後,開始比對吧。win98 大概有六七百 個符合的檔案,花掉多少時間,您可以試做一個比對檔來預估看看。 第一個 shell33.dll 的比對,由於沒經驗,三天。後來看習慣簡體用詞,比對 速度就快多了。 如果嫌不太夠,還可以各加上 中文繁體版簡體版的 office97 來比對。總之, 我看完了所有 win98 檔案和部分 office97 檔案的 resource,偶爾還得加上 ewin98 對照,唉,真變態,現在滿腦子都是繁簡 reource 在飛舞,作夢都要 夢到專有名詞。實在不是人幹的工作。 ■文化上的問題 這樣做出來的東西,有沒有比臺擎內部的工具好,我不敢說。在自己中文化的 所有場合而言,已經夠用,繁體中文化得再好,換成簡體中文化就只能有七八 十分,但現在要提到九十五分,已經沒有問題。弟有這樣的自信。 專有名詞的單純替換,簡單。如何在小小的巨集內,把大陸的翻譯語調,用詞 方式,思考習慣放進巨集 (雖然都是中文),取捨上並不容易。繁體轉簡體, 在用詞上是多對一轉換,沒有太大問題,簡體轉繁體時,由於大陸的用詞用語 也簡化了,反轉回繁體容易出現匹配不上的問題。這實在是文化上的問題,筆 者只能盡量依照自己的國文程度,在巨集上做改進。雖然在弟這裡測試已經沒 有問題,但不能保證,轉換後對照上下文會不會偏離或漏失原意? 所以,要提醒的是,簡體反轉回繁體時,一定要在 resource 上乖乖做除錯工 作。這個工具你可以給與百分之九十八的信任,剩下的百分之二,還是要靠 自己。 ■ 版權聲明 您可以免費使用,和任意修改它 (反正是文字檔,要改很簡單,只是我再也找不 出可供對照的兩岸電腦用語加進去了)。 如果你用了這個巨集覺得好用,很爽快,想要感謝,就多做出一些簡體中文化吧 。如您願意,在簡體作品說明的最後,提一下 Kxx 某人的巨集,這樣我就會很 暗爽了(笑)。 簡體中文化,對 patch-author 來說,再也不是遙不可及的事了。