和英辞書EDICTをPDICテキスト形式に変換する方法

この方策はEBStudio 変換スクリプト集のxedict.plを基にしたものである.また,正規表現およびサクラエディタについての情報を次のページから得た.

手順は次のとおりである.

  1. EDICTをThe EDICT Projectで入手する
  2. edictをサクラエディタで開く.正規表現を用いた置換作業もあるので,BREGEXP.DLLを導入しておくこと
  3. ファイル名を"edict.sjis"とでもして,文字コードをShiftJISにして保存する
  4. 改行コードをクリップボードにコピーする.今後クリップボードを編集してはならない
  5. 1行目を削除する(辞書データでないため)
  6. 置換作業を行う
    1. " [" to "【"
    2. "]" to "】"
    3. [正規表現] "\/$" to "" (行末の\を落とす)
    4. " /" to クリップボードから貼り付ける(T)
  7. ファイル名を"edict.pdict"とでもして保存し,完了

Rev. 2 修正@2005-10-12 20:07:41
  • 「1行目を削除する」ことを追加(1行目が辞書データでないため)
  • 置換作業の " \[" to " 【" を " \[" to "【" へ変更(置換後データ側に不要な空白があった,というのは嘘で,本当はただの写し間違い)
  • 置換作業の "\/" to "\n" を "\/\(([a-z])" to "\n\($1" へ変更(複数の意味を持つ語がかわいそうなことになるため)
Rev. 3 修正@2005-10-12 22:49:04
  • 正規表現に関する説明文の微修正
  • 置換作業の "] " to "】" を "]" to "】" へ変更(次の置換作業を行うため)
  • 置換作業の "\/\(([a-z])" to "\n\($1" を " /" to クリップボードから貼り付ける(T) へ変更
  • 前項に伴い,クリップボードに関する事柄を添加

Rev. 3に従って作成したデータを,Personal Dictionary for Win32 Ver.4.72fの変換ツールでPDIC形式に変換する際,次の語が重複していると判明した.

  • めん棒
  • バラ
  • 悪い(にくい)
  • 心なし
  • 白目
  • (n) box to hold letters
  • (n) (abbr) Ministry of Education, Culture, Sports, Science and Technology/(P)
  • (n) civilized world/civilised world
  • ...

ということで,またも失敗したといえる.問題は白目と文箱の間にあるのだ.PerlメモのSJIS文字に関する項について,うまく実行できたらいいのにな.

...

見つけた.とりあえずそのまま変換しておいて,pdictをテキストエディタで開く.「(n) box to hold letters」以前の,「英訳語が同じである語」,「文人墨客」を見つけた.この語をPDICで検索したところ,リスト表示が「文鳥【ぶんちょう】」で止まった.

pdictの該当部分は次のとおりである.

文鳥【ぶんちょう】
(n) Java sparrow
Java rice finch (Lonchura oryzivora, Padda oryzivora)

この改行は,改行作成時にできたものであるだろうから,

文鳥【ぶんちょう】
(n) Java sparrow /Java rice finch (Lonchura oryzivora, Padda oryzivora)

とする.

すなわち「Rev. 4」は,誤改行をPDIC変換作業を行ってみて,その都度改めよ,ということだ.

今回用いた,タイムスタンプ「2005年10月4日、20:23:20」のEDICTデータでは,先程挙げた五語のみが重複する事となった.また,"Java rice finch"をググると,文鳥問題なるページがヒットした.今回はただ一件のみだったが,Rev. 3で発生した本件も「文鳥問題」としよう.