Anthy’s internal encoding

By ekato

いまさらですが…

「から」を変換して “波線” を出そうとすると、いまどきのユニコードアプリケーション上で、Anthy (9100h) は以下のような文字を出します。

〜 WAVE DASH U+301C
・EUC-JP で接続した Anthy (例: uim anthy, scim anthy で辞書のエンコーディングを EUC-JP に設定)

~ FULLWIDTH TILDE U+FF5E
・UTF-8 で接続した Anthy (例: uim anthy-utf8, scim anthy で辞書エンコーディングが UTF-8)
・EUC-JP で接続した Anthy を EUC-JP-MS として UTF-8 に変換するクライアント (例: scim anthy で辞書エンコーディングが EUC-JP-MS)

UTF-8 で Anthy に接続すると変になっています (EUC-JP-MS の時は意図的なので変ではありません)。この現象は、Anthy が独自に持っている変換テーブル (EUC-JP から UCS-4 に変換するテーブル) を使って EUC-JP の辞書テキストファイルを UTF-8 に変換した後バイナリファイルに格納しているため起こります。

ところが G-HAL さん iconv 版 Anthy では、辞書への格納が U+301C で、その後の変換は指定次第になっています。すばらしい。

ということで、何が言いたかったかといいますと、「懸案だった G-HAL Anthy のアップデートをようやくした MacUIM をお試し版として置いた」、ということでした。0.6.4-4 との違いは Anthy だけで、パッチとして anthy-9100h.patch13Bptn23.iconv.2009X25.bz2 があたっています。MacUIM-0.6.4-5.dmg

【追記】なんか文節区切りの精度が悪くなってしまったようです。暇を見て、このあたり調節できるといいのですが。1日使ってみましたが、そういうわけでもなさそうで、まあいつもどおりのようでした。が、結構変な候補が出るので要修正ということで、またそのうちアップデートしてみます。

コメントする