今日はJTPA のセミナー: CJKV 日中韓越情報処理 というイベントに出てきた。JTPAはJapanese Technology Professional Associationというシリコンバレーの日本人コミュニティである。来月で設立3周年になるNPOである。Jabroniもここに顔を出すようになってから2年以上たつ。いろいろなイベントが開かれるが、今日は文字コードの標準化の話。
Adobe社のDr. Ken Lundeさんは言語学(Linguistic)でPhDを取った人で、AdobeではソフトウェアのI18Nに携わっている。O'ReillyからCJKV という本を出しておられる。今日の話は基本的にはUnicodeの解説、JISコードの標準化とUnicodeとの関係、GB18030という中国語の標準化という3つが柱であった。
Jabroni自身、プログラミングの中でI18NやL10Nをまともに取り組んだことがない。現在はプログラミングはすべて英語だし、I18Nも特に必要とされていない(実用段階になったら、別の部署の人が入れるのだろうが)。というわけで文字コードについてはまったくのエンドユーザでしかなく、知識もあまりない。
JISにしても、X0201、X0208、X0213などいろいろあって、0213などは決まったのが2004年と去年。今だに標準化を進めているが、それでもまだ入らない漢字(人名など)があるという。
中国語のGB18030もすごい。これは中国政府が「中国でソフトウェアを売る場合にはGB18030を使うこと。それ以外は認めない」という政治色の強い文字コードだそうだ。そしてGB18030をフルサポートするのがUnicodeで、結局中国で商売するにはUnicodeを使わざるを得ないということになっている。有無を言わさぬ強権的な標準化である。まあ、もっともUnicodeの場合は、「どんな文字コードでも受け入れますぜ」という仕様で広まったもので、デファクト標準となったものであるが。
そのGB18030に中国国内のMinority Script、すなわち少数民族が使う言語が含まれている。それがMongolian(蒙古文字)、Tibetan(チベット文字)、Uyghrur(ウィグル文字)、Yi(彙文字)の4つである(Yiの彙という文字は手元の配布資料にはもっと難しい文字が書いてある)。そしてこれら4つのサンプルが資料に載っていたのだが、生まれて初めて見る文字ばかりで印象的であった。
Omniglot という世界中の文字表記を集めたページがあるので、それを引用しながら見てみる。
- Uyghur は表音文字でアラビア文字のように右から左へ書く。形もアラビア文字に似ている。地理的にアラビアに近いので、文化も影響を受けているのだろう。
- Tibetan は左から右へ。この文字セットを見ていたら母音は4文字しかないが、子音が30+5個。さらにKya(きゃ)のように組み合わせる子音は90もある。しかしここに載っているサンプルでは4つの母音が見当たらない。どうやって読むのやら。
- Mongolian はなんとなく筆と墨で書いたようなもので、縦書きである。しかし表意文字ではなく表音文字らしく、英語のように単語と単語の間は縦のスペースがある。さらに日本語の縦書きと違って、左から右に行が進むらしい。
- Yi も変わった文字だ。どう見ても象形文字なのだが、これもSyllabary(表音)らしい。
こんなわけで、世界中には様々な文字があるということを実感した。自宅でこのエントリを書くためにOmniglotに入ってみたが、ここは世界中の文字セットを集めたもの。もちろん、誰にでも見えるようにするために、解説のアルファベット以外はすべてグラフィックスで表示されるのだが。
最後に標準化というのは時間と手間がかかるがよいものはできない。しかしそれに従うしか道は無いというのがLunde氏の結論であった。Unicodeはまさにその例で、誰もよいコード体系とは思わないが、どの文字セットでも入れることができ、一度入ったものは基本的に削除されないということで安定している。それがデファクト標準になれた理由である。
最後に、今日のセミナーの会場になったのが、BurlingameにあるHURIC 法政大学アメリカ研究所 である。5年前にできたそうだが、JTPAとコネができたのは最近で、今年になってからJTPAに会場を貸してくれるようになった。この日はHURICと日本の法政大学の部屋を結んで日米2元中継のセミナーとなった。この写真はちょっとぶれてしまったが、右にいるのが講師のLunde氏。左が客席。奥のモニターに日本側の教室の様子が映されている。今日は英語のセミナーであったが、日本側からも積極的に質問が出ていたし、2元中継セミナーとしては大成功であった。
ちなみにKen Lundi氏は奥様が日本人。自分の名前も小林剣と表記する親日家である。
最近のコメント