国語教育

日本の文字とUnicode
第8回 常用漢字・人名用漢字とUnicode
安岡孝一

  • 2019.05.08

現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日本語に特化して作られたわけではないので、日本の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第8回は、常用漢字・人名用漢字と、Unicodeの関係です。

常用漢字とUnicode

日本の漢字施策のおおもとは、常用漢字表2136字です。常用漢字表は、法令、公用文書、新聞、雑誌、放送など、日本の一般の社会生活において、現代の国語を書き表す場合の漢字使用の目安です。常用漢字表2136字は、全てUnicodeに収録されています。2136字のうち、2135字が「CJK統合漢字」に、1字が「CJK統合漢字拡張B」に収録されています。どの1字が「CJK統合漢字拡張B」なのか、気になりますね。「」がU+20B9Fに収録されているのです。

常用漢字の「」は、U+20B9Fであって、U+53F1ではない、という点に注意が必要です。見た目は似ているのですが、常用漢字は「口へんに七」なのです。

突き抜けるのは日本だけなんですね

Unicodeの漢字は、日本だけのものではないので、日本の常用漢字を表す際には、多少、注意しなければならない点があります。たとえば、常用漢字の「与」をU+4E0Eで表す場合を考えてみましょう。

日本の「与」と、日本以外の「与」が、U+4E0Eに統合されていますね。すなわち、日本の常用漢字の「与」をU+4E0Eで表そうとしても、多勢に無勢で「与」が表示されてしまう場合がある、ということです。では、常用漢字の「与」を、正確に表現したい場合は、どうすればいいでしょう。間違って「与」に化けたりしないよう、正確に「与」を表したい場合です。そう、IVSを使うのです。

U+4E0Eには5種類のIVSが含まれていますが、これらのうち<U+4E0E U+E0100>と<U+4E0E U+E0102>が、常用漢字の「与」を表しています。第6回でもお話したとおり、IVSがダブって割り当てられてしまっているのですが、それでも、<U+4E0E U+E0100>あるいは<U+4E0E U+E0102>を使えば、常用漢字の「与」を正確に表現することができるわけです。

IVSって本当に便利です

第4回で例として挙げた「述」(U+8FF0)の常用漢字は、どうでしょう。

やはり、IVSがダブって割り当てられているのですが、<U+8FF0 U+E0100>あるいは<U+8FF0 U+E0102>を使えば、 常用漢字の「述」を表現できます。

細かい違いが区別されています

注意が必要なのが、常用漢字の「遡」です。

常用漢字の「遡」は、2点しんにゅうなのです。したがって、常用漢字の「遡」を表現する時には、<U+9061 U+E0101>あるいは<U+9061 U+E0103>を使わなければいけません。

そこまで分ける!? というレベルでも区別されています

微妙なのが、常用漢字の「次」です。

常用漢字の「次」は、にすい(冫)の下画が、かなりしっかり跳ね上がっています。したがって、<U+6B21 U+E0102>が、常用漢字の「次」に最も近い字体です。

便利だけれど完璧ではないみたいです…

では、IVSを使えば、常用漢字2136字の字体は、全て正確に表すことができるのでしょうか。実を言えば、常用漢字の「摂」は、うまく表すことができません。

常用漢字の「摂」は、右上の「耳」の字体が、<U+6442 U+E0100>とも<U+6442 U+E0101>とも異なっています。すなわち、常用漢字の「摂」は、<U+6442 U+E0100>でも<U+6442 U+E0101>でも表現できないのです。困ったことですが、常用漢字の「摂」がIVSに追加されるのを待つしかありません。

人名用漢字とUnicode

法務省が定めている人名用漢字861字は、常用漢字2136字と合わせて、子供の名づけに使える漢字です。逆に言えば、これら2997字以外の漢字は、子供の名づけには使えません。人名用漢字861字は、全てUnicodeに収録されていますが、常用漢字と同様、正確な字体を表現したい場合には、色々な工夫が必要です。

縦ではなく横なんです

非常にヤヤコシイことになっているのが、人名用漢字の「龍」です。

人名用漢字の「龍」の左上一画目は、実は横棒の「一」なのです。したがって、人名用漢字の「龍」をIVSで表す場合には、<U+9F8D U+E0102>か<U+9F8D U+E0107>を使うことになります。ところが、日本国内の多くの漢和辞典や、赤ちゃんの名づけ本が、人名用漢字の「龍」の一画目を、あやまって縦棒「」で掲載しているのです。この結果、<U+9F8D U+E0100>あるいは<U+9F8D U+E0103>の「龍」の方が、好んで使われてしまっているのです。Unicodeの責任ではないのですが、注意が必要でしょう。

やっぱりIVSは便利です!

「祐」と「」は、どちらも人名用漢字なのですが、U+7950に統合されています。

人名用漢字の「祐」と「」を、それぞれ使い分けたい場合には、「祐」は<U+7950 U+E0101>か<U+7950 U+E0102>で、「」は<U+7950 U+E0100>か<U+7950 U+E0103>かU+FA4Fで、それぞれ書き分ける必要があります。

便利だけれど人を混乱させるみたいです…

このように、同じUnicodeに統合されてしまうパターンは、常用漢字と人名用漢字の間でも起こっています。たとえば、人名用漢字の「」は、常用漢字の「謁」と同じU+8B01に統合されています。

人名用漢字の「」と、常用漢字の「謁」を、それぞれ使い分けたい場合は、「」は<U+8B01 U+E0100>か<U+8B01 U+E0103>かU+FA62で、「謁」は<U+8B01 U+E0101>か<U+8B01 U+E0102>で、それぞれ書き分ける必要があります。

ところが、人名用漢字の「」と、常用漢字の「掲」は、それぞれU+63EDとU+63B2という別々のUnicodeが割り当てられています。

したがって、「」と「掲」に関しては、IVSを使う必要はありません。「」はU+63ED、「掲」はU+63B2で表現すれば大丈夫です。「」を<U+63ED U+E0100>で表してもかまいませんが、無理にそうしなくてもよい、ということです。なぜ「」と「謁」とは、扱いが違うのだろう、とは思うのですが、そういうものだとあきらめるしかありません。

ちなみに、第6回で例として挙げたU+795Eには、常用漢字の「神」と、人名用漢字の「」が統合されています。

常用漢字の「神」と、人名用漢字の「」を、それぞれ使い分けたい場合は、「神」は<U+795E U+E0101>か<U+795E U+E0102>で、「」は<U+795E U+E0100>か<U+795E U+E0103>かU+FA19で、それぞれ書き分ける必要があります。

やっぱり非常に細かく区別されています

非常に見分けがつきにくいのが、人名用漢字の「」です。常用漢字の「逸」と同じU+9038に統合されている上に、非常によく似た字がU+284DCにも収録されているのです。

これらのうち、人名用漢字の「」として用いることができるのは、<U+9038 U+E0101>と<U+9038 U+E0107>とU+FA67です。一方、常用漢字の「逸」に使えるのは、<U+9038 U+E0100>と<U+9038 U+E0103>だけです。それ以外は、微妙に字体が異なっています。かなり注意して使う必要があるのです。

人名用漢字をきちんと表すならIVSで!

ここまでに見てきたように、人名用漢字861字を表現したい場合には、IVSを使う方が安全です。実際、人名用漢字861字は全てIVSに収録されており、IVSを使えば、人名用漢字の字体は、全て正確に表すことができます。

 

著者プロフィール

安岡 孝一 (やすおか こういち)

1965年、大阪府生まれ。
1983年、月刊『ASCII』でデビュー。
1990年、京都大学大型計算機センター助手に就任。
文字コード研究のパイオニアとして活躍し、文字コード規格JIS X 0213の制定および改正で委員を務める。
現在、京都大学人文科学研究所附属東アジア人文情報学研究センター准教授。
著書に『新しい常用漢字と人名用漢字―漢字制限の歴史―』(三省堂)、『キーボード配列 QWERTYの謎』(NTT出版)、『文字符号の歴史―欧米と日本編―』(共立出版)などがある。
http://slashdot.jp/~yasuoka/journalで、断続的に「日記」を更新中。

 

一覧に戻る

最新記事

このサイトではCookieを使用しています。Cookieの使用に関する詳細は「 プライバシーポリシープライバシーポリシー」をご覧ください。

OK