本当は難しい文字の話
何気なくパソコン上で入力して表示/出力している文字。
気軽に使用しているから、ものすごく簡単なものの様に思ってしまいますが、業務で使用していると、予期せぬトラブルに巻き込まれる事が多々あります。
当社には、多くの自治体業務で培った文字に関連したノウハウがあります。
文字関連でお困りの場合は、ぜひ当社までお問い合わせください。
外字の話
基本的な事ですが、パソコンでは登録されている文字を表示させる事ができます。逆に言えば、登録されていない文字は表示できません。
しかし、主に人名で未登録の文字を使用しなければいけない場合もあります。その場合に使用するのが外字です。そのパソコン内部だけで使用可能な文字を登録し、使用する事ができます。
そうして作成されたデータですが、前述の通り「そのパソコン内部だけで使用可能な文字」であるため、他のパソコンでは外字は表示できません。「・」で表示されたり、場合によってはそのパソコンで登録されている別の文字が表示されてしまう事もあります。
外字登録情報はファイルとして抜き出す事が出来ますので、外字を含む情報を他のパソコンで使用する場合は、外字登録情報と共に引き渡す必要があります。
JIS2004の話
少々今更感のある話ですが、Windows Vistaの頃から日本語環境対応の規格がJIS90(JIS X 0208)からJIS2004(JIS X 0213)に切り替えられました。この時、文字追加なども行われましたが、最も問題だったのは、字形が変更した事です。よく例として挙げられるのは、「辻」です。次に示す画像の様な字形の変更が行われています。
従来は、「辻󠄀」は通常に入力し、「辻」は外字対応していたのに、JIS2004対応環境ではどちらも「辻」で出力されてしまい、思わぬトラブルになる事もありました。
切り替え後、かなりの日数が経過したので現在はあまり問題にはなりませんが、今でも稼働しているJIS90環境下のデータを出力する場合や、JIS90対応の書体を使用する場合などは注意が必要です。
康熙部首の話
例えば、「日」と「⽇」という文字があります。
どちらも同じ文字に見えますが、文字コードを調べてみると、違う文字である事が分かります。
最初の「日」は通常使用される「にち」の漢字であり、次の「⽇」は康熙部首と呼ばれる文字です。
康熙部首とは、中国の「康熙字典」にて漢字の分類に用いられた部分字形であり、名前の通り部首を表します。従って、通常は康熙部首を単体の文字として使用する事はありません。
しかし、特定の条件下でPDF変換を行った場合に文字コードが置き換わってしまう現象など、意図せず使用されている場合があります。
見た目が同じなら問題ないかと言えば、そうではありません。次の様な問題が考えられます。
- 検索で見つからない
- 書体によっては違った見た目になったり、「・」で表示されたりする場合がある
どちらも状況によってはかなり問題となります。
サロゲートペアの話
世界には様々な言語があり、それぞれ文字コードの規格が定められていて、互換性がありませんでした。そんな状況を嫌気し、業界標準規格として計画されたのがUnicodeです。
Unicodeは2バイトのデータ量を持ち、65536通りの文字が登録可能で、当初はこの量で世界中の文字が表現できると考えられていました。
ところが、Unicodeに組み込みたい文字の要望が増え、結果的に登録容量が不足する状況となってしまいました。そこで解決策として考案されたのがサロゲートペアです。通常2バイトで1文字を表現するところを一部の領域を4バイトで1文字とする事で、1048576通りの文字を追加で登録可能としたのです。
規格としては一応の解決を見たのですが、稼働環境下ではそうもいきません。すべてのアプリケーションがサロゲートペアに対応して設計されてはいないのです。その結果、サロゲートペアに対応するアプリケーションで作成したデータを使用して、サロゲートペアに対応しないアプリケーションで処理を行うと、サロゲートペアの文字は「□□」の様に表示されてしまう事になります。
IVS(異体字)の話
IVSとは、Ideographic Variation Sequenceの略称で、細かな字形の差異がある異体字を使い分ける仕組みの事です。ベースとなる文字に異体字セレクタ―と呼ばれる文字コードを組み合わせる事で、字形を切り替える事ができます。
構造的には先ほどのサロゲートペアに近く、対応していないアプリケーションで使用すると、ベース文字と「□」の2文字が表示されてしまいます。また、アプリケーションが対応していても使用する書体が当該異体字が登録されていない場合は、ベース文字が表示されてしまうなど、注意が必要です。
FontLinkの話
パソコンでは、文字の表示/印刷を行うにあたり、指定されたフォントを参照して字形を呼び出します。ですから、フォントに登録されていない字形は使用できません。例えば、欧文書体を指定しているなら、漢字は登録されていませんので表示する事はできません。
とはいえ、それは原則の話であり、Windowsにはそれに対応するために仕組みがあります。それがFontLinkです。 ある文字列を表示するのに、Aという書体を使用する設定になっている時、その文字列にAという書体にない文字が使用されていたとします。その場合、FontLinkに登録されたBという書体を参照し、B書体にその文字が登録されていれば表示する、という処理を行う仕組みです。
これの怖い点は、入力者はA書体を使用して問題なく文字を表示していると認識している点です。そして、問題ない筈のデータを使用してレイアウト設計し、FontLinkが機能しない為に文字が欠落した出力となってしまう、というトラブルに繋がってしまいます。
委託作成という話
ここまで、文字に関連する規格とトラブル例についてお伝えしてきました。
文字は何気なく使用しているだけに、その難解さはトラブルに直面した人以外には理解してもらいづらく、それだけに労力に見合った対価が得られにくい分野です。
この文章を読まれている方は、文字の取扱いで困ったり、あるいは文字出力でトラブルに直面された事と思います。この機会に、扱いづらい文字のレイアウトや出力の業務を外部委託する事を検討してみませんか?
サービス内容の話
-
文字の自動チェッカー
WEB上で指定した文字列の中に「JIS2004で字形変更、追加された文字」「外字」「康熙部首」「サロゲートペア」「IVS」が含まれるかを自動判定するWEBサービスを無料で展開しています。下記ボタンよりアクセス可能ですので、是非お試しください。
文字自動チェッカー -
文字の確認サービス
当社にテキスト形式もしくはエクセル形式のデータを送付頂き、「外字」「康熙部首」「サロゲートペア」「IVS」が使用されているか、使用されている場合にはどこで使用されているかを調べ、ご報告するサービスです。文字出力に失敗した場合や、文字の取扱いに不安な場合にご利用ください。
価格 10,000 円/
1Mbyte -
レイアウトPDF作成サービス
ご支給頂いたデータをレイアウト組みしてPDFデータを作成するサービスです。文字を埋め込みしますので、文字を気にする必要なく出力を行う事ができる様になります。
レイアウト 10,000 円~PDF作成 2 円/1件レイアウト参考価格
はがき宛名のみ 10,000 円郵貯兼コンビニ収納納付書 100,000 円