1999.06.29
文責:獨 澄旻
今回は技術的お話をしたいと思います。
【正字って?】
と問われたら答えに窮します。
私にとってそう呼ぶのがあまりに自然なのです。今回、初めて『広辞苑』で「正字」を引いてみました。
なにげなく使っていたのですが、私のイメージと異なっていました。辞書上の定義は、今回の主題ではありませんので、皆さんで各自引いてみてください。
私がこの言葉「正字」にであったのは、中学生くらいの時に『岩波文庫目録』でだったと思います。中学生のお小遣いでは文庫本がやっとでした。
現在は手元にないのですが、目録の紹介内容に「正字旧かな」・「新字新かな」と付記されていたと思います。それをそのまま何も考えず襲踏していました。「旧字」ではなかったから今でも覚えているのでしょうね。何か岩波書店の「文化を引っ張ってるぞ」っていう意気込みが感じられました。
一応定義をしないと気の済まない人用に、「新字制定以前に使用されていた活字文字」と乱暴に仮定しておきます。ではコードに変換した後を正字と言うのはおかしい、なんていう議論はごめんです(気付いています)。
【OCRでは認識不良】
昔の書籍は本当に活字から版(凸版)を起こしていましたから、現在の写植や電子製版の文字(平版)と、たとえ正字・新字の区別がない文字やひらがなでも書体が異なっています。関係なさそうで関係あるのですが、当然インクも違います。インクの性質も書体を決める要因の一つなのです。
左のサンプルは200dpiですが、私のOCRソフトでは300〜400dpiを推奨しています。でも、認識不良はサイズの問題ではないので、認識されなかったり間違った認識をされる文字は個別に1文字1文字登録しなければなりません。それでも、傾きなどでなかなかうまく認識してくれません。
で、登場するのが現在市販されている本なのです。できれば新字旧かなが望ましいのですが、入手できなければ新字新かなでスキャンしてしまいます。こちらは当然、OCRと相性がいいのです。
その後、OCRで文字コードに変換します。そしてDOSコマンドで正字に変換しているのですが、私は塚越秀成氏制作のPDS「Q漢字(qkanji.exe)」を幾つか定義して使わせていただいています。
それから、正字の本と比較しています。件数からいっても、キー・ボード上で「い」を「ゐ」や「ひ」に変更するくらい、「か」・「て」が「が」・「で」に誤認識されているのを訂正するより遥かに楽なのです。
場合によっては、コードと市販本とをチェックした上で、正字の「古本」と校正して「新字新かな」として公開する場合もあります。だからこちらの新字新かな方が楽なのですが、私以外、正字で入力する人はまれだろうからと、読み手無視で正字を採用したりしています。
私立PDD図書館も市販本を使用することがあるという、秘密にするまでもない当たり前のお話でした。