PDD図書館管理番号 1000.9990.0007.04

正字の入力について
PDD画像です。


夏目漱石の印紙
漱石山房


正字のサンプル
漱石全集第十二巻
『文学評論』の序
漱石全集刊行会
昭和四年発行

1999.06.29
文責:獨 澄旻

今回は技術的お話をしたいと思います。

【正字って?】
 と問われたら答えに窮します。
 私にとってそう呼ぶのがあまりに自然なのです。今回、初めて『広辞苑』で「正字」を引いてみました。
 なにげなく使っていたのですが、私のイメージと異なっていました。辞書上の定義は、今回の主題ではありませんので、皆さんで各自引いてみてください。

 私がこの言葉「正字」にであったのは、中学生くらいの時に『岩波文庫目録』でだったと思います。中学生のお小遣いでは文庫本がやっとでした。
 現在は手元にないのですが、目録の紹介内容に「正字旧かな」・「新字新かな」と付記されていたと思います。それをそのまま何も考えず襲踏していました。「旧字」ではなかったから今でも覚えているのでしょうね。何か岩波書店の「文化を引っ張ってるぞ」っていう意気込みが感じられました。
 一応定義をしないと気の済まない人用に、「新字制定以前に使用されていた活字文字」と乱暴に仮定しておきます。ではコードに変換した後を正字と言うのはおかしい、なんていう議論はごめんです(気付いています)。

【OCRでは認識不良】
 昔の書籍は本当に活字から版(凸版)を起こしていましたから、現在の写植や電子製版の文字(平版)と、たとえ正字・新字の区別がない文字やひらがなでも書体が異なっています。関係なさそうで関係あるのですが、当然インクも違います。インクの性質も書体を決める要因の一つなのです。

 左のサンプルは200dpiですが、私のOCRソフトでは300〜400dpiを推奨しています。でも、認識不良はサイズの問題ではないので、認識されなかったり間違った認識をされる文字は個別に1文字1文字登録しなければなりません。それでも、傾きなどでなかなかうまく認識してくれません。

 で、登場するのが現在市販されている本なのです。できれば新字旧かなが望ましいのですが、入手できなければ新字新かなでスキャンしてしまいます。こちらは当然、OCRと相性がいいのです。
 その後、OCRで文字コードに変換します。そしてDOSコマンドで正字に変換しているのですが、私は塚越秀成氏制作のPDS「Q漢字(qkanji.exe)」を幾つか定義して使わせていただいています。
 それから、正字の本と比較しています。件数からいっても、キー・ボード上で「い」を「ゐ」や「ひ」に変更するくらい、「か」・「て」が「が」・「で」に誤認識されているのを訂正するより遥かに楽なのです。
 場合によっては、コードと市販本とをチェックした上で、正字の「古本」と校正して「新字新かな」として公開する場合もあります。だからこちらの新字新かな方が楽なのですが、私以外、正字で入力する人はまれだろうからと、読み手無視で正字を採用したりしています。

 私立PDD図書館も市販本を使用することがあるという、秘密にするまでもない当たり前のお話でした。


獨のつぶやきコーナーに戻る