『言海』電脳翻刻

~~ 『言海』全文電子テキスト化 ~~

更新履歴

はじめに

ふと思い立って、大槻文彦『言海』の全文テキスト化を始めてみました。まだ始めたばかりですが、数年程度で(2020年頃?)完走できればいいなと思っています。読めない漢字・意味の分からない単語だらけですので、とにかく『広辞苑第六版』『新漢語林第二版』などの辞書を引き、字や意味の正しさを確認しながら進めています。大変ですが、なかなか面白いです。ふりがなの付いていない漢字についても、『広辞苑』『漢語林』を参考に、有り得る読みを追記しています。候補が複数有る場合は、それらすべてを記しました(実際、どれでも良さそうなこともあれば、読みによって意味が明確に異なる場合もあるので、油断なりません)。

語釈のひらがな・カタカナは逆にし、漢字もいわゆる新字に直してあります。変体仮名は通行の仮名で入力しています。いずれ機械処理で、私が追加した辞書からの引用を消したり、底本の形式に直すことも出来るように意図して作成しています。

テキスト化の原本は、国立国会図書館デジタルコレクションのページ画像です。不鮮明な箇所は、『稿本日本辞書言海』(大修館書店)などを参考にしています。

作業終了のお知らせ

[2017/02/15追記] 上智大学の豊島正之先生による『言海』全文検索サイトがすでにあり、現在校正作業中とのことです。専門家の手によるテキストデータが公開される以上、私のようなド素人の出番はありません。大変残念ですが、しかし、同時に大変喜ばしいことに、本プロジェクトは終了といたします。とはいえ、せっかくですので、「お」の校正までは行います。

おことわり

十分注意して作業しておりますが、ミスタイプがないわけはありません。

私は日本語の専門教育などは全く受けておらず、ただの技術系会社員です。就職前に漢検二級(常用漢字レベル)は取りましたが、文語・歴史的仮名遣いに慣れ親しんではいません(というより、この時代の文章を当時の印刷のままで読むのは初めてです)。私に出来るのは、所詮アマチュアレベルでしかありません。市販品レベルの品質を期待しないでください。むしろ、私の作業成果をどこかの大学・研究機関・出版社などが引き継いで、専門的な校訂・校正などを加え、正式に『言海』が復刻されたら、これに勝る喜びはありません。ただ、いまどき、そんな予算も人員もない、でしょうか・・・。現代語の辞書と違い、十年二十年経とうとも根強い需要があると思うのですが、どうでしょう。

こういう電子テキストが役に立つかどうかは、利用者の利用目的によって全く異なります。「こんなもの、信用ならん!全く役に立たん!!」と思われる方に利用をお勧めするつもりは全くありません。私にとっては、全文検索しやすくなることが最大のメリットです。電子化しても最終確認を紙の原本で行うべきなのは、当然のことです。

漢字のいわゆる新字・旧字の判断は、『漢語林』に従っています。『漢語林』で旧字となっていなかった漢字(ある字の俗字、正字など)は、『言海』の字(に最も近いと思われる字)を使うようにしています(練|練、殻|壳、煮|煑、洟|涕、など。右側を使用)。

言海見出し語は、和語は太字、漢語は細字になっています。しかし、非常に判別しづらいことがよくあります。そこで、漢語部分には左に横線が引かれている稿本(手書き原稿の複製本)を基準としました。ただし、一部の見出しでは、稿本では左横線がないのに、言海では明らかに漢語の活字になっていたり、稿本とは異なり片仮名表記(外来語)になっていたりします。そういう場合は、注記の上、漢語・外来語扱いとしました。見出し語の語区切りマーク(-)が稿本ではあるのに言海ではなくなっている場合も、注記の上、言海の印刷結果に合わせました。こういった差異は、私がたまたま気がついた場合に注記しているだけで、全文について稿本と言海の内容の差異を確認しているわけではありません(一部の見出しを見比べただけでも、ポツポツ差異が見つかったので、語釈などにも差異はあることでしょう)。

広辞苑と漢語林を主に参照しているのは「たまたま手元にあったから」以上の理由はありません。

作りたいもの

副産物として、また、気が向いたら:

今できているもの

本書編纂の大意」、「凡例」、「索引指南」 [校正読み3回]

「あ」 HTML(横書き)PDF(縦3段組) [校正読み3回]

「い」 HTML(横書き) [校正読み2回]

「う」 HTML(横書き) [校正読み2回]

「え」 HTML(横書き) [校正読み2回]

「お」 HTML(横書き) [校正読み2回]

『言海』読解試験:「『言海」は読める辞書」なんて大嘘じゃないかと・・・(私だけ?)。字が小さい、印刷品質が悪い、旧字・変体仮名に迷う、・・・、いえいえ、問題はそれだけではなかったです。

注記マーク

あきらめたこと

引用・参考文献

著作権とライセンス

『言海』の著作権保護期間は終了しているので、そのテキストについてはパブリックドメインとします(商用利用を含め、ご自由にどうぞ)。内容の正確性については無保証です。私が独自に追加した『広辞苑』などからの「引用」は、著作権法と常識の範囲内でご利用ください。

連絡先

謝辞

国立国会図書館デジタルコレクションのページ画像を原本にして作業しています。関係者のみなさま、ありがとうございます。

辞書・辞典編集関係者のみなさま、ありがとうございます。この辞書にはこんなにも載っていたのか!、と自身の不勉強を恥ながら驚歎する毎日です。

私では判別できなかった文字などについて、アドバイスくださったみなさまに深くお礼申し上げます。

EPWING関係のソフトを精力的に開発されているhishida様に深くお礼申し上げます。



お ま け



関連プロジェクト

私が行っているEPWING(電子辞書)開発プロジェクトは、他にもあります。

(C) 大久保克彦, 2016-2017