【ディープラーニング×ビジネス】#7 国立国会図書館のNDLOCRを支えた技術

ディープラーニング 活用事例紹介 #7[株式会社モルフォAIソリューションズ]

国立国会図書館「NDLOCR」開発の裏側

――デジタルアーカイブ事業について詳しく教えてください。

神田

 デジタルアーカイブの取り組みは、現在、国立国会図書館様向けの開発が主体となります。2021年、国立国会図書館が保有するデジタル化資料をテキスト化するためのOCR処理プログラムの入札があり、当社と凸版印刷のチームが受託に至りました。

出典:モルフォAIソリューションズ社プレスリリース

神田

 国立国会図書館が保有するデジタル化資料は画像点数にすると2億点以上存在し、今後もさらなるデジタル化が見込まれます。テキスト化には人力による入力では到底間に合いません。

 そこでOCRの出番ですが、前述の通り、現代のOCRでは旧字、旧仮名遣いや異体字といった近代書籍に利用されている文字種や特殊なレイアウトには対応できないという課題がありました。今後、新たにデジタル化する資料に対して、国立国会図書館が自由に活用し、改良できる自前のOCRを構築することを決められました。

 そこで凸版印刷と共同で入札に臨み、凸版印刷が近代書籍に対応したデータセットの作成、当社が最新のディープラーニングを活用したOCR処理プログラムの開発という分担で入札に臨んだ結果、ご提案を受け入れていただきました。

 すでに開発は完了しており、2022年4月25日にはオープンソースとして国立国会図書館のGitHubでも公開されました。

出典:国立国会図書館NDLラボ「令和3年度OCR処理プログラム研究開発」

神田

 市販のOCRでは通常、近代書籍を読み取らせると40~80%程度の認識精度しかありません。半分程度しか読み取れなくては、テキスト検索などの用途においてはほぼ使えないのと同義です。

 NDLOCRでは、市販のOCRより高い90%以上の精度で近代書籍の文字やレイアウトを認識可能です。特に1870年代の文系書籍においては、市販OCRの約2倍(約40%→90%以上)の読み取り精度を達成できました。

 オープンソースで公開されて以降、Twitterなどでも技術者の方々に好意的なコメントをいただいているほか、これまで古い書籍を調査する際に、資料のテキスト化や内容の検索に苦労されていた研究者の方々にも喜んでいただいています。

 NDLOCRを起点として、我々としても本技術を商用化していきたいと考え、開発しているプロダクトが「FROG AI-OCR」です。

出典:モルフォAIソリューションズ社プレスリリース

神田

 クラウド上に画像をアップロードすることで、NDLOCRと同様のOCR機能を活用できることに加え、テキストの校正や出力機能も一つのパッケージとして利用可能です。地方図書館や研究機関、アカデミア、出版社、新聞社でのユースケースを想定しており、現在は一部のテストユーザーの方々にご使用いただいています。