「仏典データベースシステムにおける前処理自動化の試み」
天野山金剛寺所収の経典(金剛寺一切経)を対象として、高精細ディジタルカメラで撮影された仏典画像の閲覧や読解を支援するデータベースの構築を行っている。
データベースの検索性能を良くするには、あらかじめ原データから適切な情報を引き出しておくこと、すなわち前処理が重要な役割を持つ。そこでまず、仏典画像から文字領域を認識する機能を実装し、各文字領域の座標情報もデータベースに登録するようにした。
次に、その座標情報を用いて、隣接画像との重なりを除去して一つの巻子として見せる機能を試作した。
閲覧に関しては、画像と既存のテキストデータとを対応づけて表示する機能を開発中である。中華電子仏典協会が提供する大正新脩大蔵経のテキストデータを用いて、検索や、画像との対照表示に適したテキストデータの表現方法について検討している。
画像やテキストデータに対するこれらの前処理は、数百から数千のファイルにも自動で実行できる。誤認識に対しても、人手で修正できるようにしている。