Googleブック検索の画質に不満・続
昨日Googleブック検索に掲載されている自著のデータについて不満を書いたとき、作成者は出版社と考えていた。実はどうも違うようだ。
Googleが出版社向けに パートナープログラムの案内 を公開しているのを見つけた。この中で、書籍内容の提供法は「書籍を郵送」または「PDF ファイルとしてアップロード」とされている。
出版社は全ページについて精細なPDFを作っているから、仮にPDFをアップロードするなら手持ちのファイルの解像度を落として利用するだろう。わざわざ書籍からスキャンしたりしないと思う。だから、現在Googleブック検索で公開されている私の本のデータは、出版社が送付してGoogleがスキャンしたものだろう。
世界中から送られる膨大な本を、いったいどんな働き手がスキャンしているのか?
完全な想像だが、低い賃金で雇われた何十人かが、ホコリの立ち込める中で黙々と単純作業を続け、スピードを要求され、仕上がりのチェックもしない・・・といった光景を思い浮かべてしまう。
Googleは 和解について説明するページ で
Google と、著者、図書館、出版関係のパートナーシップによって、人類の知の資産をこのような方法で守ることができるということを大変嬉しく思います。などと美しい文句を書いている。
Googleがもうけ主義でやっているのか人類の知の資産のためにやっているのか、本音の在りどころを推し量るのはなかなか難しいが、デジタル化作業という最前線をどれだけ大切にしているかを私は判断材料に入れてしまう。
ついでに自分の名前で「すべての書籍」を検索したら、前の職場の年報が収録されているのも見つけた。(衛生試驗所報告, 第 111~113 号)これはカリフォルニア大学でデジタル化されたらしい。画像そのものは悪くないが、共著者の名前はことごとく誤って読み取られていることがわかった。
伊藤誉志男 ==> 伊茸告志男・伊募首志男・伊辞告志男
外海泰秀 ==> 外梓秦勇・外洋秦秀
中村優美子 ==> 中村伍美子・中村侵美子・中村仁美子
これはOCRソフトの問題だろう。試しに「伊辞」で検索したら、多数の伊藤さんが伊辞さんに化けてしまっていることがわかった。
どうも、日本語の書籍に関しては、Googleブック検索が満足の行くレベルに達するまでにかなり時間がかかるのではないかという気がしてきた。(書籍点数に関してもデータの質に関しても。)
国立国会図書館は独自に資料のデジタル化を進めている。当面は(永遠に?)そちらに期待しておくほうがいいかもしれない。
「出版」カテゴリの記事
- サラリーマンと商業出版(12)最終回:一番うれしかった話(2009.11.28)
- サラリーマンと商業出版(11)出版という業界(2009.10.03)
- サラリーマンと商業出版(10)急ぎすぎた仕上げ(2009.10.02)
- サラリーマンと商業出版(9)経費と印税(2009.09.30)
- サラリーマンと商業出版(8)職場への届け出(2009.09.29)
Recent Comments