CAPTCHAは書籍のデジタル化に使われている

ウェブサイトでの認証で、読みにくいアルファベットや数字を読んで入力するCAPTCHA。それが書籍のデジタル化に使われているらしい。

林修先生の解説は以下。

「書籍のデジタル化を進めるためのもの。かすれたりインクが薄くなって読みづらくなった文字をコンピュターに読ませることができればデジタル化することができる。
人間にしか読めない文字も何人もの『これはこう読む』という記録が残れば、それを覚えて読めるようになる。そうすると古い文書を読み込めるようになる。コンピューターの文字を増やすという壮大な計画に世界中が協力させられている」

なるほど、OCRで読めない部分を人間に教えてもらうのか。

…と思ったが、そもそもCAPTCHAというのはシステム側が正しい読み方を知っていなければ認証にならないのでは?

検索してみると、以下の記事があった。10年以上前の記事。

japan.cnet.com

　reCAPTCHAは、従来のCAPTCHAテストで使われているようなランダムな文字列に加え、もう1語をユーザーに提示する。後者は、コンピュータによるOCRでは認識できなかった未知の単語だ。この仕組みは、ユーザーが従来方式の文字列を正しく解読できるなら、未知の単語のほうも判読できるだろう、という発想に基づいている。von Ahn氏によると、現在reCAPTCHAでは、3人の別の人間がある未知の単語を同じように識別した場合に、正しい読み方だと判断しているという。

そうかそうか、2つの文字列を提示するわけか。1つはシステムが読み方を知っていて認証に使い、もう1つはOCRで読めなかった文字列を見せて、これは認証には使わずに人間に答えを教えてもらう。

後者だけを最初に出してわざと認証NGに見せ、前者を出して本当の認証を行う、というやり方も考えられるが、ユーザのストレスが大きいのでやらない気がする。

これまでCAPTCHAで一度に2つの文字列が出てきた記憶がないが、私の注意力が足りないだけか。結構多くのサイトでこのreCAPTCHAが行われているのだろうか。

Wikipediaにもちゃんと書いてあった。やはり上記のやり方で2つの文字列を表示するらしい。