最近、訳あってアメリカの特許情報を調べているのだが、何とも嘆かわしいことに、ここで公開されているPDFファイルには文字情報が含まれていない。
つまり画像をPDFにしただけなので文字としてコピーできず、資料にまとめようとしても手で入力し直さないといけない。流石に手間がかかりすぎる。
(↑一例。文字のように見えるが画像データなので文字をコピーできない)
そこで色々とググっててみたら、便利なChrome拡張機能を見つけた。
コンピューター、プログラミング、モバイル、ガジェットなどエレクトロニクス分野を中心にネタを提供するウェブサイトです。最近は中国ネタにも注力中。かつてはHWD15向けのAndroidアプリ「HWD15 Status Notifier」を作ってたりしていました。
最近、訳あってアメリカの特許情報を調べているのだが、何とも嘆かわしいことに、ここで公開されているPDFファイルには文字情報が含まれていない。
つまり画像をPDFにしただけなので文字としてコピーできず、資料にまとめようとしても手で入力し直さないといけない。流石に手間がかかりすぎる。
(↑一例。文字のように見えるが画像データなので文字をコピーできない)
そこで色々とググっててみたら、便利なChrome拡張機能を見つけた。
その名の通りOCRソフトウェアなのだが、Chrome上に表示しているものなら何でも文字認識してくれる優れもの。
(しかもChrome外のものも文字認識できるオプションもある)
使い方はとっても簡単。
①この拡張機能をChromeにインストールし
②OCR文字検出したいページを開き
③この拡張機能の黒いお魚アイコンをクリックすると
④画面がグレーアウトして「Please select text to grab.」と表示されるので
⑤文字認識したい箇所をマウスでドラッグアンドドロップするだけ。
こんな感じで認識したい文字を赤枠で囲む。
文字サイズは大きい方が認識率が高いので、Chrome内で拡大してから実行するといいだろう。
そうすると↑こんな感じで「元の画像(の上に認識した文字)」と下にテキストが表示される。
認識に問題無ければ「Copy to clipboard」をクリックするか自分でテキストをコピーすればいい。
なお、化学式のような「文章として認識しづらい」テキストは認識できないことがある。
その場合は文字サイズをさらに大きくしてトライするといい。時々全くダメな場合もあるが。
今回は英語しか認識させる必要が無かったので試していないが、日本語を認識させる場合は先に「読み取り言語」を変更する必要がある。
言語を変更するには、黒いお魚アイコンを右クリックして「オプション」をクリック。
そうすると設定画面が表示される。
ここの「Input Language (OCR Language)」を認識させたい言語に選びなおせば設定完了だ。
ショートカットキーの変更や、Chrome外のウィンドウも文字認識させるための追加ソフトもこの設定画面からダウンロードできるで、好みに合わせて調整してほしい。
公式サイトによれば、有料Pro版を買えば認識精度が向上したり、手書き文字にも対応するなどなど気になることが書いてある。
今のところFree版で十分だが、使えるシチュエーションがあれば検討してみたい。
↑Pro版は漫画の吹き出しに書かれている縦書きの日本語も認識できるとか。
ついでに翻訳までしてくれるそうで、役に立つ人にはかなり役立ちそうだ。
ちなみにプライバシーポリシーには
All uploaded documents are deleted after processing. We do not keep any of your data.(全てのデータは処理後消去され、保持することはありません)
との記載があるためデータ流出のリスクは低いと思われるが、とはいえ一度はオンラインにデータが送信される仕組みなのでその点は注意されたい。
今回は公開済みの特許情報なので思う存分活用させていただいた。
コメントする