サイト閉鎖に係る後処理(Poppler)

Homebrew で Poppler をインストールする方法をまとめておきます。

Poppler は Xpdf 3.0 をベースに開発されていて、pdffonts や pdftotext 等が含まれています。Homebrew であれば、単純に、

brew install poppler

でインストールできます。

ただし、pdftotext でテキストデータを取り出そうとしても、横組み用のひらがなとカタカナは全滅します。これは、CID と Unicode 番号との対応表「Adobe-Japan1」の当該行が 0000 になっていることが原因です。

深いところにあるファイル /usr/local/Cellar/poppler/0.81.0/share/poppler/cidToUnicode/Adobe-Japan1 を<このファイル>で差し替えればだいぶマシになると思います。私が手作業書き換えたものですので、色々と不備があるかもしれません。おかしな箇所があれば適宜修正の上ご活用ください。

pdftotext で横組み用のかなを取り出す」併せてこちらもご参照ください。

また、pdffonts 等のコマンドを実行すると、下記のような警告が大量に表示されるようです。

Syntax Warning: Could not parse ligature component "arrow" of "circle_arrow_left" in parseCharName
Syntax Warning: Could not parse ligature component "left" of "circle_arrow_left" in parseCharName
Syntax Warning: Could not parse ligature component "arrow" of "circle_arrow_right" in parseCharName
Syntax Warning: Could not parse ligature component "right" of "circle_arrow_right" in parseCharName
Syntax Warning: Could not parse ligature component "arrow" of "circle_arrow_up" in parseCharName
Syntax Warning: Could not parse ligature component "up" of "circle_arrow_up" in parseCharName
Syntax Warning: Could not parse ligature component "452" of "_452" in parseCharName
...

残念ながら現状では改善する術がありません。