pdftotext で横組み用のかなを取り出す

pdftotext で横組み用のひらがなとカタカナを取り出せるように High Sierra 用 Ghostscript(試作版)を修正しました。

pdftotext は CID と Unicode 番号との対応表「Adobe-Japan1.cidToUnicode」を使ってテキストを抽出していますが、この対応表には横組み用のひらがなとカタカナの設定がありません(0000 になっています)。そのため、

\usepackage[expert]{otf}

などとして作った PDF ファイルからはテキストを抽出ません。

そこで、横組み用のかなに縦組み用の(つまり、通常の)かなを割り当てることで、次善の策としてあります。完全に抜け落ちるより実用的だと思います。ただし、手作業のため、間違いがあるかもしれませんがご容赦ください。なお、オリジナルの「Adobe-Japan1.cidToUnicode」も拡張子 .orig を付けて同梱しています。

修正にあたっては以下のサイトを参考にさせていただきました。ありがとうございました。