背景
私は自炊した書籍や取扱説明書、領収書などをScanSnapでpdf化しています。これらを簡単に検索する仕組みを構築します。
環境の確認
以下のような環境です:- OS: Windows10
- pdfファイルの場所 H:\home\myname\ScanSnap
- hyperesraierのindexの場所: H:\home\myname\public_html\search_index
httpdのセットアップ
私は C:\cygwin64\usr\local\share\httpd の中にファイルをコピーしました。
- ドキュメントルートは H:\home\myname/~myname -> ドキュメントルート\public_html としました。
- CGIを許可するにチェックを入れます(もともと入ってます)。
- 下にある追加ボタンを押して拡張子.cgiを追加し、実行プログラムは”–self–“にします。
hyperesterierのセットアップ
- hyperesterierは http://hyperestraier.sourceforge.net/win/ からダウンロードします。
- xdoc2txt.exeは新しいものをhttp://ebstudio.info/home/xdoc2txt.htmlからダウンロードします。
私は C:\cygwin64\usr\local\share\hyperestraier にファイルをコピーし、環境変数PATHに追加しました。
indexを作成
C:\cygwin64\usr\local\share\hyperestraier\estcmd gather -cl -fx ".pdf" T@estxfilt -fz -ic CP932 -pc CP932 -sd -cl -cm -lf 1000000 H:\home\myname\public_html\search_index H:\home\myname\ScanSnapのようなbatファイルを作成し、実行します。
estseek.cgiの設置
H:\home\myname\public_html\search_index にhyperestraierのdll一式とestseek.*をコピーします。
estseek.confの変更点は下記の二箇所です:
indexname: H:\home\myname\public_html\search_index
replace: ^file:///H|/home/myname/{{!}}http://localhost/ replace: ^http://localhost/\|{{!}} replace: /index\.html?${{!}}/
上記のreplaceの2行は、実際のファイルのパスをhttp上に読み替えるものです。なぜかhttp://localhostが2つ置き換わるので、2行目でもう一度置き換えています。