Widnows上で hyperestraier 環境を整備する

背景

私は自炊した書籍や取扱説明書、領収書などをScanSnapでpdf化しています。これらを簡単に検索する仕組みを構築します。

環境の確認

以下のような環境です:
  • OS: Windows10
  • pdfファイルの場所 H:\home\myname\ScanSnap
  • hyperesraierのindexの場所: H:\home\myname\public_html\search_index

httpdのセットアップ

私は C:\cygwin64\usr\local\share\httpd の中にファイルをコピーしました。

  • ドキュメントルートは H:\home\myname/~myname -> ドキュメントルート\public_html としました。
  • CGIを許可するにチェックを入れます(もともと入ってます)。
  • 下にある追加ボタンを押して拡張子.cgiを追加し、実行プログラムは”–self–“にします。

hyperesterierのセットアップ

  • hyperesterierは http://hyperestraier.sourceforge.net/win/ からダウンロードします。
  • xdoc2txt.exeは新しいものをhttp://ebstudio.info/home/xdoc2txt.htmlからダウンロードします。

私は C:\cygwin64\usr\local\share\hyperestraier にファイルをコピーし、環境変数PATHに追加しました。

indexを作成

C:\cygwin64\usr\local\share\hyperestraier\estcmd gather -cl -fx ".pdf" T@estxfilt -fz -ic CP932 -pc CP932 -sd -cl -cm -lf 1000000 H:\home\myname\public_html\search_index H:\home\myname\ScanSnap
のようなbatファイルを作成し、実行します。

estseek.cgiの設置

H:\home\myname\public_html\search_index にhyperestraierのdll一式とestseek.*をコピーします。

estseek.confの変更点は下記の二箇所です:

indexname: H:\home\myname\public_html\search_index
replace: ^file:///H|/home/myname/{{!}}http://localhost/
replace: ^http://localhost/\|{{!}}
replace: /index\.html?${{!}}/

上記のreplaceの2行は、実際のファイルのパスをhttp上に読み替えるものです。なぜかhttp://localhostが2つ置き換わるので、2行目でもう一度置き換えています。

検索の使い方

http://localhost/~myname/search_index/estseek.cgiをブラウザで開いて検索します。