ザウルスで Wikipedia を持ち歩く(前編)
ウィキペディアのコンテンツは再配布や再利用が認められており、そのためのダンプデータが提供されている*1。これを EPWING 形式に変換すれば、インターネットに接続していなくてもザウルス上で閲覧することができる。と聞けば、たいへん便利に思うだろう(ただし現状では表や画像、音声等には対応していない)。
そこでさっそく試してみたのだが、例によってかなり時間がかかってしまった。手順はいたって簡単なのだが、日頃あまり使っていない Cygwin を利用するために、エラーなどで手間取ってしまったのだ。
よってまず手順をまとめておき、当方が直面した問題は後編で書くことにしよう。なお、一連の作業は Windows XP 上で行うことを想定している。
- 必要な環境
- Cygwin
- perl 5.8 以降(Active Perl ではなく Cygwin のパッケージ)
- FreePWING(Cygwin にインストールする)
- wikipedia-fpw
- HDD 容量(現状では 10G 程度の空きスペース)
- ダンプデータの変換作業
- 1. ウィキペディアのダンプデータ(圧縮ファイル)をダウンロードして、解凍する
- 2. ダンプデータをリネームして、wikipedia-fpw のフォルダへ移動する。設定ファイルの編集
- 3. Cygwin のシェル上で上記フォルダへ移動。コマンド "fpwmake" を実行(辞書の作成)
- 4. 同じくシェル上でコマンド "fpwmake catalogs" を実行(catalogs ファイルが生成される)
- 5. 同じくコマンド "fpwmake package" を実行(辞書のパッケージ化)
- ザウルスへのインストール
- 辞書データをザイルスへ移動する
- EPWING リーダーで設定する
以下では、個々の手順を多少くわしく書こう。
準備作業
Cygwin と perl のインストールについては割愛する。
FreePWING は、まず公式ホームページより最新版(現在では 1.6)のソースコードをダウンロードする。
freepwing-1.6.tar.bz2
これを解凍して、できたディレクトリに bash などの Cygwin シェル 移動する。そして以下のコマンドを入力し、Cygwin にインストールする。
$ cd /tmp/freepwing-1.6.tar/freepwing-1.6
$ ./configure
$ make
$ make install
次に wikipedia-fpw をインストールする。配布元の Kazuhiro's blog より最新版をダウンロードする。
wikipedia-fpw-20091002-src.tar.gz
wikipedia-fpw は作業ディレクトリとなるので、ダウンロード後に解凍すればよい。
そしてウィキペディアのダンプデータを入手する。日本語版のダウンロードページより、ディレクトリ "latest" に入る。すると色々なファイルがあるが、ダウンロードするのは
jawiki-latest-pages-articles.xml.bz2
である。ダウンロード後は解凍し、なかの xml ファイルを "wikipedia.xml" にリネームする。それを前述の wikipedia-fpw フォルダに移動する。これで準備完了である。
変換作業
それでは本番である PWING 形式への変換に移ろう。Cygwin のシェルを起動して、前述の wikipedia-fpw があるディレクトリに移動する。ls コマンドなどで、色々なファイルと wikipedia.xml があることを確認しよう。
次に、設定ファイルを編集する。wikipedia-fpw の仕様というか、ウィキペディアのダンプデータの問題から、 Cygwin の perl でうまく変換できない箇所があるらしいのだ。
上記のような説明はどうでもよくてとにかくcygwinのperlで変換したい場合は相互参照を無効にして下さい。(Kazuhiro's blog)
そこで適当なテキストエディタで、wikipedia-fpw のフォルダにある wikipedia-fpw.conf を開いて、以下のように編集する。
[...]
'enable_reference' => 0, # 相互参照を無効にする
[...]
'enable_math' => 0, # 数式を収録しない
以上のように修正したら、設定ファイルを保存して終了する。そしてシェルにもどって、以下のコマンドを入力する。
$ fpwmake
$ fpwmake catalogs
$ fpwmake package
最初の fpwmake にはかなりの時間がかかるので、気長に待とう。ここで何かしらのエラーがでて辞書が作成されなかった場合は、後編を参照して欲しい。
問題がなければ該当フォルダに、wikipedia-fpw-yyyymmdd.zip というファイルができているはずである("yyyymmdd" の箇所はダンプファイルの日付)。これで変換作業は完了である。
ザウルスへのインストール
後は簡単である。上記の ZIP フィイルを展開して、フォルダ WIKIP をザウルスにコピーする。ザウルス上では付属のマルチメディア辞書や ZTEN をもちいて検索すればよい。
速さは軽快。ただし、相互参照で様々な項目へジャンプすることができないのは、ちょっと残念である。時間があれば、Linux 上で再変換してみたい。
後編はトラブル集です。