全文検索システム Namazu

Last Modified: 2000-01-26


概要

Namazu は手軽に使えることを第一に目指した日本語全文検索システムで す。CGI として動作させることにより小中規模の WWW 全文検索システム を構築することができるほか、ハードディスク内のファイルを対象とした パーソナルな用途にも使えます。現在のところ Mule, Tcl/Tk, JAVA, Win32 用の検索ツールが用意されています。

UNIX, Win32, OS/2 の上で動作可能です。 Win32については 広瀬@NECエンジニアリングさんによる 全文検索システム Namazu for Win32のホームペイジがあります。 Win32版に関する詳しい情報はこちらを参照してください。
OS/2版に関する詳しい情報は清水さんによる OS/2 port of Namazu the full text retrieval search systemのペイジを参照してください。 それぞれのペイジにはバイナリ・パッケージも用意されています。

Namazu の開発 は多くの方たちの協力によって成り立っています。オープン な環境で開発を行うためのメイリングリスト があります。興味のある方はぜひ参加してください。

Namazu についての FAQ (よくある質問とその答 え) と セキュリティに関する考察をまと めました。

新着情報

主な仕様

この全文検索システムはインデックス作成の部分を Perl で行い、 検索部分をC 言語によるプログラムで行う仕組みになっています。 検索速度はディスクキャッシュの効果が大きく影響してくるので厳 密には測定できませんが、Pentium 166 MHz, Memory 64 MB の Linux マシンで数十メガバイトのファイルを元に作成されたインデッ クスを検索した場合、大体 0.1 秒程度で検索が完了します。アル ゴリズムの性格上、検索時間はインデックスのサイズにそれほど影 響されません (log 関数の伸びを示します)。

CGI としてだけでなく namazu.el を使って Mule から検索したり Tcl/Tk で作られた tknamazu という GUI な検索クライアントを利用できます。 また、 Win32 の環境では Search-S という GUI な検索クライアントを利用できます。

検索プログラムはメモリをほんのわずかしか要求しません。また、 単体で CGI として機能します。

Mail/News を考慮したインデクシングを行うことが可能です。特に メイリングリストやニューズの記事の全文検索システムを作るのに 適しています。

検索はアンド検索とオア検索およびノット検索に対応しています。 また、 v1.2.0 からはフレイズ検索および中間一致/後方一致/ 正 規表現による検索も可能になっています。検索結果の表示はスコア の高い順にソートされ、 AltaVistaODIN のように要約の表示を 行います。要約は HTML のヘディング構造を元に作成されます。ま た、一ペイジで表示しきれない分についてはペイジ単位 (標準では 20 件単位) で表示できます。

スコアは単語の出現回数だけではなく <TITLE> <H[1-6]> <A> などの HTML タグによる重みを考慮して 計算されます。また、<META NAME="keywords" CONTENT="foo bar"> にも対 応しています。

インデックス作成の際に <IMG> タグから ALT 要素を取り出 す、実体参照を復号する、検索結果の表示に ISO-2022-JP でHTML 4.0 Strict DTD に従った HTML を出力するなど、HTML の扱いには できるだけ配慮しています。また、出力する HTML については石川 雅康@W3C さん作の jweblint で検証済みです。

インデックス作成にかかる時間は Pentium 166 MHz + 64 MB の Linux マシンで約 2000 個の合計 25 MB のファイルを処理した場 合で約 50 分 (KAKASI を使用)。

外部のサーヴァのファイルの取得は他のソフトに任せています。 wget などをお使いください。日本語のわかち書きには KAKASI, または奈良先端 科学技術大学院大学の ChaSen を利用しています。

さらに詳しい情報を知りたい方はマニュアルを参照してください。

ダウンロード

GPL2 (日本語訳)に従ったフリーソフトウェアとして公開します。

ソース配布

こちらは古い (枯れた) ヴァージョン

ベータ版の置場所

関連リンク集

歴史

history.html にまとめました。

プログラムの履歴に関しては ChangeLog を参照してください。

文責


Namazuの homepage へ

satoru-t@is.aist-nara.ac.jp