Jakarta
Lucene ist eine leistungsstarke Volltext-Suchmaschine, geschrieben in Java. Die grundlegende Funktionsweise ist wie folgt: Zunächst weren die gesamten zu durchsuchenden Dokumente indiziert, dann wird mit Hilfe des Indizes gesucht.
Hier ist ein detaillierterer
technischer Bericht
(lokal in deutsch) und hier ein
englischer Bericht zu Lucene zu finden. Es soll auch ein Buch in Vorbereitung sein mit dem Titel Suchmaschinen entwickeln mit Apache Lucene (Online-Bestellung
Software&Support-Verlag).
Ausgewählte Eigenschaften von Lucene sind:
- Schnelles Indexing (über 200 MB pro Stunde auf Pentium II/266);
- Ergänzen ist genauso schnell, wie Erstellen eines neuen Indexes;
- geringer RAM-Bedarf (nur 1 MB auf dem Heap);
- die Indexgrösse ist ungefähr 30% des ursprünglichen Textes;
- Mächtige Suchalgorithmen;
- eine Programmbibliothek (mit API) erlaubt es Entwicklern, neue Dokumenttypen miteinzubeziehen, für weitere Sprachen zu lokalisieren oder neue Benutzerinterfaces zu entwickeln.
Der genauere Ablauf ist im folgenden Kapitel
Prozessfluss beschrieben.