Den meisten Anwendern fällt recht schnell auf, dass sich nach dem Erstellen eines
Oracle TEXT-Index einige zusätzliche Tabellen im Datenbankschema befinden.
SQL> create index FT_PO on PURCHASEORDER_TAB (XML_DOCUMENT)
2 indextype is ctxsys.context
3 /
Index wurde erstellt.
SQL> select * from tab;
TNAME TABTYPE CLUSTERID
------------------------------ ------- ----------
PURCHASEORDER_TAB TABLE
DR$FT_PO$N TABLE
DR$FT_PO$R TABLE
DR$FT_PO$K TABLE
DR$FT_PO$I TABLE
: :
Diese Tabellen enthalten den eigentlichen Textindex - meist sind es vier Tabellen, wie wir noch
sehen werden, können es aber durchaus mehr werden. Das Namensschema ist immer gleich.
- Es beginnt mit dem Präfix DR
- Bei nichtpartitionierten Indizes folgt ein "$", bei partitionierten Indizes ein "#"
- Dann folgt der Name des Volltextindex
- Bei einem partitionierten Index schließt sich eine "Partitions-ID" direkt an den Indexnamen an
- Es folgt wieder ein "$"
- Abschließend folgt ein Suffix, welches die genaue Aufgabe der Tabelle bezeichnet - im folgenden werden die einzelnen Tabellentypen näher erläutert
Ein Oracle TEXT Index besteht aber immer aus wenigstens vier Tabellen - in Oracle12c können es aber bis zu neun werden.
$I: Token-Tabelle
----------------------------------------- -------- ------------------
TOKEN_TEXT NOT NULL VARCHAR2(64)
TOKEN_TYPE NOT NULL NUMBER(10)
TOKEN_FIRST NOT NULL NUMBER(10)
TOKEN_LAST NOT NULL NUMBER(10)
TOKEN_COUNT NOT NULL NUMBER(10)
TOKEN_INFO BLOB
----------------------------------------- -------- ------------------
Die Token-Tabelle ist die eigentliche Indextabelle. Sie speichert die Tokens, also die einzelnen
Wörter, die sich durch die Zerlegung des Fließtexts ergeben haben, in der Spalte TOKEN_TEXT ab. Die Spalte
TOKEN_INFO enthält (in binärer Form) die Informationen, in welchen Dokumenten, an welchen Stellen das
jeweilige Token vorkommt. Die übrigen Spalten sind Hilfsspalten, damit das Interpretieren des BLOB effizienter
wird.
Wird eine Volltextabfrage ausgeführt, so schaut Oracle TEXT zuerst in diese Tabelle - anhand der Suchbegriffe
werden die BLOBs aus TOKEN_INFO ausgelesen und weiter verarbeitet.
$R: Mapping von DOCID auf ROWID
----------------------------------------- -------- ------------
ROW_NO NOT NULL NUMBER(3)
DATA BLOB
----------------------------------------- -------- ------------
Oracle Text arbeitet intern nicht mit ROWIDs als Zeiger auf die Tabellenzeilen, sondern mit DOCIDs. Bei
der Indizierung erhält die erste Zeile die DOCID 1 und dann wird weitergezählt. Der Grund dafür
ist, dass ein Volltextindex eine invertierte Liste ist - im Gegensatz zu einem "normalen" Index zeigen
mehrere Einträge auf eine Tabellenzeile. Die Verwendung von ROWIDs würde zu extrem
großen Indizes führen, so dass man die sparsameren DOCIDs verwendet. Die bereits erwähnte Spalte
TOKEN_INFO in der $I-Tabelle liefert also DOCIDs zurück. Damit Oracle TEXT aber
Tabellenzeilen zurückliefern kann, braucht es eine Mapping-Tabelle - anhand der $R-Tabelle kann
nun zu jeder gefundenen DOCID die ROWID herausgesucht werden. Die ROWID zeigt dann schließlich auf
die gewünschte Tabellenzeile. Normalerweise ist ein Oracle Text Index so aufgesetzt, dass diese Tabelle
immer im Hauptspeicher residiert, also zur Abfragezeit keine I/O-Last generiert.
$K: Mapping von ROWID auf DOCID
----------------------------------------- -------- ----------------------------
DOCID NUMBER(38)
TEXTKEY NOT NULL ROWID
----------------------------------------- -------- ----------------------------
Die $K-Tabelle ist das "Gegenstück" zur $R-Tabelle - anhand einer gegebenen ROWID findet sie
die für den Textindex relevante DOCID heraus. Für Abfragen ist diese Tabelle weniger wichtig; benötigt
wird sie aber bei DML-Operationen auf bereits indizierte Zeilen - wird beispielsweise eine Zeile
mit SQL DELETE gelöscht, dann braucht Oracle TEXT die DOCID, um das Löschen auch im Textindex zu vermerken.
$N: Negativliste - enthält gelöschte Dokumente
----------------------------------------- -------- ----------------------------
NLT_DOCID NOT NULL NUMBER(38)
NLT_MARK NOT NULL CHAR(1)
----------------------------------------- -------- ----------------------------
Bekanntlich arbeitet Oracle TEXT asynchron (der Parameter TRANSACTIONAL bleibt hier außer Acht).
Eine SQL INSERT-Anweisung bewirkt, dass die ROWID der
Tabellenzeile in die PENDING-Tabelle eingetragen und damit "zur Indizierung vorgesehen" wird (die tatsächliche
Indizierung erfolgt durch eine SYNC-Operation). Eine
SQL DELETE Anweisung bewirkt, dass die Datenbank die DOCID ermittelt ($K-Tabelle) und diese dann
in die Negativliste einträgt. Bei Abfragen ermittelt Oracle TEXT die Treffermenge ganz normal
und filtert dann die Einträge der Negativliste heraus. Ein SQL UPDATE wird
wie ein DELETE, gefolgt von einem INSERT, behandelt. Das hat den interessanten Effekt, dass
neu eingefügte Dokumente erst nach dem SYNC sichtbar werden, gelöschte dagegen sofort verschwinden
und mit SQL UPDATE veränderte Einträge ebenfalls bis zum nächsten SYNC "unsichtbar" werden.
$P: Hilfstabelle für den Substring-Index
----------------------------------------- -------- ----------------------------
PAT_PART1 NOT NULL VARCHAR2(61)
PAT_PART2 NOT NULL VARCHAR2(64)
----------------------------------------- -------- ----------------------------
Der Substring-Index muss mit Hife der Wordlist-Preference explizit eingeschaltet
werden und unterstützt Abfragen mit einem Wildcard auf der linken Seite. Sucht
man bspw. nach dem Text %DATENBANK, so ist klar, dass die $I-Tabelle (Spalte TOKEN_TEXT)
prinzipiell komplett geparst werden muss - anstelle des Wildcard können ja beliebige Zeichen stehen.
Bei sehr großen Indizes kann das ein Problem sein - schließlich wird auch die $I-Tabelle nun
sehr groß. Der Substring-Index legt die $P-Tabelle als Hilfstabelle an - das Token ORACLEDATENBANK
würde in dieser Tabelle wie folgt abgelegt:
PAT_PART1 PAT_PART2
-------------------- --------------------
ORACLEDATENB ANK
ORACLEDATEN BANK
ORACLEDATE NBANK
ORACLEDAT ENBANK
: :
ORACLE DATENBANK
:
Ist diese Tabelle vorhanden, so werden die Suchbegriffe mit einer Wildcard links zuerst anhand
dieser Tabelle über die Spalte PAT_PART2 aufgelöst - mit der sich ergebenden Tokenliste wird danach normal verfahren.
Die Größe der $P-Tabelle liegt typischerweise zwischen 10 und 20 Prozent der Größe des Textindex.
$S: Hilfstabelle für strukturierte Elemente (SDATA-Sections)
----------------------------------------- -------- ----------------------------
SDATA_ID NOT NULL NUMBER
SDATA_LAST NOT NULL NUMBER
SDATA_DATA RAW(2000)
----------------------------------------- -------- ----------------------------
In der $S-Tabelle werden
strukturierte Bestandteile des Index gespeichert - dies ist seit
Oracle11
g mit den
Composite Domain Indexes möglich. Oracle TEXT erlaubt
auf diesen
SDATA-Section zusätzlich auch Suchen wie <, >, BETWEEN und andere. SDATA-Sections
haben einen Datentypen - unterstützt ist neben
VARCHAR2 auch
NUMBER oder
DATE, was für Abfragen
wichtig ist (intern speichert die Tabelle die Daten im RAW-Format ab). SDATA-Sections können entweder durch die Klauseln
FILTER BY und
ORDER BY
im
CREATE INDEX-Kommando oder durch die Erstellung einer
Section Group mit expliziten
SDATA Sections deklariert werden.
$G: Automatic Near Realtime Index (Oracle12c)
----------------------------------------- -------- ----------------------------
TOKEN_TEXT NOT NULL VARCHAR2(64)
TOKEN_TYPE NOT NULL NUMBER(10)
TOKEN_FIRST NOT NULL NUMBER(10)
TOKEN_LAST NOT NULL NUMBER(10)
TOKEN_COUNT NOT NULL NUMBER(10)
TOKEN_INFO BLOB
----------------------------------------- -------- ----------------------------
$E: Hilfstabelle für XML-Namespaces (Oracle12c)
----------------------------------------- -------- ----------------------------
ID NOT NULL VARCHAR2(12)
NAMESPACE VARCHAR2(4000)
LNAME NOT NULL VARCHAR2(256)
NS VARCHAR2(100)
----------------------------------------- -------- ----------------------------
Ein weiteres neues Feature in Oracle12
c ist die Unterstützung von
XQuery Fulltext, also
der Volltextsuche in XML-Dokumenten
mit vollständiger Unterstützung des XML-Datenmodells. Die $E-Tabelle
speichert dabei XML-Zusatzinformationen ab, die im "normalen" Volltextindex keinen Platz finden - hier sind
vor allem die
XML-Namespaces zu nennen, die denn auch vor Oracle12
c nicht von Oracle TEXT unterstützt
wurden. Das Feature wurde ebenfalls bereits in
einem Blog-Posting näher beschrieben.
$D: Hilfstabelle für das Save-Copy Feature (Oracle12c)
----------------------------------------- -------- ----------------------------
DOCID NOT NULL NUMBER(10)
ATTRIBUTES BLOB
DOC BLOB
CONFIG VARCHAR2(2000)
FLAG NOT NULL NUMBER(5)
Auch das Save Copy Feature wurde in Oracle12c eingeführt. Ist es aktiviert, so speichert
Oracle TEXT die Plaintext- oder gefilterte Version eines Binärformates wie PDF, DOC, PPT oder anderen
in der $D-Tabelle ab. Zum Generieren von SNIPPETs, MARKUPs oder HIGHLIGHT-Dokumenten können
dann die in dieser Tabelle abgelegten Kopien verwendet werden - früher musste das Originaldokument
hierfür nochmals gefiltert werden, was sich natürlich negativ auf die Performance auswirkte ...