Digital Library Framework: Installation und Konfiguration, Teil 2

Backend Plugins des DLF

Im nächsten Schritt müssen wir die Backend Plugins, die das DLF mitbringt, installieren. Dafür wird zuallererst im Typo3-Seitenbaum unserer Instanz ein neues Element vom Typ “Folder” (in früheren Typo3-Versionen “Sysfolder” genannt) angelegt. Hier hat der Folder zweckmäßigerweise den Namen “DLF configurations” erhalten:

Der “Folder” für die Backend Plugins

Nach einem Klick auf “Create new record” sehen wir die verfügbaren Backend Plugins des DLF: “Documents”, “Structures”, “Metadata”, “Collections” und “Libraries”, alle unter “Goobi.Presentation” zu finden.

Die Backend Plugins stehen als Seiteninhaltselemente zur Verfügung

Zunächst benötigen wir nur zwei der angebotenen Seiteninhaltselemente: “Structures” und “Metadata”. Wenn wir mit unserer Konfiguration wie hier beschrieben fertig sind, wird unser Folder “DLF configurations” folgendermaßen aussehen:

So sieht die fertige Konfiguration aus, mit der wir später indizieren können

Nun müssen wir zunächst für jeden Strukturtyp, der in unseren Digitalisaten vorkommen kann, jeweils ein Inhaltselement vom Typ “Structures” anlegen. Dazu ist die Kenntnis dessen notwendig, welche Strukturtypen in unserer jeweiligen Institution vorkommen können. Wurde die Erfassung der bibliographischen Strukturdaten beispielsweise mit Hilfe von Goobi.Production vorgenommen, so existiert dafür ein sogenannter Regelsatz (ruleset). In diesem ist detailliert beschrieben, welche Strukturtypen und welche bibliographischen Metadaten in den Digitalisaten erlaubt sind, die mit Goobi.Production bearbeitet werden.

Einen wichtigen Anhaltspunkt dafür, was an Strukturtypen überhaupt vorkommen kann, liefert aber auch die Strukturdatenliste des DFG-Viewers. Weil Digitalisierungsprojekte in deutschen Bibliotheken häufig (wenn nicht sogar stets) von der Deutschen Forschungsgemeinschaft (DFG) unterstützt werden, wird man meist von einer Kompatibilität zu den vom DFG-Viewer unterstützten Strukturtypen ausgehen können.

Sicherlich wird es etliche weiterere Strukturtypen als nur die Monografie geben, aber aus Gründen der Übersichtlichkeit beschränken wir uns an dieser Stelle auf nur diese. Das Inhaltselement vom Typ “Structures” ist einfach zu konfigurieren; vorerst werden nur die Felder “Display Label” und “Index Name” ausgefüllt. Ersteres ist die Bezeichnung dieses Strukturtyps, wie sie später im Frontend für den Benutzer sichtbar wird; zweiteres der Bezeichner innerhalb der METS-Struktur, der als XPath ausgedrückt folgendermaßen lautete:

/mets:structMap[@TYPE="LOGICAL"]/mets:div[@TYPE]

Hier muß aber nur der Bezeichner angegeben werden und nicht der komplette XPath.

Konfiguration von “Structures”

Weiter geht es mit der Konfiguration der Inhaltselemente vom Typ “Metadata”. Hier benötigen wir für jedes Metadatum, das indiziert und auch später im Frontend angezeigt werden soll, ein eigenes Inhaltselement. Siehe oben – zur Veranschaulichung habe ich jeweils eines für die bibliographischen Metadaten “Titel”, “Autor”, “Erscheinungsjahr”, “Erscheinungsort”, “Kategorie” und “Signatur” angelegt.

Hier werden die Felder “Display Label” und “Index Name” analog zum Inhaltselement vom Typ “Structures” angelegt. Außerdem sollte unter “Encoding” stets das richtige Format ausgewählt werden – in unserem Fall “MODS” – weil die Extension bei der Indexierung prüft, welches Format die deskriptiven Metadaten in der METS-Datei haben und dann nur diejenigen Metadaten-Konfigurationen darauf anwendet, die genau diese oder keine konkrete Kodierung angegeben haben. Somit können also mehrere Metadatenformate innerhalb derselben METS-Dateien verwendet werden, selbst wenn dabei manche “Index Names” mehrfach vorkommen.

Außerdem können hier XPaths für die Metadaten festgelegt werden. Doch vorsicht: Dadurch werden die oberhalb davon festgelegten Einstellungen überschrieben! Im Beispiel fände – bei leergelassenem XPath – im Hintergrund eine sogenannte Formatklasse mit der Kodierung “MODS” und deren Elementen “title” und “nonSort” den korrekten Wert für den Titel. Der hier zusätzlich angegebene XPath überschreibt dies jedoch, so daß tatsächlich der Titel ohne “nonSort” zum Zuge käme.

Konfiguration von “Metadata”

Vergleichshalber hier die XPaths, die ich für die in diesem Setup verwendeten “Metadata” konfiguriert habe:

Display Label Index Name XPath
Titel title /mods:titleInfo/mods:title
Autor author /mods:name[@type='personal'][mods:role/mods:roleTerm='aut'[@authority='marcrelator'][@type='code']]
Erscheinungsjahr year /mods:originInfo[1]/mods:dateIssued[@encoding='w3cdtf'][@keyDate='yes']
Erscheinungsort place /mods:originInfo[1]/mods:place/mods:placeTerm[@type='text']
Kategorie type /mods:classification[@authority='ZVDD']
Signatur shelfmarksource /mods:location/mods:shelfLocator

Indizieren im Backend

Damit sind wir bereit dafür, eine erste METS-Datei zu indizieren. Das Indizieren kann auf zwei verschiedene Arten geschehen: Entweder im Backend “von Hand”, oder skriptgesteuert automatisiert.

Das System kann in beiden Fällen für jede METS-Datei sowohl eine http-URL als auch eine file-URL als auch einen absoluten Pfad im Dateisystem verarbeiten. Demzufolge wären folgende drei Eingaben gleichermaßen möglich:

Außerdem muß unbedingt darauf geachtet werden, daß die zu indizierende METS-Datei auch tatsächlich von einem der Strukturtypen ist, die wir bereits als Inhaltselement vom Typ “Structures” angelegt haben. Im hier beschriebenen Fall muß also der Strukturtyp, der in der METS-Datei unter /mets:structMap[@TYPE="LOGICAL"]/mets:div[@TYPE] steht, “monograph” sein. Anderenfalls bricht das Indizieren mit einer Fehlermeldung ab!

Wir sehen uns zunächst die erstere Methode an. Seit der Installation des DLF gibt es ein neues Modul in der Werkzeugleiste links im Typo3-Backend: “Digital Library Framework / Indexing”. Ein Klick darauf bringt uns zu folgendem Dialog, in dem wir die URL einer METS-Datei eingeben können. Möglicherweise bekommen wir im ersten Moment auch eine Meldung “You are not allowed to access this page or have not selected a page, yet” zu Gesicht. Das soll uns aber nicht schrecken, ein Klick auf den Folder “DLF configurations” beseitigt diese Meldung.

Das Indizieren im Backend …

Nach der Eingabe der URL im Feld “METS-Datei” und dem Klick auf “Start indexing” teilt das System uns – wenn alles glattging – mit, daß der Vorgang erfolgreich war und daß zusätzlich ein neues Inhaltselement vom Typ “Library” angelegt wurde.

… war erfolgreich!

Ein Klick auf das Modul “Web / List” zeigt uns nun, daß der Vorgang tatsächlich erfolgreich war: Es ist ein neues Inhaltselement vom Typ “Documents” entstanden. Jedes weitere Digitalisat wird ebenfalls durch ein solches repräsentiert werden. Das Digitalisat ist nun in den DLF-Datenbanktabellen bekannt und ebenso im Solr-Index, wovon wir uns wiederum durch folgende Abfrage überzeugen können: http://solrhost:8080/solr/dlfCore0/select?q=*:*&indent=on&wt=php.

Ein erstes Dokument ist im DLF!

Hier geht es zum dritten Teil, in dem wir skriptgesteuert indizieren und dieses ein wenig erweitern und automatisieren werden.

Add post to: Delicious Reddit Slashdot Digg Technorati Google
(already: 9) Comment post

Comments

No comments for this post

Required. 30 chars of fewer.

Required.

captcha image Please, enter symbols, which you see on the image