Am Freitag, dem 12.03.2010, ging still und leise ein weiteres größeres Projekt online, das ich zusammen mit einem Kollegen in der Staatsbibliothek zu Berlin realisiert hatte: Die Präsentation der digitalisierten Sammlungen.
Startseite der Digitalisierten Sammlungen der SBB
Ergebnisliste für die Kategorie „Ostasiatica“ mit Tooltip-Vorschau eines Titelblattes
Derzeit werden nicht nur Drucke aus dem 17. Jahrhundert zu verschiedenen Themengebieten digitalisert ...
... sondern auch Ostasiatica aus dem 19. und frühen 20. Jahrhundert, die häufig sehr hübsch ausgestattet sind
Wie bereits alle anderen größeren und kleineren Projekte, die ich seit Beginn meiner Tätigkeit für die Staatsbibliothek zu Berlin bearbeitet habe, konnte auch dieses Projekt termingerecht zur vollsten Zufriedenheit aller Beteiligten veröffentlicht werden. Auch der nahtlose Übergang vom Vorgänger der Präsentation der digitalisierten Sammlungen, der nur eine Notlösung dargestellt hatte, auf die von uns erstellte Präsentation erfolgte vollkommen geschmeidig und ohne jedweden für die Benutzer spürbaren Bruch.
Sinn dieses Projektes ist es, die sogenannten Digitalisate der Staatsbibliothek zu Berlin im Web zugänglich zu machen. Diese Digitalisate entstehen derzeit, wie auch in vielen anderen bedeutenden Bibliotheken der Welt, im Rahmen von Massendigitalisierungsprojekten. Die Digitalisate bestehen zum einen aus Scans der einzelnen Seiten des betreffenden Buches, zum anderen aus mit hohem bibliografischem Aufwand erstellten Strukturdaten zum selben Buch. Die Strukturdaten beinhalten sowohl ein digitales Inhaltsverzeichnis, mittels dessen eine sehr einfache Navigation innerhalb des Digitalisates ermöglicht wird, sowie bibliografische Daten wie Erscheinungsort, Verlag, Signatur des Originals und andere.
Derzeit noch nicht Teil der Digitalisate sind – abgesehen von den Strukturdaten – recherchierbare Volltexte, also die eigentlichen Inhalte der Werke in Form digitalen Textes. Volltexte zu erstellen erforderte im Moment einen sehr hohen Aufwand, da ein großer Teil der bereits vorhandenen Digitalisate in Frakturschrift gesetzt ist und verbreitete OCR-Systeme bei Fraktur, jedenfalls bei solcher aus der Zeit vor etwa dem Jahr 1800, derzeit meist noch keine befriedigenden Ergebnisse liefern.
Im Zusammenhang mit diesem schwierigen Problemkomplex möchte ich auch IMPACT (IMProving ACcess to Text) nennen. Dabei handelt es sich um ein EU-Projekt, das sich zum Ziel gesetzt hat, OCR-Technologien in besonderem Hinblick auf die Belange von Bibliotheken zu verbessern. Derzeit existiert zwar keine offizielle Partnerschaft zwischen der SBB und IMPACT; ich habe jedoch die Hoffnung, daß es zu einer solchen Partnerschaft noch kommen könnte.
Unsere Präsentation basiert auf dem Web-CMS Typo3, welches seit etwa zwei Jahren von der Staatsbibliothek zu Berlin sehr erfolgreich verwendet wird. (Bereits im August 2009 hatte ich die Migration von mehr als 5000 Webseiten der Staatsbibliothek zu Berlin, die zuvor als rein statische HTML-Dateien vorgelegen hatten, auf ein Typo3-System maßgeblich unterstützt.) Neben Typo3 werden folgende weitere Technologien speziell für die Präsentation der digitalisierten Sammlungen eingesetzt: Goobi, JQuery, Lucene, METS / MODS sowie XSLT.
Nun wird die Präsentation sukzessive weiter ausgebaut; es gibt eine Reihe weiterer Features, an denen ich derzeit arbeite. In Bälde wird auch endlich ein Digitalisierungsprojekt anlaufen, im Rahmen dessen auch Volltexte erfaßt werden (wenn auch eventuell noch nicht mittels OCR automatisiert) und deren Anzeige dann natürlich ebenfalls in die Präsentation eingebaut wird. Das ist eine Aufgabe, auf die ich mich bereits jetzt besonders freue!
Auch möchte ich allen Kolleginnen und Kollegen, die an diesem Projekt beteiligt waren, meinen herzlichsten Dank für die hervorragende Zusammenarbeit aussprechen!