Kategorie-Archiv: Printdokumentation

Z.B.: Dokumentenklassifikation / Entitätenerkennung / Verlinkung / Layout-Analyse

DDR-Tageszeitungen

DDR-Tageszeitungen der Staatsbibliothek zu Berlin

Name

DDR-Tageszeitungen der Staatsbibliothek zu Berlin

Projektart

Forschung/Anwendung

Auftraggeber

DFG

Laufzeit/Jahr

2012

Auftragnehmer

Staatsbibliothek zu Berlin, Fraunhofer IAIS, ArchivInForm

Kurzbeschreibung

Das von der DFG geförderte Projekt digitalisiert und erschließt semi-automatisch drei DDR-Tageszeitungen (Neues Deutschland, Berliner Zeitung, Neue Zeit) mit allen Ausgaben von 1946-1990. Gut 400.000 Zeitungsseiten werden dabei gescannt, Scan- und Bildfehler automatisch korrigiert und für die Erschließung zur Verfügung gestellt. Über eine Artikelsegmentierung werden Überschriften, Unterschriften und Artikelblöcke erkannt und auf Artikelebene gruppiert. Dabei werden im automatischen Schritt bereits sehr gute Ergebnisse erzielt. Eine OCR erkennt den Text im Bild und stellt die Artikel als Volltext zur Verfügung. In einer manuellen Nachbearbeitung werden die automatischen Ergebnisse optimiert und anschließend in ein gängiges Austauschformat konvertiert. Die so erschlossenen Ausgaben werden über eine Webseite abrufbar und durchsuchbar sowie zusätzlich als PDF mit Volltext bereitgestellt.

Eingesetzte Technologien

Automatische Scan-/Bildkorrektur, Artikelsegmentierung (Optical Layout Recognition, OLR), optische Zeichenerkennung (Optical Character Recognition, OCR), Artikelarchivexporter (für METS/MOTS/ALTO)

Nutzungspotentiale und Einsatzgebiete

Digitalisierung und Erschließung von Zeitungsarchiven; Verbesserter Zugriff auf Archivinhalte (Durchsuchbarkeit); Redaktionelle Suche; Erstellung kultureller/historischer Sonderausgaben; Recherchesystem für Historiker

Webseiten/Links

Ansprechpartner

  • Fraunhofer IAIS – Ulrich Wernecke  (Telefon: 02241 14 2530)
  • ArchivInForm, Staatsbibliothek zu Berlin

Ansprechpartner im Medienunternehmen

Dr. Lieder (Email)

Bilder

Layout-Analyse

Name

Layout-Analyse: Artikelsegmentierung von digitalisierten Zeitungsseiten

Funktionsweise

Bei der Artikelsegmentierung werden Zeitungsseiten automatisch in einzelne Artikel zerlegt. Jeder Artikel wird mit den genauen Koordinationsdaten gespeichert. Im Fall von z.B. Zeitungen werden dann XML-Beschreibungen der logischen und physischen Struktur von Dokumenten auf der Ebene von Artikeln erzeugt. Damit steht jeder Artikel als einzelnes Asset und Datenendpunkt zur Verfügung.
Da eine 100% Artikelsegmentierungsgenauigkeit nicht möglich ist, werden häufig manuelle Nacherarbeitungsschritte und -tools verwendet. Trotz des manuellen Nachverarbeitungsaufwands wird durch die automatische Artikelsegmentierung der Aufwand um den Faktor 5 verringert.

Nutzungspotentiale und Einsatzgebiete

Erschließung von Zeitungsseiten; Archive in Bibliotheken; Zeitungs- und Zeitschriftenverlage; Unterstützung der redaktionellen Suche; Einfache Erstellung von Zeitungs-Sonderausgaben (Jubiläumsausgaben, Jahresrückblicke, chronologische Themendossiers, etc.)

Referenzprojekte

Anbieter und Ansprechpartner

Fraunhofer IAIS (http://www.iais.fraunhofer.de/diensteplattform-technologien.html) – Dr. Stefan Eickeler (Telefon: 02241 14 1969)

Bilder