DDR-Tageszeitungen

admin — Fri, 24 May 2013 13:28:26 +0000

DDR-Tageszeitungen der Staatsbibliothek zu Berlin

Name

DDR-Tageszeitungen der Staatsbibliothek zu Berlin

Projektart

Forschung/Anwendung

Auftraggeber

DFG

Laufzeit/Jahr

2012

Auftragnehmer

Staatsbibliothek zu Berlin, Fraunhofer IAIS, ArchivInForm

Kurzbeschreibung

Das von der DFG geförderte Projekt digitalisiert und erschließt semi-automatisch drei DDR-Tageszeitungen (Neues Deutschland, Berliner Zeitung, Neue Zeit) mit allen Ausgaben von 1946-1990. Gut 400.000 Zeitungsseiten werden dabei gescannt, Scan- und Bildfehler automatisch korrigiert und für die Erschließung zur Verfügung gestellt. Über eine Artikelsegmentierung werden Überschriften, Unterschriften und Artikelblöcke erkannt und auf Artikelebene gruppiert. Dabei werden im automatischen Schritt bereits sehr gute Ergebnisse erzielt. Eine OCR erkennt den Text im Bild und stellt die Artikel als Volltext zur Verfügung. In einer manuellen Nachbearbeitung werden die automatischen Ergebnisse optimiert und anschließend in ein gängiges Austauschformat konvertiert. Die so erschlossenen Ausgaben werden über eine Webseite abrufbar und durchsuchbar sowie zusätzlich als PDF mit Volltext bereitgestellt.

Eingesetzte Technologien

Automatische Scan-/Bildkorrektur, Artikelsegmentierung (Optical Layout Recognition, OLR), optische Zeichenerkennung (Optical Character Recognition, OCR), Artikelarchivexporter (für METS/MOTS/ALTO)

Nutzungspotentiale und Einsatzgebiete

Digitalisierung und Erschließung von Zeitungsarchiven; Verbesserter Zugriff auf Archivinhalte (Durchsuchbarkeit); Redaktionelle Suche; Erstellung kultureller/historischer Sonderausgaben; Recherchesystem für Historiker

Webseiten/Links

Ansprechpartner

Fraunhofer IAIS – Ulrich Wernecke (Telefon: 02241 14 2530)
ArchivInForm, Staatsbibliothek zu Berlin

Ansprechpartner im Medienunternehmen

Dr. Lieder (Email)

Bilder

Layout-Analyse

admin — Fri, 24 May 2013 09:22:20 +0000

Name

Layout-Analyse: Artikelsegmentierung von digitalisierten Zeitungsseiten

Funktionsweise

Bei der Artikelsegmentierung werden Zeitungsseiten automatisch in einzelne Artikel zerlegt. Jeder Artikel wird mit den genauen Koordinationsdaten gespeichert. Im Fall von z.B. Zeitungen werden dann XML-Beschreibungen der logischen und physischen Struktur von Dokumenten auf der Ebene von Artikeln erzeugt. Damit steht jeder Artikel als einzelnes Asset und Datenendpunkt zur Verfügung.
Da eine 100% Artikelsegmentierungsgenauigkeit nicht möglich ist, werden häufig manuelle Nacherarbeitungsschritte und -tools verwendet. Trotz des manuellen Nachverarbeitungsaufwands wird durch die automatische Artikelsegmentierung der Aufwand um den Faktor 5 verringert.

Nutzungspotentiale und Einsatzgebiete

Erschließung von Zeitungsseiten; Archive in Bibliotheken; Zeitungs- und Zeitschriftenverlage; Unterstützung der redaktionellen Suche; Einfache Erstellung von Zeitungs-Sonderausgaben (Jubiläumsausgaben, Jahresrückblicke, chronologische Themendossiers, etc.)

Referenzprojekte

Anbieter und Ansprechpartner

Fraunhofer IAIS (http://www.iais.fraunhofer.de/diensteplattform-technologien.html) – Dr. Stefan Eickeler (Telefon: 02241 14 1969)

vfm-Weblog für Mediendokumentation » Printdokumentation

DDR-Tageszeitungen

DDR-Tageszeitungen der Staatsbibliothek zu Berlin

Name

Projektart

Auftraggeber

Laufzeit/Jahr

Auftragnehmer

Kurzbeschreibung

Eingesetzte Technologien

Nutzungspotentiale und Einsatzgebiete

Webseiten/Links

Ansprechpartner

Ansprechpartner im Medienunternehmen

Bilder

Layout-Analyse

Name

Funktionsweise

Nutzungspotentiale und Einsatzgebiete

Referenzprojekte

Anbieter und Ansprechpartner

Bilder