DDR-Tageszeitungen

DDR-Tageszeitungen der Staatsbibliothek zu Berlin

Name

DDR-Tageszeitungen der Staatsbibliothek zu Berlin

Projektart

Forschung/Anwendung

Auftraggeber

DFG

Laufzeit/Jahr

2012

Auftragnehmer

Staatsbibliothek zu Berlin, Fraunhofer IAIS, ArchivInForm

Kurzbeschreibung

Das von der DFG geförderte Projekt digitalisiert und erschließt semi-automatisch drei DDR-Tageszeitungen (Neues Deutschland, Berliner Zeitung, Neue Zeit) mit allen Ausgaben von 1946-1990. Gut 400.000 Zeitungsseiten werden dabei gescannt, Scan- und Bildfehler automatisch korrigiert und für die Erschließung zur Verfügung gestellt. Über eine Artikelsegmentierung werden Überschriften, Unterschriften und Artikelblöcke erkannt und auf Artikelebene gruppiert. Dabei werden im automatischen Schritt bereits sehr gute Ergebnisse erzielt. Eine OCR erkennt den Text im Bild und stellt die Artikel als Volltext zur Verfügung. In einer manuellen Nachbearbeitung werden die automatischen Ergebnisse optimiert und anschließend in ein gängiges Austauschformat konvertiert. Die so erschlossenen Ausgaben werden über eine Webseite abrufbar und durchsuchbar sowie zusätzlich als PDF mit Volltext bereitgestellt.

Eingesetzte Technologien

Automatische Scan-/Bildkorrektur, Artikelsegmentierung (Optical Layout Recognition, OLR), optische Zeichenerkennung (Optical Character Recognition, OCR), Artikelarchivexporter (für METS/MOTS/ALTO)

Nutzungspotentiale und Einsatzgebiete

Digitalisierung und Erschließung von Zeitungsarchiven; Verbesserter Zugriff auf Archivinhalte (Durchsuchbarkeit); Redaktionelle Suche; Erstellung kultureller/historischer Sonderausgaben; Recherchesystem für Historiker

Webseiten/Links

Ansprechpartner

  • Fraunhofer IAIS – Ulrich Wernecke  (Telefon: 02241 14 2530)
  • ArchivInForm, Staatsbibliothek zu Berlin

Ansprechpartner im Medienunternehmen

Dr. Lieder (Email)

Bilder

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>