Öffentliche Ausschreibung
Texterkennung OCR Zeitungs-Digitalisate
Gegenstand der Ausschreibung
Der Auftraggeber stellt dem Auftragnehmer (AN) nach Auftragsvergabe die Bilddaten auf einem Server zum Download zur Verfügung. Aus den ca. 2,7 Millionen Bilddateien, die jeweils eine Zeitungsseite abbilden, sind mittels OCR Volltexte zu erstellen.
Der Datenumfang beträgt ca. 20 TB. Die Dateien haben unterschiedliche Merkmale. Durch Lückenergänzungen aus anderen Einrichtungen wurden Digitalisate nicht ausschließlich vom Auftraggeber erzeugt, daher sind die Merkmale nicht einheitlich. -Dateiformat JPEG (überwiegend): Qualität 79% bis 99%, Auflösung 300 bis 400 dpi, Grayscale/Farbe
-Dateiformat TIFF: 300 bis 400 dpi, unkomprimiert, Farbe
- Anteil der farbigen Images: insgesamt max. 3%
Diverse repräsentative Vorlagen liegen den Vergabeunterlagen bei. Zeitungsseiten sind sowohl in Fraktur (überwiegend) als auch in Antiqua gedruckt, teilweise kommen verschiedene Fonts auf einer Seite vor.
Das Layout der Zeitungsseiten ist, dem historischen Materialtyp geschuldet, komplex. Die OCR- Ergebnisse sind im XML-Format auf Basis der Schemata METS und ALTO zu liefern. Der AN muss für die OCR-Resultate mindestens die Qualität Q, die bei der Bewertung der Werkproben ermittelt wurde, (auf Zeichenbasis - redaktionelle Texte) gewährleisten.
Die Verarbeitung der Bilddateien soll in zwei etwa gleich großen Tranchen erfolgen, um einen frühen Abschluss des Auftrags zu erzielen.
Art des Auftrags
Dienstleistung
Erfüllungsort (Bundesland):
Bundesweit
Die Ausschreibung ist bereits beendet, weil die Angebotsfrist abgelaufen ist.
Eine Bewerbung um diesen Auftrag ist nicht mehr möglich.
Auftraggeber
10785 BerlinKontaktdaten des Auftraggebers
FreischaltenAngebotsfrist: 01.06.2023
Ausführliche Beschreibung des Auftrags
Freischalten
Wenn Sie bereits Mitglied sind, loggen Sie sich bitte ein, um die Ausschreibung vollständig einzusehen.
Wenn Sie noch kein registriertes Mitglied sind, klicken Sie bitte auf 'Jetzt Registrieren'
Weitere Ausschreibungen mit ähnlichen Inhalten finden Sie unter folgenden Kategorien.