Ausschreibung "Workflow für selektives Webharvesting"
Details zur Ausschreibung Nr. 17512
| Titel der Ausschreibung: | |
|---|---|
| Workflow für selektives Webharvesting | |
| Gegenstand der Ausschreibung | |
| Ziel ist es, zusammen mit einem Dienstleister einen Workflow zu etablieren, bei dem ausgewählte Websites regelmäßig eingesammelt (Harvesting), gesichert und über ein Webinterface bereitgestellt werden. Während die Auswahl der zu sammelnden Websites und die Bereitstellung von Metadaten zu den Websites in unserem Katalogsystem vorgenommen wird, sollen das technische Einsammeln inkl. Qualitätskontrolle, die Speicherung (Hosting) und die Bereitstellung inkl. Volltextsuche durch einen Dienstleister durchgeführt werden. Der Workflow soll folgende Schritte beinhalten: 1. Auswahl Über ein Webinterface vom Dienstleister geben unsere Mitarbeiter zu sammelnde Websites an (Seed-URLs) zusammen mit einem Titel, einer Kategorie und Basisparameter für den Crawl (Häufigkeit, Harvesting-Profil). Die zur Auswahl stehenden Kategorien müssen über das Webinterface verwaltbar sein. Ebenso muss eine Übersicht und Änderung der eingegebenen Daten möglich sein. Neben der manuellen Erfassung einzelner Websites über eine Maske muss auch ein technisches Interface zur automatisierten Übergabe aller nötigen Parameter für eine größere Anzahl von Sammelaufträgen vorhanden sein. 2. Metadatenübernahme Die bei der Auswahl erfassten Daten werden von Seiten des Dienstleisters in einem automatischen Verfahren an eine Schnittstelle zur Übernahme in das Katalogsystem übergeben. Dabei müssen auch eindeutige Zugriffskennungen übermittelt werden. 3. Harvesting Auf Seiten des Dienstleisters werden ein oder mehrere Crawler gestartet, welche alle ausgewählten Websites mit den konfigurierten Parametern in den vorbestimmten Zeitintervallen einsammeln. 4. Qualitätskontrolle Der Dienstleister soll durch automatisierte und ggf. manuelle Verfahren die technische Qualität der Resultate des Harvesting überprüfen und falls dies dabei als nötig erkannt wurde mit veränderten Einstellungen das Harvesting erneut durchführen. 5. Bereitstellung Die Daten werden von den Servern des Dienstleisters über eine gesicherte Verbindung exklusiv den Nutzern in den Lesesälen bereitgestellt. Dies erfolgt sowohl über ein Volltextsuchinterface beim Dienstleister, als auch über einen direkten Zugriff auf einzelne Websites aus dem Katalogsystem. Bei der Anzeige im Browser müssen die archivierten Webseiten durch ein Banner jeweils deutlich als Archivkopie gekennzeichnet sein. Die eigentlichen Webseiten sollen jedoch intern unverändert vorliegen. 6. Archivübermittlung Der Dienstleister muss eine Schnittstelle zur Verfügung stellen, über die alle bisherigen gesammelten Daten an uns zur Archivierung übermittelt werden können. Die Daten müssen im ISO-Standard WARC vorliegen und eindeutig den vorher übermittelten Metadaten zuzuordnen sein. Das Hosting für die Bereitstellung ist von der Archivübermittlung unabhängig und wird vom Dienstleister für die Dauer des Vertragsverhältnisses für alle gesammelten Daten fortgesetzt. Neben dem beschriebenen Workflow für ein selektives Harvesting sind wir daran interessiert, in regelmäßigen Abständen (alle ein bis 2 Jahre) ein Domain-Harvesting der Top-Level-Domain .de von einem Dienstleister durchführen zu lassen. Die in den Schritten 5 und 6 zuvor beschriebenen Leistungen des Dienstleisters müssten auch für ein solches Domain-Harvesting erbracht werden. Ein Domain-Harvesting wird als optional angesehen. Der Dienstleister soll die verwendeten Tools dem aktuellen Forschungsstand anpassen und neue Technologien insbesondere zur Effizienzsteigerung beim Harvesting und der Qualitätssicherung integrieren, sobald diese verfügbar sind. Bei technischer Machbarkeit könnte die Metadatenerfassung schon jetzt durch automatische Extraktionsverfahren ersetzt werden. Der selektive Workflow muss für stetig ansteigende Mengen ausgelegt sein und das Angebot, insbesondere für das Hosting, die sprunghafte Zunahme durch die regelmäßigen Crawls und das Hinzukommen neuer Sammlungsbereiche berücksichtigen. Im ersten Jahr wird von einer Startmenge von ca. 840 Websites ausgegangen. Für die kommenden Jahre wird vorerst mit einer Zunahme von ca. 100 Websites pro Jahr gerechnet, wobei darüber hinaus eine Zusammenarbeit mit anderen Institutionen zur Bestimmung von weiteren Websites angestrebt wird, wodurch auch eine stärkere Zunahme möglich wäre. Das Angebot muss entsprechend flexibel gestaltet sein. Der Dienstleister sollte Erfahrungen mit Webharvesting, Hosting und Bereitstellung in der vorgesehenen Größenordnung haben. Er sollte mindestens 2 Referenzkunden vorweisen können, mit denen bereits vergleichbare regelmäßig durchgeführte Workflows in diesem Umfang bestehen. Der Dienstleister hat Beschreibungen zum Vorgehen und Verfahren bei diesen Referenzkunden vorzulegen, aus denen die Vergleichbarkeit zum geforderten Workflow und Umfang hervorgeht. Diese Ausschreibung wurde am 26.08.2011 bei IT-Ausschreibung.de veröffentlicht. Die Ausschreibung ist bereits beendet, weil die Angebotsfrist abgelaufen ist. Eine Bewerbung um diesen Auftrag ist nicht mehr möglich. | |
| Ort der Ausschreibung |
|---|
| Frankfurt am Main |
Die vollständige Ausschreibung mit detaillierter Auftragsbeschreibung und Kontaktdaten zum Auftraggeber ist nur für registrierte Anbieter (Auftragnehmer) abrufbar.
Wenn Sie bereits Mitglied sind, loggen Sie sich bitte ein, um die Ausschreibung vollständig einzusehen.
Wenn Sie noch kein registriertes Mitglied sind, klicken Sie bitte auf 'Jetzt Registrieren'.
Wenn Sie bereits Mitglied sind, loggen Sie sich bitte ein, um die Ausschreibung vollständig einzusehen.
Wenn Sie noch kein registriertes Mitglied sind, klicken Sie bitte auf 'Jetzt Registrieren'.
| Jetzt registrieren | Infos und Preise |
![]() | Ausschreibungen der Rubrik "Multimedia" |



