Was ist Webarchivierung?
Wenn man vom Archivieren einer Webseite spricht, ist das Sammeln und Aufbewahren von Webseiten und den darin enthaltenen Informationen gemeint. Man kann sich diesen Prozess ähnlich vorstellen, wie das herkömmliche Archivieren von Papierdokumenten. Man beginnt mit der Suche von Daten und Informationen. Anschließend werden Inhalte ausgewählt, gespeichert und beispielsweise auf einer Festplatte archiviert.
Ab diesem Zeitpunkt können die Informationen der gespeicherten Seiten der Öffentlichkeit im Archiv zur Verfügung gestellt werden. Insbesondere folgende Gruppen haben Interesse an solchen Archiven: Forscher, Historiker, Journalisten und Universitäten, aber auch Unternehmen, Behörden und andere Organisationen. Manche Branchen sind aber auch verpflichtet, Ihre Webseiten zu archivieren.
Wie funktioniert die Webseiten Archivierung
Da das Internet eine Unmenge an Webseiten enthält, werden bei der Archivierung meist automatische Verfahren angewendet, um Seiten zu sammeln und aufzubewahren. Dafür verwenden Webseiten sogenannte Crawlersoftwares. Die Crawler bewegen sich im Web und innerhalb von URLs und extrahieren und speichern dabei Informationen. Diese Bots spielen eine wichtige Rolle bei der Genauigkeit der Webseitenerfassung. Aufgrund der Komplexität moderner Seiten ist dieser Prozess zu einer Herausforderung für alle Archivierungsanbieter geworden.
Nach Abschluss des Crawlings sind die archivierten Seiten, und die darin enthaltenen Informationen, als Teil der Webarchivsammlung verfügbar. Diese können wie im „Live-Web“ abgespielt und navigiert werden. Sie behalten jedoch nur die zu einem bestimmten Zeitpunkt veröffentlichten Inhalte.
Was ist ein Crawler?
Der Crawler, kann auch Spider-Bot genannt werden und ist ein Internet-Bot, der systematisch das World Wide Web durchsucht. Normalerweise existiert er, um eine Webseite zu indexieren. Das bedeutet, er nimmt alle Informationen einer Seite in den Index/ in ein Register auf. Suchmaschinen, wie Google nutzen diese Bots, um das Ranking der Seiten in den Suchergebnissen zu bestimmen.
Warum ist die Archivierung von Webseiten wichtig?
Unternehmen, Regierungsbehörden und Organisationen erstellen Websites als Teil der Kommunikation mit der Öffentlichkeit, da sie leistungsstarke Tools für Marketing und Informationsaustausch sind. Websites repräsentieren die Marke, die Werte und die Persönlichkeit eines Unternehmens und dokumentieren den öffentlichen Charakter einer Organisation und ihre Interaktionen mit Zielgruppen und Kunden. Darüber hinaus sind die im Internet veröffentlichten Informationen zum primären Ort geworden, an dem wir Informationen suchen und erhalten. Aus diesem Grund gilt eine Website als wichtiges, öffentliches Dokument.
Bedeutung der Webseiten Archivierung für verschiedene Branchen
Finanzdienstleistungsbranche
Manche Branchen, wie die Rechtsbranche und die Finanzbranche sind gesetzlich verpflichtet Ihre Seiten aufzubewahren:
Nach der Finanzkrise 2008 wurde die Finanzdienstleistungsbranche umgestaltet, um die Verbraucher zu schützen und die Transparenz zu erhöhen. Infolgedessen müssen regulierte Organisationen eine strenge Reihe von Vorschriften einhalten, die sich ständig weiterentwickeln und ändern. Von diesen Vorschriften stehen einige in einem direkten Zusammenhang mit der Sicherung von Inhalten in einem Webarchiv. Aufsichtsbehörden auf der ganzen Welt verlangen von Firmen, dass sie aufgrund von gesetzlichen Vorschriften zur Aufbewahrung von Dateien, URLs und Domains, genaue Webaufzeichnungen führen. Das ist auch für die Organisation nützlich, wenn es beispielsweise darum geht, im Fall eines Rechtsstreits wichtige Beweise vorzulegen.
Marketingbranche
Heute erstellen und vertreiben die weltweit führenden Marken, neben ihren traditionellen Markenwerten, wie beispielsweise Printwerbung auch umfangreiche Inhalte im Internet. Dies hat dazu geführt, dass die Markenarchivierung immer wichtiger wird. Nicht nur für die Erhaltung des Markenerbes, sondern auch, um eine genaue Aufzeichnung dessen zu führen, welche Produkte den Kunden zu einem bestimmten Zeitpunkt gefielen und welche Strategien funktionierten.
Marken verwenden die Erhaltungs-Software oft auch auf andere Weise. Ein durchsuchbares Archiv, welches digitale Kopien enthält, wird demnach gerne verwendet, um die nächste Generation von Marketingfachleuten zu inspirieren. Der Zugriff auf das Internet-Archiv und ermöglicht es ihnen, ihr digitales Erbe wiederzuentdecken.
Öffentlichkeit
Viele Nationalarchive, Bibliotheken, Regierungs- und Universitätsarchive speichern große Mengen an Daten, URLs und Domains, aus kulturellen und historischen Gründen. Diese Internet-Archive dienen späteren Generationen als Grundlage Recherchen. Der öffentliche Sektor investiert vermehrt in digitale Kanäle. Aus diesem Grund finden Organisationen Wege, ihre Aufbewahrungsorte zu erweitern und nutzen dabei die Vorteile von Cloud-Servern. Dies ermöglicht eine effizientere und flexiblere Speicherung großer Datenmengen. Ziel ist es, Daten künftig Forschern, Beamten, Studenten und der breiten Öffentlichkeit zugänglich zu machen.
Was ist der Unterschied zwischen dem Archivieren und dem Erstellen eines Backups?
Zu Beginn ist zu sagen, dass sowohl Backups als auch Internet-Archive wichtig für die Aufbewahrung der Web-Infrastruktur sind. Backups dienen eher der täglichen Absicherung für den Fall, dass Daten unerwartet verloren gehen, wie beispielsweise bei einem Brand. Das Archivieren hingegen dient eher als Möglichkeit, die Webseitenentwicklung zu dokumentieren.
- Backups sind datenbasiert. Hier geht es darum, die Daten einer Seite zu erhalten. Das dient vor allem dazu, im Fall der Fälle die Webseite wieder herstellen zu können. So kann verhindert werden, dass Dateien verloren gehen.
- Archive enthalten den Kontext zu den Daten. Wenn Sie die Archive Ihrer Lieblingsseiten durchsuchen, werden Sie feststellen, dass die Funktionalität oft unvollständig ist. Das Design, wie Bilder und der statische Inhalt der Seite sind jedoch größtenteils intakt.
Es ist erwähnenswert, dass man beim Archivieren von Webseiten nicht vollständig auf die Datenaufbewahrung verzichtet. Tatsächlich besteht einer der Vorteile darin, dass Benutzer Archivseiten durchsuchen können, als wären sie „live“.