Archive für Webseiten anlegen


Um Webseiten oder komplette Internetauftritte zu archivieren, kann man auf verschiedene Tools zurückgreifen. Für die Linux-Kommandoziele existiert seit vielen Jahren das Tool wget.

Verwenden von wget zur Archivierung von Webseiten:

wget --mirror --page-requisites --adjust-extension --convert-links --no-parent --restrict-file-names=ascii -e robots=off -P <Speicherort> <URL>
  • --mirror: Dieser Schalter erstellt ein Spiegelbild der Webseite.
  • --page-requisites: Lädt alle notwendigen Dateien, wie Bilder und Stylesheets, herunter.
  • --adjust-extension: Ändert die Dateinamen, um die Dateierweiterungen korrekt abzubilden.
  • --convert-links: Konvertiert die Verknüpfungen, damit sie lokal auf die heruntergeladenen Dateien zeigen.
  • --no-parent: Verhindert das Herunterladen von Dateien, die über das ursprüngliche Verzeichnis der Webseite hinausgehen.
  • –restrict-file-names=ascii: Der „ASCII“-Modus wird hier für die Dateinamen verwendet, um anzugeben, dass alle Bytes, deren Werte außerhalb des ASCII-Zeichenbereichs liegen (d. h. größer als 127), maskiert werden sollen. Dies kann beim Speichern von Dateinamen nützlich sein, deren Kodierung nicht mit der lokal verwendeten übereinstimmt.
  • -e robots=off: Ignoriert Anweisungen vom Server aus der Datei robots.txt
  • -P <Speicherort>: Legt den Speicherort für das Webseitenarchiv fest.
  • <URL>: Die URL der Webseite, die du archivieren möchtest.

Nachdem der Befehl ausgeführt wurde, hat wget die Webseite herunterladen und ein Archiv erstellt.

Weitere Informationen

https://wiki.ubuntuusers.de/wget/

https://www.gnu.org/software/wget/manual/wget.html