Czy można przenieść się w czasie? W internecie jest to możliwe dzięki Wayback Machine. Sprawdźmy, jak działa i w czym może pomóc to ogromne cyfrowe archiwum.
Powstałe w 1996 roku Internet Archive to organizacja non profit, której głównym celem jest gromadzenie materiałów multimedialnych. Do zbiorów fundacji Internet Archive należy biblioteka książek i filmów, zapisy nagrań telewizyjnych i różne wersje wszelakich oprogramowań. Zgromadzone zasoby są bezpłatnie udostępniane w celach edukacyjnych. Z materiałów mogą korzystać przede wszystkim historycy i badacze naukowi. Według informacji podanych na stronie serwisu archive.org archiwum zawiera:
Źródło: archive.org
Część archiwum jest dostępna dla każdego z nas. Mowa tutaj o wspomnianym we wstępie Wayback Machine, czyli pewnego rodzaju wehikule czasu w świecie stron internetowych.
Wayback Machine to archiwum cyfrowe, gromadzące kopie (snapshots) stron internetowych z różnych dni i godzin. Zasoby są pozyskiwane metodą crawlingu. Podobnie jak w procesie indeksowania stron w Google, za przeskanowanie i pobranie danych odpowiedzialne są roboty sieciowe. W archiwum znajdziemy kopie witryn z wielu przedziałów czasowych. Po wpisaniu w wyszukiwarkę archive.org danego adresu strony www otrzymujemy oś czasu – z podziałem na lata, miesiące, dni, a nawet godziny, jeśli roboty skanowały daną stronę więcej niż raz dziennie. Częstotliwość wykonywania snapshotów różni się pomiędzy poszczególnymi serwisami. Wynika to m.in. z faktu, że cały proces polega na analizie ogromnej liczby danych i kilka crawlów odbywa się jednocześnie, a pełna analiza może trwać nawet kilkanaście dni.
Źródło: archive.org
Powyższy zrzut ekranu pokazuje widok osi czasu wraz ze snapshotami (wykonanymi kopiami strony). Niebieskie oznaczenia to dni, w których zostały wykonane, natomiast na zielono odnotowano przekierowania 301. Mogą pojawić się także oznaczenia czerwone – najczęściej informujące o błędzie serwera lub pomarańczowe, gdy podjęto próbę archiwizacji nieistniejącej już podstrony (np. 404). Należy także pamiętać, że poniższy kalendarz nie oznacza, ile razy dana strona była aktualizowana, ale ile razy została przeskanowana przez Wayback Machine.
Jak mówi współzałożyciel Internet Archive Brewster Kahle, główną ideą, która towarzyszy działalności organizacji jest fakt, że społeczeństwa od wieków przywiązują szczególną wagę do zachowania śladów swojego dziedzictwa kulturowego. Dzięki takim „pocztówkom” z przeszłości możemy uczyć się na błędach, a także czerpać inspiracje dla aktualnych spraw. Zasoby zamieszczane w sieci charakteryzują się dużą ulotnością. Dotyczy to zwłaszcza linków i treści. Z powodu obszerności zbiorów, Internet Archive i Wayback Machine są często porównywane do Biblioteki Aleksandryjskiej, która była największym zbiorem tekstów starożytnego świata.
Czy można zatem zachować wszystko, co jest zamieszczane w internecie? Jeśli chodzi o Wayback Machine mamy pewne ograniczenia związane ze skanowaniem stron. Podobnie jak w przypadku robotów wyszukiwarek internetowych, barierę stanowią wszelkie blokady i dyrektywy umieszczane w pliku robots.txt, a także tagi meta robots dodawane w kodzie źródłowym serwisu. Przeszkodę stanowią również adresy, w których konieczne jest logowanie, hasło itd. Archiwum Wayback Machine gromadzi tylko to, co jest dostępne publicznie.
Źródło: archive.org
Cyfrowe archiwum archive.org można wykorzystywać na wiele sposobów. Przede wszystkim, pokazuje nam historyczny zarys tego, jak wyglądał i zmieniał się dany serwis przez lata. Może to być pomocne przy analizie, jak rozwój witryny wpłynął na rozwój biznesu, a także jak rozwój firmy przyczyniał się do zmian na stronie internetowej. Dzięki takiemu archiwum mamy możliwość poznania historii Klienta. Przeglądanie poszczególnych kopii strony pozwoli zobaczyć, jak zmieniał się serwis i jak wyglądała poprzednia oferta. Stanowi to atut zwłaszcza wtedy, gdy współpraca dopiero się rozpoczyna. Przy budowaniu nowej relacji z klientem może okazać się to bardzo pomocne. W sytuacjach spornych, kiedy doszło do zmian na stronie, zrzuty na archive.org można wykorzystać jako dowód wykonania takich modyfikacji. Wszakże archiwum Wayback Machine to przede wszystkim aspekty techniczne, które możemy wykorzystać w procesie przebudowy serwisu i jego pozycjonowania.
Jeśli chodzi o pozycjonowanie stron internetowych, Wayback Machine możemy wykorzystać przynajmniej na kilka sposobów. Poniżej przykładowe elementy, których analizę ułatwia archive.org.
Przechwycenie domeny z historią, a do tego z rozbudowanym profilem linkowym o dobrej jakości, to często wymarzony start, jeśli budujemy nowy serwis i rozpoczynamy przygodę z jego pozycjonowaniem. O ile profil linkowy sprawdzimy za pomocą takich narzędzi jak Ahrefs czy Majestic, o tyle nie pokażą one tego, co znajdowało się wcześniej na wykupionej domenie. Dzięki Wayback Machine i dostępnym zrzutom możemy sprawdzić, jakie treści znajdowały się na podstronach, a także jak wyglądała struktura danego serwisu. W przypadku działalności o tym samym profilu, co dawna zawartość domeny, możemy także pokusić się o analizę, czy posiadała ona elementy warte odtworzenia na naszej stronie.
Jeśli w innym narzędziu (jak np. Semstorm czy Google Analytics), zauważymy zmniejszenie ruchu, warto z pomocą Wayback Machine przeanalizować snapshoty z okresu poprzedzającego spadek. Być może znajdziemy coś, co zostało zmienione lub zniknęło z serwisu. Dzięki kopiom wykonywanym przez serwis sprawdzimy, czy strona nie została zainfekowana przez wirusy.
W przypadku problemów z indeksowaniem możemy postąpić analogicznie do punktu pierwszego, ponieważ Wayback Machine wśród zaindeksowanych zbiorów będzie miał także plik robots.txt. Dzięki temu sprawdzimy, czy nie doszło do zmian w jego obrębie, które przyczyniły się do problemów z indeksowaniem i kiedy takowe się zaczęły.
Wayback Machine pozwala także na wychwycenie starych linków, dzięki którym będziemy mogli doprecyzować mapę przekierowań w trakcie przebudowy serwisu. Jeżeli zostały wykonane odpowiednie snapshoty, możemy także przejrzeć stare przekierowania, które były wprowadzane w serwisie. Ich analiza pozwoli na wyciągnięcie wniosków na temat ich wpływu na kondycję serwisu.
Ponieważ Wayback Machine archiwizuje także kod źródłowy stron, możemy prześledzić jego strukturę. Okazuje się to przydatne zwłaszcza w kontekście wdrożenia kodu Google Analytics. Sprawdzimy, czy został wdrożony poprawnie i czy pojawiał się na każdej podstronie serwisu. Jest to istotne zwłaszcza wtedy, kiedy trafimy na niejasności względem statystyk ruchu serwisu.
Zdarza się też tak, że przy wprowadzaniu zmian czy większej przebudowie serwisu nieumyślnie usuniemy wartościowy content. Dzięki kopiom wykonanym przez Wayback Machine odzyskamy treści i wdrożymy je ponownie. Ponadto, badając daną podstronę na przestrzeni czasu, możemy wyciągnąć wnioski, jakiego rodzaju content wpływał na wyniki, które osiągała witryna. Dzisiaj wartościowe treści to jeden z ważniejszych elementów, jeśli chodzi o zaistnienie w wyszukiwarce Google, dlatego warto to mieć na uwadze i monitorować, które najlepiej się sprawdzają.
Na archive.org jest także dostępny moduł Site Map, dzięki któremu zobaczymy, jak rozwijała się struktura serwisu i jak wyglądają jego zagłębienia. Jest to pomocne zwłaszcza w sytuacji, kiedy chcemy przeanalizować, których stron brakuje w nawigacji i zaplanować ewentualne zmiany.
Źródło: archive.org
Dzięki kopiom strony internetowej i zapisowi dnia i godziny, otrzymujemy uporządkowaną historię zmian w serwisach internetowych. To duża wartość z punktu widzenia zachowywania cyfrowych nośników pamięci, a także pomoc w realizacji serwisów internetowych i promowania ich wśród użytkowników. Wayback Machine nie da oczywiście pełnego obrazu na temat strony www. Nieobsługiwane już technologie czy rzadka częstotliwość crawlowania mogą zaburzyć wygląd stron, ale sama analiza już stanowi pewnego rodzaju punkt zaczepienia podczas dalszych dociekań. Dodatkowo wsparcie w postaci innych narzędzi analitycznych pozwoli lepiej zrozumieć specyfikę danego serwisu i wyciągać trafniejsze wnioski na temat jego kondycji.
Archive.org to także wspaniała lekcja historii przemian samego internetu i technologii używanych na stronach www. Przeglądanie poszczególnych snapshotów uświadamia nam, jak wiele zmian zaszło w sieci i jak szybkie było ich tempo. Na koniec ciekawostka – pierwszy zrzut strony tense.pl (pierwszej wersji serwisu Grupy TENSE) wykonany 12 kwietnia 2009 roku. A także snapshoty pierwszych wersji popularnych serwisów internetowych.
Źródło: archive.org
Źródło: archive.org
Źródło: archive.org
Źródło: archive.org
Źródło: archive.org
Źródło: archive.org
Dodatkowo otrzymasz bezpłatnie dostęp do kursów z marketingu internetowego.
Szukam informacji jak webmaster może zablokować dostęp do archiwizowania strony przez WayBack Machine?
Dzień dobry,
w pliku robots.txt (plik powinien być dostępny po adresem adres-strony/robots.txt) należy dodać poniższe dyrektywy
User-agent: ia_archiver
Disallow: /
Warto również dodać te
User-agent: archive.org_bot
Disallow: /