Robots.txt – plik zawierający wszystkie polecenia dla robotów wyszukiwarki odwiedzających stronę internetową. Robots.txt zawiera dyrektywy zezwalające i blokujące dostęp do określonych zasobów witryny (plików, folderów, adresów URL).
Dzięki zastosowaniu pliku robots.txt, właściciele stron mogą kontrolować dostęp do swoich zasobów, zabezpieczając wrażliwe dane przed indeksacją. Ponadto, plik ten może pomóc w optymalizacji procesu indeksacji, poprzez wskazanie robotom tylko tych zasobów, które są istotne dla wyszukiwarki.
Warto zauważyć, że przestrzeganie dyrektyw zawartych w pliku robots.txt przez roboty wyszukiwarki jest dobrowolne. Większość renomowanych wyszukiwarek przestrzega tych zasad, jednak nie ma gwarancji, że wszystkie roboty je respektują. Dlatego też stosowanie pliku robots.txt nie zastępuje innych metod zabezpieczania danych.
Plik robots.txt składa się z serii dyrektyw, które są instrukcjami dla robotów wyszukiwarki. Każda dyrektywa składa się z nazwy polecenia oraz wartości, oddzielonych dwukropkiem. W pliku można umieścić wiele dyrektyw, każda w osobnej linii.
Najważniejsze dyrektywy to „User-agent” oraz „Disallow”. Dyrektywa „User-agent” określa, do którego robota wyszukiwarki dana dyrektywa ma się odnosić. Można tu wpisać nazwę konkretnego robota, bądź użyć znaku „*” w celu zastosowania dyrektywy dla wszystkich robotów. Dyrektywa „Disallow” natomiast wskazuje, które zasoby mają być zablokowane dla danego robota.
Inną ważną dyrektywą jest „Allow”, która służy do zezwolenia na dostęp do określonych zasobów, nawet jeśli wcześniejsza dyrektywa „Disallow” blokowała je. Dzięki temu można precyzyjnie kontrolować dostęp robotów do poszczególnych części witryny.
Poniżej przedstawiamy kilka przykładów użycia pliku robots.txt w praktyce:
1. Zablokowanie dostępu do całej witryny dla wszystkich robotów:
User-agent: *
Disallow: /
2. Zablokowanie dostępu do konkretnego folderu dla wszystkich robotów:
User-agent: *
Disallow: /folder/
3. Zezwolenie na dostęp do konkretnego pliku w zablokowanym folderze:
User-agent: *
Disallow: /folder/
Allow: /folder/plik.html „`
Ważne jest, aby pamiętać o prawidłowym formatowaniu pliku robots.txt, gdyż błędy mogą prowadzić do nieprawidłowego działania dyrektyw.