Robot Google może zaindeksować każdy zasób w serwisie, również ten, który nie posiada dla niego większej wartości. Przykładem jest formularz „zadaj pytanie” dla każdego produktu. Mówimy o przypadku, kiedy formularz generowany jest dla każdego produktu pod innym adresem URL, np. zawsze zawiera ID produktu. W najgorszym wypadku w indeksie wyszukiwarki będziemy mieli taką samą ilość produktów co stron z formularzem – a to jest zdecydowanie niewskazane.
Przede wszystkim te, które naszym zdaniem nie wnoszą do serwisu żadnej dodatkowej wartości lub zawierają taką samą zawartość. W sklepach internetowych istnieje spore ryzyko indeksacji właśnie tego typu stron. Poniżej te najbardziej popularne:
Wszelkiego typu formularze, do których użytkownicy sklepu mają łatwy dostęp, powinny być zablokowane. Przykładowe to: logowanie i rejestracja użytkownika, formularz newslettera, poleć znajomemu, dodaj komentarz/opinie itd. Z reguły taka strona, poza oknami do uzupełnienia danych, nie posiada innej zawartości.
Częstym problem w sklepach są strony, które zawierają taki sam lub bardzo zbliżony tekst. Takie duplikaty mogą znajdować się w serwisie wewnętrznie, jak i zewnętrznie. Przykładem są strony regulaminów, polityki cookies, informacje dotyczące wysyłki i płatności.
Nie będziemy blokować wszystkich kategorii, ale te, w których nie mamy jeszcze produktów. Kategoria bez produktów nie ma żadnej wartości dla użytkownika, a tym bardziej dla robota.
Strony filtrów bardzo często są indeksowane, ale w przypadku szczegółowych filtrów lub zmian w ofercie, np. usunięcia produktów, w indeksie mogą pozostać strony, które nie posiadają produktów.
W większości sklepów istnieje możliwość sortowania produktów według ceny czy popularności. Poza kolejnością wyświetlania oferty nic się nie zmienia, więc taki duplikat strony ofertowej jak najbardziej można zablokować.
Podobna sytuacja występuje w przypadku zmiany widoku produktów w kategorii, gdy mamy do wyboru np. listę lub siatkę.
Z reguły odnośniki do pierwszej strony paginacji zawierają dodatkowy parametr (np. page=1), który nie zmienia nic w stronie poza adresem URL. Strony z taką wartością parametru należy blokować przed indeksacją lub przekierować na stronę główną kategorii.
Użytkownicy wpisują różne zapytania, dlatego musimy pamiętać, że mogą indeksować się zapytania wyszukiwarki, dla których nie posiadamy żadnych produktów, a takie strony nie mają wartości dla użytkowników i robotów.
Jeżeli mamy dużą liczbę produktów, mogą one generować ruch, ale jeżeli produktów na stronie tagów jest bardzo mało lub nie ma ich w ogóle, warto je również blokować.
Istnieje kilka możliwości, aby dana strona nie pojawiała się w indeksie lub została z niego usunięta.
Znacznik meta o wartości noindex informuje robota, aby dana strona nie była indeksowana, dotyczy to również stron, które chcemy wyindeksować. W sekcji
takich stron wystarczy dodać znacznik:<meta name="robots" content="noindex" />
Tekstowy plik, w którym możemy wskazać pliki lub strony, do których robot nie powinien mieć dostępu – zarazem nie będzie miał możliwości ich indeksacji. Plik robots.txt powinien być dostępny zaraz po nazwie domeny np. domena.pl/robots.txt – poniżej znajduje się przykładowy kod, który spowoduje zablokowanie wybranej podstrony oraz parametru GET odpowiedzialnego za wyszukiwanie w serwisie:
User-agent: * Allow: / Disallow: /adres-strony.html Disallow: /*?search=
Niestety w przypadku już zaindeksowanych zasobów umieszczenie instrukcji blokującej w pliku robots.txt nie spowoduje, że dane adresy zostaną całkowicie usunięte z indeksu Google – w wynikach wyszukiwania pojawi się za to informacja: „Opis tego wyniku jest niedostępny z powodu robots.txt”. Wówczas dobrym rozwiązaniem będzie skorzystanie z narzędzia Google Search Console i zgłoszenie za jego pomocą prośby o usunięcie tych adresów.
Meta znacznik, który wskazuje pierwotną stronę. Może się sprawdzić dla parametrów sortowań, gdzie zmienia się kolejność produktów na stronie kategorii. Znacznik ten umieszczamy w sekcji . Na przykład w sytuacji, gdy mamy adres http://domena.pl/kategoria/?ordern=ASC, który zawiera parametr GET, dotyczący sortowania produktów. Jeżeli nie chcemy, aby taki duplikat strony był indeksowany, musimy dodać poniższy kod:
<link href="http://domena.pl/kategoria/" rel="canonical" >
Przekazujemy w ten sposób informację, że właściwa strona znajduje się pod adresem http://domena.pl/kategoria/.
Duplikaty stron możemy przekierować na właściwy adres, w ten sposób indeks serwisu zostanie z czasem odświeżony i znikną ewentualne duplikaty. Nagłówek HTTP 301 informuje robota, że dany zasób został przeniesiony.
Oczywiście w serwisie należy unikać niepotrzebnych przekierowań. Jeżeli przekierowanie tworzy się przez np. błędny odnośnik nawigacyjny, to poza przekierowaniem niepoprawnego adresu należy ten odnośnik poprawić.
Przekierowanie możemy wykonać w pliku konfiguracyjnym serwera – np. htaccess.
Oba nagłówki HTTP mogą informować robota, że strona powinna zostać usunięta z indeksu. Pierwszy nagłówek (404) mówi, że zasób nie został odnaleziony, natomiast drugi (410), że strona została trwale usunięta. Jeżeli po kilku próbach robot wyszukiwarki otrzyma jeden z tych nagłówków, z pewnością taka strona zostanie usunięta z indeksu.
Pamiętajcie, aby najpierw zlokalizować niskiej jakości strony w swoim serwisie, a następnie zastanowić się, w jaki sposób je zablokować lub usunąć z indeksu. Jeżeli nie jesteście pewni, który z sposobów będzie najlepszy, skonsultujcie się z SEOwcem, który w każdym przypadku może zasugerować najlepsze rozwiązanie, biorąc pod uwagę inne ważne aspekty, m.in. link juice (w skrócie, moc przekazywana przez link), który może zostać zmarnowany w przypadku usunięcia strony i pozostawienia pod danym adresem strony z kodem HTTP 404.
Dodatkowo otrzymasz bezpłatnie dostęp do kursów z marketingu internetowego.