Co to jest robots.txt - Definicja w słowniku SEORobots.txt to plik tekstowy, który zawiera wytyczne dotyczące zachowania botów indeksujących względem wskazanych stron lub plików. Z jego pomocą można definiować zasady dotyczące dostępu, a w szczególności wykluczyć dostęp do poszczególnych podstron lub sekcji witryny, przez co optymalizuje się crawl budget.

Gdzie powinien znaleźć się plik robots.txt i jak wygląda jego zawartość?

Poprawna lokalizacja pliku robots.txt to główny katalog z kodem strony – najczęściej jest to folder „public_html”, jednak w zależności od konfiguracji serwera ścieżka może wyglądać inaczej. Należy pamiętać także o poprawnej nazwie: musi to być dokładnie „robots.txt”. Zawartość musi być natomiast zgodna z wytycznymi protokołu Robots Exclusion Protocol (REP), który definiuje następujące elementy:

  • komentarze – oznaczane znakiem „#”, ignorowane przez roboty podczas analizy zawartości pliku;
  • rekordy – wpisy zasad dla robotów.

W polu „Disallow” możliwe jest wpisanie zarówno folderów, jak i ścieżek do konkretnych zasobów. Wartość pola „User-agent” powinna być z kolei zgodna z nazwami poszczególnych robotów indeksujących (np. w przypadku Google będzie to „Googlebot”). W przypadku braku pliku robots.txt (lub niepoprawnej nazwy bądź lokalizacji) cała strona może być indeksowana przez wszystkie roboty.

Jakie adresy warto wykluczyć?

Podstawowym zastosowaniem pliku robots.txt jest wykluczanie poszczególnych ścieżek z crawlowania, co pozwala zabezpieczyć dostęp, a jednocześnie usprawnić pozycjonowanie. Wśród wpisów w tym pliku powinny znaleźć się m.in. sekcje z ograniczonym dostępem, takie jak panel administracyjny. Warto także wyłączyć z indeksowania dynamiczne ścieżki, np. generowane przez paginację czy sortowanie stron. Mogą one mieć negatywny wpływ na pozycjonowanie z uwagi na fakt, że treść poszczególnych podstron jest w tym przypadku bardzo podobna. Częstą praktyką jest także wykluczanie z indeksowania plików graficznych i multimedialnych, które nie mają zbyt dużej wartości pod względem pozycjonowania witryny.

Jak sprawdzić działanie pliku robots.txt?

Aby zweryfikować poprawność wpisów w pliku robots.txt, nie trzeba czekać na zaindeksowanie poszczególnych sekcji czy adresów. Zamiast tego można posłużyć się licznymi narzędziami dostępnymi online. Jednym z nich jest Google Search Console – w ramach tej platformy można znaleźć narzędzie do testowania pliku robots.txt (Robots Testing Tool). W celu skorzystania z tego rozwiązania należy wcześniej zweryfikować witrynę w GSC. Niezweryfikowane strony mogą być testowane z użyciem propozycji innych dostawców. Raport z odpowiedniego narzędzia powinien przedstawiać zablokowane adresy wraz z wyszczególnieniem robotów, które nie mają dostępu do poszczególnych ścieżek na stronie. Dzięki temu można mieć pewność, że całość została zaimplementowana w poprawny sposób.

Blokowanie indeksowania czy dostępu?

Warto pamiętać, że robots.txt blokuje dostęp robotów wyszukiwarek do poszczególnych stron, a nie służy do ich wyindeksowania. Jeśli chciałbyś wyindeksować stronę, która już znalazła się w indeksie, musisz zrobić to np. poprzez dodanie „noindex” w nagłówku HTTP lub tagu meta. Jeśli równocześnie chciałbyś zablokować dostęp do tej strony w robots.txt, wówczas robot nigdy jej nie odwiedzi i nie zastosuje się do reguły „noindex”, przez co będzie cały czas widoczna w indeksie.

Redakcja SAMOSEO
Autor wpisu

SAMOSEO

Tekst został opracowany przez ekspertów SEO. Nasz zespół tworzą specjaliści z wieloletnim doświadczeniem w pozycjonowaniu. Prowadzimy efektywne kampanie dla klientów z różnych branż, m.in. IT, finansowej, motoryzacyjnej, turystycznej, wnętrzarskiej, budowlanej, modowej czy kosmetycznej. Na naszym blogu wyjaśniamy podstawowe pojęcia z zakresu optymalizacji stron internetowych. Podpowiadamy, co zrobić, żeby osiągnąć wysokie pozycje w organicznych wynikach wyszukiwania i zbudować przewagę konkurencyjną w biznesie. Chcesz nas lepiej poznać? Zapraszamy do zakładki O nas.

0 komentarzy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *