Co to jest Crawler (web crawler) – Definicja
Crawler to oprogramowanie komputerowe wykorzystywane do przeszukiwania stron internetowych, co jest z kolei podstawą do ich indeksacji. Możemy spotkać się także z nazwami „pająk” czy „robot/bot”. Działanie tego typu botów jest kluczowe dla najważniejszych funkcjonalności wyszukiwarek. Najpopularniejszym crawlerem jest GoogleBot (wykorzystywany przez Google), jednak jest ich zdecydowanie więcej – wystarczy wspomnieć, że każde narzędzie SEO przeszukujące Internet korzysta ze swojego bota (np. Ahrefs ma AhrefsBota).
Jak działa crawler?
Podstawowe działania crawlera opiera się na odwiedzaniu stron, by następnie przejść na kolejne podstrony/strony zewnętrzne poprzez znalezione linki. To jeden z powodów, dla których odpowiednie linkowanie jest tak istotne – bez tego optymalne indeksowanie strony w wyszukiwarce byłoby bardzo utrudnione lub niemożliwe. Dokładne funkcjonowanie tego typu programów jest nieco bardziej skomplikowane i uwzględnia m.in. zmiany na stronach dynamicznych czy konfigurację witryny dotyczącą indeksowania.
W wyniku przeszukania strony następuje proces przesłania tych danych do indeksu wyszukiwarki. Indeks ten stanowi swego rodzaju bazę, na podstawie której algorytmy ustalają wyniki w odpowiedzi na hasła wpisywane przez internautów do wyszukiwarki.
Crawler, indeksowanie i plik robots.txt
Warto pamiętać, że indeksowanie nie rozpoczyna się od razu po utworzeniu strony. Aby witryna była uwzględniona w wynikach wyszukiwania, musi być najpierw odnaleziona przez crawlery. To z kolei może stać się na kilka sposobów – najczęstsze scenariusze to przejście na stronę przez link z innej witryny lub wysłanie zgłoszenia w Google Search Console. Pierwsza z tych kwestii zazwyczaj nie jest całkowicie pod kontrolą właściciela strony, co sprawia, że często dobrym wyborem jest postawienie na drugą opcję. Po zgłoszeniu strony do indeksacji w GSC zwykle musimy swoje odczekać, zanim zostanie ona dodana do indeksu wyszukiwarki (zwłaszcza jeśli chcemy podejrzeć tam jakieś dane – one pojawią się z kilkudniowym opóźnieniem). Warto również zatroszczyć się o dodanie poprawnych map witryny (sitemap XML), co może przyspieszyć proces indeksacji.
Jeśli z kolei chcemy zablokować pewne podstrony z możliwości indeksowania, możemy wykorzystać plik robots.txt umieszczony w głównym katalogu strony. Jest to prosty plik tekstowy, który może zawierać dyrektywy „Allow” i „Disallow” dla określonych ścieżek i tzw. user-agentów (nagłówek identyfikacyjny – każdy z crawlerów posiada unikalny user agent). Dzięki temu można łatwo i precyzyjnie kontrolować działanie crawlerów.
Jak sprawdzić, czy crawlery odwiedziły stronę?
Jeśli chodzi nam o indeksację, to jej zweryfikowanie jest bardzo proste – wystarczy sprawdzić, czy zawartość strony wyświetla się w wynikach wyszukiwania. W przypadku Google można to zrobić, dodając do zapytania argument „site:” wraz z adresem strony. Jeśli nie wyświetlą się żadne wyniki, oznacza to, że musimy jeszcze poczekać na indeksację lub wystąpiły problemy, które uniemożliwiają dodanie strony. Możemy to również sprawdzić w Google Search Console, w „Stan indeksowania”.
Jeśli chcemy zweryfikować czy crawler odwiedził stronę i jak sobie na niej radził – świetnym źródłem informacji są logi serwera, które dla sprawnego SEOwca mogą być kopalnią wiedzy. Pokażą kto i w jaki sposób poruszał się po stronie, a to jest punktem wyjścia do określenia czy nasza strona posiada poważne błędy, mogące sprawiać problemy robotom wyszukiwarek.
Crawlery wyszukiwarek, a narzędzia SEO
Mówiąc o crawlerach najczęściej myślimy o botach wyszukiwarek, które mają na celu indeksację stron. Jednak SEOwcy musieli stworzyć narzędzia, które imitują zachowania takich crawlerów, aby móc sprawniej i dokładniej zbierać dane o swojej witrynie. W tym celu powstały narzędzia, które analizują w ten sposób całe serwisy, co jest świetnym punktem wyjścia do technicznej analizy stron. Mówimy tu m.in. o:
- Ahrefs.com
- Screaming Frog
- SEMrush
- Sitebulb
- Scrapy
- itd.
Co więcej, osoba znająca się na programowaniu może bez większego problemu stworzyć własnego crawlera, który będzie miał wykonać na stronach konkretną akcję.
Crawlery a SEO
Zrozumienie działania crawlerów jest bardzo istotne dla poprawnego przeprowadzenia działań z zakresu SEO. Jeśli strona ma błędy, które uniemożliwiają indeksowanie przez crawlery, nie będzie wyświetlana w organicznych wynikach wyszukiwania. Przyczyny mogą być różne – m.in. blokujące metatagi, plik robots.txt, blokady serwera lub niewłaściwe odpowiedzi HTTP. W celu zidentyfikowania problemów najlepiej posłużyć się specjalistycznymi narzędziami. Niektóre błędy są wyświetlane w Google Search Console, jednak warto skorzystać także z oprogramowania SEO. Swoje rozwiązania z tego zakresu oferują m.in. Ahrefs, SEMrush czy Sitebulb. Przydatnym wsparciem w indeksowaniu, pozycjonowaniu i innych zadaniach związanych z promowaniem strony w sieci jest także współpraca z agencją SEO.
SAMOSEO
Tekst został opracowany przez ekspertów SEO. Nasz zespół tworzą specjaliści z wieloletnim doświadczeniem w pozycjonowaniu. Prowadzimy efektywne kampanie dla klientów z różnych branż, m.in. IT, finansowej, motoryzacyjnej, turystycznej, wnętrzarskiej, budowlanej, modowej czy kosmetycznej. Na naszym blogu wyjaśniamy podstawowe pojęcia z zakresu optymalizacji stron internetowych. Podpowiadamy, co zrobić, żeby osiągnąć wysokie pozycje w organicznych wynikach wyszukiwania i zbudować przewagę konkurencyjną w biznesie. Chcesz nas lepiej poznać? Zapraszamy do zakładki O nas.