Jak správně nastavit soubor robots.txt?

Pokud se cítíte jako Robinson Crusoe na neznámém ostrově, když se mluví o robots.txt, nemusíte se bát. Tento průvodce vás bezpečně provede všemi důležitými aspekty tohoto kritického technického prvku pro SEO. Pokud však hledáte specialistu pro řešení technického aspektu vašeho webu, neváhejte mě kontaktovat.

Co je soubor robots.txt?

Robots.txt někdy označovaný jako SEO robots.txt je speciální textový soubor, který je pro vyhledávací roboty jako je Googlebot nesmírně důležitý. Nachází se v kořenovém adresáři webové stránky a poskytuje pokyny, které určují, jak mohou vyhledávači procházet a tak i indexovat stránky vašeho webu.

Vyhledávače jako Google využívají tento soubor jako řídící protokol při procházení vašeho webu. Pokud je robots.txt nastaven správně, může pomoci zlepši výsledky v SEO. Naopak, nesprávné nastavení může vést k zablokování procházení důležitých stránek nebo naopak k procházení stránek, které by měly být skryty, což bude mít za následek zhoršené nebo úplně ztracené výsledky ze SEO.

Jakými operátory se robots.txt řídí?

Existuje několik klíčových operátorů, které jsou v souboru robots.txt často používány:

User-agent

Operátor "User-agent" definuje, na které roboty se pokyny, které jsou uvedeny pod tímto operátorem vztahují. Například "User-agent: *" znamená, že se pokyny vztahují na všechny roboty. User-agent je tedy vždy první operátor, který musíte definovat. Následně definujete omezení pro specifického robota "User-agent: GoogleBot" nebo pro všechny roboty "User-agent: *".

Disallow

Operátor "Disallow" říká robotům, které části webu nesmí procházet. Například "Disallow: /private/" zabrání robotům procházet adresář "private". V praxi se například omezuje procházení stránek s parametry, které mohou ve svých různých kombinacích generovat statisíce URL adres. Zjednodušený příklad takového omezení může vypadat následovně: "Disallow: /*?*"

Allow

Operátor "Allow" je použitý k přepisu pravidla "Disallow" pro určité roboty a umožňuje jim procházet určité části webu, které byly zakázány. 

Sitemap

Operátor "Sitemap" umožňuje uvést umístění souboru XML sitemap, což pomáhá robotům lépe procházet a indexovat web. Zápis v praxi vypadá nějak takto: "Sitemap: www.mrphoenix.cz/sitemap.xml"

Nestandardní operátory v souboru robots.txt

Některé vyhledávače mohou také podporovat nekonvenční operátory, jako jsou:

Crawl-delay

"Crawl-delay" může být použit k omezení rychlosti procházení robotů, ale Googlebot ho neuznává. Pokud potřebujete omezit rychlost procházení pro Googlebota, můžete to udělat v Google Search Console.

Request-rate

Operátor "Request-rate"" omezuje počet požadavků na server za určitou dobu. Tento operátor je podporován některými vyhledávači, včetně českého vyhledávače Seznam.

Zástupné znaky v souboru robots.txt

Dále jsou zde také speciální znaky, které mohou být v souboru robots.txt použity:

Hvězdička (*)

Hvězdička ("*") může být použita jako zástupný znak pro jakékoliv sekvence znaků. To znamená, že znak * nahrazuje všechny symboly v URL adrese. Viz. příklad pro omezení procházení parametrických stránek.

Lomítko (/)

Lomítko ("/") na konci URL označuje, že se pravidlo vztahuje na celý adresář.

Znak dolaru ($)

Znak dolaru ("$") označuje konec URL.

Jak správně zapisovat do souboru robots.txt?

Zápis do souboru robots.txt vyžaduje pečlivé plánování a znalosti syntaxe (zápisu). Existují nástroje, jako je Google's robots.txt tester, které vám mohou pomoci otestovat a ověřit vaše soubory robots.txt. V tomto testeru stačí vložit požadovanou URL a provést kontrolu zda jí soubor robots.txt blokuje a nebo ne. Tímto jednoduchým způsobem můžete ověřit funkčnost vašeho zápisu.

Při vytváření souboru robots.txt je důležité dbát na přesnost a správné formátování. Zde je návod, jak správně vytvořit a zapisovat do souboru robots.txt:

  1. Začněte s prázdným textovým souborem.
  2. Definujte pravidla pro jednotlivé roboty pomocí operátoru User-agent.
  3. Specifikujte pokyny pro každého robota pomocí operátorů Disallow, Allow a dalších podle potřeby.
  4. Uveďte umístění souboru XML sitemap pomocí operátoru Sitemap, pokud jej používáte.
  5. Uložte soubor jako "robots.txt" a umístěte ho do kořenového adresáře vašeho webu.

Omezení a specifická nastavení pro roboty

Například, pokud chcete mít stejná pravidla pro všechny roboty s výjimkou Facebook bota, můžete použít následující zápis:

  • User-agent: * - říká, že zápis níže platí pro všechny roboty.
    Disallow: /private/ - říká, že všechny roboti nesmí procházet adresář /private/.
    Disallow: /*?* - říká, že všechny roboti nesmí procházet URL adresy, které obsahují otazník.
  • User-agent: FacebookExternalHit - říká, že zápis níže bude definovat jiné pravidla pro Facebook Bota.
    Disallow: /private/facebook-data/ - říká, že Facebook Bot nesmí procházet adresář /private/facebook-data/.
    Allow: /*?* - říká, že Facebook Bot může procházet adresy s otazníkem. Všimněte si, že jsme povolili procházení, které zakazujeme ostatním robotům.

Co dělat, když robot ignoruje soubor robots.txt?

I když je soubor robots.txt běžně respektován roboty vyhledávačů, existují případy, kdy někteří roboti mohou ignorovat obsah tohoto souboru. V takových situacích je důležité provést další kroky pro omezení přístupu těchto robotů.

Pokud se setkáte s robotem, který ignoruje váš soubor robots.txt, můžete zkusit následující:

  1. Zablokovat přístup na serverové úrovni - Pokud identifikujete nežádoucího robota, můžete přidat pravidlo do konfigurace serveru, které zakáže jeho přístup na úrovni serveru.
  2. Kontaktovat provozovatele vyhledávače - V případě, že se setkáte s robotem, který zjevně porušuje pravidla a ignoruje soubor robots.txt, můžete se obrátit na provozovatele vyhledávače a nahlásit problém.

Jaké stránky chceme procházet?

Pro dosažení nejlepších výsledků v SEO je důležité pečlivě vybírat, které stránky na svém webu chcete nechat procházet roboty vyhledávačů. Cílem je zajistit, aby roboti vyhledávačů věnovali svůj čas a zdroje těm nejdůležitějším a nejrelevantnějším stránkám na vašem webu.

Koncept, který se v tomto kontextu používá, se nazývá "crawlbudget". Crawlbudget je časový a zdrojový limit, který je přidělen robotům vyhledávačů pro procházení a indexaci stránek na vašem webu. Každý web má určitý crawlbudget, který závisí na jeho důležitosti, kvalitě, dostupnosti a dalších faktorech.

Chcete-li maximalizovat využití svého crawlbudgetu, je důležité mít jasnou strukturu webu a správně nastavené priority pro jednotlivé stránky. Priorita procházení se nastavuje v souboru sitemap.xml. Klíčové je zajistit, že důležité stránky s hodnotným obsahem jako jsou články, produkty, kategorie nebo samotná úvodní stránka jsou pro roboty snadno dostupné, zatímco méně důležité nebo duplicitní stránky jsou omezeny nebo úplně zakázány.

Doufám, že tento průvodce vám pomohl lépe porozumět, co je robots.txt, jak s ním pracovat a jak ho nejlépe využít pro optimalizaci vašeho webu pro vyhledávače.