Wat doet een robots.txt-bestand?
Wat robots.txt doet, wat het niet doet, en hoe verkeerde directives crawlers onbedoeld blokkeren.
Een robots.txt-bestand vertelt crawlers welke delen van je site ze wel en niet mogen opvragen. Het is een eenvoudig maar krachtig bestand: één verkeerde regel kan hele secties onbereikbaar maken. Dit artikel hoort bij onze pillar Technical SEO en sluit aan op Wat is crawlbaarheid?
Locatie van robots.txt
Het bestand staat altijd in de root van je domein, op /robots.txt. Crawlers zoeken het daar standaard op. Staat het ergens anders, dan wordt het genegeerd.
User-agent directives
Met de user-agent-regel richt je instructies op specifieke crawlers, of met een asterisk op alle crawlers tegelijk. Zo kun je verschillende bots verschillende regels geven, al is voor de meeste sites één algemeen blok voldoende.
Allow en Disallow
Disallow geeft aan welke paden een crawler niet mag opvragen; Allow maakt uitzonderingen binnen een geblokkeerd pad. Een lege Disallow betekent: niets blokkeren. Wees voorzichtig. Een Disallow op een te brede map blokkeert meer dan bedoeld.
Sitemap-referentie
In robots.txt kun je verwijzen naar je sitemap, zodat crawlers die makkelijk vinden. Dit is optioneel maar handig, vooral wanneer je een stabiele sitemap-URL hebt.
Crawling blokkeren versus indexatie voorkomen
Dit is de belangrijkste valkuil: robots.txt blokkeert crawling, maar voorkomt niet gegarandeerd indexatie. Een geblokkeerde URL kan alsnog in zoekresultaten verschijnen als er elders naar gelinkt wordt. Wil je indexatie echt voorkomen, dan gebruik je een noindex-instructie op een pagina die wél crawlbaar is, niet een blokkade in robots.txt.
AI-crawlers
Ook AI-crawlers respecteren doorgaans robots.txt. Wil je dat AI-systemen je content kunnen ophalen, blokkeer hun user-agents dan niet onbedoeld. Omgekeerd kun je specifieke bots uitsluiten als dat je bewuste keuze is.
Robots.txt testen en een veilig voorbeeld
Test wijzigingen voordat je ze live zet, want fouten hebben grote gevolgen. Een veilig standaardbestand staat hieronder: het staat alle crawlers toe en verwijst naar de sitemap.
- User-agent: *, geldt voor alle crawlers.
- Allow: /, alles mag gecrawld worden.
- Sitemap: https://voorbeeld.nl/sitemap.xml, verwijzing naar de sitemap.
- Controleer na elke wijziging of belangrijke paden niet per ongeluk geblokkeerd zijn.
Veelgemaakte fouten
- Denken dat Disallow indexatie voorkomt. Dat doet het niet gegarandeerd.
- Een te brede Disallow waardoor hele secties wegvallen.
- Robots.txt niet in de root plaatsen.
- AI- of zoekcrawlers onbedoeld volledig blokkeren.
- Wijzigingen live zetten zonder te testen.
