Globale kop
,
15 Mins Gelezen

Wat is Robots.txt alles verbieden en de impact ervan op SEO?

Home Blog SEO Wat is Robots.txt alles verbieden en de impact ervan op SEO?
Robots.txt Disallow All_ What It Means and When to Use It_header

Belangrijkste hoogtepunten

  • Robots.txt is een krachtig hulpmiddel voor het beheren van het gedrag van zoekmachines op websites.
  • Robots.txt Alle niet toestaan blokkeert alle zoekmachines zodat ze uw site niet kunnen crawlen.
  • Onjuist gebruik van robots.txt kan SEO schaden en het opnieuw indexeren na wijzigingen vertragen.
  • Gebruik voor beveiliging of privé-inhoud wachtwoordbeveiliging in plaats van te vertrouwen op de Niet toestaan-richtlijn.
  • Door robots.txt bestand regelmatig te controleren, zorgt u ervoor dat het is geoptimaliseerd voor zichtbaarheid in zoekmachines.

Introductie

Een bekend e-commerce merk bevond zich ooit in een SEO-nachtmerrie. Van de ene op de andere dag verdwenen de pagina’s uit de zoekresultaten van Google, wat leidde tot een plotselinge daling van het organische verkeer en de inkomsten.

Na uren van verwoede probleemoplossing werd de dader ontdekt: een misplaatste robots.txt Alles niet toestaan. Deze ene regel had effectief geblokkeerd dat zoekmachines over de hele site konden kruipen, waardoor deze onzichtbaar was voor potentiële klanten.

De robots.txt Verwerp alle richtlijnen is een krachtig instrument. Maar als het verkeerd wordt gebruikt, kan het uw zoekresultaten saboteren, het opnieuw indexeren vertragen en aanzienlijke SEO-schade veroorzaken.

Dus, wat doet alles niet toestaan? Wanneer moet het worden gebruikt of vermeden? In dit artikel onderzoeken we alles over robots.txt Alles niet toestaan.

Wat is een robots.txt bestand?

Een robots.txt bestand is een tekstbestand zonder opmaak dat zich in de hoofddomeinmap van uw website bevindt. Het beslist welke zoekmachinebots binnenkomen en welke gebieden ze mogen verkennen of opnemen. Dit bestand volgt het protocol voor het uitsluiten van robots, ook wel bekend als de Robots Exclusion Standard. Het is een reeks richtlijnen die verschillende zoekmachines volgen bij het crawlen van websites.

Zonder een goed geconfigureerd robots.txt bestand kunnen Google-bots vrij rondlopen en alles indexeren. Het kunnen pagina’s bevatten die u niet in de zoekresultaten wilt hebben, zoals beheerderspagina’s, dubbele inhoud of testomgevingen.

Notitie: Google hanteert een limiet van 500 KiB voor robots.txt bestanden. Inhoud die de maximale bestandsgrootte overschrijdt, wordt genegeerd.

U kunt uw robots.txt bestand maken en wijzigen met behulp van de Yoast SEO-plug-in of de serverbestanden van uw website. Google Search Console biedt ook handige inzichten om eenvoudig robots.txt bestand te beheren.

Lees ook: Hoe Google uit te sluiten van indexering Toevoegen aan winkelwagentje WordPress-pagina met Yoast SEO

Voorbeelden van hoe robots.txt bestanden werken

Robots.txt heeft verschillende regels, afhankelijk van hoeveel toegang u zoekmachinebots wilt geven. Hier zijn een paar veelvoorkomende voorbeelden:

Voorbeeld 1: Alle bots toegang geven tot de hele website

User-agent: *
Disallow:

Wat het doet:

  • De ‘User-agent: *’ betekent dat alle bots van zoekmachines (Googlebot, Bingbot, enz.) toegang hebben tot de site.
  • Het veld ‘leeg Niet toestaan’ betekent dat er geen beperkingen zijn en dat bots alles kunnen crawlen.

Wanneer te gebruiken: Als u volledige zichtbaarheid in de zoekmachines voor uw hele website wilt.

Voorbeeld 2: Voorkomen dat alle bots toegang krijgen tot een specifieke directory

User-agent: *   
Disallow: /private-directory/

Wat het doet: Blokkeert alle bots van zoekmachines om toegang te krijgen tot alles in ‘/private-directory/’.

Wanneer te gebruiken: Als u gevoelige gebieden zoals beheerderspanelen of vertrouwelijke gegevens wilt verbergen.

Voorbeeld 3: Googlebot toestaan en anderen niet toestaan tot toegang tot een directory

User-agent: Googlebot
Disallow: /images/
User-agent: * 
Disallow: /private-directory/

Wat het doet:

  • Googlebot heeft geen toegang tot de map /images/.
  • Alle andere bots hebben geen toegang tot /private-directory/.

Wanneer te gebruiken: Als u de toegang voor specifieke bots wilt beheren, bijvoorbeeld door Google bepaalde delen van uw site te laten crawlen en andere te blokkeren.

Voorbeeld 4: De locatie van uw XML-sitemap opgeven

User-agent: *   
Disallow:    
Sitemap: https://www.[yourwebsitename].com/sitemap.xml

Wat het doet:

  • Biedt volledige toegang tot bots van zoekmachines.
  • Vertelt zoekmachines waar ze de XML-sitemap kunnen vinden, zodat ze pagina’s efficiënt kunnen indexeren.

Wanneer te gebruiken: Als u wilt dat zoekmachines uw sitemap gemakkelijk kunnen vinden en crawlen.

Lees ook: Hoe maak je een WordPress-sitemap

Verschil tussen robots.txt versus meta-robots versus X-Robots-Tag

Hoewel robots.txt, metarobots en X-robots bepalen hoe zoekmachines omgaan met uw inhoud, dienen ze verschillende doelen.

  • Robots.txt: Voorkomt crawlen, maar pagina’s kunnen nog steeds worden weergegeven in zoekresultaten als ze ergens anders zijn gelinkt.
  • Meta robots tag: Heeft een directe invloed op het indexeren en crawlen van afzonderlijke pagina’s.
  • X-robots-tag: Hiermee bepaalt u de indexering van niet-HTML-bestanden zoals pdf’s, afbeeldingen en video’s.
Gelaatstrek Robots.txt Meta robots tags X-Robots-Tag
Plaats Hoofdmap (/robots.txt) gedeelte van een webpagina Reactie op HTTP-header
Besturingselementen Hele secties van een site Indexeren en crawlen van specifieke pagina’s Indexeren van niet-HTML-bestanden
Voorbeeld Niet toestaan: /private/ X-Robots-Tag: noindex
Impact op SEO Voorkomt dat bots crawlen, maar voorkomt niet dat ze worden geïndexeerd als ze ergens anders worden gelinkt Voorkomt dat een pagina wordt geïndexeerd en in de zoekresultaten wordt weergegeven Zorgt ervoor dat niet-HTML-bestanden niet worden geïndexeerd
Beste gebruiksscenario Blokkeer zoekmachines van hele mappen Voorkomen dat specifieke pagina’s worden weergegeven in de zoekresultaten Controle van de indexering van PDF’s, afbeeldingen en andere bestanden

6 Gemeenschappelijke robots.txt syntaxis

Het begrijpen van robots.txt is gemakkelijker als je de basisregels kent. Deze eenvoudige regels helpen bij het beheren van de manier waarop zoekmachinebots met uw website werken:

  • User-agent: Deze regel geeft aan voor welke bot of crawler de volgende richtlijnen zijn.
  • Verbieden: Deze regel vertelt bots dat ze geen specifieke bestanden, mappen of pagina’s op uw site mogen bezoeken die bepaalde reguliere expressies kunnen bevatten.
  • Toestaan: Met deze regel kunnen bots bepaalde bestanden, mappen of pagina’s doorzoeken.
  • Sitemap: Deze regel leidt zoekmachines naar de XML-sitemaplocatie van uw website.
  • Kruipvertraging: Deze regel vraagt bots om uw site langzamer te crawlen. Maar niet alle zoekmachines volgen deze regel.
  • Noindex: Deze regel vraagt bots om bepaalde pagina’s of delen van uw site niet te indexeren. Toch is de ondersteuning van Google voor de noindex-regel in robots.txt inconsistent.

1. User-agent richtlijn

De ‘User-agent’ regel is belangrijk voor je robots.txt bestand. Het laat zien op welke bot of crawler de regels van toepassing zijn. Elke zoekmachine heeft een unieke naam die een ‘user agent’ wordt genoemd. De webcrawler van Google noemt zichzelf bijvoorbeeld ‘Googlebot’.

Als u zich alleen op Googlebot wilt richten, schrijft u:

User-agent: Googlebot

U kunt verschillende user agents afzonderlijk typen, elk met hun eigen regels. U kunt ook de jokerteken ‘*’ gebruiken om de regels van toepassing te maken op alle user agents.

2. Niet robots.txt richtlijn toestaan

De ‘Disallow’-regel is erg belangrijk om te beslissen welke delen van uw website moeten worden verborgen voor zoekmachines. Deze regel vertelt bots van zoekmachines dat ze niet naar bepaalde bestanden, mappen of pagina’s op uw site mogen kijken.

Een map blokkeren

U kunt bijvoorbeeld de regel ‘Niet toestaan’ gebruiken om te voorkomen dat bots het beheerdersgedeelte van uw website betreden:

User-agent: *
Disallow: /admin/

Dit zorgt ervoor dat alle URL’s die beginnen met ‘/admin/’ uit de buurt blijven van alle bots van zoekmachines.

Jokertekens gebruiken

User-agent: *
Disallow: /*.pdf$

Met de wildcard ‘*’ kun je alle PDF-bestanden op je website blokkeren. Vergeet niet om uw robots.txt bestand te controleren nadat u wijzigingen hebt aangebracht om er zeker van te zijn dat u geen belangrijke delen van de site blokkeert.

3. Richtlijn toestaan

‘Niet toestaan’ blokkeert de toegang tot bepaalde delen van een website, terwijl de ‘Toestaan’-richtlijn uitzonderingen kan maken in deze geblokkeerde gebieden. Het werkt samen met ‘Disallow’ om specifieke bestanden of pagina’s te openen, zelfs als een hele map is geblokkeerd.

Denk aan een map met afbeeldingen. Als u wilt dat Google Afbeeldingen één speciale afbeelding in die directory ziet, kunt u dit als volgt doen:

User-agent: Googlebot-Image
Allow: /images/featured-image.jpg
User-agent: *
Disallow: /images/

In dit geval geeft u Googlebot-Image eerst toegang tot ‘featured-image.jpg’. Blokkeer vervolgens alle andere bots zodat ze de map ‘/images/’ niet kunnen zien.

4. Richtlijn sitemap

De ‘Sitemap’-richtlijn vertelt zoekmachines waar ze uw XML-sitemap kunnen vinden. Een XML-sitemap is een bestand dat alle belangrijke pagina’s op uw site weergeeft. Dit maakt het voor zoekmachines gemakkelijker om uw inhoud te crawlen en te indexeren.

Het toevoegen van je sitemap aan je robots.txt bestand is eenvoudig:

Sitemap: https://www.[yourwebsitename].com/sitemap.xml

Zorg ervoor dat je ‘https://www. verandert. [uwwebsitenaam].com/sitemap.xml’ naar uw echte sitemap-URL. Je kunt je sitemap indienen via Google Search Console. Maar als je het in je robots.txt bestand zet, zorg je ervoor dat alle zoekmachines het kunnen vinden.

5. Richtlijn kruipvertraging

De ‘Crawl-delay’-richtlijn bepaalt hoe snel zoekmachines uw website crawlen. Het belangrijkste doel is om te voorkomen dat uw webserver het te druk krijgt wanneer veel bots tegelijkertijd pagina’s proberen te openen.

De ‘Crawl-delay’ tijd wordt gemeten in seconden. Deze code vertelt Bingbot bijvoorbeeld om 10 seconden te wachten voordat een nieuw verzoek wordt ingediend:

User-agent: Bingbot
Crawl-delay: 10

Wees voorzichtig wanneer u crawlvertragingen instelt. Een te lange vertraging kan de indexering en ranking van uw website schaden. Dit is met name het geval als uw site veel pagina’s heeft en regelmatig wordt bijgewerkt.

Notitie: De crawler van Google, Googlebot, volgt deze richtlijn niet. Maar u kunt de crawlsnelheid aanpassen via Google Search Console om overbelasting van de server te voorkomen.

Lees ook: Hoe website-eigendom te verifiëren op Google Search Console

6. Noindex-richtlijn

Het commando ‘noindex’ voorkomt dat zoekmachines specifieke pagina’s van uw website opslaan. Maar nu ondersteunt Google deze regel officieel niet.

Sommige tests tonen aan dat ‘noindex’ in robots.txt nog steeds kan werken. Maar het is geen goed idee om alleen op deze methode te vertrouwen. In plaats daarvan kunt u meta robots-tags of de X-Robots-Tag HTTP-header gebruiken, voor een betere controle over de indexering.

Waarom is robots.txt belangrijk voor SEO?

Een goed geconfigureerd robots.txt bestand is een sterk hulpmiddel voor SEO. Dit bestand is van invloed op de manier waarop Google en andere zoekmachines de inhoud van uw website vinden, doorzoeken en vastleggen. Het heeft op zijn beurt invloed op hoe goed uw site wordt gezien en gerangschikt.

1. Optimaliseer het crawlbudget

Het crawlbudget is het aantal pagina’s dat Googlebot in een bepaalde tijd op uw website indexeert. Als je je crawlbudget goed optimaliseert, gaat Google zich richten op je belangrijke content.

U kunt robots.txt gebruiken om te voorkomen dat Google onnodige pagina’s bezoekt en meer tijd te besteden aan uw waardevolle inhoud.

2. Blokkeer dubbele en niet-openbare pagina’s

Dubbele inhoud is een veelvoorkomend probleem dat uw SEO kan schaden. Het verwart zoekmachines en verzwakt de autoriteit van uw website.

Met robots.txt kunt u de toegang tot dubbele pagina’s blokkeren, zoals pdf-versies of oudere inhoud. Op deze manier kunnen zoekmachines zich richten op de originele en belangrijkste versies van uw pagina’s.

Lees ook: Wat is dubbele inhoud: hoe u deze kunt herkennen en voorkomen

3. Verberg bronnen

Het verbergen van CSS- of JavaScript-bestanden voor zoekmachines klinkt misschien als een goed idee voor het beheren van het crawlbudget van uw website. Maar dat is het niet.

Zoekmachines gebruiken deze bestanden om uw pagina’s goed weer te geven en te begrijpen hoe uw website werkt. Als u deze bestanden blokkeert, kunnen zoekmachines moeite hebben om de gebruikerservaring van uw website te evalueren. Dit schaadt uw zoekresultaten.

Alles gebruiken robots.txt verbieden voor zoekmachines

U kunt het robots.txt bestand van uw site controleren door simpelweg ‘robots.txt’ aan het einde van een URL toe te voegen. Bijvoorbeeld, https://www.bluehost.com/robots.txt. Laten we eens kijken hoe u het robots.txt-bestand kunt configureren met Bluehost File Manager:

1. Ga naar de File Manager

  • Log in op uw Bluehost-accountmanager.
  • Navigeer naar het tabblad ‘Hosting’ in het menu aan de linkerkant.
  • Klik op ‘Bestandsbeheer’ onder het gedeelte ‘Snelkoppelingen’.
toegang tot Bestandsbeheer

2. Zoek het robots.txt bestand

  • Open in de ‘File Manager’ de map ‘public_html’, die de bestanden van uw website bevat.
Toegang public_html
  • Zoek naar de bestandsnaam ‘robots.txt’ in deze map.
Zoek robots.txt

3. Maak het robots.txt bestand (als het niet bestaat)

Als het robots.txt bestand niet aanwezig is, kunt u het maken. Dit doe je als volgt:

  • Klik op de knop ‘+ Bestand’ in de linkerbovenhoek.
  • Noem het nieuwe bestand ‘robots.txt’. Zorg ervoor dat het in de map ‘/public_html’ wordt geplaatst.
Naam nieuw bestand

4. Bewerk het robots.txt bestand

  • Klik met de rechtermuisknop op het bestand ‘robots.txt’ en selecteer ‘Bewerken’.
robots.txt bestand bewerken
  • Er wordt een teksteditor geopend, waarmee u richtlijnen kunt toevoegen of wijzigen.
robots.txt bestandseditor

5. Configureer robots.txt om zoekmachines niet toe te staan

Als u wilt bepalen hoe zoekmachines met uw site omgaan, kunt u specifieke richtlijnen aan het robots.txt bestand toevoegen. Hier volgen enkele veelvoorkomende configuraties:

  • ‘Niet toestaan’ zoekmachines hebben toegang tot de hele site: Als u wilt voorkomen dat alle bots van zoekmachines een deel van uw site crawlen, voegt u de volgende regels toe:
User-agent: *
Disallow: /

Hiermee laat u alle user agents (aangeduid met het sterretje *) weten dat ze geen pagina’s op uw site mogen openen.

  • Specifieke zoekmachines niet toestaan voor een specifieke map: Als u wilt voorkomen dat de bot van een bepaalde zoekmachine een specifieke directory crawlt, geeft u de user-agent van de bot en de directory op:
User-agent: Googlebot   
Disallow: /example-subfolder/

In dit voorbeeld wordt voorkomen dat de bot van Google toegang krijgt tot de map /example-subfolder/.

  • ‘Niet toestaan’ bots uit specifieke mappen: Als u alle bots uit bepaalde mappen wilt blokkeren, geeft u ze als volgt weer:
User-agent: *   
Disallow: /cgi-bin/   
Disallow: /tmp/   
Disallow: /junk/

Deze configuratie voorkomt dat alle user agents toegang krijgen tot de mappen /cgi-bin/, /tmp/ en /junk/.

Belangrijke overwegingen voordat u robots.txt gebruikt Alles niet toestaan

Het is belangrijk hoe en wanneer u ‘Alles niet toestaan’ gebruikt in uw robots.txt bestand, omdat dit de SEO van uw site ernstig kan beïnvloeden. Hier zijn een paar dingen waar u rekening mee moet houden voordat u robots.txt Alles niet toestaan gebruikt.

1. Doel van robots.txt bestand

Voordat u uw robots.txt bestand wijzigt, moet u weten waar het voor dient. Het robots.txt bestand is niet bedoeld als veiligheidsinstrument of om uw website te verbergen voor bedreigingen. Als je gevoelige inhoud hebt, is het beter om sterkere methoden te gebruiken, zoals wachtwoordbeveiliging , in plaats van alleen robots.txt te gebruiken.

2. Impact op de aanwezigheid van de index

Het gebruik van robots.txt Alles niet toestaan kan ernstige gevolgen hebben voor de manier waarop uw website wordt weergegeven in zoekmachines. Wanneer u voorkomt dat bots van zoekmachines uw site bezoeken, zullen ze uw pagina’s uiteindelijk uit hun index verwijderen. Als gevolg hiervan zal uw verkeer van Google Zoeken sterk afnemen.

Link equity (of link juice) is erg belangrijk om goed te scoren in SEO. Wanneer betrouwbare websites naar uw pagina’s linken, delen ze een deel van hun autoriteit. Maar als u robots.txt Niet alles toestaan gebruikt om bots van zoekmachines te blokkeren, stopt u ook de stroom van linkgelijkheid.

4. Risico van publieke toegankelijkheid

Robots.txt bestanden zijn openbaar toegankelijk. Iedereen kan zien welk deel van uw website is afgeschermd van zoekmachines. Gebruik voor een betere beveiliging server-side authenticatie, firewalls, IP-blokkeringsmethoden of plaats gevoelige inhoud in beveiligde mappen.

5. Vermijd syntaxisfouten

Een kleine syntaxisfout in uw robots.txt bestand kan leiden tot onbedoeld crawlen. Dit kan ervoor zorgen dat zoekmachines geen toegang krijgen tot belangrijke pagina’s of ongewenste gebieden niet blokkeren.

Om dit te voorkomen, moet u altijd uw syntaxis en structuur controleren voordat u wijzigingen doorvoert. U kunt ook een online syntaxiscontrole of testtools gebruiken om eventuele fouten te identificeren.

6. Test robots.txt bestand

Regelmatige tests helpen om te bevestigen dat u niet per ongeluk essentiële inhoud blokkeert of belangrijke delen van uw site onbeschermd laat. Het zorgt er ook voor dat uw robots.txt bestand een effectief onderdeel blijft van de SEO-strategie van uw website.

Lees ook: Inhoud optimaliseren voor SEO op WordPress

Tot slot

Het beheersen van robots.txt is een belangrijke vaardigheid voor website-eigenaren en SEO’s. Als u begrijpt hoe het werkt, kunt u zoekmachines helpen uw belangrijke inhoud te vinden. Dit kan leiden tot een betere zichtbaarheid, hogere zoekresultaten en meer organisch verkeer.

Maar gebruik robots.txt Niet toestaan alles heel voorzichtig. Het kan op de lange termijn grote effecten hebben op uw SEO. Door best practices te volgen, uw robots.txt bestand regelmatig te controleren en updates van zoekmachines bij te houden, kunt u het meeste uit robots.txt halen. Dit zal helpen uw website te optimaliseren voor succes.

Veelgestelde vragen

Wat doet ‘Alles niet toestaan’ in robots.txt?

“Alles niet toestaan” in robots.txt voorkomt dat alle bots van zoekmachines een deel van uw site kunnen crawlen.

Hoe belangrijk is robots.txt voor SEO?

Robots.txt helpt webcrawlers te begrijpen welke pagina’s moeten worden geïndexeerd. Dit heeft invloed op uw zichtbaarheid op Google Zoeken en uw rankings.

Welke risico’s robots.txt Niet alles toestaan zijn?

Als u robots.txt Alles niet toestaan, kunt u uw pagina’s uit de zoekresultaten verwijderen, wat leidt tot verkeersverlies en SEO-schade die tijd kost om van te herstellen.

Kan ‘Alles niet toestaan’ een negatieve invloed hebben op de SEO van mijn site?

Ja, het gebruik van ‘Alles niet toestaan’ kan uw SEO schaden. Het kan ervoor zorgen dat uw site moeilijk vindbaar is op Google en uw zichtbaarheid in Google Search Console beïnvloeden.

Hoe kan ik de effecten van ‘Alles niet toestaan’ op mijn website ongedaan maken?

Om de richtlijn ‘Alles niet toestaan’ terug te draaien:
1. Verwijder ‘Disallow: /’ uit het robots.txt bestand.
2. Dien het bijgewerkte robots.txt-bestand in Google Search Console in.
3. Dien de XML-sitemap opnieuw in om zoekmachines te helpen pagina’s sneller te herontdekken.
4. Controleer Google Search Console op crawlfouten.

Is ‘Alles niet toestaan’ de beste manier om privé-inhoud te beschermen tegen zoekmachines?

Nee, robots.txt Alles niet toestaan is geen goede manier om privé-inhoud veilig te houden. Het is beter om sterke beveiligingsopties, zoals wachtwoorden, te gebruiken voor gevoelige informatie.

Hoe vaak moet ik mijn robots.txt bestand bijwerken?

Controleer en update uw robots.txt bestand nadat u uw website opnieuw heeft ontworpen, inhoud heeft verplaatst of grote wijzigingen heeft aangebracht in de lay-out van uw site. Zorg ervoor dat het overeenkomt met uw huidige SEO-strategie en dat uw XML-sitemap correct is gelinkt.

  • Jyoti is een verhalenverteller in hart en nieren, die woorden weeft waardoor technologie en e-commerce minder als een doolhof en meer als een avontuur aanvoelen. Met een kop thee in de ene hand en nieuwsgierigheid in de andere, zet Jyoti complexe ideeën om in gesprekken die je echt wilt voeren.

Meer informatie Bluehost redactionele richtlijnen
Alles bekijken

Schrijf een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *