Robots.txt er en lille fil, der ligger på din hjemmeside, hvor du kan fortælle diverse robotter, hvad de må og ikke må på din side. Det første en robot gør, når den crawler din side, er at tjekke, om du har en robots.txt liggende på dit website.
Her får du lige et par hurtige ting, du skal vide om netop denne fil:
- robots.txt skal ligge i roden af din hjemmeside. Det vil sige, der hvor alle dine hjemmeside filer ligger.
- robots.txt er case-sensitive. Den skal altså hedde “robots.txt” helt præcist.
- robots.txt er offentlig tilgængelig for alle. Du skriver bare /robots.txt efter en adresse. Du kan jo prøve at skrive aveo.dk/robots.txt og se, hvad der sker.
- Har du underdomæner, så skal de alle sammen have en separat robots.txt fil, hvis du skal bruge den.
- Det er en god idé at smide dit/dine sitemap(s) ind i denne txt fil med følgende syntaks: Sitemap: “sitemap “url”” – Eksempel: Sitemap: https://aveo.dk/sitemap_index.xml
OBS: Hvis du ikke har behov for at blokere for adgangen til dit site for nogle robotter, så har du IKKE brug for en robots.txt fil.
Du vil støde på følgende 5 syntaxer
- User-agent: Her går du ind og definerer, hvilken robot du giver crawl instruktioner til. Det er for det meste søgemaskiner, men det kan også være SEO-værktøjer, der crawler din side.
- Allow: Dette er kommandoen, hvor du bestemmer, hvad robotten må besøge. Det bruges til at fortælle, at de godt må besøge nogle undermapper, selvom hovedmappen måske er forbudt.
- Disallow: Den modsatte af Allow og bestemmer altså, hvad robotterne ikke må.
- Crawl-delay: Denne kommando fortæller robotten, hvor lang tid den skal vente med at loade og crawle din side.
- Sitemap: Som nævnt ovenover, så er det til at vise robotterne, hvor dine/dit sitemap(s) er placeret. Denne kommando er, pr dags dato, kun supporteret af Google, Ask, Bing og Yahoo.
En hel basis template kunne være:
User-agent: [user-agent navn]
Disallow: [Det der ikke skal crawles]
Hvorfor skulle du have brug for at spærre for robotter?
De mest gængse grunde til at skulle blokere for robotter er for at undgå duplikeret indhold eller blokere for eksempelvis PDF filer, som du alligevel ikke vil have ud på Google.
Pas dog på med, hvad du gør. Er du ikke særlig teknisk kyndig, eller er du usikker på, hvad du laver, så få andre til at kigge på det. Det kan være MEGET skadeligt at komme til at blokere for søgemaskinerne på hele dit website
Eksempler på spærringer
Det er ikke sikkert, at du nogensinde kommer til at skulle bruge denne robots.txt, men vi har her samlet en del basale eksempler på, hvordan sådan en fil kan se ud, når man vil have blokeret eller på anden måde fortalt robotterne, hvad de må.
Bloker alle robotter fra alt indhold
User-agent: *
Disallow: /
Giv adgang til alt indhold (den mest almindelige, hvis har fået genereret en robots.txt)
User-agent: *
Disallow: /
Bloker Googles robot fra en underside
User-agent: Googlebot
Disallow: /blokeret-side/
Bloker Bings robot fra en mappe
User-agent: Bingbot
Disallow: /specifik-undermappe/
Bloker alle pdf filer fra at blive vist
User-agent: *
Disallow: /*.pdf$
Hvordan laver du en robots.txt?
robots.txt er en helt almindelig text fil, du egentlig bare kan lave med helt almindelig notepad eller andet simpelt text værktøj på din computer.
Google har en rigtig fin guide og information om, hvordan du netop laver sådan en robots.txt fil lige her: Google’s guide.
Når du har sat filen ind, kan du teste din robots.txt med dette værktøj.