Plik robots.txt
Plik robots.txt jest specjalnym dokumentem tekstowym sprawdzanym przez roboty wyszukiwarek indeksujących stronę i stosującym specjalny protokół - Robots Exclusion Protocol, który pozwala administratorowi zablokować dostęp wybranym robotom do określonych plików/katalogów na serwerze. Plik ten może być szczególnie przydatny, gdy na serwerze przechowuje się poufne zasoby czy strony będące w trakcie przygotowywania. Aby te dane nie zostały zaindeksowane przez wyszukiwarki, wystarczy utworzyć w głównym katalogu witryny plik robots.txt z odpowiednią zawartością.
Komendy zawarte w robots.txt są dość proste. Pole User-agent zawiera informacje na temat tego, jakich robotów wyszukiwarek dotyczy dany rekord. Poniższy kod zabrania wszystkim pajączkom czytania zawartości folderu private i pliku index.html umieszczonym w katalogu temp:
User-agent: *
Disallow: /private/
Disallow: /temp/index.html
Gwiazdka (*) po User-agent oznajmia, że zakaz dotyczy wszystkich robotów, jednak istnieje możliwość ograniczenia praw tylko wybranym szperaczom. Wówczas w miejsce gwiazdki (*) wpisuje się jego nazwę:
User-agent: googlebot
Disallow: /private/
Disallow: /temp/index.html
Pajączki zmogą indeksować cały serwis, jeśli w głównym katalogu na serwerze nie będzie robots.txt lub będzie on miał zawartość:
User-agent: *
Disallow:
Oto przykładowy plik robots.txt ze strony www.alexa.com:
User-agent: googlebot
Disallow: /search
User-agent: gulliver
Disallow: /search
User-agent: slurp
Disallow: /search
User-agent: fast
Disallow: /search
User-agent: scooter
Disallow: /search
User-agent: vscooter
Disallow: /search
User-agent: ia_archiver
Disallow: /search
User-agent: Nutch
Disallow: /search
User-agent: FAST-WebCrawler
Disallow: /search
User-agent: teoma_agent1
Disallow: /search
User-agent: Lycos_Spider_(T-Rex)
Disallow: /search
User-agent: MSNBOT/0.1
Disallow: /search
User-agent: ArchitextSpider
Disallow: /search
User-agent: ZyBorg
Disallow: /search
User-agent: SurveyBot
Disallow: /search
# Disallow all other crawlers
User-agent: *
Disallow: /
Innym podobnym rozwiązaniem jest znacznik META ROBOTS w sekcji HEAD dokumentu HTML. znacznik ten przy pomocy odpowiednich parametrów instruuje mechanizmy wyszukiwarek, jak powinny indeksować stronę. Może on mieć parametry:
index - pozwala robotom indeksować stronę
noindex - zapobiega indeksowaniu strony przez roboty
follow - pozwala robotom indeksować strony, do których dotrze poprzez linki w danej witrynie
nofollow - zabrania robotom indeksować stron, do których linki znajdują się w danej witrynie
all - zastępuje "index, follow"
none - zastępuje "noindex, nofollow"
Komendy zawarte w robots.txt są dość proste. Pole User-agent zawiera informacje na temat tego, jakich robotów wyszukiwarek dotyczy dany rekord. Poniższy kod zabrania wszystkim pajączkom czytania zawartości folderu private i pliku index.html umieszczonym w katalogu temp:
User-agent: *
Disallow: /private/
Disallow: /temp/index.html
Gwiazdka (*) po User-agent oznajmia, że zakaz dotyczy wszystkich robotów, jednak istnieje możliwość ograniczenia praw tylko wybranym szperaczom. Wówczas w miejsce gwiazdki (*) wpisuje się jego nazwę:
User-agent: googlebot
Disallow: /private/
Disallow: /temp/index.html
Pajączki zmogą indeksować cały serwis, jeśli w głównym katalogu na serwerze nie będzie robots.txt lub będzie on miał zawartość:
User-agent: *
Disallow:
Oto przykładowy plik robots.txt ze strony www.alexa.com:
User-agent: googlebot
Disallow: /search
User-agent: gulliver
Disallow: /search
User-agent: slurp
Disallow: /search
User-agent: fast
Disallow: /search
User-agent: scooter
Disallow: /search
User-agent: vscooter
Disallow: /search
User-agent: ia_archiver
Disallow: /search
User-agent: Nutch
Disallow: /search
User-agent: FAST-WebCrawler
Disallow: /search
User-agent: teoma_agent1
Disallow: /search
User-agent: Lycos_Spider_(T-Rex)
Disallow: /search
User-agent: MSNBOT/0.1
Disallow: /search
User-agent: ArchitextSpider
Disallow: /search
User-agent: ZyBorg
Disallow: /search
User-agent: SurveyBot
Disallow: /search
# Disallow all other crawlers
User-agent: *
Disallow: /
Innym podobnym rozwiązaniem jest znacznik META ROBOTS w sekcji HEAD dokumentu HTML. znacznik ten przy pomocy odpowiednich parametrów instruuje mechanizmy wyszukiwarek, jak powinny indeksować stronę. Może on mieć parametry:
index - pozwala robotom indeksować stronę
noindex - zapobiega indeksowaniu strony przez roboty
follow - pozwala robotom indeksować strony, do których dotrze poprzez linki w danej witrynie
nofollow - zabrania robotom indeksować stron, do których linki znajdują się w danej witrynie
all - zastępuje "index, follow"
none - zastępuje "noindex, nofollow"
<< Home