• Pozycjonowanie
  • 07 grudzień, 2005

    Google

    Plik robots.txt

    Plik robots.txt jest specjalnym dokumentem tekstowym sprawdzanym przez roboty wyszukiwarek indeksujących stronę i stosującym specjalny protokół - Robots Exclusion Protocol, który pozwala administratorowi zablokować dostęp wybranym robotom do określonych plików/katalogów na serwerze. Plik ten może być szczególnie przydatny, gdy na serwerze przechowuje się poufne zasoby czy strony będące w trakcie przygotowywania. Aby te dane nie zostały zaindeksowane przez wyszukiwarki, wystarczy utworzyć w głównym katalogu witryny plik robots.txt z odpowiednią zawartością.

    Komendy zawarte w robots.txt są dość proste. Pole User-agent zawiera informacje na temat tego, jakich robotów wyszukiwarek dotyczy dany rekord. Poniższy kod zabrania wszystkim pajączkom czytania zawartości folderu private i pliku index.html umieszczonym w katalogu temp:

    User-agent: *
    Disallow: /private/
    Disallow: /temp/index.html

    Gwiazdka (*) po User-agent oznajmia, że zakaz dotyczy wszystkich robotów, jednak istnieje możliwość ograniczenia praw tylko wybranym szperaczom. Wówczas w miejsce gwiazdki (*) wpisuje się jego nazwę:

    User-agent: googlebot
    Disallow: /private/
    Disallow: /temp/index.html

    Pajączki zmogą indeksować cały serwis, jeśli w głównym katalogu na serwerze nie będzie robots.txt lub będzie on miał zawartość:

    User-agent: *
    Disallow:

    Oto przykładowy plik robots.txt ze strony www.alexa.com:

    User-agent: googlebot
    Disallow: /search

    User-agent: gulliver
    Disallow: /search

    User-agent: slurp
    Disallow: /search

    User-agent: fast
    Disallow: /search

    User-agent: scooter
    Disallow: /search

    User-agent: vscooter
    Disallow: /search

    User-agent: ia_archiver
    Disallow: /search

    User-agent: Nutch
    Disallow: /search

    User-agent: FAST-WebCrawler
    Disallow: /search

    User-agent: teoma_agent1
    Disallow: /search

    User-agent: Lycos_Spider_(T-Rex)
    Disallow: /search

    User-agent: MSNBOT/0.1
    Disallow: /search

    User-agent: ArchitextSpider
    Disallow: /search

    User-agent: ZyBorg
    Disallow: /search

    User-agent: SurveyBot
    Disallow: /search

    # Disallow all other crawlers

    User-agent: *
    Disallow: /

    Innym podobnym rozwiązaniem jest znacznik META ROBOTS w sekcji HEAD dokumentu HTML. znacznik ten przy pomocy odpowiednich parametrów instruuje mechanizmy wyszukiwarek, jak powinny indeksować stronę. Może on mieć parametry:
    index - pozwala robotom indeksować stronę
    noindex - zapobiega indeksowaniu strony przez roboty
    follow - pozwala robotom indeksować strony, do których dotrze poprzez linki w danej witrynie
    nofollow - zabrania robotom indeksować stron, do których linki znajdują się w danej witrynie
    all - zastępuje "index, follow"
    none - zastępuje "noindex, nofollow"