Semalt: Cum să blocați robotii Darodar.txt

Fișierul Robots.txt este un fișier text tipic care conține instrucțiuni cu privire la modul în care crawler-urile web sau roboții ar trebui să se deplaseze pe un site. Aplicația lor este evidentă în bot-urile de căutare care sunt comune pe numeroase site-uri web optimizate. Ca parte a protocolului de excludere a robotilor (REP), fișierul robots.txt constituie un aspect esențial al indexării conținutului site-ului, precum și permite unui server să autentifice cerințele utilizatorilor în consecință.

Julia Vashneva, Semalt Senior Customer Success Manager, explică faptul că conectarea este un aspect al optimizării motoarelor de căutare (SEO), care implică câștigarea traficului din alte domenii din nișa ta. Pentru legăturile „urmăriți” pentru a transfera suc de linkuri, este esențial să includeți un fișier robots.txt pe spațiul dvs. de găzduire a site-ului dvs. web pentru a acționa ca instructor al interacțiunii serverului cu site-ul dvs. Din această arhivă, instrucțiunile sunt prezente, permițând sau respingând comportamentul anumitor utilizatori.

Formatul de bază al fișierului robots.txt

Un fișier robots.txt conține două linii esențiale:

User-agent: [nume user agent]

Interzicere: [șirul URL care nu trebuie să fie accesat]

Un fișier complet robots.txt ar trebui să conțină aceste două linii. Cu toate acestea, unele dintre ele pot conține mai multe linii de agenți-utilizatori și directive. Aceste comenzi pot conține aspecte precum permite, nu permite sau întârzie accesul la crawl. De obicei, există o pauză de linie care separă fiecare set de instrucțiuni. Fiecare dintre instrucțiunile permise sau refuzate este separată de această pauză de linie, în special pentru robots.txt cu mai multe linii.

Exemple

De exemplu, un fișier robots.txt poate conține coduri precum:

User-agent: darodar

Interzicere: / plugin

Interzicere: / API

Interzice: / _comentarii

În acest caz, acesta este un fișier de blocare robots.txt care restricționează accesul site-ului web Darodar de pe site-ul dvs. web. În sintaxa de mai sus, codul blochează aspecte ale site-ului web, cum ar fi plugin-uri, API și secțiunea de comentarii. Din aceste cunoștințe, este posibil să obțină numeroase beneficii din executarea eficientă a fișierului text al unui robot. Fișierele Robots.txt pot fi capabile să îndeplinească numeroase funcții. De exemplu, pot fi gata să:

1. Permiteți întregul conținut de crawlere web într-o pagină de site. De exemplu;

Agent utilizator: *

Disallow:

În acest caz, tot conținutul utilizatorului poate fi accesat de orice crawler web solicitat să ajungă pe un site web.

2. Blocați un conținut web specific dintr-un folder specific. De exemplu;

User-agent: Googlebot

Renunțare la: / exemplu-subfolder /

Această sintaxă care conține numele utilizatorului agent Googlebot aparține Google. Acesta restricționează botul să acceseze orice pagină web din șirul www.ourexample.com/example-subfolder/.

3. Blocați un anumit web crawler dintr-o anumită pagină web. De exemplu;

User-agent: Bingbot

Renunță: /example-subfolder/blocked-page.html

Bot-ul Bing user-agent aparține crawler-urilor web Bing. Acest tip de fișier robots.txt restricționează crawler-ul web Bing de la accesarea unei anumite pagini cu șirul www.ourexample.com/example-subfolder/blocked-page.

Informații importante

  • Nu orice utilizator folosește fișierul dvs. robts.txt. Unii utilizatori pot decide să-l ignore. Majoritatea acestor crawlere web includ troieni și malware.
  • Pentru ca fișierul Robots.txt să fie vizibil, acesta ar trebui să fie disponibil în directorul site-ului web de nivel superior.
  • Caracterele "roboți.txt" sunt sensibile la litere mari și mici. Drept urmare, nu ar trebui să le modificați în niciun fel, incluzând valorificarea unor aspecte.
  • „/Robots.txt” este domeniu public. Oricine poate găsi aceste informații atunci când se adaugă la conținutul oricărei URL. Nu ar trebui să indexați detaliile esențiale sau paginile pentru care doriți ca acestea să rămână private.