| |
Controlar y limitar el acceso
de "robots" en tu web
En ciertas ocasiones
nos puede interesar impedir que los robots de los buscadores indexen ciertos
directorios o documentos de nuestro web, para ello se usan los archivos
"robot.txt".
El archivo robot.txt no es más que archivo de texto que contiene una lista
de instrucciones escritas en un formato estandarizado y que están dirigidas
a todos o a ciertos robots en concreto. La función de estas instrucciones
es la de prohibir que ciertos documentos o directorios que no queramos
compartir sean indexados por los spiders.
El fichero robot.txt es lo primero que los crawlers buscan cuando acceden
a un sitio web, posteriormente pasan a indexar el resto de nuestra web.
El fichero robot.txt debe esta situado en el directorio raíz de nuestro
sitio web, es decir, deberíamos poder acceder a el desde la dirección
tudominio.com/robot.txt.
El motivo por el cual robot.txt debe esta colocado en nuestro directorio
raíz es por es simple hecho de que los spiders solo lo buscan allí. Si
lo encuentran, lo leerán y supuestamente acataran las instrucciones allí
indicadas. Pero si no lo encuentran, darán por hecho que pueden indexar
todos los documentos que estimen oportuno.
Puede ocurrir que un spider encuentre nuestro fichero robot.txt y que
aunque supuestamente debería de acatar las ordenes que allí se le indican,
este haga caso omiso de los mismo y termine indexando los documentos que
queríamos prohibirle. Pero esto es algo que no tiene solución clara, al
fin y al cabo quien va a obligar a los desarrolladores del spider a que
este acate las ordenes de los archivos robot.txt?
La estructura de un archivo robot.txt es realmente simple, todas sus instrucciones
son de tipo:
<Campo>
: <Value>
donde únicamente puede ser "User-agent" o "Disallow", mientras
que solo puede ser el nombre de un robot o el path relativo al
directorio o documento cuya indexación queremos prohibir.
Con un ejemplo todo se ve más claro:
User-agent: *
Disallow: /docs_privados/fotos/
Disallow: /docs_privados/textos/
Disallow: /docs_privados/doc_secreto.txt
User-agent:
Googlebot/2.1
User-agent: InfoNaviRobot(F107)
User-agent: TV33_Mercator_1-1.0
User-agent: AVSearch-3.0
User-agent: Scooter/2.0
User-agent: Slurp/2.0
User-agent: SearchengineLicenceSheep_v1.0
User-agent: shadow/2.0
User-agent: MultiText/0.1
User-agent: FAST-WebCrawler/2.2.5
User-agent: Atomz/1.0
User-agent: htdig/ (searchit@netmind.com)
User-agent: spider00.logika.net.
Disallow: /documento.html
Como puedes observar el ejemplo esta dividido en dos partes. La primera
esta dirigida a todos los robots, así lo indica la primera instrucción
User-agent: *, donde el carácter "*" equivale a "cualquier" o "todos"
los spiders. La segunda parte, esta dirigida a unos robots concretos definios
mediante múltiples instrucciones que asignan un robot concreto a "User-agent".
En ambas partes, tras indicar los robots a los cuales esta dirigido, se
especifica mediante "Disallow" los directorios y documentos que no deberían
ser indexados por los robots. Hay que tener en cuenta que para prohibir
la indexación de todos los documentos de un directorio, el path que se
asigna a "Disallow" debe incluir el carácter "/" al final del nombre del
directorio. Es decir, debe tener el formato Disallow: /directorio/
en vez de Disallow: /directorio.
El archivo robot.txt solo sirve para intentar prohibir la indexación de
ciertos documentos y directorios, no es valido para configurar otros aspectos
del funcionamiento de los spiders. Pero para esto existen los meta-tags
de tipo "Robot", los cuales incluidos en un documento HTML sirven para
comunicar al robot la asiduidad con la que debiera indexar el documento.
Pero esto es ya otra historia...
"Controlar y limitar el acceso de "robots" en tu web" es
uno de los muchos artículos y tutoriales sobre Apache, MySQL, PHP, CGI,
Javascript, Promoción y comercio electrónico publicados por argintxe en
guebmaster.com
|
|