Servicios gratis
 Página principal Inicio    Recomienda esta web a tus amistades Recomendar web    Buscar en esta web y en Google Buscador    Añádir pagina web Añadir web    Mapa del web - Distribucion de la pagina Mapa

ARTICULOS. PROMOCION PAGINAS WEBS

Controlar y limitar el acceso de "robots" en tu web

En ciertas ocasiones nos puede interesar impedir que los robots de los buscadores indexen ciertos directorios o documentos de nuestro web, para ello se usan los archivos "robot.txt".

El archivo robot.txt no es más que archivo de texto que contiene una lista de instrucciones escritas en un formato estandarizado y que están dirigidas a todos o a ciertos robots en concreto. La función de estas instrucciones es la de prohibir que ciertos documentos o directorios que no queramos compartir sean indexados por los spiders.

El fichero robot.txt es lo primero que los crawlers buscan cuando acceden a un sitio web, posteriormente pasan a indexar el resto de nuestra web. El fichero robot.txt debe esta situado en el directorio raíz de nuestro sitio web, es decir, deberíamos poder acceder a el desde la dirección tudominio.com/robot.txt.

El motivo por el cual robot.txt debe esta colocado en nuestro directorio raíz es por es simple hecho de que los spiders solo lo buscan allí. Si lo encuentran, lo leerán y supuestamente acataran las instrucciones allí indicadas. Pero si no lo encuentran, darán por hecho que pueden indexar todos los documentos que estimen oportuno.

Puede ocurrir que un spider encuentre nuestro fichero robot.txt y que aunque supuestamente debería de acatar las ordenes que allí se le indican, este haga caso omiso de los mismo y termine indexando los documentos que queríamos prohibirle. Pero esto es algo que no tiene solución clara, al fin y al cabo quien va a obligar a los desarrolladores del spider a que este acate las ordenes de los archivos robot.txt?

La estructura de un archivo robot.txt es realmente simple, todas sus instrucciones son de tipo:

<Campo> : <Value>


donde únicamente puede ser "User-agent" o "Disallow", mientras que solo puede ser el nombre de un robot o el path relativo al directorio o documento cuya indexación queremos prohibir.

Con un ejemplo todo se ve más claro:


User-agent: *
Disallow: /docs_privados/fotos/
Disallow: /docs_privados/textos/
Disallow: /docs_privados/doc_secreto.txt

User-agent: Googlebot/2.1
User-agent: InfoNaviRobot(F107)
User-agent: TV33_Mercator_1-1.0
User-agent: AVSearch-3.0
User-agent: Scooter/2.0
User-agent: Slurp/2.0
User-agent: SearchengineLicenceSheep_v1.0
User-agent: shadow/2.0
User-agent: MultiText/0.1
User-agent: FAST-WebCrawler/2.2.5
User-agent: Atomz/1.0
User-agent: htdig/ (searchit@netmind.com)
User-agent: spider00.logika.net.
Disallow: /documento.html


Como puedes observar el ejemplo esta dividido en dos partes. La primera esta dirigida a todos los robots, así lo indica la primera instrucción User-agent: *, donde el carácter "*" equivale a "cualquier" o "todos" los spiders. La segunda parte, esta dirigida a unos robots concretos definios mediante múltiples instrucciones que asignan un robot concreto a "User-agent".

En ambas partes, tras indicar los robots a los cuales esta dirigido, se especifica mediante "Disallow" los directorios y documentos que no deberían ser indexados por los robots. Hay que tener en cuenta que para prohibir la indexación de todos los documentos de un directorio, el path que se asigna a "Disallow" debe incluir el carácter "/" al final del nombre del directorio. Es decir, debe tener el formato Disallow: /directorio/ en vez de Disallow: /directorio.

El archivo robot.txt solo sirve para intentar prohibir la indexación de ciertos documentos y directorios, no es valido para configurar otros aspectos del funcionamiento de los spiders. Pero para esto existen los meta-tags de tipo "Robot", los cuales incluidos en un documento HTML sirven para comunicar al robot la asiduidad con la que debiera indexar el documento. Pero esto es ya otra historia...

"Controlar y limitar el acceso de "robots" en tu web" es uno de los muchos artículos y tutoriales sobre Apache, MySQL, PHP, CGI, Javascript, Promoción y comercio electrónico publicados por argintxe en guebmaster.com



<<Anterior
 
Deportes
Postales
Musica
Calculadora
Anuncios Alicante
Anuncios Granada
Anuncios Valladolid
Anuncios Salamanca
Anuncios Burgos
Futbol
Mapas
Diseñador web
Pc sobremesa
Cine
Cine
Cultura
Portatiles
Poner anuncios
Fondos pantalla
Marketing web
Pdas
Horóscopo
Logos y tonos
Quiniela
Humor
Correo
El tiempo
Paginas amarillas
Traductor
Humor
Plantillas gratis
Buscar trabajo
Chistes
Teclas rapidas
Juegos gratis
Restaurantes
Paginas
Webmasters
Jmcweb.org / Guías de viajes y turismo

  Feed  Sitemap Google