LINUCA
LINUCA - Asociación de Usuarios GNU/Linux en Cantabria
CONTENIDOS
. La Asociación
. ¡ Apúntate a socio !
. Fotos
. Los más leídos
. Autores [Actividad]
. Últimos Comentarios
. ¡Todos los titulares!
. Guía de Estilo
. Cómo publicar en Linuca
. Links cortos
. Lista de Correo
   [Mensajes antiguos]
   [Etiqueta en la Lista]
. Todas las Listas
. ¿Sugerencias?
. ¡Sindícanos!
Gràcies Bulma!
Esta página usa el código fuente de Bulma :-)
Busquedas

Ultimos kernels
(16/04/2014 14:21:23)
Debian
Última actualización
stable: 08/02/2014
testing: 16/04/2014
unstable: 16/04/2014
Robots.txt : Gestionar los accesos de los spider bots a nuestra web (12937 lecturas)
Por Javier Gonzalez
^IcE-bOy^ (http://www.javier-gonzalez.com)
Creado el 27/06/2004 18:36 modificado el 27/06/2004 18:36

Es posible que en más de una ocasión algún bot (como el de google) nos halla cacheado webs que tenemos hospedadas en algún servidor y que no queríamos que fueran "publicadas" ... o simplemente puede que queramos elegir lo que deben descargar o no los bots para mejorar así el rendimiento de los buscadores.
También podemos bloquear aquellos bots de spam que van buscando direcciones de e-mail por nuestras páginas para llenarlas de basura.
Otra cosa a tener en cuenta, y que resulta poco gracioso, es que muchos buscadores van en busca de imágenes para cachearlas, no solo contenidos ... y no creo que nos guste aparecer en portada de google cuando alguien busque por "beer" ¿Verdad kyle? ;)

Pagina1/1

Robots.txt : Gestionar los accesos de los spider bots a nuestra web


Es posible que en más de una ocasión algún bot  (como el de google) nos halla cacheado webs que tenemos hospedadas en algún servidor y que no queríamos que fueran "publicadas" ... o simplemente que puede que queramos optimizar lo que deben descargar o no los bots para mejorar así el rendimiento de los buscadores. También podemos bloquear aquellos bots de spam que van buscando direcciones de e-mail por nuestras páginas para llenarlas de basura.
Otra cosa a tener en cuenta, y que resulta poco gracioso, es que muchos buscadores van en busca de imágenes para cachearlas, no solo contenidos ... y no creo que nos guste aparecer en portada de google cuando alguien busque por "beer" ¿Verdad kyle? ;)

La estructura del fichero robots.txt es:
    <Field> ":" <value>

En <Field> podemos usar el campo User-agent de tal forma que podemos especificar distintas configuraciones para cada bot (por si un bot nos cae mejor que otro .. o algo así), La sintaxis es:
    User-agent : <bot>

"Googleando" he encontrado esta pequeña lista de los principales spiders que utilizan los buscadores:


Spider Names

Category

Origin

Language

User-agent

Acoon Search Germany German Acoon Robot
AllThatNet Search United States English (US) ATN Worldwide
Altavista Search United States English (US) Scooter
Anzwers Search United States English (US) AnzwersCrawl
AustLII Search Australia English (AUS) Grommit
CMC/0.01 Music Japan Japanese CMC/0.01
Direct Hit Grabber Search United States English (US) grabber
e-Collector Email United States English (US) ecollector
Entire Web Search Sweden English (US) Speedy
EuroSeek Search Sweden English (US) Freecrawl
Excite Search United States English (US) ArchitextSpider
FAST/AllTheWeb Search United States English (US) FAST WebCrawler
Fireball Search Germany German KIT Fireball
Goo Search Japan Japanese moget
Google Search United States English (US) Googlebot
Google Image Image United States English (US) Googlebot-Image
Griffon Search Japan Japanese griffon
IaNet.com Search Canada English (CDN) ParaSite
Industry Central Search Canada English (CDN) Open Text Site Crawler
InfoSeek.de Search Germany German marvin
Ingrid Search Netherlands Dutch INGRID/0 1
Inktomi Search United States English (US) Slurp
Internet Cruiser Search Yugoslavia English (US) Internet Cruiser Robot
Kvasir Search Norway Norwegian solbot
Legs News United States English (US) legs
Lets Find It Now! Search Hungary English (US) elfinbot
Lycos Search United States English (US) Lycos_Spider_(T-Rex)
Mirago Search United Kingdom English mirago
Northern Light Search United States English (US) Gulliver
Openfind Search Chinese Chinese (Traditional) Openbot
Planet Search Search United States English (US) fido
Portal Juice Search Canada English (CDN) pjspider
whatUseek Search United States English (US) winona
WhoWhere Search United States English (US) whowhere

Por ejemplo, si queremos establecer unas reglas para el robot de google (Googlebot) tendríamos que especificarlo con: User-agent: googlebot
Para hacer referencia a todos los bots: User-agent: *

Una vez indicado el User-agent sólo los queda marcar aquellos ficheros a los que NO queremos que entre el bot, para ello basta con utilizar:
Disallow: <fichero o directorio>

Por ejemplo, para deshabilitar el acceso al directorio /cgi-bin/ : Disallow: /cgi-bin/
Si queremos evitar el acceso a personal.html: Disallow: personal.html

Un fallo típico es usar: Disallow: * y esto NO funciona, para desabilitar el acceso a todo se debe usar Disallow: / (por supuesto, tampoco existe allow)
Antes de empezar con los ejemplos, simplemente comentar (valga la redundancia) que con el símbolo <#> podemos comentar lineas dentro de robots.txt

Y ahora unos ejemplillos que pueden ser útiles:

# --- Impedir acceso al directorio /gallery (donde hemos colgado las fotos esas en las que salimos tan **bien** en la playita)
User-agent: *
Disallow: /gallery/
# ---

# --- Sólo permitir el acceso a googlebot y altavista
User-agent: googlebot
Disallow:

User-agent: Scooter
Disallow:

User-agent: *
Disallow: /
# ---

# -- Impedir acceso a un bot en concreto (googlebot) y dejar a los demás que accedan donde quieran menos a /gallery/
User-agent: googlebot
Disallow: /

User-agent: *
Disallow: /gallery/
# ---

# -- Impedir el acceso de google a todos los ficheros .txt
User-agent: googlebot
Disallow: *.txt
# --


Una vez tengamos terminado nuestro robots.txt podemos ir a http://www.searchengineworld.com/cgi-bin/robotcheck.cgi y comprobar si la sintaxis de nuestro robots.txt es correcta.

Un saludo:
Javier González
javier(YO_QUITARIA_ESTO_Y_METERIA_UNA_ARROBA)javier-gonzalez.com


Imprimir
Version para
imprimir

Imprimir
Version
PDF
Comentarios
Es posible que se hayan omitido algunos comentarios considerados poco constructivos
1.  Re: Robots.txt (02/07/2004 18:19, #1849)
  Por: El cobarde anónimo
genial articulo. Muchas gracias

 
2.  Re: Robots.txt (26/08/2004 21:26, #2118)
  Por: El cobarde anónimo
Interesante articulo, pero tengo una cuestión, donde se tiene que colocar este archivo (creo que esta pregunta es un poco de pardillos, pero es que no tengo ni idea) Gracias

 
3.  Re: Robots.txt (19/09/2004 17:48, #2255)
  Por: Sniper
Campeón...en el directorio raiz de tu sitio! Saludos

 
4.  Re: Robots.txt: Gestionar los accesos de los spider bots a nuestra web (24/09/2004 03:16, #2285)
  Por: Chesco (http://www.tworec.com)
Tengo una SUPER DUDOTA al colocar mi robot.txt es necesiario poner los metas igual con los robots o simplemente cual pongo.
Otra duda master en caso de poner los dos (quiero decir el archivo robot.txt y los metas name=robots ...) el spider o robot qa quien le hace caso.
Gracias muy buen resumen.

 
5.  Re: Robots.txt: Gestionar los accesos de los spider bots a nuestra web (23/11/2004 00:01, #2666)
  Por: El cobarde anónimo
Creo que la respuesta se deduce.
Primero tienes el archivo que está en el directorio raiz,por lo tanto es allí donde busca el robot tal archivo, esto es ANTES de explorar el resto del sistema.
Si existe tal archivo, el robot ya sabe cuales son las restricciones antes de ir a directorios y páginas.

En segundo lugar, puede restringirse con los meta tags. Recuerda que los meta tags no son soportados por todos los robots.

 
6.  Re: Robots.txt: Gestionar los accesos de los spider bots a nuestra web (01/09/2005 04:35, #3928)
  Por: El cobarde anónimo
mira andate a la reputa que te pario jajaja puttooooooooo

 
Calificacion
***0
Votos: 27
SECCIONES
Artículo
Truco
Noticias
Breve
Enlace
Linuca
Libros
Tira ECOL
Tira Ecol
Modificado: 22/2/2007 16:07:02 | Tiempo Total: 0.003 segs | Kernel: Linux - x86_64 - 2.6.18-xen | Last Boot: 03/12/2010 01:21 CET
Powered By WEB-Bulma   Apache   Mysql   PHP   Gimp