En el siguiente vÃdeo, Matt Cutts habla sobre dos intersantes cuestiones sobre el robots.txt:
- Cómo hacer para que desaparezca una URL de Google
- ¿Por qué aparece en Google una URL que he bloqueado en el robots.txt? ¿la ha incluido de todas formas?
Cómo hacer para que desaparezca una URL de Google
Solo con la etiqueta noindex, tal como se explica aquÃ: Cómo eliminar páginas de Google
¿Por qué aparece en Google una URL que he bloqueado en el robots.txt? ¿la ha incluido de todas formas?
Efectivamente, la ha incluido de todas formas. El formato suele ser una URL con más parámentros adicionaels de la URL excluÃda, por ejemplo, si excuimos ejemplo.com/go, en google aparece idexada ejemplo.com/go/12345, y sin snippet, solo la URL. Esto es porque no ha rastreado la URL, y la indexa de todas formas porque tiene muchos enlaces hacia esa url con el mismo texto a pesar de estar bloqueada a los buscadores.
A veces, aparece con descripción en el snippet, pero no proviene del rastreo sino del directorio Open Directory Proyect. De esta forma se asegura un resultado con descripción y sin violar la exclusión del robot.txt.
Moraleja: Si queires bloquear totalmente una url, bloquéala bien con noindex.











October 7th, 2009 at 6:32 pm
Ni por esas.
Aun asà nos indexó un dominio, porque ojo, la raiz del dominio no es ninguna página, asà que esa la indexó. Sin description ni nada, pero la indexó. Lo mismo aplica a carpetas.
¿La solución?
Excluirla con el Webmaster Tools.
Sabiendo esto, lo mejor es crear una Google Alert sobre un contenido de la carpeta y, en cuanto la pille, entrar a Webmaster Tools y solitar la eliminación del Ãndice de resultados.
Oye, mano de santo.
October 20th, 2009 at 9:36 am
Miguel, yo lo he intentado por Webmaster Tools, y aveces da resultado y la elimina y otras veces viene denegada la solicitud de eliminación porque según ellos el acceso a la url no está restringido en el robot.txt, y una de dos, o que no estoy sabiendo manejar el robots.txt o es que se lo pasan por el forro.