El otro dÃa comentaba al final de este artÃculo sobre los agujeros negros de internet que a cuenta de la lucha contra el spam estaban empeorando algunas cosas en la red.
Es curioso que a alguien se le haya ocurrido la mejor forma de luchar contra el spam sin perjudicar a nadie: que google u otro buscador comprueben a mano dominio por dominio, cosa que parece viable por una gran empresa como Google o Microsoft:
- Existen 78 millones de dominios en internet
- Si cada empleado puede comprobar mil dominios al dÃa y pones a trabajar en esto a mil personas, tardarÃan menos de tres meses en comprobar todos los dominios.
- Mil empleados son el 10% de los trabajadores de Google y el 2% de los de Microsoft
- Todo esto sin hacer filtros de ningún tipo, por lo que todo se podrÃa reducir mucho más.
¿PodrÃa Google comprobar a mano todos los dominios de internet? Parece que sÃ, por capacidad, por viabilidad y por experiencia, ya que además tienen muchos probadores – testers en todos los idiomas del mundo cuidadosamente entrenados para comprobar la calidad de los resultados en diversas formas.
¿Por qué no lo hace? Se me ocurren muchos motivos por los que ésto no es útil, pero la principal es un argumento que han comunicado ellos mismo muchas veces, y es que “quieren todo el proceso automatizado con la menor intervención manual posible”. ¿PodrÃa ser éste un ejemplo similar al de los millones de dólares invertidos por la NASA para encontrar un boli que pintase en el espacio frente al lápiz de los rusos? No, no lo creo realmente, pero como curiosidad no está mal.











October 2nd, 2008 at 12:47 pm
Hay unos cuantos más de dominios, para septiembre a Verisign le salen más de 160 millones. (http://www.verisign.com/static/044191.pdf)
October 2nd, 2008 at 12:49 pm
1000 dominios al dia???
Eso serian 125 a la hora.. y mas o menos uno cada 30 segundos!!
No creo que en 30 segundos de tiempo a comprobar un dominio..ni que sea una tarea demasiado agradable ni fiable.
October 2nd, 2008 at 1:19 pm
Lo veo complicado de verdad ir uno a uno.
El enlace a seomoz esta roto.
un saludo
October 2nd, 2008 at 2:42 pm
Contando que los chinos e hindues están fusilando captchas a razón de 2$ cada 1000… se podrÃa externalizar el trabajo ;-) ¡outsourcing!. Y aun serÃa barato.
October 2nd, 2008 at 3:34 pm
Siendo la cantidad inicial que sea, si previamente a la revisión manual, se filtra por unos parámetros obvios y básicos, muchas páginas Web de Spam ya quedarán filtradas.
Hay parámetros básicos que hacen evidente que una Web es Spam.
Densidad de links (para filtrar granjas de enlaces), links a páginas censuradas, códigos ocultos y Javascript, etc.
Gran parte de esos millones de páginas se quedarán en esos filtros.
October 2nd, 2008 at 10:09 pm
Totalmente de acuerdo con Xavier. Además yo pienso que otro parámetro puede ser la cantidad de páginas generadas. Es posible que tambien filtren a webs que tienen adsense (vamos pienso que les interesa que las webs que tengan adsense tengan algo de calidad y no sean basura de spam).
October 14th, 2008 at 2:05 pm
Si lo pueden automatizar mucho mejor porque un filtrado manual no creo que sea viable, puede parecer una buena oportunidad de quitar el spam pero es que al ritmo que avanza internet rápidamente se quedarÃa desfasado.