Proyecto Cuasar - Creación de un buscador similar a Google. X)
Autor: David C.M
web del buscador: http://www.cuasar.com/spider_beta/
Trabajando en: Preparando el formulario de añadir web.
 

Jueves, 24 marzo 2005
Filtro de palabras comunes

Para que la indexación sea más rápida se ha decidido filtrar las palabras más comunes.

Los artículos indefinidos, artículos definidos, contracciones, pronombres sujeto, muy, mucho y expresiones adverbiales de tiempo son filtrados por el nuevo spider.

Listado de palabras filtradas: a ante bajo con de desde durante en entre excepto hacia hasta mediante para por salvo segun sin sobre y tras el los la las un unos una unas al del yo tu el ella usted nosotros nosotras vosotros vosotras ellos ellas ustedes muy mucho web hoy ayer anteayer manana pasado ahora ya luego pronto tarde temprano nunca jamas siempre antes despues tus que como com aqui esta mas todos solo asi traves toda nuestra nos cada propia misma ser otros ello

Enviar comentario, crítica, sugerencia o error al autor de la noticia.

Miércoles, 23 marzo 2005
Densidad de palabras clave

Analizando miles de páginas me ha llamado la atención las distintas formas de engañar a los buscadores con la intención de mejorar el posicionamiento, en especial a Google utilizando repeticiones de palabras.

Para evitar esta técnica de engaño he programado un proceso en cuasar que analiza la densidad de las palabras encontradas en una página. Si la densidad sobrepasa un umbral entonces la url será penalizada o expulsada del buscador cuasar.
¿Cúal es el umbral?, me reservo el dato como secreto. Lógico, ¿verdad?

Pero gracias a cuasar podeis conocer la densidad de palabras de una página utilizando el spider informativo.

Ejemplo:

http://www.cuasar.com/spider_beta/search.php?q=http://www.cuasar.com

Espero que os sea útil y que os sirva para mejorar el posicionamiento.

Enviar comentario, crítica, sugerencia o error al autor de la noticia.

Domingo, 13 marzo 2005
AntiSPAM: Límite de profundidad de los directorios

Hace días que no posteo en el blog, resulta que he estado analizando millones de páginas para encontrar técnicas que aplican algunos webmasters con el propósito de engañar a Google. Los resultados han sido sorprendentes, más del 20% de las URLs presentan algún tipo de optimización no permitida por los buscadores.

Por este motivo he decidido que antes de comenzar con la indexación, cuasar filtre URLs con nulo contenido informativo o con técnicas de posicionamiento no permitidas.

Primera medida: Filtrado de profundidad de directorios.

La profuncidad máxima de directorios permitida en Cuasar es de 7.

Ejemplo:
http://www.cuasar.com/d2/d3/d4/d5/d6/d7/d8/index.htm -> Url filtrada.

http://www.cuasar.com/d2/d3/d4/d5/d6/index.htm -> Url aceptada.


En los próximos días comunicaré nuevos filtros.

Enviar comentario, crítica, sugerencia o error al autor de la noticia.

Lunes, 1 marzo 2005
Nuevo SPIDER cuasarBot/1.0.

Ya está en marcha el nuevo spider cuasarBot, más estable, más rápido y más potente. Todo preparado para la indexación. ¡¡ Ya queda menos!!

Las novedades del spider cuasarBot son:

· Filtros antiSPAM (ya comentaré los criterios, de interés SEO).
· Desglose por tld (com, net, es, ar, mx, ...).
· La velocidad de captura de URLs es 4 veces mayor.
· Eliminación de enlaces muertos. ;-)
· Busca enlaces en páginas con FRAMES.
· Captura el charset de cada página.
· Detecta páginas con contenido Flash.
· Captura el tamaño de la página (en bytes).
· Balanceado de carga, distribuye la carga en varios procesos.
· Soporta página con redirección de servidor. Location:http://

¿Tu web ha sido visitada por el nuevo spider?

Enviar comentario, crítica, sugerencia o error al autor de la noticia.

 


 

¿Qué es cuasar?
Proyecto sin ánimo de lucro que pretende crear un buscador con la misma potencia de los grandes buscadores como Google, Altavista, Yahoo... utilizando los mínimos recursos.

Herramientas cuasar:
· Spider beta
· Status Cuasar
· Comando IP:
· Comando GEO:
· Comando CALC:
· Comando SITE:

Colaboradores:
· Nebay. Indexación.
· Ocrum. PageRank

Archivo mensajes:
· Abril 2005
· Marzo 2005
· Febrero 2005

Mis enlaces diarios:
· Google dirson
· Forosdelweb
· Searchengineshowdown
·




2005 cuasar.com Proyecto ideado por David C.M