Proyecto Cuasar - Creación de un buscador similar a Google. X)
Autor: David C.M
web del buscador: http://www.cuasar.com/spider_beta/
Trabajando en: Preparando el formulario de añadir web.
 

Miércoles, 12 octubre 2005 18:55h
Detectado error de normalización de URLs - SOLUCIONADO

Cuando cuasar detecta una nueva URL lo que hace es descomponerla en:

  • Protocolo
  • Host
  • TLD
  • Directorio
  • Página
  • Parámetros

Si la identificación de las partes ha tenido éxito se procede a la normalización de la URL, con este proceso se consigue saber si la URL ya se encuentra en la base de datos de cuasar.

Haciendo pruebas me he dado cuenta que algunos dominios estaban siendo rechazados por cuasar, por ejemplo, los dominios www.dominio.com.es, www.dominio.org.es, www.dominio.com.mx, ... no estaban siendo visitados por cuasarbot.

Tras varias horas buscando el error he dado con la solución, si eres propietario de un dominio con estas características muy pronto serás visitando por cuasarBot.

Enviar comentario, crítica, sugerencia ó error al autor de la noticia.

Lunes, 10 octubre 2005 20:18h
Me pongo las pilas con cuasar - Identificador de idioma

Cuasar está formado por varios procesos, cada uno hace una función específica. Antes de la indexación se encuentran los siguientes procesos:

1. Filtro URL.

2. Captura página.

3. Extractor de títulos, palabras clave, textos, ...

4. Identificador idioma.

5. Filtro RSS.

6. Generador de cache (GZIP).

7. Indexación.

Todos los puntos ya están terminados menos el 4 (identificador de idioma).

He probado con varios algoritmos pero ninguno da buenos resultados, uno de los más conocidos es " N-Gram-Based Text Categorization", pero los resultados no han sido óptimos por lo que estoy desarrollando un algoritmo de palabras más comunes.

He analizado 10.000 páginas de un diario online (español), 10.000 páginas de otro diario online (inglés), ... extraído las palabras más comunes y únicas. Luego solo hay que comparar y ver si es óptimo.

Mañana comunicaré si da buenos resultados.
Enviar comentario, crítica, sugerencia ó error al autor de la noticia.

 

 

¿Qué es cuasar?
Proyecto sin ánimo de lucro que pretende crear un buscador con la misma potencia de los grandes buscadores como Google, Altavista, Yahoo... utilizando los mínimos recursos.

Herramientas cuasar:
· Spider beta
· Status Cuasar
· Comando IP:
· Comando GEO:
· Comando CALC:
· Comando SITE:

Colaboradores:
· Nebay. Indexación.
· Ocrum. PageRank

Archivo mensajes:
· Abril 2005
· Marzo 2005
· Febrero 2005

Mis enlaces diarios:
· Google dirson
· Forosdelweb
· Searchengineshowdown
·




2005 cuasar.com Proyecto ideado por David C.M