| Proyecto Cuasar - Creación de un buscador similar a Google. X) | |
| Autor: David C.M web del buscador: http://www.cuasar.com/spider_beta/ Trabajando en: Preparando el formulario de añadir web. |
|
Miércoles, 12 octubre 2005 18:55h Cuando cuasar detecta una nueva URL lo que hace es descomponerla en:
Si la identificación de las partes ha tenido éxito se procede a la normalización de la URL, con este proceso se consigue saber si la URL ya se encuentra en la base de datos de cuasar. Haciendo pruebas me he dado cuenta que algunos dominios estaban siendo rechazados por cuasar, por ejemplo, los dominios www.dominio.com.es, www.dominio.org.es, www.dominio.com.mx, ... no estaban siendo visitados por cuasarbot. Tras varias horas buscando el error he dado con la solución, si eres propietario de un dominio con estas características muy pronto serás visitando por cuasarBot.
Lunes, 10 octubre 2005 20:18h Cuasar está formado por varios procesos, cada uno hace una función específica. Antes de la indexación se encuentran los siguientes procesos: 1. Filtro URL. 2. Captura página. 3. Extractor de títulos, palabras clave, textos, ... 4. Identificador idioma. 5. Filtro RSS. 6. Generador de cache (GZIP). 7. Indexación. Todos los puntos ya están terminados menos el 4 (identificador de idioma). He probado con varios algoritmos pero ninguno da buenos resultados, uno de los más conocidos es " N-Gram-Based Text Categorization", pero los resultados no han sido óptimos por lo que estoy desarrollando un algoritmo de palabras más comunes. He analizado 10.000 páginas de un diario online (español), 10.000 páginas de otro diario online (inglés), ... extraído las palabras más comunes y únicas. Luego solo hay que comparar y ver si es óptimo. Mañana comunicaré si da buenos resultados.
|
¿Qué es cuasar? Herramientas cuasar: Colaboradores: Archivo mensajes: Mis enlaces diarios: |
2005 cuasar.com Proyecto ideado por David C.M |