Indicizzazione significato e come funziona un crawler nel processo di ricerca

Significato di indicizzazione: e’ lo scandaglio dei database del web da parte di un search engine (google ma anche altri motori di ricerca). Vengono setacciati non solo i testi dei siti ma anche le immagini etc. I crawler sono dei robot informatici in grado di leggere il codice html e seguire i links dei documenti. Questo quando non ci siano inibizioni tramite il file robots.txt.

Il comportamento dei crawler: Sono programmi di intelligenza artificiale che si limitano a visitare una lista di urls segnalati in genere dai programmatori tramite il ping della sitemap e le risorse linkate dagli utenti del web.

I crawler scansiona i dati di una pagina e li archivia, tali e quali come sono sui servers del motore di ricerca in particolar modo nella cache. Solo dopo questo processo di scansione e archiviazione il bot comincia ad analizzare il contenuto assegnandoli un indice per poi ritrovarli piu’ facilmente.

L’analisi funziona con questi step:

  • Ricerca collegamenti ipertestuali (links interni) che visitera’ in coda, in futuro mettendoli in una sorta di “registro provvisorio”.
  • Analisi dei tags (url, title,h1,h2, e testo) alla ricerca di keywords

Conclusione di questra estrapolazione dati (IR): url+tags+contenuti+links–>si ha la loro inclusione nel database di google

Per capire il significato di indicizzazione bisogna anche capire cosa avviene nel momento che l’utente effettua una ricerca. Il motore di ricerca a seguito di una query cerca in quali record del database ci sono le risorse, i dati che sono il piu’ possibili vicini a quello che ha cercato (pertinenti e rilevanti). Li ordinerà in ordine di prestigio, di valore detto ranking.

I primi risultati sono di migliore qualità. Ad un certo punto pero’ per gli utenti che vengono dopo e cercheranno la stessa cosa, per non stare ad estrapolare di nuovo tutti i dati, il motore di ricerca si e’ creato una specie di registro detto file di cache della Serp.

Per dirla in modo semplice Google fa una specie di registro e poi per pigrizia il crawler non passava piu’ per quella serp per un po’ di tempo, per via di una specie di pigrizia informatica. Salvo poi ricredersi causa cambiamenti.

Tratto da autori vari estratti sul portale

http://www.semantic-web-journal.net/