Che cos’è un crawler


Un crawler, nel linguaggio informatico, è un software che analizza i contenuti del tuo blog (e lo stesso fa per tutti gli altri blog e siti presenti nella rete), in modo da raccogliere dati e informazioni relativi ad esso. Quando il crawler visita e scansiona il tuo blog e i suoi contenuti, analizza tutto ciò che il tuo database contiene: legge i post, valuta le parole chiave usate (sia la keyword principale che le keyword associate e correlate a quella), le tag (cioè le “etichette”, composte da una o più parole, che descrivono gli argomenti trattati), analizza le immagini e tutti i collegamenti dati dai link interni ed esterni.


Memorizza, poi, i risultati della sua analisi copiando il contenuto del blog e salvandolo in un database.

Lo scopo dei crawler


Il crawler ha il compito di setacciare e vagliare il web alla ricerca di blog, siti e contenuti, in modo da indicizzarli per il motore di ricerca. Lo scopo dell’analisi e della scansione del blog è di conoscerne i suoi contenuti, e capire se vengono aggiornati, e tenerli in memoria.


Un concetto molto importante da tenere bene a mente è che il crawler trova il blog e lo indicizza, ma questo non significa che dia a quei contenuti una posizione alta nella SERP: per ottenere una posizione alta in classifica – tradotto: per comparire ai primi posti nella lista dei risultati di ricerca utili resi disponibili dal motore agli utenti – occorre che vi sia la presenza di determinate caratteristiche nei post e nel blog che determina una loro valutazione positiva da parte del motore di ricerca.


Vediamo meglio questo concetto seguendo l’operato di Googlebot, di sicuro uno dei crawler più famosi e… temuti dai blogger alle prime armi.

Cosa fa Googlebot quando visita il blog

Googlebot è un programma che compie tre importanti azioni:

– fa una analisi approfondita del web alla ricerca di pagine e contenuti: arrivato per la prima volta sul tuo blog, analizza i tuoi post, per capire gli argomenti trattati, tutto ciò che hai pubblicato e, anche, l’architettura che hai dato al tuo blog. Periodicamente, ritorna sul tuo blog per scoprire se vi siano nuove risorse (ecco perché è importante pubblicare con costanza e aggiornare i vecchi articoli);
indicizza le risorse di contenuto trovate (indexing dei contenuti), cioè inserisce il blog (che rispetti alcune condizioni di base, leggi qui le istruzioni generali per i webmaster, se vuoi approfondire) nel database del motore di ricerca: il blog e le sue pagine esistono e si trovano nel motore di ricerca;
rende disponibile le informazioni per il ranking: come detto, lo spider NON determina il ranking. Il compito specifico del bot, infatti, è di trovare il contenuto del blog e renderlo disponibile sia al motore di ricerca sia al suo algoritmo di posizionamento. L’effettiva classificazione dei contenuti avviene sulla base di un sistema di fattori e parametri, che sono moltissimi (oltre 200, ripartiti in 9 aree principali) e che ne determinano la qualità complessiva e la loro utilità per l’utente. Il posizionamento non dipende, in altre parole, dal crawler, che tuttavia ha il ruolo, importantissimo, di informare il motore di ricerca di cosa è presente sul tuo sito.


L’obiettivo del crawler in sintesi


L’obiettivo del crawler è conoscere di cosa tratta ogni pagina, sapere se tale contenuto è aggiornato, e conservare una copia dei risultati della sua scansione in un database, in modo che tali informazioni siano recuperate e rese disponibili quando necessario.
Il crawler indicizza i contenuti del tuo blog (così come quelli di un sito), in modo da consentirne la ricerca sul motore e la relativa visualizzazione. Non determina il posizionamento, anche se fornisce all’algoritmo di valutazione importanti informazioni.

Il crawler è chiamato anche web crawler, bot, spider


Il crawler è chiamato anche web crawler, bot, spider. Come puoi intuire, è detto web crawler perché il crawler è usato per analizzare il web.


Il crawler è, invece, chiamato bot da robot, che in campo informatico è un insieme di comandi, istruzioni e procedure codificate per svolgere con esattezza e in autonomia determinati compiti. Il robot, in altre parole, è un software, un programma che esegue compiti specifici, precisi e ripetitivi per elaborare dei dati. Il crawler, infatti, esegue la scansione del tuo blog con periodicità, in modo mirato e sistematico.

Il crawler è detto spider perché il suo funzionamento assomiglia al comportamento di un ragno con la sua ragnatela
Il crawler è detto spider perché il suo funzionamento assomiglia al comportamento di un ragno con la sua ragnatela


Il crawler, infine, è detto anche spider perché, proprio come fa un ragno, si muove con abilità e agilità nel web, da un punto all’altro della sua rete, alla ricerca di informazioni. Inoltre, come il ragno controlla la tenuta dei fili della sua tela, così il crawler si sposta all’interno delle singole pagine del tue blog per verificarne lo stato di aggiornamento.

Scrivere grammaticando

Appassionata, da sempre, di grammatica, con una romantica preferenza per la linguistica, mi occupo di scrittura, di revisione di testi e di progettazione di piani editoriali. Blogger da tempo immemore, curo i miei siti personalmente con molto amore e tanta passione. Ho fatto mia la frase di Wislawa Szymborska: «Tutto a questo mondo si distrugge per il continuo uso, tranne le regole di grammatica».

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Torna in alto