Cos’è il file robots.txt

Ahoy capitano! Ora che hai costruito la tua nave non ti resta che issare le bandiere e salpare nel Regno di Google. 

Tuttavia per arrivare più rapidamente dovrai dotare la tua imbarcazione del file robots.txt, file attraverso il quale è possibile inviare diverse istruzioni e indicazioni ai crawler.

Se non sai cosa sia o vuoi sapere perché è così importante e come utilizzarlo puoi stare tranquillo perché ti seguirò e guiderò alla scoperta di quest’altro tesoro. 

File robots.txt: definizione

Come già saprai, nel Regno di Google i crawler, piccole imbarcazioni al servizio del motore di ricerca, navigano giorno e notte per raggiungere le nuove navi come la tua. 

Una volta raggiunto un nuovo sito impiegano del tempo per scansionarlo e successivamente indicizzarlo per poi rispondere in modo adeguato alle domande degli utenti. 

Dunque, i motori di ricerca svolgono due lavori principali: 

  • scansione del web – per scoprire contenuti nuovi o aggiornati; 
  • indicizzazione – inserire quel contenuto all’interno dell’indice di Google in modo che possa essere offerto agli utenti che cercano informazioni.

Dopo aver abbordato il sito web, prima di eseguire la scansione, il crawler cercherà nella stiva della tua nave un file robots.txt. Una volta trovato, leggerà il file prima di continuare nella pagina. 

Il file robots.txt, che fa parte del protocollo di esclusione robot, contiene infatti informazioni e regole indicate dai webmaster su come eseguire la ricerca all’interno del sito: le informazioni trovate indicheranno ai crawler cosa dovranno o non dovranno scansionare.

Dunque, è un file che tramite un’indicazione blocca la scansione da parte del crawler: immagina di trovarti di fronte una nave con la bandiera pirata, qualsiasi anima viva con un po’ di sale in zucca non andrebbe oltre e cambierebbe subito la propria rotta!

Se invece il file robots.txt non contiene alcuna direttiva la piccola imbarcazione procederà tranquillamente alla scansione di tutte le pagine e di altre informazioni sul sito.

Quando utilizzare un file robots.txt

Poiché i file robots.txt influenzano come i motori di ricerca vedono il tuo sito e come lo possono presentare poi agli utenti sono strettamente legati alla SEO.

Viene usato principalmente per gestire il traffico dei crawler verso il tuo sito e solitamente per escludere una pagina da Google a seconda del tipo di file:

  • una pagina web;
  • un file multimediale;
  • un file di risorse.


Questo procedimento servirà per migliorare la scansione e, a sua volta, l’indicizzazione del tuo sito: perciò posa il rum se desideri che le tue vele vengano avvistate dagli avventurieri! 

Pagina web 

Il file viene utilizzato per le pagine web in quanto consente di:

  • gestire il traffico di scansione per evitare che il server possa essere sovraccaricato di richieste dal crawler;
  • evitare che venga eseguita la scansione di pagine simili o che possiedono contenuti duplicati, in modo da evitare una penalizzazione da parte dei motori di ricerca;
  • evitare che venga eseguita la scansione di pagine non importanti del tuo sito;
  • gestire al meglio il crawl budget ovvero il numero di URL che i GoogleBot possono e vogliono scansionare;


Sempre per gestire il traffico, attraverso il file potrai specificare la posizione della
sitemap del tuo sito, mappa che indica alle piccole imbarcazioni che rotta seguire e dove approdare durante la scansione;

Bisogna tenere presente che anche se i bot dei motori di ricerca rispettano l’istruzione di non effettuare la scansione di specifiche pagine web, queste potrebbero essere comunque indicizzate se altri siti hanno link che rimandano alla pagina. Comprendi? 

D’altro lato, è anche possibile che i bot ignorino il file. Per questi motivi quando desideri evitare l’indicizzazione di una pagina, per esempio con all’interno dati sensibili, ti consiglio di utilizzare la protezione tramite password o un’istruzione noindex.

Per tutti i bucanieri! Mi raccomando, non utilizzare il file robots.txt per nascondere una pagina contenente informazioni riservate in quanto il file robots.txt è pubblicamente accessibile.

Dunque, il file può essere utilizzato per dare delle regole ai crawler ma non per nascondere le tue pagine dal Regno di Google.

File multimediale

È possibile utilizzare il file robots.txt per gestire il traffico di scansione e anche per impedire la visualizzazione di file immagine, video e audio nei risultati di ricerca. 

Tuttavia tieni presente che non verrà impedito ad altri utenti o pagine di rimandare al tuo file multimediale.

File di risorse

Puoi utilizzare il file robots.txt per gestire il traffico di scansione e bloccare i file di risorse, come file di immagine, script o stile non importanti, solo se ritieni che le pagine caricate senza tali risorse non subiranno conseguenze significative in seguito alla loro perdita. 

Tuttavia se l’assenza di queste risorse complica la comprensione della pagina per il crawler non dovrai bloccarle altrimenti il motore di ricerca non potrà garantire buoni risultati nell’analisi delle tue pagine che dipendono da queste risorse.

Ricordi che davanti alla nave pirata i crawler avrebbero cambiato strada? Assicurati perciò di non bloccare l’intero sito o alcun contenuto di cui desideri venga eseguita la scansione e l’indicizzazione.

Infine, se sul tuo sito non ci sono sezioni in cui desideri controllare l’accesso delle piccole imbarcazioni potresti non aver bisogno di un file robots.txt. 

Alcuni consigli su come scrivere il file robots.txt

Prima di iniziare a scrivere il file ti consiglio di frugare nella stiva della tua nave e controllare se esiste già. Per farlo ti basterà digitare il tuo dominio principale e inserire successivamente /robots.txt, per esempio: latuanave.it/robots.txt.

Arrivati a questo punto, se hai scoperto di non avere un file robots.txt o di voler modificare il tuo, crearne uno è un processo semplice: ti basterà seguire alcuni miei consigli.

Innanzitutto per realizzarlo potrai utilizzare qualsiasi programma in grado di creare un file di testo valido come un Blocco note, alcuni generatori online o il plugin Yoast SEO direttamente da WordPress.

Se ti sembra di affondare tra queste parole, niente panico: potrai chiedere aiuto a una ciurma di pirati che naviga in questi mari da tanto tempo e che sapranno indicarti la strada giusta da seguire.

Contattaci e ti aiuteremo ad affrontare questo viaggio.

Nome del file

Quando crei il file per il tuo sito web, assicurati di chiamarlo esattamente robots.txt, altrimenti i bot non potranno riconoscerlo.

Usa perciò solo lettere minuscole e non aggiungere alcun carattere o simbolo.

I codici da utilizzare

Un file robots.txt è costituito da una o più regole: ogni regola blocca (o consente) l’accesso per un determinato crawler a un percorso file specificato.

I codici che si possono utilizzare all’interno del file per fornire istruzioni ai motori di ricerca sono fondamentali e si dividono in:

  • user-agent – serve a indicare i bot a cui sono indirizzate le istruzioni (tutti o alcuni bot specifici)
  • disallow – introduce la lista di pagine o sezioni che i crawler non dovrebbero visitare;
  • allow – directory o pagina che dovrebbe essere sottoposta a scansione dal crawler menzionato. 
  • sitemap – deve essere un URL completo e indica la posizione di una sitemap per il sito web. 


Dunque, per chiedere di applicare delle restrizioni, o meno, di analisi sulle pagine si autorizzerà (allow) o vieterà (disallow) il comportamento di determinati (o tutti) crawler.

Adesso ti mostrerò un esempio, perciò stai molto attento! 

esempio di file robots.txt

In questo robots.txt, io e la mia ciurma, abbiamo chiesto al Googlebot di non eseguire la scansione della cartella https://veliero.com/tuastiva/ e delle eventuali sottodirectory per evitare che tutti scoprano le nostre scorte segrete di rum. 

Successivamente viene specificato che l’accesso a tutti gli altri crawler (*) è consentito all’intero sito (/).

Infine viene indicata la posizione esatta del file sitemap.xml.

 

Riassumendo, il file robots.txt sarà molto importante per la tua nave se vorrai gestire il traffico dei crawler verso di essa ed escludere una pagina o un file multimediale da Google, il tutto per migliorare la scansione e, a sua volta, l’indicizzazione del sito. 

Tuttavia, per realizzarlo serve tenere conto dei suggerimenti che ti ho dato: mantieni la rotta in queste acque sicure e la tua nave e il tuo equipaggio te ne saranno grati! 

Leave a Comment