Hai bisogno
di assistenza?
Costruiamo insieme il tuo sito web.
Installazione Joomla!® sul tuo server.
Il file robots.txt di Joomla!® - Come e quando conviene bloccare l'indicizzazione dei contenuti
A cosa serve il file robots.txt
Se ci avete fatto caso, terminata l'iniziale procedura di installazione di Joomla!®, nella root sarà presente un file denominato robots.txt.
Questo file ha uno scopo ben definito, serve a fornire delle direttive ai motori di ricerca in merito all'indicizzazione dei contenuti del sito.
È un semplice file di testo che può essere aperto e modificato con un editor come il Blocco note di Windows o TextEdit del Mac (in modalità solo testo!).
Diciamo subito che non è vincolante, alcuni motori potrebbero disattendere alle direttive impostate, ma solitamente vengono recepite.
Senza entrare nel tecnico, possiamo dire che tra le principali istruzioni di un file robots abbiamo:
- User-agent: che identifica a quali motori sono destinate le direttive successivamente elencate;
- Disallow: seguita da un percorso, identifica un contenuto che preferiremmo non venisse indicizzato;
- Allow: seguita da un percorso, un contenuto che può essere indicizzato.
Il robots.txt di Joomla!®
Se visualizziamo il robots.txt di Joomla!® ci appaiono subito chiare le sue direttive.
User-agent: * significa che si chiede a tutti i motori di ricerca (per quello c'è il carattere jolly asterisco) di non indicizzare le varie cartelle sotto elencate dai vari Disallow: /.../
cartelle che come vedete, fanno parte del core di Joomla!®.
Nota: le righe precedute da # sono semplici commenti e vengono ignorate.
Quando e come ci conviene non indicizzare i contenuti
La risposta più ovvia è quando non desideriamo che alcuni contenuti vengano inseriti nei risultati dei motori di ricerca.
In questo caso potremmo aggiungere una direttiva specifica che chiede non vengano indicizzati i contenuti all'interno di una specifica cartella, ad es.:
Disallow: /privato/
Ma c'è un caso che ci riguarda tutti ed è durante la fase di realizzazione di un nuovo sito web a remoto.
Tra l'installazione di Joomla!® sul server e il momento in cui possiamo dire che il nuovo sito è finito potrebbe passare una settimana o un mese, ed è in questo lasso di tempo che preferisco che nessun contenuto venga indicizzato.
Questo perché i testi magari non sono quelli definitivi o perché aspettate che tutti contenuti siano a posto prima di inserire i meta Title e Description.
Se questo è anche il vostro caso, vediamo come procedere.
Creare un robots.txt che blocca l'indicizzazione
Procedura che sono solito attivare non appena terminata l'installazione di Joomla!® su un server remoto.
Entriamo via FTP nella root del sito e rinominiamo il file robots.txt (che si è creato con l'installazione) in: robots-joomla.txt
Una volta rinominato non sarà più attivo, ma lo conserviamo perché ci servirà di nuovo una volta terminato il sito.
Ora con un editor di testo come BBEdit o TextEdit del Mac (in modalità solo testo), o il Blocco note di Windows creiamo un file ".txt" con le seguenti direttive:
# blocco indicizzazione contenuti
User-agent: *
Disallow: /
Disallow: /*?
Nota: l'istruzione: "Disallow: /" indica di non indicizzare nulla a partire dalla radice (/) e neppure eventuali URL che contengano un "?".
Salviamo il file denominandolo robots.txt e portiamolo nella root via FTP.
Nota: avremo ora due file robots, il robots-joomla.txt (che abbiamo precedentemente rinominato) e il robots.txt (appena inserito) che da ora sarà quello attivo.
Quando il sito sarà finito e pronto per essere indicizzato procederemo così:
- via FTP eliminiamo definitivamente il robots.txt (che abbiamo creato noi);
- rinominiamo il robots-joomla.txt (quello originale di Joomla!®) in robots.txt per ri-attivarlo;
- creiamo una sitemap e inviamo il link a Google e ad altri motori per accelerare l'indicizzazione.
Un caso particolare, le informative Privacy e Cookie
Anche se non direttamente collegate al file robots.txt, le informative della Privacy, dei Cookie ecc. sono contenuti che potremmo preferire non vengano indicizzati. In questi casi ci vengono in aiuto le impostazioni disponibili negli Articoli di Joomla!®.
Quello che possiamo fare quando non desideriamo che un singolo articolo venga indicizzato (come ad esempio la pagina della Privacy Policy) è andare a modificare l'impostazione del robots a livello del singolo articolo.
La troviamo al Tab Publishing (Pubblicazione) dell'articolo.
Se desideriamo che l'articolo non venga indicizzato impostiamolo come in figura:
Robots --> noindex, follow
Nota: il "noindex, follow" comunica ai crawler di non indicizzare il contenuto della pagina ma lascia che seguano eventuali link presenti all'interno.
Se preferite negare anche questo, optate per un "noindex, nofollow".