CONDIVIDI
Google Analytics: come eliminare i referral fantasma

Warning: preg_match(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 1385

Warning: preg_match_all(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 690

Warning: Invalid argument supplied for foreach() in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 697

Warning: preg_match_all(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 690

Warning: Invalid argument supplied for foreach() in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 697

Warning: preg_match(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 1385

Warning: preg_match_all(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 690

Warning: Invalid argument supplied for foreach() in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 697

Warning: preg_match_all(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 690

Warning: Invalid argument supplied for foreach() in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 697
Non so se capita anche a voi, ma a me recentemente quasi tutti i siti che gestisco sono stati fatti oggetto di spiacevoli "attenzioni" da parte di referral spam o, se preferite, referral fantasma.
Di che sto parlando? Facciamo un salto indietro e capiamolo insieme.

Cosa genera traffico spam in Google Analytics

Tutti noi, entrando in Google Analytics, abbiamo più di qualche volta trovato tracce (a volte piuttosto evidenti) di traffico "strano" o impossibile (come ad esempio decine di visualizzazioni su pagine in realtà inesistenti).
traffico-fantasma
Questo traffico è spam, ossia non è traffico "utile" che viene dal nostro pubblico, ma al contrario traffico fasullo generato automaticamente da bot e motori messi lì a generare riferimenti fittizi.
Questo tipo di traffico sostanzialmente si genera in due modi.
Il primo è traffico proveniente da crawler, ossia da spider (come quelli di Google stesso) che analizzano il sito alla ricerca di pagine nuove o modificate per aggiornare i propri database. Google Analytics, in realtà, intercetta ed elimina automaticamente dai report generati per i propri utenti questo tipo di traffico: in genere, infatti, i bot normalmente si identificano come tali. Quando ciò non accade, invece, (è il caso ad esempio di Semalt.com) ci ritroviamo con un fastidioso carico di sessioni con il 100% di bounce rate e 0 secondi di permanenza sulle pagine: un traffico che, se non intercettato ed eliminato, risulta oggettivamente fastidioso e fuorviante.
Il secondo tipo di traffico spam è, tuttavia, decisamente più insidioso: si tratta di traffico proveniente da referral fantasma.

Perché il traffico fantasma è insidioso?

Semplicemente, perché si tratta di un traffico che non ha mai realmente messo piede sul tuo sito web.
Gli spammer, in questo caso, sfruttano il fatto che Google Analytics utilizza per il trasferimento delle informazioni relative al traffico del tuo sito web delle chiamate HTTP: chiamate che possono essere imitate inviando segnali fasulli ai server Google Analytics allo scopo di creare del traffico fittizio.
Insomma, si tratta di traffico che non c'è mai effettivamente stato. Questo vuol dire che non c'è modo di intercettarlo e respingerlo utilizzando gli strumenti presenti sul proprio sito web (ad esempio impedendo l'accesso dei referral incriminati tramite istruzioni sul file .htaccess, come invece si potrebbe fare per referral come Semalt.com).

Come eliminare dalle visualizzazioni il traffico dei bot

Il caso dei bot è, come dicevo, il più semplice da trattare, poiché Google Analytics ti mette già a disposizione gli strumenti che servono a contrastarlo.
Per risolvere il problema è sufficiente andare sulla tua console di amministrazione di Analytics (dopo esserti loggato, premi Amministrazione nel menu in alto).
Osserva il menu che ti appare sulla terza colonna della pagina (quella intitolata, appunto, Vista): seleziona la vista che vuoi modificare, e clicca su Impostazioni Vista. Ti apparirà la seguente schermata. Se non è ancora selezionata, clicca sul pulsante in basso per attivare il filtro automatico di Google per i bot: il gioco è fatto!
Google Analytics: come eliminare i referral fantasma

Come eliminare il traffico da referral fantasma

Come dicevo, il traffico fantasma che non arriva nemmeno sul tuo sito è un po' più complicato da eliminare, ma la cosa si può fare comunque, sebbene non permanentemente.
Per riuscirci, è necessario creare un filtro personalizzato ad hoc.
Torniamo allora nel nostro menu di Amministrazione, ma al posto di Impostazioni Vista clicchiamo su Filtri e, subito dopo, su Nuovo Filtro.
A questo punto ti si aprirà la schermata seguente:
Google Analytics: come eliminare i referral fantasma
Clicca su Crea Nuovo Filtro, e seleziona Personalizzato. In questo modo potrai scegliere quali campi rendere oggetto di filtro (di esclusione, quindi) e quale pattern utilizzare per filtrare le informazioni escludendo i referral fantasma.
Quando avrai finito, clicca in basso sullo strumento di verifica per essere sicuro che il filtro funzioni correttamente. È anche possibile che tu debba fare un po' di tentativi per trovare il campo giusto da filtrare: io in genere verifico subito Referral, Sorgente Campagna e Percorso Campagna Referral, poiché mi pare che lì si annidino i referral fantasma.
Il pattern del filtro dovrà ovviamente essere elaborato per filtrare il traffico fantasma che stai ricevendo.
Un pattern generico che dovrebbe funzionare in molti casi, ad esempio, è
 .*((darodar|priceg|semalt|buttons\-for\-website|makemoneyonline|blackhatworth|hulfingtonpost|bestwebsitesawards|o\-o\-6\-o\-o|(social|simple\-share)\-buttons)\.com)|((ilovevitaly|econom)(\.co(m)?|\.ru))|((humanorightswatch|4webmasters)\.org).*
Ti ricordo che Google utilizza, per i pattern dei filtri, le espressioni regolari, a proposito delle quali puoi trovare qui la documentazione necessaria per creare il tuo filtro personalizzato. Per facilitare la lettura, ti ricordo che:
  • | corrisponde all'operatore OR
  • \ converte un carattere delle espressioni regolari un carattere standard (ad esempio: google\.com per scrivere google.com)
  • () creano un elemento alternativo: Google\.(it|com) sta per Google.it o per Google.com
Quindi: se vorrai eliminare ad esempio il traffico che proviene da tutti i siti che contengano nel dominio referral free-traffic, buttons e porn dovrai utilizzare questa stringa:
.*free\-traffic|buttons|porn.*
Consiglio sempre, infine, di creare comunque una vista non filtrata da usare come riferimento per capire se i filtri impostati stiano lavorando come dovrebbero.

Perché vale la pena filtrare i contenuti

Domandona finale: vale la pena sbattersi così tanto per eliminare il traffico fantasma da Google Analytics?
Secondo me, sì. Infatti, questo traffico fantasma può diventare a volte veramente fastidioso, al punto da influenzare negativamente i tuoi dati.
È un traffico che modifica i tuoi dati in relazione a:
  • rapporto tra canali di acquisizione
  • durata di ogni sessione
  • numero di pagine viste per sessione
  • distribuzione geografica (o credevi davvero di essere così popolare in Russia?)
e a mille altre voci. Se il tuo sito non è molto grande, con migliaia e migliaia di visitatori al giorno, il traffico fantasma può costituire una percentuale importante di tutto il traffico visualizzato su Google Analytics: in questo caso, non puoi non intervenire. Altrimenti, potrebbe costituire una entità trascurabile. Meglio però verificare e, in caso, correre ai ripari, prima di prendere decisioni sulla SEO o sull'advertising che partano da presupposti completamente sbagliati.
Inoltre, un traffico di questo genere ti può esporre infatti ai malware (se ti venisse in mente di verificare qual è la fonte del tuo traffico, cliccandoci sopra) e ti può esporre anche a problemi di reputazione aziendale.

Aggiornamento 1 - Vuoi un riscontro?

Ho fatto un piccolo esperimento a margine della pubblicazione di questo articolo, e ho creato un nuovo sito web il giorno 26 aprile a scopo di test. Quelli che vedi qui sotto sono i dati di traffico per quel sito registrati i due giorni successivi.
analytics test traffico spam
Naturalmente, le 5 sessioni che costituiscono la prima riga sono le mie. Tutte le altre 96 sessioni sono frutto di traffico da referral spam. Se vuoi vedere come influiscono sui tuoi dati accessori (oltre al traffico, che qui si è moltiplicato di un fattore 20), guarda come si modifica la frequenza di rimbalzo e la durata della sessione media. Non è poco, vero?
Insomma, meglio intervenire, come ho descritto qui sopra, e tenere d'occhio le statistiche per capire se il problema è stato arginato. Risolverlo definitivamente, purtroppo, non è possibile: agli spammer basta cambiare il referral fittizio che utilizzano per il loro traffico fantasma, e tu dovrai ricominciare a filtrarlo, in una giostra senza fine.

Aggiornamento 2 - Se non c'è il referral

Ho riscontrato in questi giorni un'ulteriore impennata di spam su alcuni dei siti che gestisco a livello di Analytics. Stavolta si tratta di roba un po' più insidiosa, perché non compare alcun valore come dimensione Referral, poiché il traffico risulta come Diretto.

Come fare in questo caso?

Da un'analisi approfondita, ho verificato che una caratteristica di questo traffico è nel fatto di non avere alcun nome host, o di avere un nome host diverso da quello che ci si aspetterebbe.

Ricordo che il nome host corrisponde all'insieme dei domini e sottodomini che caratterizzano il nostro sito in Google Analytics: nel mio caso www.fabiopiccigallo.com e fabiopiccigallo.com, ad esempio, ma anche translate.googleusercontent.com (per chi legge i miei articoli utilizzando il traduttore di Google.

La situazione, insomma, è questa:

 Google Analytics: come eliminare i referral fantasma o spam

Come vedi, la maggior parte dei nomi host è del tutto inventata: i bot infatti, intervenendo direttamente su Analytics senza passare dal mio sito, non hanno alcuna idea di quale sia il nome host associato al mio codice UA-XXXXX-X, e non possono falsificarlo. Come risolvere, in questo caso?

La soluzione naturalmente viene ancora una volta dai filtri. Creiamo stavolta un filtro sul nome host, includendo solo i nomi host che ci aspettiamo siano legittimi. Per essere sicuri di quello che stiamo facendo, la soluzione migliore è evidentemente quello di visualizzare in Analytics un elenco di Host Name almeno per l'ultimo anno o anno e mezzo: in questo modo saremo sicuri di non escludere nulla. In ogni caso, ricordo sempre che è opportuno lasciare una vista "libera" per effettuare i controlli del caso.

Image

Una volta fatte queste verifiche, inseriremo un filtro come quello qui sopra, e il gioco è fatto: i nostri dati saranno finalmente liberi da spam, almeno fino alla prossima trovata degli spammer.

Aggiornamento 3 - campagne sporche

Ultimamente, sto notando una tendenza di bot più "raffinati" che riescono non solo a ingannare i filtri predisposti per bloccare l'attività fittizia, ma riescono anche a sporcare in modo molto fastidioso un report che invece avrebbe bisogno di rimanere quanto più possibile "pulito": quello sui dati di campagna.

event-tracking come eliminarlo

È evidente che, quando si vuole valutare l'efficacia delle proprie campagne di marketing, questo tipo di risultati può essere quanto mai fastidioso, perché sporca un report vitale per l'analisi dei KPI di molti siti web. Finora, gli unici "colpevoli" di questo spam sono event-tracking.com e get-free-traffic-now.com, ma ovviamente non escludo che ce ne possano essere altri.

Come fare in questo caso? Come eliminare i dati di campagna fittizi?

Come al solito, dovremo impostare un filtro che, invece di agire sul nome host o sul referral, vada a insistere direttamente sul tag UTM che genera questi risultati: quello responsabile di indicare ad Analytics il nome della campagna.

Il filtro da applicare sarà dunque simile a quello nell'immagine qui sotto:

event-trackingCome al solito, un po' di attesa e i dati dovrebbero iniziare a ripulirsi. Con la solita avvertenza che l'unico modo per garantirsi dati sempre validi è quello di analizzare costantemente le dimensioni più importanti e intervenire, utilizzando gli strumenti qui descritti, con tempestività.

CIAO! Grazie per essere arrivato a leggere fino a qui.

Porto avanti questo blog solo per passione, senza voler fare altro se non avviare un confronto con chi condivide con me l'interesse per tutto ciò che è marketing. Se ti è piaciuto questo post, la soddisfazione più grande che potrai darmi sarà quella di condividerlo sui social media e di lasciare un tuo commento.

Se poi vuoi rimanere sempre aggiornato, iscriviti subito alla newsletter!

Inserisci qui il tuo indirizzo e-mail:

Delivered by FeedBurner

25 COMMENTS

  1. Molto utile questo articolo, grazie Fabio!
    Una domanda: secondo te questi dati falsati da referral fantasma e/o spam vengono “capiti” e quindi non considerati da Google ai fini del posizionamento, oppure lo influenzano?
    Intendo dire…se il mio sito ha una frequenza di rimbalzo sotto il 20% al netto di “spam e fantasmi”, ma considerando anche questi la frequenza di rimbalzo magari va invece sopra il 50% ed essendo questa un fattore di ranking, Google cosa considera, il dato “netto” o quello “lordo”?…
    Grazie da subito per l’attenzione e buon lavoro!
    Marco.

    • Grazie mille per i complimenti, sempre graditi.
      Venendo alla tua domanda: non sono un esperto SEO, ma a naso ti risponderei che mi pare improbabile che Google utilizzi i dati di hit di Analytics per determinare il posizionamento di una pagina nella SERP, se non altro perché per fortuna dotarsi di un account Analytics non è (ancora) obbligatorio…

  2. Grazie Fabio! E’ l’unico sistema che funziona! E ne ho provati veramente tanti…
    Ti chiedo solo una cosa, i filtri purtroppo non sono retroattivi, mi pare che per avere una statistica a ritroso pulita bisogna agire sui segmenti, ne sai qualcosa?

    Grazie ancora, ciao!

    Daniele

    • Ciao Daniele,
      lo so, non sono retroattivi. Però possono essere applicati on-the-fly sui report personalizzati. Se hai bisogno di dati puliti per qualche vista particolare, ti conviene creare un report personalizzato identico a quello base che stai visualizzando, aggiungendo nei filtri del report tutte le istruzioni relative all’eliminazione dei referral spam.
      Con i segmenti si può fare più o meno allo stesso modo, ma francamente non mi pare la scelta più azzeccata. Ancora una volta, comunque, si tratta di definire un segmento personalizzato escludendo il traffico spam. Questo segmento (che a questo punto diventerà il tuo default) sarà visualizzabile in tutti i report.
      Comunque, non piangerei troppo sui dati versati, e mi concentrerei sul presente e sul futuro… 😀
      Fabio

    • Non vedo perché no. La discriminante empirica sembra essere per ora la presenza del -1 al termine del tuo codice UA. Del resto basta un’occhiata ai referral per rendertene conto…

  3. -1 al termine del codice uA c’è….
    Riguardo ai referral, fino ad un mese fa mi sembravano ben presenti siti fantasma, ma da un po’ di tempo non ne vedo traccia…. Può essere che Blogger abbia trovato qualche contromisura?

  4. Ciao Fabio,
    complimenti per l’articolo molto chiaro e soprattutto utile.
    Una domanda: nell’aggiornamento 2 come hai fatto ad arrivare alla vista “Host”?
    Io ci sto impazzendo.

    Grazie!

  5. Ma solo a me non funziona?
    Sono spammato da:

    webmonetizer.net
    trafficmonetizer.org
    4webmasters.org
    traffic2money.com

    Quindi ho applicato: .*4webmasters|webmonetizer.net|traffic2money.com|trafficmonetizer.org.*

    Provato con: Referral, Host, Sorgente e gli altri.
    L’anteprima mi visualizza l’efficacia del filtro (in parte) ma i dati rimangono li.

    Gli accessi sono ancora li. Cosa potrei aver sbagliato?Grazie e complimenti per l’articolo.

    • Ciao Daniele!
      Se lo hai scritto così non funziona di sicuro. Ricordati che il punto è un operatore Regex: per farlo valere come carattere, devi scriverlo così: \.
      Riprova e fammi sapere…
      Fabio

  6. Ciao Fabio,
    seguendo le tue istruzioni per un po’ i refferal fantasma non li ho più visti. Ora però sono ricomparsi: il traffico risulta Diretto, nonostante abbia impostato il filtro includi su Nome Host, come indicavi tu.
    Guardando le città di provenienza, spesso il tempo visita è zero.
    C’è ancora qualcosa che si può fare? grazie!

    • Ciao Fabrizio, la cosa non mi è del tutto chiara: se il traffico viene qualificato come direct e il nome host è corretto, da cosa deduci che si tratta di spam?
      Se è per gli zero secondi, questo non è purtroppo una condizione sufficiente, e dipende dal modo (un po’ strambo) in cui Analytics calcola il tempo di una sessione.
      Te la faccio breve: se io entro sul tuo sito, non clicco nulla e torno indietro con il tasto back del browser, il mio tempo di sessione sarà di zero secondi, appunto!

  7. In effetti non sono del tutto sicuro che si tratti di spam. Solo, mi sembra improbabile che il mio blog interessi tanto agli Statunitensi! Piú che altro i dati non mi sembrano verosimili, ma non ho altri elementi per qualificarsi come spam.
    Grazie per la tua risposta.

  8. Ottima analisi, ne avevo parlato anch’io tempo fa sul mio blog, anche se l’approccio lì era impostato esclusivamente sul file htaccess, che fa più di quanto possa sembrare… in effetti il problema è che il traffico sporco non si pulisce una volta che è registrato, come detto anche all’inizio dei commenti, e non è purtroppo (ancora) realistico avere delle statistiche filtrate al 100%. Buon lavoro, S.

LEAVE A REPLY