
Warning: preg_match(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 1385
Warning: preg_match_all(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 690
Warning: Invalid argument supplied for foreach() in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 697
Warning: preg_match_all(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 690
Warning: Invalid argument supplied for foreach() in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 697
Warning: preg_match(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 1385
Warning: preg_match_all(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 690
Warning: Invalid argument supplied for foreach() in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 697
Warning: preg_match_all(): Compilation failed: invalid range in character class at offset 4 in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 690
Warning: Invalid argument supplied for foreach() in /home/customer/www/fabiopiccigallo.com/public_html/wp-content/plugins/smart-image-loader/simple_html_dom.php on line 697
- Cosa genera traffico spam in Google Analytics
- Perché il traffico fantasma è insidioso?
- Come eliminare dalle visualizzazioni il traffico dei bot
- Come eliminare il traffico da referral fantasma
- Perché vale la pena filtrare i contenuti
- Aggiornamento 1 - Vuoi un riscontro?
- Aggiornamento 2 - Se non c'è il referral
- Aggiornamento 3 - campagne sporche
Cosa genera traffico spam in Google Analytics
Perché il traffico fantasma è insidioso?
Come eliminare dalle visualizzazioni il traffico dei bot

Come eliminare il traffico da referral fantasma

.*((darodar|priceg|semalt|buttons\-for\-website|makemoneyonline|blackhatworth|hulfingtonpost|bestwebsitesawards|o\-o\-6\-o\-o|(social|simple\-share)\-buttons)\.com)|((ilovevitaly|econom)(\.co(m)?|\.ru))|((humanorightswatch|4webmasters)\.org).*
- | corrisponde all'operatore OR
- \ converte un carattere delle espressioni regolari un carattere standard (ad esempio: google\.com per scrivere google.com)
- () creano un elemento alternativo: Google\.(it|com) sta per Google.it o per Google.com
.*free\-traffic|buttons|porn.*
Perché vale la pena filtrare i contenuti
- rapporto tra canali di acquisizione
- durata di ogni sessione
- numero di pagine viste per sessione
- distribuzione geografica (o credevi davvero di essere così popolare in Russia?)
Aggiornamento 1 - Vuoi un riscontro?

Aggiornamento 2 - Se non c'è il referral
Ho riscontrato in questi giorni un'ulteriore impennata di spam su alcuni dei siti che gestisco a livello di Analytics. Stavolta si tratta di roba un po' più insidiosa, perché non compare alcun valore come dimensione Referral, poiché il traffico risulta come Diretto.
Come fare in questo caso?
Da un'analisi approfondita, ho verificato che una caratteristica di questo traffico è nel fatto di non avere alcun nome host, o di avere un nome host diverso da quello che ci si aspetterebbe.
Ricordo che il nome host corrisponde all'insieme dei domini e sottodomini che caratterizzano il nostro sito in Google Analytics: nel mio caso www.fabiopiccigallo.com e fabiopiccigallo.com, ad esempio, ma anche translate.googleusercontent.com (per chi legge i miei articoli utilizzando il traduttore di Google.
La situazione, insomma, è questa:
Come vedi, la maggior parte dei nomi host è del tutto inventata: i bot infatti, intervenendo direttamente su Analytics senza passare dal mio sito, non hanno alcuna idea di quale sia il nome host associato al mio codice UA-XXXXX-X, e non possono falsificarlo. Come risolvere, in questo caso?
La soluzione naturalmente viene ancora una volta dai filtri. Creiamo stavolta un filtro sul nome host, includendo solo i nomi host che ci aspettiamo siano legittimi. Per essere sicuri di quello che stiamo facendo, la soluzione migliore è evidentemente quello di visualizzare in Analytics un elenco di Host Name almeno per l'ultimo anno o anno e mezzo: in questo modo saremo sicuri di non escludere nulla. In ogni caso, ricordo sempre che è opportuno lasciare una vista "libera" per effettuare i controlli del caso.
Una volta fatte queste verifiche, inseriremo un filtro come quello qui sopra, e il gioco è fatto: i nostri dati saranno finalmente liberi da spam, almeno fino alla prossima trovata degli spammer.
Aggiornamento 3 - campagne sporche
Ultimamente, sto notando una tendenza di bot più "raffinati" che riescono non solo a ingannare i filtri predisposti per bloccare l'attività fittizia, ma riescono anche a sporcare in modo molto fastidioso un report che invece avrebbe bisogno di rimanere quanto più possibile "pulito": quello sui dati di campagna.
È evidente che, quando si vuole valutare l'efficacia delle proprie campagne di marketing, questo tipo di risultati può essere quanto mai fastidioso, perché sporca un report vitale per l'analisi dei KPI di molti siti web. Finora, gli unici "colpevoli" di questo spam sono event-tracking.com e get-free-traffic-now.com, ma ovviamente non escludo che ce ne possano essere altri.
Come fare in questo caso? Come eliminare i dati di campagna fittizi?
Come al solito, dovremo impostare un filtro che, invece di agire sul nome host o sul referral, vada a insistere direttamente sul tag UTM che genera questi risultati: quello responsabile di indicare ad Analytics il nome della campagna.
Il filtro da applicare sarà dunque simile a quello nell'immagine qui sotto:
Come al solito, un po' di attesa e i dati dovrebbero iniziare a ripulirsi. Con la solita avvertenza che l'unico modo per garantirsi dati sempre validi è quello di analizzare costantemente le dimensioni più importanti e intervenire, utilizzando gli strumenti qui descritti, con tempestività.
Molto utile questo articolo, grazie Fabio!
Una domanda: secondo te questi dati falsati da referral fantasma e/o spam vengono “capiti” e quindi non considerati da Google ai fini del posizionamento, oppure lo influenzano?
Intendo dire…se il mio sito ha una frequenza di rimbalzo sotto il 20% al netto di “spam e fantasmi”, ma considerando anche questi la frequenza di rimbalzo magari va invece sopra il 50% ed essendo questa un fattore di ranking, Google cosa considera, il dato “netto” o quello “lordo”?…
Grazie da subito per l’attenzione e buon lavoro!
Marco.
Grazie mille per i complimenti, sempre graditi.
Venendo alla tua domanda: non sono un esperto SEO, ma a naso ti risponderei che mi pare improbabile che Google utilizzi i dati di hit di Analytics per determinare il posizionamento di una pagina nella SERP, se non altro perché per fortuna dotarsi di un account Analytics non è (ancora) obbligatorio…
Ok, grazie per la veloce risposta e buona serata
Grazie Fabio! E’ l’unico sistema che funziona! E ne ho provati veramente tanti…
Ti chiedo solo una cosa, i filtri purtroppo non sono retroattivi, mi pare che per avere una statistica a ritroso pulita bisogna agire sui segmenti, ne sai qualcosa?
Grazie ancora, ciao!
Daniele
Ciao Daniele,
lo so, non sono retroattivi. Però possono essere applicati on-the-fly sui report personalizzati. Se hai bisogno di dati puliti per qualche vista particolare, ti conviene creare un report personalizzato identico a quello base che stai visualizzando, aggiungendo nei filtri del report tutte le istruzioni relative all’eliminazione dei referral spam.
Con i segmenti si può fare più o meno allo stesso modo, ma francamente non mi pare la scelta più azzeccata. Ancora una volta, comunque, si tratta di definire un segmento personalizzato escludendo il traffico spam. Questo segmento (che a questo punto diventerà il tuo default) sarà visualizzabile in tutti i report.
Comunque, non piangerei troppo sui dati versati, e mi concentrerei sul presente e sul futuro… 😀
Fabio
Ottimo, proverò con i report personalizzati allora!
Grazie mille!
Daniele
Grazie Fabio, davvero molto utile!
Grazie a te, Fabrizio! L’utilità è il cardine di questo articolo… se non ragioniamo su dati puliti, che ce lo teniamo a fare Analytics? 🙂
Senti Fabio,
Il mio blog é su Blogger.
Tu pensi che il traffico fantasma operi anche sulle statistiche di Blogger?
Grazie, ciao!
Non vedo perché no. La discriminante empirica sembra essere per ora la presenza del -1 al termine del tuo codice UA. Del resto basta un’occhiata ai referral per rendertene conto…
-1 al termine del codice uA c’è….
Riguardo ai referral, fino ad un mese fa mi sembravano ben presenti siti fantasma, ma da un po’ di tempo non ne vedo traccia…. Può essere che Blogger abbia trovato qualche contromisura?
Semmai Analytics, ricorda che il tuo sito non viene nemmeno visto dagli spammer. Continua a tenere d’occhio i dati, staremo a vedere… 🙂
Ciao Fabio, ottimo articolo! Anzi, mi sono permessa di citarlo all’interno di un mio post dove spiego la configurazione base di Google Analytics: http://www.maura.it/google-analytics-configurazione-base/ A presto!
Ciao Maura, grazie mille per la citazione! 🙂
Ciao Fabio,
complimenti per l’articolo molto chiaro e soprattutto utile.
Una domanda: nell’aggiornamento 2 come hai fatto ad arrivare alla vista “Host”?
Io ci sto impazzendo.
Grazie!
Andrea, nulla di più facile!!

Vai su personalizzazione (menu in alto), crea un nuovo report personalizzato e fornisci queste coordinate:
C’est tout! 🙂
A presto
Fabio
Ma solo a me non funziona?
Sono spammato da:
webmonetizer.net
trafficmonetizer.org
4webmasters.org
traffic2money.com
Quindi ho applicato: .*4webmasters|webmonetizer.net|traffic2money.com|trafficmonetizer.org.*
Provato con: Referral, Host, Sorgente e gli altri.
L’anteprima mi visualizza l’efficacia del filtro (in parte) ma i dati rimangono li.
Gli accessi sono ancora li. Cosa potrei aver sbagliato?Grazie e complimenti per l’articolo.
Ciao Daniele!
Se lo hai scritto così non funziona di sicuro. Ricordati che il punto è un operatore Regex: per farlo valere come carattere, devi scriverlo così: \.
Riprova e fammi sapere…
Fabio
Ciao Fabio,
seguendo le tue istruzioni per un po’ i refferal fantasma non li ho più visti. Ora però sono ricomparsi: il traffico risulta Diretto, nonostante abbia impostato il filtro includi su Nome Host, come indicavi tu.
Guardando le città di provenienza, spesso il tempo visita è zero.
C’è ancora qualcosa che si può fare? grazie!
Ciao Fabrizio, la cosa non mi è del tutto chiara: se il traffico viene qualificato come direct e il nome host è corretto, da cosa deduci che si tratta di spam?
Se è per gli zero secondi, questo non è purtroppo una condizione sufficiente, e dipende dal modo (un po’ strambo) in cui Analytics calcola il tempo di una sessione.
Te la faccio breve: se io entro sul tuo sito, non clicco nulla e torno indietro con il tasto back del browser, il mio tempo di sessione sarà di zero secondi, appunto!
In effetti non sono del tutto sicuro che si tratti di spam. Solo, mi sembra improbabile che il mio blog interessi tanto agli Statunitensi! Piú che altro i dati non mi sembrano verosimili, ma non ho altri elementi per qualificarsi come spam.
Grazie per la tua risposta.
Ottima analisi, ne avevo parlato anch’io tempo fa sul mio blog, anche se l’approccio lì era impostato esclusivamente sul file htaccess, che fa più di quanto possa sembrare… in effetti il problema è che il traffico sporco non si pulisce una volta che è registrato, come detto anche all’inizio dei commenti, e non è purtroppo (ancora) realistico avere delle statistiche filtrate al 100%. Buon lavoro, S.
No, non è realistico. Però si può fare in modo da minimizzarne gli effetti distorcenti sul l’analisi dei dati – il che è già un successo. 🙂