CONDIVIDI
AB testing sicuro dei risultati

Si parla sempre più spesso, sulla rete, di A/B Test e di A/B testing. E meno male, aggiungerei. Che sia la volta buona, grazie al consolidamento del marketing digitale, in cui finalmente si abbandonano le solite tecniche spannometriche per arrivare ad una determinazione scientifica dei risultati ed alla formulazione di scelte oculate, quando si viene a decidere, per fare il più banale degli esempi, se la landing page della tua campagna AdWords sia davvero la migliore possibile.

Chi mi conosce, sa che io, personalmente, vado predicando da una vita che nel marketing e nella comunicazione non è bello ciò che è bello, ma è bello ciò che funziona.  Convinto che la bellezza è nell'occhio dello statistico, non ho mai amato l'approccio estetico al marketing - che sia digitale o no - e difficilmente comprendo i discorsi di chi mi dice che quella data landing page deve avere un titolo di un tale colore e il pulsante di un tale altro perché si intonano con il colore di fondo.
Per carità, non è che voglia fare le cose brutte per forza! Però, se scoprissi che una campagna mi frutta il 5% di click in più perché ho scritto una call to action in verde su fondo rosso, mi vedrete immancabilmente scrivere in verde su fondo rosso. Punto e basta.

A/B Test: come essere sicuri dei risultati

Già, ma come faccio ad esserne proprio sicuro? E, soprattutto, come strutturo un test in modo che ci sia la sicurezza che i dati che otterrò saranno significativi?
Il modo c'è, ovviamente, e si chiama calcolo del margine di errore statistico all'interno di un dato intervallo di confidenza.
Per comprendere esattamente di cosa si tratti, dobbiamo andare a fondo del problema, e formularlo correttamente.
Allora.
Iniziamo col dire che è praticamente impossibile ottenere un test che ci dia la certezza del risultato - insomma, che non ci faccia sicuramente sbagliare un colpo. Ciò accade perché un qualsiasi test, non solo calcola dei risultati in modo probabilistico, ma è anch'esso, in qualche modo, soggetto ad una curva di probabilità. Mi perdonino i puristi della statistica se, per amore di semplificazione, mi concedo qualche libertà di espressione, però mettiamola così: quando effettuo un A/B Test, sto in qualche modo lanciando una monetina. Non posso essere certo che il risultato sarà accurato, anche all'interno del margine di errore che mi prefiggo. Come faccio allora, a minimizzare il rischio di errore? Cerco di stabilire un intervallo di confidenza adeguato, in modo che possa essere ragionevolmente certo che il mio test ricada all'interno del gruppo dei test affidabili, e non di quello dei test non affidabili. Insomma, lo scopo è un po' quello di "truccare" la nostra monetina, in modo che esca molte più volte testa (il risultato affidabile) che croce (il risultato non affidabile).
Naturalmente, più alto sarà l'intervallo di confidenza che mi sono prefisso, più voglio essere sicuro dell'affidabilità del mio test, più oneroso sarà ottenere dei risultati significativi.
Normalmente, si sceglie di avere un intervallo di 4 σ (sigma), ossia una affidabilità statistica del 95% circa. Significa, che il mio test avrà il 95% delle probabilità di ricadere all'interno dell'area blu o dell'area grigia, mentre avrà meno del 5% delle probabilità di cadere nell'area verde, e risultare impreciso e da buttare. Proprio per questo fissare un intervallo di confidenza troppo basso è inutile, mentre averlo troppo alto potrebbe non consentirci di scegliere il risultato migliore.

Dall'intervallo di confidenza al margine di errore

Avrai notato che insisto sul fatto che l'intervallo di confidenza va scelto, non calcolato. Vedremo tra poco perché. Intanto, facciamo con un'altra grandezza importante, il margine di errore. Questo rappresenta la massima variazione possibile, il massimo scostamento percentuale possibile rispetto ai risultati ottenuti dai nostri test.
Questa grandezza è fondamentale, poiché ci spiega in termini sintetici qual è l'intervallo in cui ricade il risultato del nostro test.
Immaginiamo, ad esempio, che un nostro test finalizzato a comprendere quale sia la risposta di una data lista ad una determinata promozione. Il risultato del test ci dice che il CTR del campione utilizzato per il test è stato del 2% con un margine di errore dello 0,1% all'interno di un intervallo di confidenza del 90%. Cosa ci dicono questi numeri? Ci dicono, semplicemente, che se andremo a estendere l'offerta a tutto il nostro database, avremo il 90% di probabilità che il CTR della campagna si assesti in un risultato compreso tra 1,9% e 2,1%.

Come scegliere l'ampiezza del campione

Da cosa dipende il margine di errore?
Essenzialmente, dipende dal numero di risposte che riusciamo a valutare. Più il nostro test riuscirà a coinvolgere un numero valido di persone, più saremo certi di poter valutare i suoi risultati in un'ottica di marketing, ossia di estendibilità dei suoi risultati su tutto il mercato di riferimento senza temere clamorosi flop.
Proprio per questo, è importantissimo, quando si fa un test, non solo mettere a confronto ogni variazione rispetto ad un campione di controllo, ma soprattutto stare attenti a comprendere se ci si può permettere un dimensionamento tale da poter poi utilizzare con sicurezza accettabile i risultati per una estensione sull'intero customer database.
In caso contrario, effettuare il test potrebbe avere lo stesso valore del lancio di una monetina... non truccata.
Diciamo che tu voglia capire quale tasso di click ti darà una DEM importante che vuoi lanciare su un database di un milione di contatti. Come farai ad essere sicuro dei risultati del tuo test? Qual è il campione che dovrai prendere in esame per valutare il test, in modo da minimizzarne il costo essendo ragionevolmente sicuro dei risultati?
Il segreto è nella relazione tra le grandezze che abbiamo definito finora: campione, risultati, margine di errore statistico e intervallo di confidenza. La relazione è espressa nella seguente formula, dove
n = la numerosità del campione che utilizzeremo
E = il massimo errore che vuoi concederti, espresso in decimali.
p = il risultato che ti aspetti, in termini di redemption, sulla base dei tuoi risultati storici.
z = un coefficiente che esprime l'intervallo di confidenza. Vale 1.645 per il 90%, 1,96 per il 95% e 2,575 per il 99% di intervallo di confidenza. Questo, dunque, è il momento in cui, scegliendo quale valore attribuire a z nell'equazione, sceglierai di fatto l'intervallo di confidenza del tuo test.
Facciamo un esempio di calcolo della numerosità del campione in un caso concreto di E-Mail Marketing.
Immaginiamo di aspettarci, da una DEM che intendiamo inviare, un risultato in termini di click del 1,7%. Inoltre, abbiamo bisogno di essere sufficientemente sicuri dei risultati, poiché l'investimento economico è rilevante. Stabiliamo che il massimo di errore che possiamo consentirci sarà dello 0,1% (1,7% ± 0,1%), e che l'intervallo di confidenza debba essere del 95% (il 99% non si usa nel marketing: si usa solitamente nel controllo qualità di componenti di precisione).

pass2

pass3

Per poter ottenere questi risultati, ed essere sicuri che il risultato sarà affidabile, il nostro campione di riferimento dovrà essere quindi almeno di 64.197 contatti.
E se poi il risultato del test si discostasse di molto dalle aspettative? Bene, in quel caso riapplicheremo la stessa equazione, per scoprire - dati redemption e campione - come si modificano intervallo di confidenza o margine di errore. A meno di sconvolgimenti, comunque, il risultato dovrebbe rimanere accettabile per poter trarre delle conclusioni e fare un Conto Economico previsionale con pochi margini di errore e valutare correttamente l'investimento cui stiamo andando incontro. Tutto questo, ovviamente, a patto che il campione sia stato scelto correttamente - in modo randomico, insomma - al fine di rappresentare realmente l'intera popolazione presente nel tuo database.

E se devo fare un A/B test, quindi confrontare due risultati?

In questo caso, utilizzeremo una formula leggermente diversa, che ci consenta di effettuare un confronto sicuro tra due campioni senza avere sorprese quando si tratterà di scegliere la creatività o l'elemento che stiamo testando in modo corretto.
La formula è la seguente:
fordistanza
Non farti spaventare! La formula non fa altro che esprimere la quantità (n) sulla base dei risultati attesi per i due campioni e sulla differenza (p1-p2) che questi due campioni dovranno avere affinché questa distanza sia giudicata significativa.
Ancora una volta, proviamo con i numeri.
Abbiamo un test A/B da effettuare per capire se è meglio utilizzare una certa lista per una DEM, o se sia meglio acquistarne un'altra presso un fornitore leggermente più caro. Storicamente, sulla lista 1 mi aspetto una redemption dell'1,3%, mentre sulla seconda lista, visto il maggior costo, dovrò avere una redemption superiore almeno dello 0,4% per pareggiare i costi. Il fornitore, però, mi assicura che la qualità della lista 2 è tale da raggiungere agevolmente questo risultato. Mi devo fidare? E soprattutto, come farò a testare, essendo certo (con una confidenza del 95%, dato l'investimento importante) che il risultato sia affidabile?
Ecco come dovrò dimensionare ciascuno dei due campioni:
 
 formdistpass1OKOK
Lascio a te, stavolta, di fare i calcoli e scoprire come dovresti procedere.

E una volta fatto il test?

Una volta fatto il test, potrai comprendere facilmente se i risultati ottenuti saranno significativi oppure no. Nel nostro caso, ad esempio, immaginiamo di avere avuto un risultato di 1,22% nella prima lista e dell'1,65% nella seconda lista. Con un semplice calcolo, potremo scoprire se il nostro campione di riferimento era dimensionato correttamente per leggere il risultato senza ombra di dubbio (sempre con una confidenza del 95%). Inoltre, utilizzando la prima formula che abbiamo analizzato potremo scoprire qual è il margine di errore che mi posso aspettare in fase di estensione, rispetto alla redemption ottenuta nel test.

E tu, utilizzi queste tecniche quando pianifichi ed esegui i tuoi A/B test? Come fai ad essere certo dei risultati che ottieni? Aspetto i tuoi commenti!

CIAO! Grazie per essere arrivato a leggere fino a qui.

Porto avanti questo blog solo per passione, senza voler fare altro se non avviare un confronto con chi condivide con me l'interesse per tutto ciò che è marketing. Se ti è piaciuto questo post, la soddisfazione più grande che potrai darmi sarà quella di condividerlo sui social media e di lasciare un tuo commento.

Se poi vuoi rimanere sempre aggiornato, iscriviti subito alla newsletter!

Inserisci qui il tuo indirizzo e-mail:

Delivered by FeedBurner

2 COMMENTS

  1. Ciao,

    ho letto con interesse i tuoi articoli. Avrei un quesito: devo lanciare la mia prima campagna adwords per un certo tipo di servizio/prodotto per il quale non ho storico e che porta a una landing page per lead generation. Questa landing è stata sviluppata in due versioni con elementi differente (non il colore delle cta! :)). Come faccio a stabilire la % di traffico da indirizzare rispettivamente alle due versioni per poi valutare quale funziona meglio? Seguendo i tuoi ragionamenti e applicando alla landing un ctr dell 1% ho stimato la numerosità del campione. A questo punto, sulla base della mia non esperienza, mi verrebbe da pensare di stabilire una ripartizione uguale del traffico sulle due landing (50%) ed una volta che le due landing hanno ottenuto quel numero di impression pari alla numerosità del campione, poter valutare quale funziona meglio. E’ un ragionamento corretto o mi sono perso da qualche parte?

    Grazie per la disponibilità e perdonami se il quesito non è posto in modo troppo chiaro!
    Giacomo

    • Ciao Giacomo, il campione va SEMPRE in pari numero. Quella che calcoli è la numerosità del campione di ciascuna variante, affinché il test sia efficace.
      Il tuo ragionamento è quindi correttissimo, tenendo presente che, se il campione necessario per l’analisi è 1000, non dovrai avere un campione per test di 500 ciascuno, ma di 1000 ciascuno 🙂
      Fabio

      PS: perdona il ritardo della risposta, sono giorni difficili

LEAVE A REPLY