## Teste A/B

Teste A/B, também conhecido como RCT (Randomized Control Trial), é uma ferramenta de experimentação que permite comparar duas versões de uma variável para determinar qual das duas tem melhor desempenho.

Caso você não conheça sobre o assunto, recomendo a leitura do artigo xxx, que apresenta as bases do teste AB em inglês
De maneira didática, podemos resumir o Teste A/B em xxx fases:

    I - Determinação da análise
    II - Segmentação dos grupos
    III - Coleta de Dados e análise das variáveis
    IV - Apresentação de resultados
A cada parte do nosso código iremos falar sobre os passos realizados, pontos de atenção e erros comuns.

Esse artigo não pretende substituir o estudo de análise de hipóteses, ele tem como foco ser um artigo introdutório imaginando um analista de marketing JR

### Determinação da Análise:
A determinação da análise passa por algumas etapas:
1. Definição do objetivo: O que se espera alcançar com o teste? 
2. Escolha da métrica: Qual é a métrica de sucesso ? 
3. Quais as versões escolhidas para o teste, e quantas? 
4. Definição de hipóteses: Qual a hipótese nula (h0) e a hipótese alternativa?
5. Segmentação dos grupos: Como será realizado a amostra, quantos grupos teremos?  

#### 1. Definição do objetivo:

Uma questão prática do teste A/B é que ele tem que estar alinhado com os desafios do seu negócio. Lembre-se, testar implica em alocação de recursos, tanto financeiros quanto de força de trabalho.
No nosso caso, estamos tentando identificar se campanhas com imagens mais "caseiras" são mais efetivas do que as imagens produzidas que temos lançado até o momento, visando aumentar a taxa de conversão de nossos anúncios.
#### 2. Escolha de métricas: Qual é a métrica de sucesso? Usaremos métricas secundárias?  

Para medir se anúncios "caseiros" são mais efetivos que anúncios produzidos, podemos utilizar o CTR(click-through-rate), que mede o número de usuários que clicaram no anúncio pelo número de usuários que viram nossos anúncios.
Para métricas secundárias, utilizaremos vendas, CPC e outros

#### 3. Quais as versões escolhidas para o teste?
 
Utilizaremos para o teste 2 versões:
A - Anúncios produzidos que já utilizamos normalmente - Grupo Controle

B - Anúncios caseiros que queremos verificar a performance - Grupo Teste

#### 4. Definição de hipóteses:

H0(Hipótese Nula): A média de CTR entre a versão A e a Versão B são iguais
H1(Hipótese Alternativa): A média de CTR entre a versão A e a Versão B são diferentes 


In [19]:
## Importando dados
import pandas as pd 
import numpy as np 
teste = pd.read_csv(r"C:\Users\luiz.angelo\Documents\VSCODE\personal_projects\AB Testing\archive (2)\test_group.csv",sep=';')
controle = pd.read_csv(r"C:\Users\luiz.angelo\Documents\VSCODE\personal_projects\AB Testing\archive (2)\control_group.csv",sep=';')
## Verificando se o dataset contém a mesma estrutura
controle.info()
teste.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Campaign Name        30 non-null     object 
 1   Date                 30 non-null     object 
 2   Spend [USD]          30 non-null     int64  
 3   # of Impressions     29 non-null     float64
 4   Reach                29 non-null     float64
 5   # of Website Clicks  29 non-null     float64
 6   # of Searches        29 non-null     float64
 7   # of View Content    29 non-null     float64
 8   # of Add to Cart     29 non-null     float64
 9   # of Purchase        29 non-null     float64
dtypes: float64(7), int64(1), object(2)
memory usage: 2.5+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Campaign Name        30 non-n

In [20]:
## Checando se os dados possuem valores faltantes
teste.isnull().sum()

Campaign Name          0
Date                   0
Spend [USD]            0
# of Impressions       0
Reach                  0
# of Website Clicks    0
# of Searches          0
# of View Content      0
# of Add to Cart       0
# of Purchase          0
dtype: int64

In [21]:
controle.isnull().sum()

Campaign Name          0
Date                   0
Spend [USD]            0
# of Impressions       1
Reach                  1
# of Website Clicks    1
# of Searches          1
# of View Content      1
# of Add to Cart       1
# of Purchase          1
dtype: int64

Como temos valores faltantes no grupo controle, precisamos decidir se vamos excluir essas informações do dataset ou substituí-las. 
Para isso, podemos verificar quantos dias teríamos que excluir e se isso inviabilizaria o experimento

In [32]:
isna = controle[controle.isna().any(axis=1)]
isna.shape


(1, 10)

In [33]:
isna.head()

Unnamed: 0,Campaign Name,Date,Spend [USD],# of Impressions,Reach,# of Website Clicks,# of Searches,# of View Content,# of Add to Cart,# of Purchase
4,Control Campaign,5.08.2019,1835,,,,,,,
