# Introdu√ß√£o

## üìò Sobre este Estudo

Este notebook foi elaborado com fins **did√°ticos e demonstrativos** para mostrar como aplicar t√©cnicas de **infer√™ncia estat√≠stica**, utilizando tanto m√©todos **cl√°ssicos (param√©tricos)** quanto **computacionais** (como bootstrap e testes de aleatoriza√ß√£o).

---

## üõí Contexto do Problema

A empresa fict√≠cia **RetailX**, uma varejista digital, lan√ßou uma campanha para testar o impacto de diferentes estrat√©gias promocionais sobre o comportamento de seus clientes. A empresa est√° especialmente interessada em entender:

- Se as campanhas aumentam o engajamento no site
- Se as campanhas influenciam a taxa de convers√£o (compra)
- Se h√° impacto no valor total gasto

Para isso, um experimento foi conduzido com **quatro grupos de clientes**, atribu√≠dos aleatoriamente.

---

## üéØ Objetivo do Estudo

Avaliar se **diferentes tipos de campanha** geram **diferen√ßas estatisticamente significativas** em:
- Taxa de convers√£o (realizou compra ou n√£o)
- Valor de compra (gasto em reais)
- N√∫mero de visitas ao site (antes e depois da campanha)
---

## üßæ Descri√ß√£o das Vari√°veis

| Vari√°vel            | Tipo        | Descri√ß√£o                                                                 |
|---------------------|-------------|---------------------------------------------------------------------------|
| `grupo`             | Categ√≥rica  | **Campanha recebida pelo cliente**:<br>‚Ä¢ `A`: grupo **controle** (n√£o recebeu est√≠mulo)<br>‚Ä¢ `B`: cupom de desconto<br>‚Ä¢ `C`: frete gr√°tis<br>‚Ä¢ `D`: cashback |
| `evento`            | Bin√°ria     | Indicador de convers√£o: o cliente **realizou uma compra?** (`1` = sim, `0` = n√£o) |
| `score`             | Cont√≠nua    | Valor total gasto pelo cliente (em reais) durante o per√≠odo da campanha  |
| `pre_treinamento`   | Cont√≠nua    | N√∫mero de visitas ao site **antes da campanha**                           |
| `pos_treinamento`   | Cont√≠nua    | N√∫mero de visitas ao site **ap√≥s a campanha**                             |

---

## üß† O que significa ‚Äúgrupo controle‚Äù?

O grupo **controle** (`grupo = A`) √© formado por clientes que **n√£o receberam nenhuma campanha promocional**. Esse grupo serve como **refer√™ncia neutra**, permitindo que possamos comparar com os demais grupos e **isolar o efeito da campanha**.

> Exemplo: Se o grupo B (cupom) tiver maior convers√£o do que o grupo A (controle), √© poss√≠vel afirmar com maior confian√ßa que o cupom teve impacto real ‚Äî desde que a diferen√ßa seja estatisticamente significativa.

# An√°lises

In [1]:
# SETUP
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm, t, f, chi2

In [2]:
# LOAD: A base j√° est√° sanitizada.
base = pd.read_excel("dados/base_retailx.xlsx")
base.head()

Unnamed: 0,grupo,evento,score,pre_treinamento,pos_treinamento
0,A,0,0.0,6,6
1,A,1,70.68,4,4
2,A,1,60.23,6,6
3,A,1,102.16,8,8
4,A,0,0.0,1,2


## 1. Construa um intervalo de confian√ßa de 95% para estimar a propor√ß√£o de clientes que realizaram compra.

In [3]:
# Vari√°vel observada
X = base["evento"].values

# Tamanho da amostra
n = X.shape[0]

# Propor√ß√£o amostral observada
p_obs = X.mean()

print(f"n = {n}")
print(f"p_obs = {np.round(p_obs, 2)}")

n = 300
p_obs = 0.57


### Modelo Param√©trico

<img src="img/e1a.jpeg" width="500">
<img src="img/e1b.jpeg" width="500">

In [4]:
# Melhor estimativa para p
p = p_obs

# Valida√ß√£o de aproxima√ß√£o pela normal
print((n*p >= 10) & (n*(1-p) >= 10))

True


In [5]:
# Erro Padr√£o
SE = np.sqrt(p*(1-p)/n)
print(f"SE = {np.round(SE, 2)}")

SE = 0.03


In [6]:
# Obten√ß√£o do Zc
gama = .95
q    = (1- gama)/2 + gama
Zc   = norm.ppf(q=q)
print(f"Zc = {np.round(Zc, 2)}")

Zc = 1.96


In [7]:
# Intervalo de confian√ßa
p0 = p_obs - Zc*SE
p1 = p_obs + Zc*SE
print(f"IC = [{np.round(p0, 2)}, {np.round(p1, 2)}]")
print(f"IC = {np.round(p_obs, 2)} +- {np.round(Zc, 2)} * {np.round(SE, 2)}")

IC = [0.51, 0.62]
IC = 0.57 +- 1.96 * 0.03


**Conclus√£o**

- Temos **95% de confian√ßa** de que o verdadeiro valor da propor√ß√£o populacional \(p\) est√° entre **51% e 62%**. Em outras palavras, acreditamos com 95% de confian√ßa que a **taxa de convers√£o dos clientes dessa loja** se encontra nesse intervalo.

- Essa confian√ßa **n√£o deve ser interpretada** como a probabilidade de que este intervalo espec√≠fico contenha \(p\), pois o valor de \(p\) √© fixo (embora desconhecido), e o intervalo √© aleat√≥rio.

- A interpreta√ß√£o correta √©: Se repet√≠ssemos esse mesmo processo de amostragem e constru√ß√£o de intervalo muitas vezes, em **95% dos casos** os intervalos obtidos conteriam o verdadeiro valor de \(p\).

- Portanto, com base nessa confian√ßa no processo, podemos selecionar **este √∫nico intervalo** e afirmar com **95% de confian√ßa** que o verdadeiro valor de \(p\) est√° entre **51% e 62%**.


## 2. Podemos afirmar que a taxa de convers√£o dos clientes √© superior que 50%?

**Hip√≥teses do Teste**

- **H‚ÇÄ (Hip√≥tese nula):** A taxa de convers√£o na popula√ß√£o **n√£o √© superior a 50%**. O valor observado pode ser explicado apenas pela variabilidade amostral (acaso na sele√ß√£o da amostra).
- **H‚ÇÅ (Hip√≥tese alternativa):** A taxa de convers√£o na popula√ß√£o **√© superior a 50%**.

**Nota√ß√£o formal:**

- H‚ÇÄ: p = po | (po = 50%)
- H‚ÇÅ: p > po



### Modelo Param√©trico

<img src="img/e2.jpeg" width="500">

In [8]:
# N√≠vel de signific√¢ncia do teste
alpha = .05
print(f"alpha = {np.round(alpha, 2)}")

alpha = 0.05


In [9]:
# Distribui√ß√£o sob H0
po = .5
print(f"p0 = {np.round(po, 2)}")

p0 = 0.5


In [10]:
# Valida√ß√£o de aproxima√ß√£o pela normal
print((n*p0 >= 10) & (n*(1-p0) >= 10))

True


In [11]:
# Padronizando o valor observado
Z_obs = (p_obs - po)/np.sqrt(po*(1-po)/n)
print(f"Z_obs = {np.round(Z_obs, 2)}")

Z_obs = 2.31


In [12]:
# Calculando p_value (probabilidade do acaso gerar um valor t√£o extremo quanto o observado)
p_value = 1 - norm.cdf(Z_obs)

# Decis√£o
if p_value < alpha:
    print(f"p-valor = {p_value:.2f} < Œ± = {alpha} ‚Üí Rejeitamos H0")
else:
    print(f"p-valor = {p_value:.2f} ‚â• Œ± = {alpha} ‚Üí N√£o rejeitamos H0")


p-valor = 0.01 < Œ± = 0.05 ‚Üí Rejeitamos H0


**Conclus√£o**

- Ao n√≠vel de signific√¢ncia de 5% (probabilidade de rejeitar incorretamente a hip√≥tese nula), temos evid√™ncia suficiente para rejeitar H‚ÇÄ em favor de H‚ÇÅ.  
Com isso, conclu√≠mos que a taxa de convers√£o dos clientes √© **superior a 50%**.


## 3. Construa um intervalo de confian√ßa de 95% para estimar a diferen√ßa na taxa de convers√£o entre os grupos B e D.

In [13]:
# Grupo B: Teve cupom de desconto

# Vari√°vel observada
XB = base.loc[(base["grupo"] == "B"), "evento"].values

# Tamanho da amostra
nB = XB.shape[0]

# Propor√ß√£o amostral observada
pB_obs = XB.mean()

print(f"nB = {nB}")
print(f"pB_obs = {np.round(pB_obs, 2)}")

nB = 75
pB_obs = 0.63


In [14]:
# Grupo D: Teve cashback

# Vari√°vel observada
XD = base.loc[(base["grupo"] == "D"), "evento"].values

# Tamanho da amostra
nD = XD.shape[0]

# Propor√ß√£o amostral observada
pD_obs = XD.mean()

print(f"nD = {nD}")
print(f"pD_obs = {np.round(pD_obs, 2)}")

nD = 75
pD_obs = 0.61


In [15]:
# Diferen√ßa observada
diff_B_D_obs = pB_obs - pD_obs
print(f"diff_B_D_obs = {np.round(diff_B_D_obs, 2)}")

diff_B_D_obs = 0.01


### Modelo Param√©trico

<img src="img/e3a.jpeg" width="500">

<img src="img/e3b.jpeg" width="500">

In [16]:
# Melhor estimativa para pB
pB = pB_obs

# Valida√ß√£o de aproxima√ß√£o pela normal
print((nB*pB >= 10) & (nB*(1-pB) >= 10))

True


In [17]:
# Melhor estimativa para pD
pD = pD_obs

# Valida√ß√£o de aproxima√ß√£o pela normal
print((nD*pD >= 10) & (nD*(1-pD) >= 10))

True


In [18]:
# Erro Padr√£o
SE = np.sqrt(pB*(1-pB)/nB + pD*(1-pD)/nD)
print(f"SE = {np.round(SE, 2)}")

SE = 0.08


In [19]:
# Obten√ß√£o do Zc
gama = .95
q    = (1- gama)/2 + gama
Zc   = norm.ppf(q=q)
print(f"Zc = {np.round(Zc, 2)}")

Zc = 1.96


In [20]:
# Intervalo de confian√ßa
d0 = diff_B_D_obs - Zc*SE
d1 = diff_B_D_obs + Zc*SE
print(f"IC = [{np.round(d0, 2)}, {np.round(d1, 2)}]")
print(f"IC = {np.round(diff_B_D_obs, 2)} +- {np.round(Zc, 2)} * {np.round(SE, 2)}")

IC = [-0.14, 0.17]
IC = 0.01 +- 1.96 * 0.08


**Conclus√£o**

- Com **95% de confian√ßa**, estimamos que a diferen√ßa populacional nas taxas de convers√£o entre os grupos B e D (pB - pD) esteja entre **-14 p.p. e 17 p.p.**
- Em outras palavras, acreditamos que a taxa de convers√£o do grupo B pode ser at√© 14 pontos percentuais **menor** ou at√© 17 pontos percentuais **maior** do que a do grupo D.

## 4. Podemos concluir que a taxa de convers√£o nos grupos B e D s√£o diferentes?

O resultado apresentado no item 3 j√° responde √† pergunta: com **95% de confian√ßa**, estimamos que a diferen√ßa populacional nas taxas de convers√£o entre os grupos B e D (pB - pD) esteja entre **-14 p.p. e 17 p.p.**

Como esse intervalo inclui o valor **0**, **n√£o temos evid√™ncia estat√≠stica suficiente** para concluir que existe uma diferen√ßa significativa entre as taxas de convers√£o dos dois grupos, ao n√≠vel de signific√¢ncia de 5%.

Al√©m disso, a realiza√ß√£o de um **teste de hip√≥tese** formal para a diferen√ßa entre propor√ß√µes levaria √† **mesma conclus√£o**, refor√ßando que n√£o h√° evid√™ncia de diferen√ßa estatisticamente significativa ‚Äî o que faremos na sequ√™ncia.

**Hip√≥teses do Teste**

- **H‚ÇÄ (Hip√≥tese nula):** N√£o h√° diferen√ßa na taxa de convers√£o entre os grupos B e D. A diferen√ßa observada pode ser atribu√≠da √† variabilidade amostral (isto √©, ao acaso na sele√ß√£o da amostra).
- **H‚ÇÅ (Hip√≥tese alternativa):** Existe uma diferen√ßa real entre as taxas de convers√£o dos grupos B e D.

**Nota√ß√£o formal:**

- H‚ÇÄ: pB - pD = do | (do = 0)
- H‚ÇÅ: pB - pD != do



### Modelo Param√©trico

<img src="img/e4.jpeg" width="500">

In [21]:
# N√≠vel de signific√¢ncia do teste
alpha = .05
print(f"alpha = {np.round(alpha, 2)}")

alpha = 0.05


In [22]:
# Distribui√ß√£o sob H0
po = (nB * pB_obs + nD * pD_obs) / (nB + nD)
print(f"p0 = {np.round(po, 2)}")

p0 = 0.62


In [23]:
# Valida√ß√£o de aproxima√ß√£o pela normal
print((nB*p0 >= 10) & (nB*(1-p0) >= 10))
print((nD*p0 >= 10) & (nD*(1-p0) >= 10))

True
True


In [24]:
# Padronizando o valor observado
Z_obs = (pB_obs - pD_obs)/np.sqrt((po*(1-po)/nB) + (po*(1-po)/nD)) 
print(f"Z_obs = {np.round(Z_obs, 2)}")

Z_obs = 0.17


In [25]:
# Calculando p_value (probabilidade do acaso gerar um valor t√£o extremo quanto o observado)
p_value = norm.cdf(-Z_obs) + (1 - norm.cdf(Z_obs))

# Decis√£o
if p_value < alpha:
    print(f"p-valor = {p_value:.2f} < Œ± = {alpha} ‚Üí Rejeitamos H0")
else:
    print(f"p-valor = {p_value:.2f} ‚â• Œ± = {alpha} ‚Üí N√£o rejeitamos H0")

p-valor = 0.87 ‚â• Œ± = 0.05 ‚Üí N√£o rejeitamos H0


**Conclus√£o**

- Ao n√≠vel de signific√¢ncia de 5%, n√£o encontramos evid√™ncia estat√≠stica suficiente para rejeitar H‚ÇÄ em favor de H‚ÇÅ.  
Com isso, n√£o podemos concluir que exista diferen√ßa significativa nas taxas de convers√£o entre os grupos B e D.

## 5. A taxa de convers√£o (`evento`) est√° associada ao tipo de campanha (`grupo`)?

### Modelo Param√©trico

<img src="img/e5a.jpeg" width="500">
<img src="img/e5b.jpeg" width="500">

In [26]:
# Resultado Observado
X = base["evento"].values
Y = base["grupo"].values

obs = pd.crosstab(Y, X)
obs

col_0,0,1
row_0,Unnamed: 1_level_1,Unnamed: 2_level_1
A,40,35
B,28,47
C,33,42
D,29,46


In [27]:
# Resultado Esperado se X e Y n√£o possuem rela√ß√£o

# Fra√ß√£o 0's e 1's geral
frac = (obs.sum()/obs.sum().sum()).values.reshape(1,2)

# Soma por linha
sum_by_row = obs.sum(axis=1).values.reshape(4,1)

# Esperado
exp = pd.DataFrame(np.matmul(sum_by_row, frac))
exp

Unnamed: 0,0,1
0,32.5,42.5
1,32.5,42.5
2,32.5,42.5
3,32.5,42.5


In [28]:
# X2 observado
obs = obs.values 
exp = exp.values
X2_obs = (((obs - exp)**2)/exp).sum()
print(f"X2_obs = {np.round(X2_obs, 2)}")

X2_obs = 4.83


**Hip√≥teses do Teste (Qui-quadrado de independ√™ncia)**

- **H‚ÇÄ (Hip√≥tese nula):** N√£o h√° associa√ß√£o entre a taxa de convers√£o e o tipo de campanha. A diferen√ßa observada pode ser explicada apenas pela variabilidade amostral (isto √©, pelo acaso).
- **H‚ÇÅ (Hip√≥tese alternativa):** Existe uma associa√ß√£o entre a taxa de convers√£o e o tipo de campanha.


In [29]:
# Constru√ß√£o da distribui√ß√£o sob H0: Como as premissas abaixo s√£o satisfeitas, podemos avaliar qual a probabilidade do acaso 
# produzir um valor t√£o extremo quanto X2_obs em uma distribui√ß√£o Qui Quadrado (vari√°veis sem rela√ß√£o)
# a. As observa√ß√µes s√£o independentes
# b. Supondo que n√£o haja rela√ß√£o entre as vari√°veis
# c. Pelo menos 80% das c√©lulas da tabela esperada possuem valores >= 5
# d. Nenhuma c√©lula com valor esperado < 1

# Graus de liberdade
r = obs.shape[0]
c = obs.shape[1]
df = (r - 1) * (c - 1)
print(f"df = {np.round(df, 2)}")

# Calculando p_value (probabilidade do acaso gerar um valor t√£o extremo quanto o observado)
# P(X2 >= X2_obs)
p_value = 1 - chi2.cdf(X2_obs, df)

# Decis√£o
if p_value < alpha:
    print(f"p-valor = {p_value:.2f} < Œ± = {alpha} ‚Üí Rejeitamos H0")
else:
    print(f"p-valor = {p_value:.2f} ‚â• Œ± = {alpha} ‚Üí N√£o rejeitamos H0")

df = 3
p-valor = 0.18 ‚â• Œ± = 0.05 ‚Üí N√£o rejeitamos H0


**Conclus√£o**

- Ao n√≠vel de signific√¢ncia de 5%, **n√£o encontramos evid√™ncia estat√≠stica suficiente para rejeitar H‚ÇÄ em favor de H‚ÇÅ**.  
Dessa forma, **n√£o h√° evid√™ncia de associa√ß√£o entre a ocorr√™ncia do evento (ex: convers√£o) e o tipo de campanha aplicada**.


## 6. Construa um intervalo de confian√ßa de 95% para estimar o valor m√©dio de compra (`score`) de todos os clientes.

In [30]:
# Vari√°vel observada: Somente clientes que realizaram alguma compra
X = base.loc[base["evento"] == 1, "score"].values

# Tamanho da amostra
n = X.shape[0]

# M√©dia amostral observada
x_obs = X.mean()

# Desvio padr√£o amostral
s = X.std(ddof=1)

print(f"n = {n}")
print(f"x_obs = {np.round(x_obs, 2)}")
print(f"s = {np.round(s, 2)}")

n = 170
x_obs = 77.16
s = 13.52


### Modelo Param√©trico

<img src="img/e6a.jpeg" width="500">
<img src="img/e6b.jpeg" width="500">

In [31]:
# Quando o tamanho da amostra √© grande, o Teorema Central do Limite permite aproximar a distribui√ß√£o da m√©dia amostral por uma normal.
# No entanto, como a vari√¢ncia populacional √© desconhecida, usamos a vari√¢ncia amostral como estimativa.
# Isso introduz variabilidade adicional na estat√≠stica de teste, raz√£o pela qual usamos a distribui√ß√£o t de Student em vez da normal padr√£o.

# Erro Padr√£o
SE = np.sqrt((s**2)/n)
print(f"SE = {np.round(SE, 2)}")

# Obten√ß√£o do tc
gama = .95
q    = (1- gama)/2 + gama
df   = n -1
tc   = t.ppf(df = df, q=q)
print(f"tc = {np.round(tc, 2)}")

# Intervalo de confian√ßa
x0 = x_obs - tc*SE
x1 = x_obs + tc*SE
print(f"IC = [{np.round(x0, 2)}, {np.round(x1, 2)}]")
print(f"IC = {np.round(x_obs, 2)} +- {np.round(tc, 2)} * {np.round(SE, 2)}")

SE = 1.04
tc = 1.97
IC = [75.11, 79.21]
IC = 77.16 +- 1.97 * 1.04


**Conclus√£o**

- Temos **95% de confian√ßa** de que o verdadeiro valor do score populacional u est√° entre **75,11 e 79,21**.  
Em outras palavras, acreditamos que o **valor m√©dio de compra da popula√ß√£o** se encontra nesse intervalo com 95% de confian√ßa.


## 7. O valor m√©dio de compra (`score`) de todos os clientes √© maior que R$ 70?

**Hip√≥teses do Teste**

- **H‚ÇÄ (Hip√≥tese nula):** O valor m√©dio de compra **n√£o √© maior que 70 reais**. A m√©dia observada pode ser explicada apenas pela variabilidade amostral (isto √©, pelo acaso na sele√ß√£o da amostra).
- **H‚ÇÅ (Hip√≥tese alternativa):** O valor m√©dio de compra **√© maior que 70 reais**.

**Nota√ß√£o formal:**

- H‚ÇÄ: u = uo | (uo = 70)
- H‚ÇÅ: u > uo



### Modelo Param√©trico

<img src="img/e7.jpeg" width="500">

In [32]:
# N√≠vel de signific√¢ncia do teste
alpha = .05
print(f"alpha = {np.round(alpha, 2)}")

alpha = 0.05


In [33]:
# Distribui√ß√£o sob H0
# - Supondo uma popula√ß√£o com uo = 70
# - Com vari√¢ncia estimada igual a variancia amostral

# Quando o tamanho da amostra √© grande, o Teorema Central do Limite permite aproximar a distribui√ß√£o da m√©dia amostral por uma normal.
# No entanto, como a vari√¢ncia populacional √© desconhecida, usamos a vari√¢ncia amostral como estimativa.
# Isso introduz variabilidade adicional na estat√≠stica de teste, raz√£o pela qual usamos a distribui√ß√£o t de Student em vez da normal padr√£o.

# u0
uo = 70
print(f"uo = {np.round(uo, 2)}")

# Erro Padr√£o
SE = np.sqrt((s**2)/n)
print(f"SE = {np.round(SE, 2)}")

# Obten√ß√£o do t_obs
t_obs = (x_obs - uo)/SE
print(f"t_obs = {np.round(t_obs, 2)}")

# Calculando p_value (probabilidade do acaso gerar um valor t√£o extremo quanto o observado)
# P(t >= t_obs)
p_value = 1 - t.cdf(t_obs, df)

# Decis√£o
if p_value < alpha:
    print(f"p-valor = {p_value:.2f} < Œ± = {alpha} ‚Üí Rejeitamos H0")
else:
    print(f"p-valor = {p_value:.2f} ‚â• Œ± = {alpha} ‚Üí N√£o rejeitamos H0")

uo = 70
SE = 1.04
t_obs = 6.9
p-valor = 0.00 < Œ± = 0.05 ‚Üí Rejeitamos H0


**Conclus√£o**

- Ao n√≠vel de signific√¢ncia de 5% ‚Äî ou seja, assumindo um risco de 5% de rejeitar incorretamente a hip√≥tese nula ‚Äî, encontramos **evid√™ncia estat√≠stica suficiente para rejeitar H‚ÇÄ em favor de H‚ÇÅ**.  
Dessa forma, **conclu√≠mos que o valor m√©dio de compra √© superior a 70 reais**.

## 8. Construa um intervalo de confian√ßa de 95% para estimar a diferen√ßa no valor m√©dio de compra entre os grupos B e D.

### Modelo Param√©trico

<img src="img/e8a.jpeg" width="500">
<img src="img/e8b.jpeg" width="500">

In [34]:
# Grupo B: Teve cupom de desconto

# Vari√°vel observada: Somente clientes que realizaram alguma compra
XB = base.loc[(base["evento"] == 1) & (base["grupo"] == "B"), "score"].values

# Tamanho da amostra
nB = XB.shape[0]

# M√©dia amostral observada
xB_obs = XB.mean()

# Desvio padr√£o amostral
sB = XB.std(ddof=1)

print(f"nB = {nB}")
print(f"xB_obs = {np.round(xB_obs, 2)}")
print(f"sB = {np.round(sB, 2)}")

nB = 47
xB_obs = 76.52
sB = 11.93


In [35]:
# Grupo D: Teve cupom de desconto

# Vari√°vel observada: Somente clientes que realizaram alguma compra
XD = base.loc[(base["evento"] == 1) & (base["grupo"] == "D"), "score"].values

# Tamanho da amostra
nD = XD.shape[0]

# M√©dia amostral observada
xD_obs = XD.mean()

# Desvio padr√£o amostral
sD = XD.std(ddof=1)

print(f"nD = {nD}")
print(f"xD_obs = {np.round(pD_obs, 2)}")
print(f"sD = {np.round(sD, 2)}")

nD = 46
xD_obs = 0.61
sD = 11.28


In [36]:
# Diferen√ßa observada
diff_B_D_obs = xB_obs - xD_obs
print(f"diff_B_D_obs = {np.round(diff_B_D_obs, 2)}")

diff_B_D_obs = -6.78


In [37]:
# Quando o tamanho da amostra √© grande, o Teorema Central do Limite permite aproximar a distribui√ß√£o da m√©dia amostral por uma normal.
# No entanto, como a vari√¢ncia populacional √© desconhecida, usamos a vari√¢ncia amostral como estimativa.
# Isso introduz variabilidade adicional na estat√≠stica de teste, raz√£o pela qual usamos a distribui√ß√£o t de Student em vez da normal padr√£o.

# Erro Padr√£o
SE = np.sqrt((sB**2)/nB + (sD**2)/nD)
print(f"SE = {np.round(SE, 2)}")

# Obten√ß√£o do tc
gama = .95
q    = (1- gama)/2 + gama
df   = (((sB**2)/nB + (sD**2)/nD)**2)/((((sB**2)/nB)**2)/(nB - 1) + (((sD**2)/nD)**2)/(nD - 1))
tc   = t.ppf(df = df, q=q)
print(f"tc = {np.round(tc, 2)}")

# Intervalo de confian√ßa
d0 = diff_B_D_obs - tc*SE
d1 = diff_B_D_obs + tc*SE
print(f"IC = [{np.round(d0, 2)}, {np.round(d1, 2)}]")
print(f"IC = {np.round(diff_B_D_obs, 2)} +- {np.round(tc, 2)} * {np.round(SE, 2)}")

SE = 2.41
tc = 1.99
IC = [-11.56, -2.0]
IC = -6.78 +- 1.99 * 2.41


**Conclus√£o**

- Com **95% de confian√ßa**, estimamos que a **diferen√ßa m√©dia no valor de compra entre os grupos B e D** est√° entre **‚àí11,56 e ‚àí2,00**.
- Em outras palavras, acreditamos que os clientes do grupo B gastam, em m√©dia, entre **2 e 11,56 unidades a menos** do que os do grupo D.


## 9. Podemos afirmar que o grupo D gerou um valor m√©dio de compra diferente do que o grupo B?

**Hip√≥teses do Teste**

- **H‚ÇÄ (Hip√≥tese nula):** N√£o h√° diferen√ßa no valor m√©dio de compra entre os grupos B e D. Qualquer diferen√ßa observada pode ser explicada apenas pela variabilidade amostral (isto √©, pelo acaso na sele√ß√£o da amostra).
- **H‚ÇÅ (Hip√≥tese alternativa):** H√° diferen√ßa no valor m√©dio de compra entre os grupos B e D.

**Nota√ß√£o formal:**

- H‚ÇÄ: uB - uD = do | (do = 0)
- H‚ÇÅ: uB - uD != do

### Modelo Param√©trico

<img src="img/e9.jpeg" width="500">

In [38]:
# N√≠vel de signific√¢ncia do teste
alpha = .05
print(f"alpha = {np.round(alpha, 2)}")

alpha = 0.05


In [39]:
# Distribui√ß√£o sob H0
# - Supondo uma popula√ß√£o com uB - uD = do = 0
# - Com vari√¢ncia estimada sB**2/nB + sD**2/nD

# Quando o tamanho da amostra √© grande, o Teorema Central do Limite permite aproximar a distribui√ß√£o da diferen√ßa da m√©dia amostral por uma normal.
# No entanto, como a vari√¢ncia populacional √© desconhecida, usamos a vari√¢ncia amostral como estimativa.
# Isso introduz variabilidade adicional na estat√≠stica de teste, raz√£o pela qual usamos a distribui√ß√£o t de Student em vez da normal padr√£o.

# do
do = 0
print(f"do = {np.round(do, 2)}")

# Erro Padr√£o
SE = np.sqrt((sB**2)/nB + (sD**2)/nD)
print(f"SE = {np.round(SE, 2)}")

# Obten√ß√£o do t_obs
t_obs = diff_B_D_obs/SE
print(f"t_obs = {np.round(t_obs, 2)}")

# Calculando p_value (probabilidade do acaso gerar um valor t√£o extremo quanto o observado)
# P(t >= t_obs)
df      = (((sB**2)/nB + (sD**2)/nD)**2)/((((sB**2)/nB)**2)/(nB - 1) + (((sD**2)/nD)**2)/(nD - 1))
p_value = t.cdf(t_obs, df)*2

# Decis√£o
if p_value < alpha:
    print(f"p-valor = {p_value:.2f} < Œ± = {alpha} ‚Üí Rejeitamos H0")
else:
    print(f"p-valor = {p_value:.2f} ‚â• Œ± = {alpha} ‚Üí N√£o rejeitamos H0")

do = 0
SE = 2.41
t_obs = -2.82
p-valor = 0.01 < Œ± = 0.05 ‚Üí Rejeitamos H0


**Conclus√£o**

- Ao n√≠vel de signific√¢ncia de 5% ‚Äî ou seja, assumindo um risco de 5% de rejeitar incorretamente a hip√≥tese nula ‚Äî, encontramos **evid√™ncia estat√≠stica suficiente para rejeitar H‚ÇÄ em favor de H‚ÇÅ**.  
- Dessa forma, **conclu√≠mos que h√° diferen√ßa significativa no valor m√©dio de compra entre os grupos B e D**.