# Introdu√ß√£o

## üìò Sobre este Estudo

Este notebook foi elaborado com fins **did√°ticos e demonstrativos** para mostrar como aplicar t√©cnicas de **infer√™ncia estat√≠stica**, utilizando tanto m√©todos **cl√°ssicos (param√©tricos)** quanto **computacionais** (como bootstrap e testes de aleatoriza√ß√£o).

---

## üõí Contexto do Problema

A empresa fict√≠cia **RetailX**, uma varejista digital, lan√ßou uma campanha para testar o impacto de diferentes estrat√©gias promocionais sobre o comportamento de seus clientes. A empresa est√° especialmente interessada em entender:

- Se as campanhas aumentam o engajamento no site
- Se as campanhas influenciam a taxa de convers√£o (compra)
- Se h√° impacto no valor total gasto

Para isso, um experimento foi conduzido com **quatro grupos de clientes**, atribu√≠dos aleatoriamente.

---

## üéØ Objetivo do Estudo

Avaliar se **diferentes tipos de campanha** geram **diferen√ßas estatisticamente significativas** em:
- Taxa de convers√£o (realizou compra ou n√£o)
- Valor de compra (gasto em reais)
- N√∫mero de visitas ao site (antes e depois da campanha)
---

## üßæ Descri√ß√£o das Vari√°veis

| Vari√°vel            | Tipo        | Descri√ß√£o                                                                 |
|---------------------|-------------|---------------------------------------------------------------------------|
| `grupo`             | Categ√≥rica  | **Campanha recebida pelo cliente**:<br>‚Ä¢ `A`: grupo **controle** (n√£o recebeu est√≠mulo)<br>‚Ä¢ `B`: cupom de desconto<br>‚Ä¢ `C`: frete gr√°tis<br>‚Ä¢ `D`: cashback |
| `evento`            | Bin√°ria     | Indicador de convers√£o: o cliente **realizou uma compra?** (`1` = sim, `0` = n√£o) |
| `score`             | Cont√≠nua    | Valor total gasto pelo cliente (em reais) durante o per√≠odo da campanha  |
| `pre_treinamento`   | Cont√≠nua    | N√∫mero de visitas ao site **antes da campanha**                           |
| `pos_treinamento`   | Cont√≠nua    | N√∫mero de visitas ao site **ap√≥s a campanha**                             |

---

## üß† O que significa ‚Äúgrupo controle‚Äù?

O grupo **controle** (`grupo = A`) √© formado por clientes que **n√£o receberam nenhuma campanha promocional**. Esse grupo serve como **refer√™ncia neutra**, permitindo que possamos comparar com os demais grupos e **isolar o efeito da campanha**.

> Exemplo: Se o grupo B (cupom) tiver maior convers√£o do que o grupo A (controle), √© poss√≠vel afirmar com maior confian√ßa que o cupom teve impacto real ‚Äî desde que a diferen√ßa seja estatisticamente significativa.

# An√°lises

In [1]:
# SETUP
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm, t, f

In [2]:
# LOAD: A base j√° est√° sanitizada.
base = pd.read_excel("dados/base_retailx.xlsx")
base.head()

Unnamed: 0,grupo,evento,score,pre_treinamento,pos_treinamento
0,A,0,0.0,6,6
1,A,1,70.68,4,4
2,A,1,60.23,6,6
3,A,1,102.16,8,8
4,A,0,0.0,1,2


## 1. Construa um intervalo de confian√ßa de 95% para estimar a propor√ß√£o de clientes que realizaram compra.

In [3]:
# Vari√°vel observada
X = base["evento"].values

# Tamanho da amostra
n = X.shape[0]

# Propor√ß√£o amostral observada
p_obs = X.mean()

print(f"n = {n}")
print(f"p_obs = {np.round(p_obs, 2)}")

n = 300
p_obs = 0.57


### Modelo Matem√°tico

<img src="img/e1.jpeg" width="500">
<img src="img/e2.jpeg" width="500">

In [4]:
# Melhor estimativa para p
p = p_obs

# Valida√ß√£o de aproxima√ß√£o pela normal
print((n*p >= 10) & (n*(1-p) >= 10))

True


In [5]:
# Erro Padr√£o
SE = np.sqrt(p*(1-p)/n)
print(f"SE = {np.round(SE, 2)}")

SE = 0.03


In [6]:
# Obten√ß√£o do Zc
gama = .95
q    = (1- gama)/2 + gama
Zc   = norm.ppf(q=q)
print(f"Zc = {np.round(Zc, 2)}")

Zc = 1.96


In [7]:
# Intervalo de confian√ßa
p0 = p_obs - Zc*SE
p1 = p_obs + Zc*SE
print(f"IC = [{np.round(p0, 2)}, {np.round(p1, 2)}]")
print(f"IC = {np.round(p_obs, 2)} +- {np.round(Zc, 2)} * {np.round(SE, 2)}")

IC = [0.51, 0.62]
IC = 0.57 +- 1.96 * 0.03


**Conclus√£o**

- Temos **95% de confian√ßa** de que o verdadeiro valor da propor√ß√£o populacional \(p\) est√° entre **51% e 62%**. Em outras palavras, acreditamos com 95% de confian√ßa que a **taxa de convers√£o dos clientes dessa loja** se encontra nesse intervalo.

- Essa confian√ßa **n√£o deve ser interpretada** como a probabilidade de que este intervalo espec√≠fico contenha \(p\), pois o valor de \(p\) √© fixo (embora desconhecido), e o intervalo √© aleat√≥rio.

- A interpreta√ß√£o correta √©: Se repet√≠ssemos esse mesmo processo de amostragem e constru√ß√£o de intervalo muitas vezes, em **95% dos casos** os intervalos obtidos conteriam o verdadeiro valor de \(p\).

- Portanto, com base nessa confian√ßa no processo, podemos selecionar **este √∫nico intervalo** e afirmar com **95% de confian√ßa** que o verdadeiro valor de \(p\) est√° entre **51% e 62%**.
