## 🎓 **Aula sobre: Estatística Descritiva e Inferencial**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                        | Tempo Estimado | Complexidade |
|---|-----------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida           | ~1 min         | ⭐           |
| 2 | Mergulho Profundo                 | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões            | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação              | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais  | Opcional      | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **Estatística Descritiva:** sumarização de dados (média, mediana, moda, desvio).  
> - **Distribuições:** forma como os dados se espalham (*normal*, *uniforme*, etc.).  
> - **Intervalo de Confiança:** faixa provável para a média populacional.  
> - **Teste de Hipótese:** decisão estatística (p-valor) sobre suposições.  
> - **Erro Tipo I/II:** falso positivo/negativo em testes.

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
A **estatística descritiva** resume um conjunto de dados por meio de métricas como média e desvio padrão. Já a **inferencial** utiliza uma amostra para tirar conclusões sobre a população, empregando **intervalos de confiança** e **testes de hipótese** (por exemplo, *t-teste*), controlando o **nível de significância** (α) e interpretando **p-valores**.

<br>

#### **🔗 Analogia de Data Science**  
- **Descritiva:** é como ler o extrato bancário e ver saldo médio e variação mensal.  
- **Inferencial:** é como entrevistar 100 clientes para estimar a satisfação de toda a base de 10 000, usando margem de erro.

<br>


### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Cálculo de Estatísticas Descritivas**


In [None]:
import pandas as pd
import seaborn as sns

# Carrega dataset de gorjetas
tips = sns.load_dataset('tips')['tip']
# Descritivas básicas
desc = tips.describe()
mean = tips.mean()
median = tips.median()
std = tips.std()

print(desc)
print(f"Média: {mean:.2f}, Mediana: {median:.2f}, Desvio: {std:.2f}")


In [5]:
# Pratique seu código aqui!

import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips")["tip"]
tips.head()

Unnamed: 0,tip
0,1.01
1,1.66
2,3.5
3,3.31
4,3.61


In [10]:
desc = tips.describe()
mean = tips.mean()
median = tips.median()
std = tips.std()

print(desc,"\n")
print(f"Média: {mean:.2f}, Mediana: {median:.2f}, Desvio: {std:.2f}")


count    244.000000
mean       2.998279
std        1.383638
min        1.000000
25%        2.000000
50%        2.900000
75%        3.562500
max       10.000000
Name: tip, dtype: float64 

Média: 3.00, Mediana: 2.90, Desvio: 1.38


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e seaborn.”  
  import pandas as pd  
  import seaborn as sns  

  # “Carregue apenas a coluna de gorjetas.”  
  tips = sns.load_dataset('tips')['tip']  

  # “Use describe() para resumo completo.”  
  desc = tips.describe()  

  # “Calcule média, mediana e desvio padrão separadamente.”  
  mean = tips.mean()  
  median = tips.median()  
  std = tips.std()  

  # “Mostre resultados formatados.”  
  print(desc)  
  print(f"Média: {mean:.2f}, Mediana: {median:.2f}, Desvio: {std:.2f}")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo        | Expressão         | Saída                     | O que faz?                          |
  |:------------:|:------------------|:--------------------------|:------------------------------------|
  | 1            | `tips.describe()` | Série com count, mean…    | Estatísticas descritivas completas  |
  | 2            | `tips.mean()`     | Float                     | Média da gorjeta                    |
  | 3            | `tips.median()`   | Float                     | Valor central (mediana)             |
  | 4            | `tips.std()`      | Float                     | Dispersão dos valores               |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Imagine um gráfico de colunas: a média é a altura média das colunas, a mediana é a coluna central e o desvio é a “diferença padrão” entre elas.

* **Cenário de Mercado:**  
  - Em **finanças**, sumarizar retornos diários inclui média para tendência e desvio para risco.  
  - **Por que descritiva?** Ajuda equipes a entender volatilidade antes de modelagem.

* **Boas Práticas:**  
  - **Afirmação:** “Verifique outliers antes de usar média.”  
    - **Porquê:** Valores extremos podem distorcer a média.  
    - **Analogia:** É como remover notas zeradas antes de calcular média de provas.


#### **Nível Intermediário: Intervalo de Confiança e Histograma**


In [None]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats

# Amostra de salários simulada
np.random.seed(0)
salarios = np.random.normal(loc=5000, scale=800, size=100)

# Intervalo de confiança 95%
mean = salarios.mean()
ci = stats.t.interval(0.95, len(salarios)-1, loc=mean, scale=stats.sem(salarios))

# Histograma com linha de média e CI
sns.histplot(salarios, kde=False)
plt.axvline(mean, color='red', linestyle='--', label='Média')
plt.axvline(ci[0], color='blue', linestyle=':', label='CI 95%')
plt.axvline(ci[1], color='blue', linestyle=':')
plt.legend()
plt.show()

print(f"Intervalo de Confiança 95%: [{ci[0]:.0f}, {ci[1]:.0f}]")


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe numpy, seaborn, matplotlib e scipy.”  
  import numpy as np  
  import seaborn as sns  
  import matplotlib.pyplot as plt  
  from scipy import stats  

  # “Crie amostra normal de salários.”  
  salarios = np.random.normal(5000, 800, 100)  

  # “Calcule média e intervalo de confiança 95%.”  
  mean = salarios.mean()  
  ci = stats.t.interval(0.95, len(salarios)-1, loc=mean, scale=stats.sem(salarios))  

  # “Desenhe histograma.”  
  sns.histplot(salarios, kde=False)  

  # “Linhas para média (vermelha) e limites do CI (azul).”  
  plt.axvline(mean, color='red', linestyle='--', label='Média')  
  plt.axvline(ci[0], color='blue', linestyle=':', label='CI 95%')  
  plt.axvline(ci[1], color='blue', linestyle=':')  
  plt.legend()  
  plt.show()  

  # “Imprima valores do CI.”  
  print(f"Intervalo de Confiança 95%: [{ci[0]:.0f}, {ci[1]:.0f}]")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo           | Expressão                | Saída                  | O que faz?                           |
  |:---------------:|:-------------------------|:-----------------------|:--------------------------------------|
  | 1               | `stats.t.interval(...)`  | Tupla (lower, upper)   | Calcula CI para média               |
  | 2               | `histplot + axvline`     | Gráfico com linhas     | Visualiza distribuição e CI         |
  | 3               | –                        | imprime                | Exibe intervalo numérico            |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como desenhar uma fita em torno da média que mostra onde “esperamos” encontrar a curva da população 95% das vezes.

* **Cenário de Mercado:**  
  - Em **RH**, calcular CI de salário médio informa gestores sobre variação esperada antes de ajustes orçamentários.

* **Boas Práticas:**  
  - **Afirmação:** “Sempre confira normalidade antes do CI t.”  
    - **Porquê:** Teste de t assume distribuição aproximadamente normal.  
    - **Analogia:** É como verificar se a pista está plana antes de medir velocidade média.


#### **Nível Avançado: Teste de Hipótese (t-teste)**


In [None]:
import numpy as np
from scipy import stats

# Duas amostras de conversão (%)
campanhaA = np.random.binomial(1, 0.12, 200)
campanhaB = np.random.binomial(1, 0.15, 200)

# t-teste para proporções (uso de stats.ttest_ind)
tstat, pval = stats.ttest_ind(campanhaA, campanhaB)

print(f"t-statistic: {tstat:.2f}, p-valor: {pval:.3f}")


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe numpy e scipy.stats.”  
  import numpy as np  
  from scipy import stats  

  # “Simule conversões binárias em duas campanhas.”  
  campanhaA = np.random.binomial(1,0.12,200)  
  campanhaB = np.random.binomial(1,0.15,200)  

  # “Faça t-teste independente.”  
  tstat, pval = stats.ttest_ind(campanhaA, campanhaB)  

  # “Mostre estatística t e p-valor.”  
  print(f"t-statistic: {tstat:.2f}, p-valor: {pval:.3f}")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo     | Expressão              | Saída              | O que faz?                      |
  |:---------:|:-----------------------|:-------------------|:--------------------------------|
  | 1         | `ttest_ind(...)`       | t-stat, pval       | Compara médias de duas amostras |
  | 2         | –                      | imprime            | Resultado do teste              |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como comparar duas turmas de alunos: testa se a diferença de notas médias é “grande o suficiente” para não ser por acaso.

* **Cenário de Mercado:**  
  - Em **marketing**, testar se mudança de layout aumenta taxa de cliques de forma estatisticamente significativa.

* **Boas Práticas:**  
  - **Afirmação:** “Escolha teste adequado ao tipo de dado.”  
    - **Porquê:** t-teste assume variâncias semelhantes e distribuição contínua.  
    - **Analogia:** É como escolher o martelo certo para cada tipo de prego.


#### **Nível DEUS (1/3): Bootstrapping para Estimativa de Erros**


In [None]:
import numpy as np

# Amostra original
data = np.random.normal(100, 20, size=500)
# Bootstrapping
boot_means = [np.mean(np.random.choice(data, size=len(data), replace=True)) for _ in range(1000)]
ci_lower, ci_upper = np.percentile(boot_means, [2.5, 97.5])

print(f"Boot CI 95%: [{ci_lower:.1f}, {ci_upper:.1f}]")


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe numpy.”  
  import numpy as np  

  # “Gere amostra normal.”  
  data = np.random.normal(100,20,500)  

  # “Para 1000 resamples com substituição, calcule médias.”  
  boot_means = [
    np.mean(np.random.choice(data, len(data), replace=True))
    for _ in range(1000)
  ]  

  # “Compute percentis 2.5 e 97.5 para CI.”  
  ci_lower, ci_upper = np.percentile(boot_means, [2.5,97.5])  

  # “Exiba intervalo.”  
  print(f"Boot CI 95%: [{ci_lower:.1f}, {ci_upper:.1f}]")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo    | Expressão              | Saída            | O que faz?                                 |
  |:--------:|:-----------------------|:-----------------|:-------------------------------------------|
  | 1        | `boot_means`           | Lista de médias  | Distribuição empírica das médias           |
  | 2        | `np.percentile(...)`   | Lower, Upper     | Calcula IC baseado em percentis do bootstrap |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como recriar a pesquisa várias vezes em diferentes subconjuntos e ver onde a média cai 95% das vezes.

* **Cenário de Mercado:**  
  - Em **avaliação de modelos**, estimar variabilidade de métricas (ex: AUC) via bootstrap.

* **Boas Práticas:**  
  - **Afirmação:** “Use bootstrap se distribuição desconhecida.”  
    - **Porquê:** Não exige suposições paramétricas fortes.  
    - **Analogia:** É como repetir várias vezes uma votação simulada para ver estabilidade do resultado.


#### **Nível DEUS (2/3): Análise de Poder Estatístico**


In [None]:
import numpy as np
from statsmodels.stats.power import TTestIndPower

# Parâmetros
effect_size = 0.3  # diferença padronizada
alpha = 0.05
power = 0.8

analysis = TTestIndPower()
# Tamanho de amostra necessário
nobs = analysis.solve_power(effect_size=effect_size, alpha=alpha, power=power, alternative='two-sided')
print(f"Tamanho de amostra necessário: {int(np.ceil(nobs))}")


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe numpy e TTestIndPower.”  
  import numpy as np  
  from statsmodels.stats.power import TTestIndPower  

  # “Defina efeito padronizado, alpha e power desejado.”  
  effect_size = 0.3  
  alpha = 0.05  
  power = 0.8  

  # “Crie analisador e compute nobs.”  
  analysis = TTestIndPower()  
  nobs = analysis.solve_power(effect_size=effect_size, alpha=alpha, power=power, alternative='two-sided')  

  # “Arredonde e imprima.”  
  print(f"Tamanho de amostra necessário: {int(np.ceil(nobs))}")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo    | Expressão              | Saída        | O que faz?                               |
  |:--------:|:-----------------------|:-------------|:-----------------------------------------|
  | 1        | `solve_power(...)`     | Float nobs   | Calcula amostra para poder estatístico    |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como planejar quantas pessoas entrevistar para ter 80% de chance de detectar uma diferença real de 0.3 pontos no índice de satisfação.

* **Cenário de Mercado:**  
  - Em **pesquisas de mercado**, definir tamanho de amostra para estudos de preferência de produto.

* **Boas Práticas:**  
  - **Afirmação:** “Considere poder ao planejar experimentos.”  
    - **Porquê:** Baixo poder aumenta risco de falso negativo.  
    - **Analogia:** É como garantir público suficiente para ver efeito em um produto piloto.


#### **Nível DEUS (3/3): Inferência Bayesiana Simples**


In [None]:
import numpy as np
import pymc3 as pm

# Dados de conversão
data = np.random.binomial(1, 0.2, size=100)

with pm.Model():
    p = pm.Beta('p', alpha=1, beta=1)
    obs = pm.Bernoulli('obs', p=p, observed=data)
    trace = pm.sample(500, tune=500, cores=1, chains=1, progressbar=False)

posterior_mean = np.mean(trace['p'])
hdi = pm.stats.hdi(trace['p'], hdi_prob=0.95)
print(f"Posterior mean: {posterior_mean:.2f}, HDI 95%: [{hdi[0]:.2f}, {hdi[1]:.2f}]")


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe numpy e pymc3.”  
  import numpy as np  
  import pymc3 as pm  

  # “Simule dados binomiais de conversão.”  
  data = np.random.binomial(1,0.2,100)  

  # “Defina modelo bayesiano com prior Beta(1,1).”  
  with pm.Model():  
      p = pm.Beta('p', alpha=1, beta=1)  
      obs = pm.Bernoulli('obs', p=p, observed=data)  
      trace = pm.sample(500, tune=500, cores=1, chains=1, progressbar=False)  

  # “Calcule média posterior e HDI 95%.”  
  posterior_mean = np.mean(trace['p'])  
  hdi = pm.stats.hdi(trace['p'], hdi_prob=0.95)  
  print(f"Posterior mean: {posterior_mean:.2f}, HDI 95%: [{hdi[0]:.2f}, {hdi[1]:.2f}]")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo          | Expressão             | Saída                   | O que faz?                            |
  |:--------------:|:----------------------|:------------------------|:--------------------------------------|
  | 1              | `pm.sample()`         | Trace de p              | Amostra posterior via MCMC            |
  | 2              | `pm.stats.hdi(...)`   | HDI intervalos          | Intervalo de credibilidade bayesiano   |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como começar com uma crença uniforme sobre taxa de conversão e atualizar gradual com evidência, resultando em distribuição de crença final.

* **Cenário de Mercado:**  
  - Em **A/B testing**, inferência bayesiana fornece probabilidades diretas de uma variante ser melhor que outra.

* **Boas Práticas:**  
  - **Afirmação:** “Use Bayes para quantificar incertezas diretamente.”  
    - **Porquê:** Evita interpretações contraditórias de p-valores.  
    - **Analogia:** É como atualizar sua confiança a cada nova informação recebida.


### 3. 🕸️ Profundezas e Conexões

<br>

Estatística descritiva fundamenta **exploração de dados**; inferencial conecta-se a **A/B testing**, **modelagem preditiva** e **ciência de decisão**, integrando pacotes como **scipy**, **statsmodels** e **pymc3**.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Calcule estatísticas descritivas de qualquer coluna numérica em `/mnt/data/spotify_history.csv`.  
2. Estime intervalo de confiança 95% da média de `track_duration_ms` usando t-distribution.  
3. Realize t-teste entre duas playlists simuladas de curtidas.  
4. Aplique bootstrap para estimar CI da diferença de médias.  
5. Modele taxa de conversão de cliques com inferência bayesiana simples e compare com método frequencista.

<br>

#### **❓ Pergunta de Verificação**
Quando preferir inferência bayesiana em vez de testes clássicos de hipótese?

<br>

---
<br>
