# 📊 O DNA dos Dados: Decifrando as Medidas que Contam a História dos Números

## Módulo 1 - Estatística para IA

Fala, pessoal! Pedro Guth aqui! 🚀

Bora começar nossa jornada pela estatística de um jeito que você nunca viu antes? Hoje vamos desvendar o **DNA dos dados** - aquelas medidas que nos contam TUDO sobre um conjunto de números.

Tá, mas o que é isso na prática? Imagina que você tem um monte de notas de alunos numa prova. Como você resume essa bagunça toda em algumas medidas que fazem sentido? É exatamente isso que vamos aprender!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-01_img_01.png)

## 🎯 O Que Vamos Descobrir Hoje?

Neste primeiro módulo do nosso curso "Estatística para IA", vamos mergulhar no básico dos dados:

- **Medidas de Centralidade**: Média, Mediana e Moda (onde os dados "moram")
- **Medidas de Dispersão**: Desvio Padrão e Variância (o quanto os dados "bagunçam")
- **Como essas medidas descrevem completamente um dataset**

E por que isso é importante para IA? Cara, TUDO em machine learning começa aqui! Desde normalização de dados até entender distribuições (que veremos no Módulo 2), tudo parte dessas medidas fundamentais.

**Dica do Pedro**: Pensa nos dados como pessoas numa festa. As medidas de centralidade te dizem onde a galera tá se concentrando, e as de dispersão te dizem o quão espalhada ela está!

In [None]:
# Bora configurar nosso ambiente!
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings

# Configurações para deixar tudo liiindo!
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12
warnings.filterwarnings('ignore')

# Definindo cores padrão (tema Pedro Guth!)
cores = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7']

print("🎉 Ambiente configurado! Bora pro show!")

## 📍 Medidas de Centralidade: Onde os Dados "Moram"

Tá, mas o que diabos são medidas de centralidade? 

Imagina que você quer resumir as idades de todos os funcionários da sua empresa em UM número só. Qual número você escolheria? É aí que entram nossas três amigas:

### 🎯 1. Média Aritmética (μ ou x̄)

A média é como aquele amigo que sempre quer agradar todo mundo. Ela soma tudo e divide pelo número de elementos:

$$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$$

**Onde:**
- $\bar{x}$ é a média da amostra
- $n$ é o número de observações
- $x_i$ são os valores individuais

### 🎯 2. Mediana (Md)

A mediana é aquele cara que fica bem no meio da fila. Ela divide os dados ordenados ao meio:
- Se n é ímpar: mediana = valor do meio
- Se n é par: mediana = média dos dois valores centrais

### 🎯 3. Moda (Mo)

A moda é tipo aquela música que toca direto no rádio - é o valor que mais aparece no dataset!

In [None]:
# Vamos criar um dataset de exemplo: idades dos funcionários de uma startup
np.random.seed(42)  # Para garantir reprodutibilidade

# Criando idades fictícias (com alguns outliers para deixar interessante)
idades = np.array([22, 23, 24, 24, 25, 25, 25, 26, 27, 28, 29, 30, 31, 32, 55])

print("🏢 Idades dos funcionários da startup TechBrasil:")
print(f"Dados: {idades}")
print(f"Número de funcionários: {len(idades)}")

# Calculando as medidas de centralidade
media = np.mean(idades)
mediana = np.median(idades)
moda = stats.mode(idades)[0][0]  # Pegando o primeiro valor da moda

print(f"\n📊 MEDIDAS DE CENTRALIDADE:")
print(f"🎯 Média: {media:.2f} anos")
print(f"🎯 Mediana: {mediana:.2f} anos")
print(f"🎯 Moda: {moda} anos")

# Vamos ver a diferença!
print(f"\n🤔 Observação interessante:")
print(f"A média ({media:.2f}) está bem diferente da mediana ({mediana:.2f})!")
print(f"Isso acontece porque temos um outlier (55 anos) puxando a média para cima.")

In [None]:
# Vamos visualizar essas medidas!
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Histograma com as medidas de centralidade
ax1.hist(idades, bins=10, alpha=0.7, color=cores[0], edgecolor='black')
ax1.axvline(media, color=cores[1], linestyle='--', linewidth=3, label=f'Média: {media:.2f}')
ax1.axvline(mediana, color=cores[2], linestyle='--', linewidth=3, label=f'Mediana: {mediana:.2f}')
ax1.axvline(moda, color=cores[3], linestyle='--', linewidth=3, label=f'Moda: {moda}')
ax1.set_title('📊 Distribuição das Idades\ncom Medidas de Centralidade', fontsize=14, fontweight='bold')
ax1.set_xlabel('Idade (anos)')
ax1.set_ylabel('Frequência')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Box plot para mostrar a mediana
ax2.boxplot(idades, vert=True, patch_artist=True, 
            boxprops=dict(facecolor=cores[0], alpha=0.7),
            medianprops=dict(color='red', linewidth=2))
ax2.set_title('📦 Box Plot\n(A linha vermelha é a mediana!)', fontsize=14, fontweight='bold')
ax2.set_ylabel('Idade (anos)')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n💡 Dica do Pedro: Repara como o box plot mostra que temos um outlier lá em cima (55 anos)!")

## 🌊 Medidas de Dispersão: O Quanto os Dados "Bagunçam"

Agora que sabemos onde os dados "moram" (centralidade), precisamos saber o quão "bagunçados" eles estão (dispersão).

Pensa assim: duas turmas podem ter a mesma média, mas uma pode ter notas bem parecidas (pouca dispersão) e outra com notas muito variadas (muita dispersão).

### 📏 1. Variância (σ² ou s²)

A variância mede o quão longe, em média, os valores estão da média. É como medir a "bagunça" dos dados:

**Variância Populacional:**
$$\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2$$

**Variância Amostral:**
$$s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$$

### 📐 2. Desvio Padrão (σ ou s)

O desvio padrão é simplesmente a raiz quadrada da variância. Por que fazemos isso? Para voltar à unidade original dos dados!

$$\sigma = \sqrt{\sigma^2} \quad \text{ou} \quad s = \sqrt{s^2}$$

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-01_img_02.png)

In [None]:
# Calculando as medidas de dispersão para nossas idades
variancia = np.var(idades, ddof=1)  # ddof=1 para variância amostral
desvio_padrao = np.std(idades, ddof=1)  # ddof=1 para desvio padrão amostral

print("📏 MEDIDAS DE DISPERSÃO:")
print(f"🌊 Variância: {variancia:.2f} anos²")
print(f"📐 Desvio Padrão: {desvio_padrao:.2f} anos")

# Vamos calcular "na mão" para entender melhor
print("\n🔍 CALCULANDO NA MÃO (para entender a matemática):")
print(f"Média: {media:.2f}")
print("\nDesvios de cada valor em relação à média:")

desvios = idades - media
desvios_quadrados = desvios ** 2

for i, (idade, desvio, desvio_quad) in enumerate(zip(idades, desvios, desvios_quadrados)):
    print(f"Funcionário {i+1}: {idade} - {media:.2f} = {desvio:.2f} → ({desvio:.2f})² = {desvio_quad:.2f}")

soma_desvios_quad = np.sum(desvios_quadrados)
variancia_manual = soma_desvios_quad / (len(idades) - 1)
desvio_padrao_manual = np.sqrt(variancia_manual)

print(f"\nSoma dos desvios quadrados: {soma_desvios_quad:.2f}")
print(f"Variância (soma ÷ (n-1)): {variancia_manual:.2f}")
print(f"Desvio Padrão (√variância): {desvio_padrao_manual:.2f}")

print("\n✅ Conferindo: nossos cálculos manuais batem com as funções do NumPy!")

## 🧠 Por Que Usamos (n-1) na Variância Amostral?

Essa é uma pergunta que TODO mundo faz! Por que dividimos por (n-1) e não por n?

A resposta tem a ver com o **Grau de Liberdade**. Quando calculamos a variância amostral, já "gastamos" um grau de liberdade para calcular a média. 

Pensa assim: se você tem 3 números e sabe que a média é 5, quantos números você precisa saber para descobrir o terceiro? Apenas 2! O terceiro fica "preso" pela restrição da média.

Isso é chamado de **Correção de Bessel**, e garante que nossa estimativa da variância populacional seja não-enviesada.

**Dica do Pedro**: É como se o último número da amostra fosse um "refém" da média - ele não tem liberdade total!

In [None]:
# Vamos criar um diagrama para visualizar a dispersão

```mermaid
graph TD
    A[Conjunto de Dados] --> B[Calcular Média]
    B --> C[Calcular Desvios]
    C --> D[Elevar ao Quadrado]
    D --> E[Somar Tudo]
    E --> F[Dividir por n-1]
    F --> G[Variância]
    G --> H[Raiz Quadrada]
    H --> I[Desvio Padrão]
```

# Vamos comparar datasets com dispersões diferentes
np.random.seed(42)

# Dataset 1: Pouca dispersão (idades de uma turma homogênea)
turma_homogenea = np.array([24, 24, 25, 25, 25, 26, 26, 26, 27, 27])

# Dataset 2: Muita dispersão (idades variadas)
turma_heterogenea = np.array([18, 22, 25, 28, 32, 35, 40, 45, 50, 55])

# Calculando estatísticas
stats_homogenea = {
    'média': np.mean(turma_homogenea),
    'desvio': np.std(turma_homogenea, ddof=1)
}

stats_heterogenea = {
    'média': np.mean(turma_heterogenea),
    'desvio': np.std(turma_heterogenea, ddof=1)
}

print("📚 COMPARANDO DISPERSÕES:")
print(f"\nTurma Homogênea: {turma_homogenea}")
print(f"Média: {stats_homogenea['média']:.2f}, Desvio Padrão: {stats_homogenea['desvio']:.2f}")

print(f"\nTurma Heterogênea: {turma_heterogenea}")
print(f"Média: {stats_heterogenea['média']:.2f}, Desvio Padrão: {stats_heterogenea['desvio']:.2f}")

print(f"\n🎯 Médias similares ({stats_homogenea['média']:.1f} vs {stats_heterogenea['média']:.1f})")
print(f"📊 Mas dispersões MUITO diferentes ({stats_homogenea['desvio']:.1f} vs {stats_heterogenea['desvio']:.1f})!")

In [None]:
# Visualizando a diferença entre dispersões
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 12))

# Histogramas
ax1.hist(turma_homogenea, bins=8, alpha=0.7, color=cores[0], edgecolor='black')
ax1.axvline(stats_homogenea['média'], color='red', linestyle='--', linewidth=3, label=f'Média: {stats_homogenea["média"]:.1f}')
ax1.set_title('📊 Turma Homogênea\n(Baixa Dispersão)', fontsize=14, fontweight='bold')
ax1.set_xlabel('Idade')
ax1.set_ylabel('Frequência')
ax1.legend()
ax1.grid(True, alpha=0.3)

ax2.hist(turma_heterogenea, bins=8, alpha=0.7, color=cores[1], edgecolor='black')
ax2.axvline(stats_heterogenea['média'], color='red', linestyle='--', linewidth=3, label=f'Média: {stats_heterogenea["média"]:.1f}')
ax2.set_title('📊 Turma Heterogênea\n(Alta Dispersão)', fontsize=14, fontweight='bold')
ax2.set_xlabel('Idade')
ax2.set_ylabel('Frequência')
ax2.legend()
ax2.grid(True, alpha=0.3)

# Scatter plots para mostrar a dispersão
y_homogenea = np.ones(len(turma_homogenea))
y_heterogenea = np.ones(len(turma_heterogenea))

ax3.scatter(turma_homogenea, y_homogenea, s=100, color=cores[0], alpha=0.7)
ax3.axvline(stats_homogenea['média'], color='red', linestyle='--', linewidth=2)
ax3.axvspan(stats_homogenea['média'] - stats_homogenea['desvio'], 
           stats_homogenea['média'] + stats_homogenea['desvio'], 
           alpha=0.2, color='red', label=f'±1 Desvio Padrão')
ax3.set_title('🎯 Dispersão dos Pontos - Homogênea', fontsize=14, fontweight='bold')
ax3.set_xlabel('Idade')
ax3.set_ylim(0.5, 1.5)
ax3.set_yticks([])
ax3.legend()
ax3.grid(True, alpha=0.3)

ax4.scatter(turma_heterogenea, y_heterogenea, s=100, color=cores[1], alpha=0.7)
ax4.axvline(stats_heterogenea['média'], color='red', linestyle='--', linewidth=2)
ax4.axvspan(stats_heterogenea['média'] - stats_heterogenea['desvio'], 
           stats_heterogenea['média'] + stats_heterogenea['desvio'], 
           alpha=0.2, color='red', label=f'±1 Desvio Padrão')
ax4.set_title('🎯 Dispersão dos Pontos - Heterogênea', fontsize=14, fontweight='bold')
ax4.set_xlabel('Idade')
ax4.set_ylim(0.5, 1.5)
ax4.set_yticks([])
ax4.legend()
ax4.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n💡 Dica do Pedro: Viu como a faixa vermelha (±1 desvio padrão) é muito maior na turma heterogênea? Isso mostra visualmente a maior dispersão!")

## 🎨 Como Essas Medidas Descrevem Completamente um Dataset?

Agora vem a parte liiinda! Essas cinco medidas (média, mediana, moda, desvio padrão e variância) são como as "impressões digitais" dos seus dados.

### 🔍 O Poder Combinado das Medidas

**Centralidade + Dispersão = Descrição Completa**

- **Se média ≈ mediana**: distribuição simétrica
- **Se média > mediana**: distribuição assimétrica à direita (outliers grandes)
- **Se média < mediana**: distribuição assimétrica à esquerda (outliers pequenos)

- **Desvio padrão baixo**: dados concentrados
- **Desvio padrão alto**: dados espalhados

### 📊 Coeficiente de Variação

Uma medida super útil é o **Coeficiente de Variação (CV)**:

$$CV = \frac{\sigma}{\mu} \times 100\%$$

Ele nos diz o quanto de variação temos em relação à média. É perfeito para comparar dispersões de datasets com escalas diferentes!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-01_img_03.png)

In [None]:
# Vamos analisar diferentes tipos de distribuições
np.random.seed(42)

# 1. Distribuição Simétrica (Normal)
dados_simetricos = np.random.normal(50, 10, 1000)

# 2. Distribuição Assimétrica à Direita (com outliers grandes)
dados_direita = np.concatenate([np.random.normal(30, 8, 900), np.random.normal(80, 5, 100)])

# 3. Distribuição Assimétrica à Esquerda (com outliers pequenos)
dados_esquerda = np.concatenate([np.random.normal(10, 5, 100), np.random.normal(60, 8, 900)])

# Função para calcular todas as estatísticas
def calcular_stats(dados, nome):
    stats = {
        'nome': nome,
        'média': np.mean(dados),
        'mediana': np.median(dados),
        'moda': stats.mode(dados.astype(int))[0][0] if len(dados) > 0 else 0,
        'desvio_padrao': np.std(dados, ddof=1),
        'variancia': np.var(dados, ddof=1),
        'coef_variacao': (np.std(dados, ddof=1) / np.mean(dados)) * 100
    }
    return stats

# Calculando estatísticas para cada distribuição
stats_sim = calcular_stats(dados_simetricos, 'Simétrica')
stats_dir = calcular_stats(dados_direita, 'Assimétrica à Direita')
stats_esq = calcular_stats(dados_esquerda, 'Assimétrica à Esquerda')

# Criando DataFrame para comparação
df_comparacao = pd.DataFrame([stats_sim, stats_dir, stats_esq])
df_comparacao = df_comparacao.round(2)

print("📊 COMPARAÇÃO DE DISTRIBUIÇÕES:")
print(df_comparacao[['nome', 'média', 'mediana', 'desvio_padrao', 'coef_variacao']].to_string(index=False))

print("\n🔍 INTERPRETAÇÃO:")
for stats in [stats_sim, stats_dir, stats_esq]:
    diff_media_mediana = abs(stats['média'] - stats['mediana'])
    if diff_media_mediana < 1:
        simetria = "simétrica ✅"
    elif stats['média'] > stats['mediana']:
        simetria = "assimétrica à direita (outliers grandes) ➡️"
    else:
        simetria = "assimétrica à esquerda (outliers pequenos) ⬅️"
    
    print(f"{stats['nome']}: {simetria}")
    print(f"  CV = {stats['coef_variacao']:.1f}% ({'alta' if stats['coef_variacao'] > 30 else 'baixa'} variabilidade)")

In [None]:
# Visualizando as diferentes distribuições
fig, axes = plt.subplots(2, 3, figsize=(18, 12))

dados_list = [dados_simetricos, dados_direita, dados_esquerda]
stats_list = [stats_sim, stats_dir, stats_esq]
cores_dist = [cores[0], cores[1], cores[2]]

for i, (dados, stats_dict, cor) in enumerate(zip(dados_list, stats_list, cores_dist)):
    # Histograma
    axes[0, i].hist(dados, bins=50, alpha=0.7, color=cor, edgecolor='black', density=True)
    axes[0, i].axvline(stats_dict['média'], color='red', linestyle='--', linewidth=3, label=f'Média: {stats_dict["média"]:.1f}')
    axes[0, i].axvline(stats_dict['mediana'], color='blue', linestyle='--', linewidth=3, label=f'Mediana: {stats_dict["mediana"]:.1f}')
    axes[0, i].set_title(f'📊 {stats_dict["nome"]}\nCV: {stats_dict["coef_variacao"]:.1f}%', fontsize=12, fontweight='bold')
    axes[0, i].legend()
    axes[0, i].grid(True, alpha=0.3)
    
    # Box plot
    axes[1, i].boxplot(dados, vert=True, patch_artist=True,
                      boxprops=dict(facecolor=cor, alpha=0.7),
                      medianprops=dict(color='blue', linewidth=2))
    axes[1, i].set_title(f'📦 Box Plot - {stats_dict["nome"]}', fontsize=12, fontweight='bold')
    axes[1, i].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n💡 Dica do Pedro: Repara como média e mediana se comportam diferente em cada tipo de distribuição!")
print("Na simétrica elas são quase iguais, mas nas assimétricas a média 'puxa' para o lado dos outliers!")

## 🔗 Conexão com Machine Learning e IA

Agora vem a parte que conecta tudo com IA! Essas medidas não são só "numerozinhos bonitinhos" - elas são FUNDAMENTAIS para machine learning:

### 🎯 Pré-processamento de Dados
- **Normalização**: Usa média e desvio padrão (Z-score normalization)
- **Detecção de Outliers**: Valores fora de ±2 ou ±3 desvios padrão
- **Feature Engineering**: Criar novas features baseadas em estatísticas

### 🧠 Algoritmos que Dependem Dessas Medidas
- **Naive Bayes**: Usa média e variância das features
- **K-Means**: Calcula centróides (médias) dos clusters
- **PCA**: Precisa de dados centralizados (média = 0)

### 📈 Preparando para os Próximos Módulos
- **Módulo 2 (Distribuições)**: Vamos ver como média e desvio padrão definem a distribuição Normal
- **Módulo 4 (Regressão Linear)**: A linha de regressão passa pela média de X e Y
- **Módulo 7 (Amostragem)**: O Teorema do Limite Central usa essas medidas

**Dica do Pedro**: Essas medidas são tipo os tijolos de uma casa - sem elas, não dá para construir nada sólido em IA!

In [None]:
# Exemplo prático: Normalizando dados para ML
# Vamos simular dados de diferentes escalas (idade e salário)

np.random.seed(42)
n_pessoas = 100

# Gerando dados sintéticos
idades = np.random.normal(35, 8, n_pessoas)
salarios = np.random.normal(5000, 1500, n_pessoas)  # Em reais

# Criando DataFrame
df_pessoas = pd.DataFrame({
    'idade': idades,
    'salario': salarios
})

print("👥 DADOS ORIGINAIS:")
print(f"Idades - Média: {df_pessoas['idade'].mean():.2f}, Desvio: {df_pessoas['idade'].std():.2f}")
print(f"Salários - Média: {df_pessoas['salario'].mean():.2f}, Desvio: {df_pessoas['salario'].std():.2f}")

# Normalizando usando Z-score (padronização)
df_normalizado = df_pessoas.copy()
df_normalizado['idade_norm'] = (df_pessoas['idade'] - df_pessoas['idade'].mean()) / df_pessoas['idade'].std()
df_normalizado['salario_norm'] = (df_pessoas['salario'] - df_pessoas['salario'].mean()) / df_pessoas['salario'].std()

print("\n🔄 DADOS NORMALIZADOS (Z-score):")
print(f"Idades Norm - Média: {df_normalizado['idade_norm'].mean():.6f}, Desvio: {df_normalizado['idade_norm'].std():.6f}")
print(f"Salários Norm - Média: {df_normalizado['salario_norm'].mean():.6f}, Desvio: {df_normalizado['salario_norm'].std():.6f}")

print("\n✨ Liiindo! Após a normalização:")
print("- Média = 0 (aproximadamente)")
print("- Desvio Padrão = 1")
print("- Agora idade e salário estão na mesma escala!")

# Exemplo de detecção de outliers
def detectar_outliers(dados, nome_coluna):
    media = dados.mean()
    desvio = dados.std()
    limite_inferior = media - 2 * desvio
    limite_superior = media + 2 * desvio
    
    outliers = dados[(dados < limite_inferior) | (dados > limite_superior)]
    print(f"\n🚨 Outliers em {nome_coluna} (±2 desvios padrão):")
    print(f"Limites: [{limite_inferior:.2f}, {limite_superior:.2f}]")
    print(f"Encontrados {len(outliers)} outliers: {outliers.values[:5]}" + ("..." if len(outliers) > 5 else ""))

detectar_outliers(df_pessoas['idade'], 'Idade')
detectar_outliers(df_pessoas['salario'], 'Salário')

In [None]:
# Visualizando o efeito da normalização
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Dados originais
axes[0, 0].scatter(df_pessoas['idade'], df_pessoas['salario'], alpha=0.6, color=cores[0])
axes[0, 0].set_title('📊 Dados Originais\n(Escalas Diferentes)', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Idade (anos)')
axes[0, 0].set_ylabel('Salário (R$)')
axes[0, 0].grid(True, alpha=0.3)

# Dados normalizados
axes[0, 1].scatter(df_normalizado['idade_norm'], df_normalizado['salario_norm'], alpha=0.6, color=cores[1])
axes[0, 1].set_title('🎯 Dados Normalizados\n(Mesma Escala)', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Idade (normalizada)')
axes[0, 1].set_ylabel('Salário (normalizado)')
axes[0, 1].axhline(y=0, color='red', linestyle='--', alpha=0.5)
axes[0, 1].axvline(x=0, color='red', linestyle='--', alpha=0.5)
axes[0, 1].grid(True, alpha=0.3)

# Histograma das idades
axes[1, 0].hist(df_pessoas['idade'], bins=20, alpha=0.7, color=cores[2], edgecolor='black', label='Original')
axes[1, 0].hist(df_normalizado['idade_norm'], bins=20, alpha=0.7, color=cores[3], edgecolor='black', label='Normalizada')
axes[1, 0].set_title('📈 Distribuição das Idades', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Valor')
axes[1, 0].set_ylabel('Frequência')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Histograma dos salários
axes[1, 1].hist(df_pessoas['salario'], bins=20, alpha=0.7, color=cores[2], edgecolor='black', label='Original')
# Multiplicando por uma constante para visualizar melhor
salario_norm_scaled = df_normalizado['salario_norm'] * 1000 + 5000  # Só para visualização
axes[1, 1].hist(salario_norm_scaled, bins=20, alpha=0.7, color=cores[3], edgecolor='black', label='Normalizada (escalonada para visualização)')
axes[1, 1].set_title('💰 Distribuição dos Salários', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Valor (R$)')
axes[1, 1].set_ylabel('Frequência')
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n💡 Dica do Pedro: Viu como após a normalização os dados ficam centrados em zero?")
print("Isso é ESSENCIAL para algoritmos como k-means, PCA e redes neurais!")

## 🏋️ Exercício Prático 1: Analisando Dados Reais

Bora colocar a mão na massa! Vou te dar um dataset de vendas de uma loja fictícia e você vai analisar usando tudo que aprendemos.

**Sua missão, caso aceite:**
1. Calcular todas as medidas de centralidade e dispersão
2. Identificar o tipo de distribuição
3. Detectar outliers
4. Normalizar os dados
5. Interpretar os resultados

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-01_img_04.png)

In [None]:
# Criando dataset de vendas fictício
np.random.seed(123)

# Simulando vendas mensais de uma loja (em milhares de reais)
# Maioria das vendas normais, mas alguns meses excepcionais (Black Friday, Natal)
vendas_normais = np.random.normal(50, 12, 10)  # 10 meses normais
vendas_excepcionais = np.random.normal(120, 20, 2)  # 2 meses excepcionais

vendas_mensais = np.concatenate([vendas_normais, vendas_excepcionais])
meses = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez']

# Criando DataFrame
df_vendas = pd.DataFrame({
    'mes': meses,
    'vendas': vendas_mensais
})

print("🛒 DATASET: VENDAS MENSAIS DA LOJA TECHBRASIL")
print(df_vendas.round(2))

print("\n" + "="*50)
print("🎯 SEU DESAFIO:")
print("1. Calcule média, mediana, moda, desvio padrão e variância")
print("2. Identifique se a distribuição é simétrica ou assimétrica")
print("3. Encontre outliers usando a regra dos ±2 desvios padrão")
print("4. Calcule o coeficiente de variação")
print("5. Normalize os dados usando Z-score")
print("="*50)

# Dicas para o exercício
print("\n💡 DICAS DO PEDRO:")
print("- Use np.mean(), np.median(), np.std(), np.var()")
print("- Para moda: stats.mode() ou df['coluna'].mode()")
print("- Outliers: valores fora do intervalo [média ± 2*desvio]")
print("- CV = (desvio_padrão / média) * 100")
print("- Z-score = (valor - média) / desvio_padrão")

# Espaço para sua solução
print("\n🚀 COMECE AQUI SUA ANÁLISE:")
print("(Use as células abaixo para resolver o exercício)")

In [None]:
# SOLUÇÃO DO EXERCÍCIO 1
# (Tente resolver antes de olhar a solução!)

vendas = df_vendas['vendas']

# 1. Calculando todas as medidas
media_vendas = np.mean(vendas)
mediana_vendas = np.median(vendas)
moda_vendas = vendas.mode()[0] if not vendas.mode().empty else "Sem moda clara"
desvio_vendas = np.std(vendas, ddof=1)
variancia_vendas = np.var(vendas, ddof=1)
cv_vendas = (desvio_vendas / media_vendas) * 100

print("📊 RESULTADOS DA ANÁLISE:")
print(f"🎯 Média: R$ {media_vendas:.2f}k")
print(f"🎯 Mediana: R$ {mediana_vendas:.2f}k")
print(f"🎯 Moda: {moda_vendas}")
print(f"📏 Desvio Padrão: R$ {desvio_vendas:.2f}k")
print(f"📏 Variância: {variancia_vendas:.2f}")
print(f"📏 Coeficiente de Variação: {cv_vendas:.2f}%")

# 2. Analisando simetria
diff_media_mediana = abs(media_vendas - mediana_vendas)
if diff_media_mediana < 2:
    tipo_dist = "aproximadamente simétrica"
elif media_vendas > mediana_vendas:
    tipo_dist = "assimétrica à direita (outliers altos)"
else:
    tipo_dist = "assimétrica à esquerda (outliers baixos)"

print(f"\n🔍 TIPO DE DISTRIBUIÇÃO: {tipo_dist}")
print(f"Diferença média-mediana: {diff_media_mediana:.2f}")

# 3. Detectando outliers
limite_inf = media_vendas - 2 * desvio_vendas
limite_sup = media_vendas + 2 * desvio_vendas

outliers_mask = (vendas < limite_inf) | (vendas > limite_sup)
outliers = vendas[outliers_mask]
meses_outliers = df_vendas['mes'][outliers_mask]

print(f"\n🚨 DETECÇÃO DE OUTLIERS:")
print(f"Limites: [{limite_inf:.2f}, {limite_sup:.2f}]")
print(f"Outliers encontrados: {len(outliers)}")
if len(outliers) > 0:
    for mes, valor in zip(meses_outliers, outliers):
        print(f"  - {mes}: R$ {valor:.2f}k")

# 4. Normalizando dados
vendas_normalizadas = (vendas - media_vendas) / desvio_vendas

print(f"\n🔄 DADOS NORMALIZADOS (Z-score):")
print(f"Nova média: {np.mean(vendas_normalizadas):.6f}")
print(f"Novo desvio padrão: {np.std(vendas_normalizadas, ddof=1):.6f}")

# 5. Interpretação
print(f"\n🧠 INTERPRETAÇÃO:")
print(f"- A loja tem vendas médias de R$ {media_vendas:.0f}k por mês")
print(f"- A variabilidade é {'alta' if cv_vendas > 30 else 'moderada' if cv_vendas > 15 else 'baixa'} (CV = {cv_vendas:.1f}%)")
print(f"- Existem meses excepcionais que são outliers (provavelmente datas comemorativas)")
print(f"- A distribuição é {tipo_dist}")

## 🎪 Exercício Prático 2: Comparando Turmas

Agora vamos fazer uma comparação mais complexa! Você é o diretor de uma escola e precisa comparar o desempenho de três turmas diferentes.

**O desafio:**
- Turma A: Foco em exatas
- Turma B: Foco em humanas  
- Turma C: Turma mista

Você precisa analisar as notas de matemática e decidir qual turma teve melhor desempenho geral!

In [None]:
# Criando dados das três turmas
np.random.seed(456)

# Turma A: Foco em exatas (notas mais altas, menos dispersão)
notas_a = np.random.normal(8.5, 1.2, 25)
notas_a = np.clip(notas_a, 0, 10)  # Limitando entre 0 e 10

# Turma B: Foco em humanas (notas mais baixas em matemática, mais dispersão)
notas_b = np.random.normal(6.8, 2.0, 25)
notas_b = np.clip(notas_b, 0, 10)

# Turma C: Turma mista (notas intermediárias, dispersão média)
notas_c = np.random.normal(7.5, 1.5, 25)
notas_c = np.clip(notas_c, 0, 10)

# Criando DataFrame
df_turmas = pd.DataFrame({
    'Turma_A': notas_a,
    'Turma_B': notas_b,
    'Turma_C': notas_c
})

print("🎓 NOTAS DE MATEMÁTICA DAS TRÊS TURMAS")
print("(Primeiras 10 notas de cada turma)")
print(df_turmas.head(10).round(2))

print("\n" + "="*60)
print("🎯 SEU DESAFIO COMO DIRETOR:")
print("1. Calcule as estatísticas descritivas de cada turma")
print("2. Compare as médias e medianas")
print("3. Analise qual turma é mais homogênea (menor dispersão)")
print("4. Identifique outliers em cada turma")
print("5. Faça uma recomendação baseada na análise")
print("="*60)

print("\n💭 PERGUNTAS PARA REFLEXÃO:")
print("- Qual turma teve melhor desempenho médio?")
print("- Qual turma é mais consistente?")
print("- Em qual turma você investiria mais recursos?")
print("- Como essas análises ajudam na tomada de decisão educacional?")

# Espaço para análise
print("\n🚀 FAÇA SUA ANÁLISE AQUI:")

In [None]:
# SOLUÇÃO DO EXERCÍCIO 2 - ANÁLISE COMPARATIVA

# Calculando estatísticas para cada turma
def analisar_turma(notas, nome_turma):
    return {
        'turma': nome_turma,
        'média': np.mean(notas),
        'mediana': np.median(notas),
        'desvio_padrao': np.std(notas, ddof=1),
        'variancia': np.var(notas, ddof=1),
        'cv': (np.std(notas, ddof=1) / np.mean(notas)) * 100,
        'min': np.min(notas),
        'max': np.max(notas),
        'amplitude': np.max(notas) - np.min(notas)
    }

# Analisando cada turma
stats_a = analisar_turma(df_turmas['Turma_A'], 'Turma A (Exatas)')
stats_b = analisar_turma(df_turmas['Turma_B'], 'Turma B (Humanas)')
stats_c = analisar_turma(df_turmas['Turma_C'], 'Turma C (Mista)')

# Criando tabela comparativa
df_comparativo = pd.DataFrame([stats_a, stats_b, stats_c])
df_comparativo = df_comparativo.round(2)

print("📊 RELATÓRIO COMPARATIVO DAS TURMAS:")
print(df_comparativo[['turma', 'média', 'mediana', 'desvio_padrao', 'cv', 'amplitude']].to_string(index=False))

# Análise detalhada
print("\n🔍 ANÁLISE DETALHADA:")

# Melhor desempenho médio
melhor_media = df_comparativo.loc[df_comparativo['média'].idxmax(), 'turma']
print(f"🏆 Melhor média: {melhor_media} ({df_comparativo['média'].max():.2f})")

# Mais homogênea (menor CV)
mais_homogenea = df_comparativo.loc[df_comparativo['cv'].idxmin(), 'turma']
print(f"📏 Mais homogênea: {mais_homogenea} (CV = {df_comparativo['cv'].min():.2f}%)")

# Detectando outliers em cada turma
print("\n🚨 DETECÇÃO DE OUTLIERS:")
for coluna in ['Turma_A', 'Turma_B', 'Turma_C']:
    notas = df_turmas[coluna]
    media = np.mean(notas)
    desvio = np.std(notas, ddof=1)
    outliers = notas[(notas < media - 2*desvio) | (notas > media + 2*desvio)]
    print(f"{coluna}: {len(outliers)} outliers")

# Recomendações
print("\n💼 RECOMENDAÇÕES DO DIRETOR:")
print(f"1. A {melhor_media} teve o melhor desempenho médio")
print(f"2. A {mais_homogenea} é mais consistente (menor variabilidade)")
print("3. Turma B (Humanas) precisa de reforço em matemática")
print("4. Turma A mostra excelência e consistência em exatas")
print("5. Considerar nivelamento para reduzir disparidades")

print("\n🎯 CONCLUSÃO:")
if stats_a['média'] > stats_b['média'] and stats_a['média'] > stats_c['média']:
    print("A estratégia de foco em exatas (Turma A) mostrou melhores resultados em matemática.")
print("Porém, é importante considerar que cada turma tem seu perfil e objetivos específicos.")

In [None]:
# Visualizando a comparação das turmas
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Box plots comparativos
df_turmas.boxplot(ax=axes[0, 0], patch_artist=True, 
                  boxprops=dict(facecolor=cores[0], alpha=0.7),
                  medianprops=dict(color='red', linewidth=2))
axes[0, 0].set_title('📦 Comparação das Distribuições\n(Box Plots)', fontsize=14, fontweight='bold')
axes[0, 0].set_ylabel('Notas')
axes[0, 0].grid(True, alpha=0.3)

# 2. Histogramas sobrepostos
axes[0, 1].hist(df_turmas['Turma_A'], bins=15, alpha=0.7, label='Turma A (Exatas)', color=cores[0])
axes[0, 1].hist(df_turmas['Turma_B'], bins=15, alpha=0.7, label='Turma B (Humanas)', color=cores[1])
axes[0, 1].hist(df_turmas['Turma_C'], bins=15, alpha=0.7, label='Turma C (Mista)', color=cores[2])
axes[0, 1].set_title('📊 Distribuição das Notas\n(Histogramas)', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Notas')
axes[0, 1].set_ylabel('Frequência')
axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

# 3. Gráfico de barras das médias
turmas = ['Turma A\n(Exatas)', 'Turma B\n(Humanas)', 'Turma C\n(Mista)']
medias = [stats_a['média'], stats_b['média'], stats_c['média']]
desvios = [stats_a['desvio_padrao'], stats_b['desvio_padrao'], stats_c['desvio_padrao']]

bars = axes[1, 0].bar(turmas, medias, yerr=desvios, capsize=5, 
                      color=cores[:3], alpha=0.7, edgecolor='black')
axes[1, 0].set_title('📈 Médias com Desvios Padrão\n(Barras de Erro)', fontsize=14, fontweight='bold')
axes[1, 0].set_ylabel('Nota Média')
axes[1, 0].set_ylim(0, 10)
axes[1, 0].grid(True, alpha=0.3)

# Adicionando valores nas barras
for bar, media in zip(bars, medias):
    axes[1, 0].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.1,
                    f'{media:.2f}', ha='center', va='bottom', fontweight='bold')

# 4. Gráfico de dispersão (CV)
cvs = [stats_a['cv'], stats_b['cv'], stats_c['cv']]
bars_cv = axes[1, 1].bar(turmas, cvs, color=cores[:3], alpha=0.7, edgecolor='black')
axes[1, 1].set_title('📏 Coeficiente de Variação\n(Homogeneidade)', fontsize=14, fontweight='bold')
axes[1, 1].set_ylabel('CV (%)')
axes[1, 1].grid(True, alpha=0.3)

# Adicionando valores nas barras de CV
for bar, cv in zip(bars_cv, cvs):
    axes[1, 1].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5,
                    f'{cv:.1f}%', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

print("\n💡 Dica do Pedro: Repara como os gráficos contam a história completa!")
print("- Box plots mostram outliers e quartis")
print("- Histogramas mostram a forma da distribuição")
print("- Barras de erro mostram a variabilidade")
print("- CV mostra qual turma é mais homogênea")

## 🌟 Resumo: O Que Aprendemos Hoje?

Liiindo! Chegamos ao final do nosso primeiro módulo! Vamos recapitular as **pérolas** que descobrimos:

### 🎯 Medidas de Centralidade (Onde os dados "moram")
- **Média (μ, x̄)**: O centro de massa dos dados
- **Mediana**: O valor do meio, resistente a outliers
- **Moda**: O valor mais frequente

### 📏 Medidas de Dispersão (Quanto os dados "bagunçam")
- **Variância (σ², s²)**: Média dos desvios quadrados
- **Desvio Padrão (σ, s)**: Raiz da variância, na unidade original
- **Coeficiente de Variação**: Dispersão relativa à média

### 🧠 Conexões com IA
- **Normalização Z-score**: $(x - μ) / σ$
- **Detecção de outliers**: ±2σ ou ±3σ
- **Preparação para distribuições** (próximo módulo!)



## 🚀 Preparando para o Próximo Módulo

No **Módulo 2 - Distribuições de Probabilidade: O Mapa dos Dados**, vamos descobrir como essas medidas que aprendemos hoje se conectam com as famosas distribuições:

### 🎯 O que vem por aí:
- **Distribuição Normal**: Onde μ e σ são os protagonistas!
- **Distribuição Binomial**: Para eventos sim/não
- **Distribuição Poisson**: Para eventos raros
- **Como identificar qual distribuição seus dados seguem**

### 🔗 Conexões que faremos:
- A Distribuição Normal é completamente definida pela **média** e **desvio padrão**
- A **Regra 68-95-99.7** usa nossos conceitos de hoje
- **Teste de normalidade** usando as medidas de centralidade

**Dica do Pedro**: Guarda bem esses conceitos de hoje, porque eles são a base de TUDO que vem pela frente! Média e desvio padrão são como o DNA das distribuições!

In [None]:
# Preview do próximo módulo - A Distribuição Normal
print("🔮 PREVIEW DO MÓDULO 2: DISTRIBUIÇÃO NORMAL")
print("\nVamos ver como média e desvio padrão definem completamente a curva normal!")

# Criando três distribuições normais com diferentes parâmetros
x = np.linspace(-10, 15, 1000)

# Distribuição 1: μ=0, σ=1 (padrão)
y1 = (1/(np.sqrt(2*np.pi)*1)) * np.exp(-0.5*((x-0)/1)**2)

# Distribuição 2: μ=5, σ=1 (mesma forma, centro diferente)
y2 = (1/(np.sqrt(2*np.pi)*1)) * np.exp(-0.5*((x-5)/1)**2)

# Distribuição 3: μ=0, σ=2 (mesmo centro, mais espalhada)
y3 = (1/(np.sqrt(2*np.pi)*2)) * np.exp(-0.5*((x-0)/2)**2)

plt.figure(figsize=(12, 8))
plt.plot(x, y1, linewidth=3, label='μ=0, σ=1 (Padrão)', color=cores[0])
plt.plot(x, y2, linewidth=3, label='μ=5, σ=1 (Centro diferente)', color=cores[1])
plt.plot(x, y3, linewidth=3, label='μ=0, σ=2 (Mais espalhada)', color=cores[2])

# Marcando as médias
plt.axvline(0, color=cores[0], linestyle='--', alpha=0.7)
plt.axvline(5, color=cores[1], linestyle='--', alpha=0.7)
plt.axvline(0, color=cores[2], linestyle='--', alpha=0.7)

plt.title('🔮 Preview: Como μ e σ Definem a Distribuição Normal\n(Módulo 2)', 
          fontsize=16, fontweight='bold')
plt.xlabel('Valores')
plt.ylabel('Densidade de Probabilidade')
plt.legend(fontsize=12)
plt.grid(True, alpha=0.3)
plt.show()

print("\n✨ SPOILER: No próximo módulo você vai ver que:")
print("- A média (μ) define onde a curva se centraliza")
print("- O desvio padrão (σ) define o quão 'gorda' ou 'magra' ela é")
print("- ~68% dos dados ficam dentro de ±1σ da média")
print("- ~95% dos dados ficam dentro de ±2σ da média")
print("- ~99.7% dos dados ficam dentro de ±3σ da média")

print("\n🎉 Até o próximo módulo! Bora que ainda tem muita estatística pela frente!")

## 🎉 Parabéns! Você Dominou o Módulo 1!

**Dica Final do Pedro**: Essas medidas que aprendemos hoje são como os "Vingadores" da estatística - cada uma tem seu superpoder:

- **Média**: O líder que representa todo o grupo
- **Mediana**: O resistente que não se deixa influenciar por outliers
- **Moda**: O popular que todo mundo conhece
- **Desvio Padrão**: O organizador que mede a bagunça
- **Variância**: A força bruta do desvio padrão

Juntos, eles contam a história completa dos seus dados! 🚀

---

**Próximo módulo**: Distribuições de Probabilidade - onde vamos ver como essas medidas ganham vida nas famosas curvas que modelam o mundo real!

**Até lá, pratique com seus próprios dados e lembre-se**: em estatística, como na vida, é sempre melhor ter todas as informações antes de tomar uma decisão! 😉