# 📊 Correlação e Covariância: O Tinder das Variáveis! 💕

## Módulo 5: Análise de Correlação e Covariância - Onde as Variáveis se Encontram

**Por Pedro Nunes Guth**

---

E aí, galera! Tá pronto pra descobrir quando duas variáveis estão "dando match"? 😂

Nos módulos anteriores, a gente já viu:
- Como descrever uma variável sozinha (medidas de centralidade)
- Como as distribuições funcionam
- Como fazer uma variável prever outra (regressão linear)

Mas e se eu te disser que existe uma forma de medir o quanto duas variáveis "conversam" entre si? É isso que vamos ver hoje!

**Bora descobrir quando as variáveis estão flertando! 🔥**

## 🎯 O que vamos aprender hoje?

Imagina que você tá no shopping e percebe que:
- Quando faz calor, vende mais sorvete
- Quando chove, vende mais guarda-chuva
- Quando é fim de mês, vende menos de tudo 😅

Isso é **CORRELAÇÃO** e **COVARIÂNCIA** na prática!

Hoje vamos entender:
1. **Covariância**: Como duas variáveis variam juntas
2. **Correlação**: A versão "normalizada" da covariância
3. **Interpretação**: O que esses números significam na vida real
4. **Implementação**: Como calcular na mão e no Python

**Dica do Pedro**: Correlação ≠ Causalidade! Só porque duas coisas andam juntas, não significa que uma causa a outra! 🧠

In [None]:
# Setup inicial - Importando as bibliotecas que vamos usar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configurando o matplotlib para ficar mais bonito
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

# Seed para reprodutibilidade
np.random.seed(42)

print("🚀 Bibliotecas carregadas! Bora começar!")

## 📈 Entendendo a Covariância: A Base de Tudo

Tá, mas o que é **covariância**?

Imagina duas pessoas dançando. Se elas se movem na mesma direção ao mesmo tempo, elas estão "co-variando" positivamente. Se uma vai pra direita quando a outra vai pra esquerda, estão co-variando negativamente.

### 🧮 A Matemática por Trás

A covariância entre duas variáveis X e Y é calculada assim:

$$Cov(X,Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$$

Onde:
- $x_i$ e $y_i$ são os valores individuais
- $\bar{x}$ e $\bar{y}$ são as médias
- $n$ é o número de observações

**Traduzindo**: Pra cada ponto, a gente vê o quanto X está longe da sua média E o quanto Y está longe da sua média. Depois multiplica esses "desvios" e tira a média de tudo.

### 🎭 Interpretação:
- **Positiva**: Quando X aumenta, Y tende a aumentar
- **Negativa**: Quando X aumenta, Y tende a diminuir  
- **Zero**: X e Y não têm relação linear

**Dica do Pedro**: A covariância não tem limite! Pode ser qualquer valor. Por isso ela é meio difícil de interpretar na prática.

In [None]:
# Vamos criar alguns dados pra entender na prática
# Exemplo: Horas de estudo vs Nota na prova

horas_estudo = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
notas = np.array([3, 4, 5, 6, 7, 7.5, 8, 8.5, 9, 9.5])

print("📚 Dados: Horas de Estudo vs Notas")
print(f"Horas de estudo: {horas_estudo}")
print(f"Notas: {notas}")

# Calculando a média de cada variável
media_horas = np.mean(horas_estudo)
media_notas = np.mean(notas)

print(f"\n📊 Médias:")
print(f"Média de horas: {media_horas}")
print(f"Média de notas: {media_notas}")

In [None]:
# Calculando a covariância na mão (pra entender o processo)
def calcular_covariancia_manual(x, y):
    """
    Calcula a covariância entre duas variáveis na mão
    """
    n = len(x)
    media_x = np.mean(x)
    media_y = np.mean(y)
    
    # Calculando os desvios
    desvios_x = x - media_x
    desvios_y = y - media_y
    
    # Produto dos desvios
    produtos = desvios_x * desvios_y
    
    # Covariância amostral (n-1)
    covariancia = np.sum(produtos) / (n - 1)
    
    return covariancia, desvios_x, desvios_y, produtos

# Calculando
cov_manual, desvios_h, desvios_n, produtos = calcular_covariancia_manual(horas_estudo, notas)

print("🔍 Processo de cálculo da covariância:")
print(f"Desvios das horas: {desvios_h}")
print(f"Desvios das notas: {desvios_n}")
print(f"Produtos dos desvios: {produtos}")
print(f"\n📈 Covariância calculada na mão: {cov_manual:.4f}")

# Comparando com o NumPy
cov_numpy = np.cov(horas_estudo, notas)[0, 1]
print(f"📈 Covariância pelo NumPy: {cov_numpy:.4f}")
print(f"\n✅ Diferença: {abs(cov_manual - cov_numpy):.10f} (quase zero!)")

## 🎯 Correlação: A Covariância "Normalizada"

O problema da covariância é que ela depende da escala dos dados. Se eu medir altura em metros ou centímetros, a covariância vai ser completamente diferente!

É aí que entra a **CORRELAÇÃO** pra salvar o dia! 🦸‍♂️

### 🧮 A Fórmula da Correlação de Pearson

$$r = \frac{Cov(X,Y)}{\sigma_X \cdot \sigma_Y} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}$$

**Traduzindo**: A correlação é a covariância dividida pelo produto dos desvios padrão das duas variáveis.

### 🎭 Interpretação da Correlação:
- **r = 1**: Correlação perfeita positiva (linha reta crescente)
- **r = -1**: Correlação perfeita negativa (linha reta decrescente)
- **r = 0**: Sem correlação linear
- **0.7 ≤ |r| < 1**: Correlação forte
- **0.3 ≤ |r| < 0.7**: Correlação moderada
- **0 < |r| < 0.3**: Correlação fraca

**Dica do Pedro**: A correlação sempre fica entre -1 e 1. É como uma nota! Muito mais fácil de interpretar que a covariância! 📊

In [None]:
# Calculando a correlação na mão
def calcular_correlacao_manual(x, y):
    """
    Calcula a correlação de Pearson na mão
    """
    # Já temos a covariância
    covariancia = np.cov(x, y)[0, 1]
    
    # Calculando os desvios padrão
    desvio_x = np.std(x, ddof=1)  # ddof=1 para desvio amostral
    desvio_y = np.std(y, ddof=1)
    
    # Correlação
    correlacao = covariancia / (desvio_x * desvio_y)
    
    return correlacao, covariancia, desvio_x, desvio_y

# Calculando para nossos dados
corr_manual, cov, std_h, std_n = calcular_correlacao_manual(horas_estudo, notas)

print("🔍 Processo de cálculo da correlação:")
print(f"Covariância: {cov:.4f}")
print(f"Desvio padrão das horas: {std_h:.4f}")
print(f"Desvio padrão das notas: {std_n:.4f}")
print(f"\n📈 Correlação calculada na mão: {corr_manual:.4f}")

# Comparando com métodos prontos
corr_numpy = np.corrcoef(horas_estudo, notas)[0, 1]
corr_scipy = stats.pearsonr(horas_estudo, notas)[0]

print(f"📈 Correlação pelo NumPy: {corr_numpy:.4f}")
print(f"📈 Correlação pelo SciPy: {corr_scipy:.4f}")

# Interpretação
print(f"\n🎯 Interpretação:")
if corr_manual >= 0.7:
    print(f"Correlação FORTE e POSITIVA! As variáveis andam muito juntas! 💪")
elif corr_manual >= 0.3:
    print(f"Correlação MODERADA e POSITIVA! Tem uma relação boa aí! 👍")
else:
    print(f"Correlação FRACA... As variáveis não conversam muito... 😐")

## 📊 Visualizando Correlações: O Poder dos Gráficos

Uma imagem vale mais que mil palavras, né? Vamos ver como diferentes correlações aparecem visualmente!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-05_img_01.png)

In [None]:
# Criando diferentes tipos de correlação para visualizar
np.random.seed(42)
n = 100
x = np.random.randn(n)

# Diferentes tipos de correlação
y_forte_pos = 2 * x + 0.5 * np.random.randn(n)      # Correlação forte positiva
y_forte_neg = -2 * x + 0.5 * np.random.randn(n)     # Correlação forte negativa  
y_moderada = 0.8 * x + 1.5 * np.random.randn(n)     # Correlação moderada
y_sem_corr = np.random.randn(n)                      # Sem correlação

# Calculando as correlações
corr_forte_pos = np.corrcoef(x, y_forte_pos)[0, 1]
corr_forte_neg = np.corrcoef(x, y_forte_neg)[0, 1]
corr_moderada = np.corrcoef(x, y_moderada)[0, 1]
corr_sem = np.corrcoef(x, y_sem_corr)[0, 1]

# Criando o gráfico
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('🎯 Diferentes Tipos de Correlação', fontsize=16, fontweight='bold')

# Forte positiva
axes[0,0].scatter(x, y_forte_pos, alpha=0.6, color='green')
axes[0,0].plot(np.sort(x), np.poly1d(np.polyfit(x, y_forte_pos, 1))(np.sort(x)), 'r--', linewidth=2)
axes[0,0].set_title(f'Correlação Forte Positiva\nr = {corr_forte_pos:.3f}')
axes[0,0].set_xlabel('X')
axes[0,0].set_ylabel('Y')

# Forte negativa
axes[0,1].scatter(x, y_forte_neg, alpha=0.6, color='red')
axes[0,1].plot(np.sort(x), np.poly1d(np.polyfit(x, y_forte_neg, 1))(np.sort(x)), 'r--', linewidth=2)
axes[0,1].set_title(f'Correlação Forte Negativa\nr = {corr_forte_neg:.3f}')
axes[0,1].set_xlabel('X')
axes[0,1].set_ylabel('Y')

# Moderada
axes[1,0].scatter(x, y_moderada, alpha=0.6, color='orange')
axes[1,0].plot(np.sort(x), np.poly1d(np.polyfit(x, y_moderada, 1))(np.sort(x)), 'r--', linewidth=2)
axes[1,0].set_title(f'Correlação Moderada\nr = {corr_moderada:.3f}')
axes[1,0].set_xlabel('X')
axes[1,0].set_ylabel('Y')

# Sem correlação
axes[1,1].scatter(x, y_sem_corr, alpha=0.6, color='gray')
axes[1,1].plot(np.sort(x), np.poly1d(np.polyfit(x, y_sem_corr, 1))(np.sort(x)), 'r--', linewidth=2)
axes[1,1].set_title(f'Sem Correlação\nr = {corr_sem:.3f}')
axes[1,1].set_xlabel('X')
axes[1,1].set_ylabel('Y')

plt.tight_layout()
plt.show()

print("📊 Repara como a linha vermelha (tendência) muda conforme a correlação!")
print("💡 Quanto mais próximo de 1 ou -1, mais os pontos ficam perto da linha!")

## 🔄 Matriz de Correlação: Analisando Múltiplas Variáveis

Na vida real, raramente temos só duas variáveis. Normalmente temos um monte delas! 

É aí que entra a **Matriz de Correlação** - uma tabela que mostra a correlação entre TODAS as combinações de variáveis.

### 🧮 Estrutura da Matriz

Para variáveis X, Y, Z, a matriz fica assim:

$$\begin{pmatrix}
1 & r_{XY} & r_{XZ} \\
r_{YX} & 1 & r_{YZ} \\
r_{ZX} & r_{ZY} & 1
\end{pmatrix}$$

**Características importantes:**
- A diagonal sempre é 1 (correlação de uma variável com ela mesma)
- A matriz é simétrica (r_XY = r_YX)
- Os valores vão de -1 a 1

**Dica do Pedro**: A matriz de correlação é uma das ferramentas mais poderosas pra entender seus dados! Use e abuse! 🔥

In [None]:
# Criando um dataset mais interessante pra analisar
# Vamos simular dados de vendas de uma loja
np.random.seed(42)
n = 200

# Criando variáveis relacionadas
temperatura = np.random.normal(25, 5, n)  # Temperatura média 25°C
vendas_sorvete = 10 + 2 * temperatura + np.random.normal(0, 10, n)  # Positivamente correlacionado
vendas_chocolate_quente = 100 - 1.5 * temperatura + np.random.normal(0, 8, n)  # Negativamente correlacionado
vendas_agua = 5 + 1.5 * temperatura + np.random.normal(0, 5, n)  # Positivamente correlacionado
vendas_aleatorio = np.random.normal(50, 15, n)  # Sem correlação com temperatura

# Criando o DataFrame
df_vendas = pd.DataFrame({
    'Temperatura': temperatura,
    'Vendas_Sorvete': vendas_sorvete,
    'Vendas_Chocolate_Quente': vendas_chocolate_quente,
    'Vendas_Agua': vendas_agua,
    'Vendas_Aleatorio': vendas_aleatorio
})

print("🏪 Dataset de Vendas criado!")
print(f"Shape: {df_vendas.shape}")
print("\n📊 Primeiras 5 linhas:")
print(df_vendas.head())

print("\n📈 Estatísticas básicas:")
print(df_vendas.describe())

In [None]:
# Calculando a matriz de correlação
matriz_corr = df_vendas.corr()

print("🔄 Matriz de Correlação:")
print(matriz_corr.round(3))

# Visualizando com heatmap
plt.figure(figsize=(12, 8))
heatmap = sns.heatmap(matriz_corr, 
                     annot=True,  # Mostra os valores
                     cmap='RdBu_r',  # Colormap: vermelho para negativo, azul para positivo
                     center=0,  # Centro em zero
                     square=True,  # Células quadradas
                     fmt='.3f',  # Formato dos números
                     cbar_kws={'label': 'Correlação'})

plt.title('🔥 Heatmap da Matriz de Correlação - Vendas vs Temperatura', 
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

# Interpretando os resultados
print("\n🎯 Interpretações:")
temp_sorvete = matriz_corr.loc['Temperatura', 'Vendas_Sorvete']
temp_chocolate = matriz_corr.loc['Temperatura', 'Vendas_Chocolate_Quente']
temp_agua = matriz_corr.loc['Temperatura', 'Vendas_Agua']
temp_aleatorio = matriz_corr.loc['Temperatura', 'Vendas_Aleatorio']

print(f"🍦 Temperatura x Sorvete: {temp_sorvete:.3f} - Correlação {'FORTE' if abs(temp_sorvete) > 0.7 else 'MODERADA' if abs(temp_sorvete) > 0.3 else 'FRACA'} e {'POSITIVA' if temp_sorvete > 0 else 'NEGATIVA'}")
print(f"☕ Temperatura x Chocolate: {temp_chocolate:.3f} - Correlação {'FORTE' if abs(temp_chocolate) > 0.7 else 'MODERADA' if abs(temp_chocolate) > 0.3 else 'FRACA'} e {'POSITIVA' if temp_chocolate > 0 else 'NEGATIVA'}")
print(f"💧 Temperatura x Água: {temp_agua:.3f} - Correlação {'FORTE' if abs(temp_agua) > 0.7 else 'MODERADA' if abs(temp_agua) > 0.3 else 'FRACA'} e {'POSITIVA' if temp_agua > 0 else 'NEGATIVA'}")
print(f"🎲 Temperatura x Aleatório: {temp_aleatorio:.3f} - Correlação {'FORTE' if abs(temp_aleatorio) > 0.7 else 'MODERADA' if abs(temp_aleatorio) > 0.3 else 'FRACA'}")

## ⚠️ Armadilhas da Correlação: Cuidados Importantes!

Antes de sair por aí tirando conclusões, vamos falar dos **PERIGOS** da correlação:

### 🚨 1. Correlação ≠ Causalidade
**O erro mais comum!** Só porque duas coisas andam juntas, não significa que uma causa a outra.

**Exemplo clássico**: Consumo de sorvete e afogamentos têm correlação positiva. Será que sorvete causa afogamento? 😂 Claro que não! A causa comum é o CALOR!

### 🚨 2. Correlação Espúria
Duas variáveis podem estar correlacionadas por puro acaso ou por uma terceira variável.

### 🚨 3. Relações Não-Lineares
A correlação de Pearson só mede relações **lineares**. Pode existir uma relação forte, mas não linear!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-05_img_02.png)

**Dica do Pedro**: Sempre olhe o gráfico! Números sozinhos podem mentir! 👀

In [None]:
# Demonstrando armadilhas da correlação
np.random.seed(42)
n = 100

# 1. Relação não-linear (parábola)
x_nonlinear = np.linspace(-3, 3, n)
y_nonlinear = x_nonlinear**2 + 0.5 * np.random.randn(n)

# 2. Outliers que afetam a correlação
x_outlier = np.random.randn(n)
y_outlier = 0.3 * x_outlier + 0.5 * np.random.randn(n)
# Adicionando alguns outliers
x_outlier[-5:] = [4, 5, 6, 7, 8]
y_outlier[-5:] = [4, 5, 6, 7, 8]

# 3. Correlação espúria (por acaso)
anos = np.arange(2000, 2020)
vendas_margarina = 500 + 2 * anos + 5 * np.random.randn(20)  # Crescendo com o tempo
divorcios = 800 + 1.5 * anos + 8 * np.random.randn(20)      # Também crescendo com o tempo

# Calculando correlações
corr_nonlinear = np.corrcoef(x_nonlinear, y_nonlinear)[0, 1]
corr_outlier = np.corrcoef(x_outlier, y_outlier)[0, 1]
corr_spurious = np.corrcoef(vendas_margarina, divorcios)[0, 1]

# Plotando
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('⚠️ Armadilhas da Correlação', fontsize=16, fontweight='bold')

# Relação não-linear
axes[0,0].scatter(x_nonlinear, y_nonlinear, alpha=0.6)
axes[0,0].set_title(f'Relação Não-Linear\nCorrelação Linear: {corr_nonlinear:.3f}\n(Mas vê como a relação é forte!)')
axes[0,0].set_xlabel('X')
axes[0,0].set_ylabel('Y')

# Outliers
colors = ['blue'] * (n-5) + ['red'] * 5
axes[0,1].scatter(x_outlier, y_outlier, c=colors, alpha=0.6)
axes[0,1].set_title(f'Efeito dos Outliers\nCorrelação: {corr_outlier:.3f}\n(Pontos vermelhos = outliers)')
axes[0,1].set_xlabel('X')
axes[0,1].set_ylabel('Y')

# Correlação espúria
axes[1,0].scatter(vendas_margarina, divorcios, alpha=0.6, color='purple')
axes[1,0].set_title(f'Correlação Espúria\nr = {corr_spurious:.3f}\n(Será que margarina causa divórcio? 😂)')
axes[1,0].set_xlabel('Vendas de Margarina')
axes[1,0].set_ylabel('Número de Divórcios')

# Exemplo de dados sem padrão (ruído)
x_noise = np.random.randn(n)
y_noise = np.random.randn(n)
corr_noise = np.corrcoef(x_noise, y_noise)[0, 1]
axes[1,1].scatter(x_noise, y_noise, alpha=0.6, color='gray')
axes[1,1].set_title(f'Ruído Puro\nr = {corr_noise:.3f}\n(Sem padrão real)')
axes[1,1].set_xlabel('X')
axes[1,1].set_ylabel('Y')

plt.tight_layout()
plt.show()

print("🚨 Lições importantes:")
print(f"1. Relação não-linear pode ter correlação baixa ({corr_nonlinear:.3f}), mas vê o gráfico!")
print(f"2. Outliers podem inflar a correlação artificialmente ({corr_outlier:.3f})")
print(f"3. Correlação alta ({corr_spurious:.3f}) não significa causalidade!")
print(f"4. Ruído puro ainda pode ter correlação não-zero ({corr_noise:.3f}) por acaso!")

## 🔧 Tipos de Correlação: Além da Pearson

A correlação de Pearson é a mais famosa, mas não é a única! Dependendo dos seus dados, outras podem ser mais apropriadas:

### 📊 Tipos Principais:

1. **Pearson** (que já vimos): Para dados **numéricos** com relação **linear**
2. **Spearman**: Para dados **ordinais** ou relações **monotônicas** (não necessariamente lineares)
3. **Kendall**: Similar ao Spearman, mas mais robusta para amostras pequenas

### 🧮 Correlação de Spearman

$$r_s = 1 - \frac{6\sum d_i^2}{n(n^2-1)}$$

Onde $d_i$ é a diferença entre os ranks de cada observação.

**Quando usar**: Dados ordinais, distribuições não-normais, relações monotônicas.

**Dica do Pedro**: Se seus dados não são "bem comportados" (muito assimétricos, com outliers), use Spearman! É mais robusta! 💪

In [None]:
# Comparando diferentes tipos de correlação
from scipy.stats import spearmanr, kendalltau

# Criando dados com diferentes características
np.random.seed(42)
n = 100

# 1. Dados normais (Pearson funciona bem)
x_normal = np.random.randn(n)
y_normal = 2 * x_normal + np.random.randn(n)

# 2. Dados com outliers
x_outlier = np.random.randn(n)
y_outlier = 2 * x_outlier + np.random.randn(n)
# Adicionando outliers extremos
x_outlier[-3:] = [10, 15, 20]
y_outlier[-3:] = [-10, -15, -20]

# 3. Relação monotônica não-linear
x_mono = np.random.randn(n)
y_mono = np.sign(x_mono) * (x_mono**2) + 0.5 * np.random.randn(n)

# Função para calcular todas as correlações
def comparar_correlacoes(x, y, nome):
    pearson = np.corrcoef(x, y)[0, 1]
    spearman, _ = spearmanr(x, y)
    kendall, _ = kendalltau(x, y)
    
    print(f"\n📊 {nome}:")
    print(f"  Pearson:  {pearson:.4f}")
    print(f"  Spearman: {spearman:.4f}")
    print(f"  Kendall:  {kendall:.4f}")
    
    return pearson, spearman, kendall

# Comparando
print("🔍 Comparação dos Métodos de Correlação:")
print("=" * 50)

p1, s1, k1 = comparar_correlacoes(x_normal, y_normal, "Dados Normais")
p2, s2, k2 = comparar_correlacoes(x_outlier, y_outlier, "Com Outliers")
p3, s3, k3 = comparar_correlacoes(x_mono, y_mono, "Relação Monotônica")

# Visualizando
fig, axes = plt.subplots(1, 3, figsize=(18, 5))
fig.suptitle('🔄 Comparação dos Métodos de Correlação', fontsize=16, fontweight='bold')

# Dados normais
axes[0].scatter(x_normal, y_normal, alpha=0.6, color='blue')
axes[0].set_title(f'Dados Normais\nPearson: {p1:.3f} | Spearman: {s1:.3f}')
axes[0].set_xlabel('X')
axes[0].set_ylabel('Y')

# Com outliers
colors = ['blue'] * (n-3) + ['red'] * 3
axes[1].scatter(x_outlier, y_outlier, c=colors, alpha=0.6)
axes[1].set_title(f'Com Outliers\nPearson: {p2:.3f} | Spearman: {s2:.3f}')
axes[1].set_xlabel('X')
axes[1].set_ylabel('Y')

# Monotônica
axes[2].scatter(x_mono, y_mono, alpha=0.6, color='green')
axes[2].set_title(f'Relação Monotônica\nPearson: {p3:.3f} | Spearman: {s3:.3f}')
axes[2].set_xlabel('X')
axes[2].set_ylabel('Y')

plt.tight_layout()
plt.show()

print("\n💡 Conclusões:")
print("• Para dados normais: todos os métodos funcionam bem")
print("• Com outliers: Spearman é mais robusta que Pearson")
print("• Para relações monotônicas: Spearman captura melhor que Pearson")

## 🎯 Aplicação Prática: Análise de Dataset Real

Bora colocar a mão na massa com um exemplo mais realista! Vamos analisar um dataset de vendas de uma empresa.

### 💼 Cenário:
Uma empresa quer entender quais fatores mais influenciam suas vendas:
- Gastos com marketing
- Temperatura média do mês
- Número de funcionários
- Preço médio dos produtos
- Satisfação do cliente

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-05_img_03.png)

In [None]:
# Criando um dataset realista de vendas
np.random.seed(42)
n_meses = 120  # 10 anos de dados mensais

# Variáveis independentes (com alguma correlação natural entre elas)
marketing = np.random.exponential(5000, n_meses)  # Gastos com marketing (distribuição exponencial)
temperatura = 15 + 10 * np.sin(np.arange(n_meses) * 2 * np.pi / 12) + np.random.normal(0, 2, n_meses)  # Sazonal
funcionarios = 20 + 0.1 * np.arange(n_meses) + np.random.normal(0, 2, n_meses)  # Crescimento ao longo do tempo
preco_medio = 100 + np.random.normal(0, 10, n_meses)  # Preço relativamente estável
satisfacao = 3 + 2 * np.random.beta(2, 1, n_meses)  # Satisfação de 3 a 5

# Vendas como função das outras variáveis (com ruído)
vendas = (0.8 * marketing + 
          500 * temperatura + 
          200 * funcionarios + 
          -30 * preco_medio +  # Preço alto diminui vendas
          2000 * satisfacao +
          np.random.normal(0, 5000, n_meses))  # Ruído

# Garantindo valores positivos para vendas
vendas = np.maximum(vendas, 1000)

# Criando DataFrame
df_empresa = pd.DataFrame({
    'Vendas': vendas,
    'Marketing': marketing,
    'Temperatura': temperatura,
    'Funcionarios': funcionarios,
    'Preco_Medio': preco_medio,
    'Satisfacao': satisfacao
})

print("🏪 Dataset da Empresa criado!")
print(f"📊 Shape: {df_empresa.shape}")
print(f"📅 Período: {n_meses} meses ({n_meses//12} anos)")

print("\n📈 Estatísticas Descritivas:")
print(df_empresa.describe().round(2))

In [None]:
# Análise completa de correlação
print("🔍 ANÁLISE DE CORRELAÇÃO - EMPRESA XYZ")
print("=" * 60)

# Matriz de correlação
corr_matrix = df_empresa.corr()
print("\n📊 Matriz de Correlação:")
print(corr_matrix.round(3))

# Heatmap mais detalhado
plt.figure(figsize=(12, 10))
mask = np.triu(np.ones_like(corr_matrix, dtype=bool))  # Máscara para mostrar só metade

heatmap = sns.heatmap(corr_matrix, 
                     mask=mask,
                     annot=True, 
                     cmap='RdBu_r', 
                     center=0,
                     square=True, 
                     fmt='.3f',
                     cbar_kws={'label': 'Correlação'},
                     linewidths=0.5)

plt.title('🔥 Matriz de Correlação - Empresa XYZ\n(Análise de Fatores que Influenciam Vendas)', 
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

# Análise específica das correlações com vendas
correlacoes_vendas = corr_matrix['Vendas'].drop('Vendas').sort_values(key=abs, ascending=False)

print("\n🎯 CORRELAÇÕES COM VENDAS (ordenadas por força):")
print("-" * 50)
for variavel, corr in correlacoes_vendas.items():
    forca = "FORTE" if abs(corr) > 0.7 else "MODERADA" if abs(corr) > 0.3 else "FRACA"
    direcao = "POSITIVA" if corr > 0 else "NEGATIVA"
    emoji = "📈" if corr > 0 else "📉"
    print(f"{emoji} {variavel:12}: {corr:+.3f} - {forca} {direcao}")

# Insights de negócio
print("\n💼 INSIGHTS DE NEGÓCIO:")
print("-" * 30)
maior_corr = correlacoes_vendas.abs().idxmax()
maior_valor = correlacoes_vendas[maior_corr]
print(f"• A variável que MAIS influencia vendas: {maior_corr} (r = {maior_valor:+.3f})")

menor_corr = correlacoes_vendas.abs().idxmin()
menor_valor = correlacoes_vendas[menor_corr]
print(f"• A variável que MENOS influencia vendas: {menor_corr} (r = {menor_valor:+.3f})")

# Recomendações
print("\n🚀 RECOMENDAÇÕES:")
print("-" * 20)
if correlacoes_vendas['Marketing'] > 0.5:
    print("• ✅ Investir mais em marketing pode aumentar vendas significativamente!")
if correlacoes_vendas['Satisfacao'] > 0.3:
    print("• ✅ Melhorar satisfação do cliente é fundamental!")
if correlacoes_vendas['Preco_Medio'] < -0.3:
    print("• ⚠️  Cuidado com preços muito altos - podem reduzir vendas!")
if abs(correlacoes_vendas['Funcionarios']) > 0.4:
    print("• 👥 Número de funcionários tem impacto nas vendas - considerar otimização!")

## 🎮 Exercício Prático 1: Análise de Correlação

Agora é sua vez! Vou te dar um dataset e você vai fazer uma análise completa de correlação.

### 🎯 Desafio: Análise de Notas de Estudantes

Você recebeu dados de 500 estudantes com as seguintes variáveis:
- **Horas_Estudo**: Horas semanais de estudo
- **Horas_TV**: Horas semanais assistindo TV
- **Horas_Sono**: Horas diárias de sono
- **Nota_Final**: Nota final do semestre (0-10)
- **Faltas**: Número de faltas no semestre

### 📝 Tarefas:
1. Calcule a matriz de correlação
2. Crie um heatmap
3. Identifique as 3 correlações mais fortes com a Nota_Final
4. Faça recomendações para os estudantes

In [None]:
# EXERCÍCIO 1: Dataset de estudantes
# Vou criar o dataset - você faz a análise!

np.random.seed(123)
n_estudantes = 500

# Criando variáveis realistas
horas_estudo = np.random.gamma(2, 2, n_estudantes)  # Média ~4h, assimétrica
horas_tv = np.random.exponential(3, n_estudantes)   # Média 3h, alguns assistem muito
horas_sono = np.random.normal(7, 1.5, n_estudantes)  # Média 7h, normal
horas_sono = np.clip(horas_sono, 4, 12)  # Limitando valores realistas

# Faltas correlacionadas negativamente com estudo
faltas = np.random.poisson(3, n_estudantes) + np.random.poisson(np.maximum(5 - horas_estudo/2, 0))

# Nota final como função das outras variáveis
nota_final = (2 + 
              0.8 * horas_estudo +      # Mais estudo = nota maior
              -0.2 * horas_tv +         # Mais TV = nota menor
              0.3 * horas_sono +        # Sono adequado ajuda
              -0.15 * faltas +          # Faltas prejudicam
              np.random.normal(0, 1, n_estudantes))  # Ruído

# Limitando nota entre 0 e 10
nota_final = np.clip(nota_final, 0, 10)

# Criando DataFrame
df_estudantes = pd.DataFrame({
    'Horas_Estudo': horas_estudo,
    'Horas_TV': horas_tv,
    'Horas_Sono': horas_sono,
    'Nota_Final': nota_final,
    'Faltas': faltas
})

print("📚 Dataset de Estudantes criado!")
print(f"👥 {n_estudantes} estudantes")
print("\n📊 Primeiras 5 linhas:")
print(df_estudantes.head())
print("\n📈 Estatísticas:")
print(df_estudantes.describe().round(2))

print("\n🎯 AGORA É SUA VEZ!")
print("Faça a análise de correlação completa:")
print("1. Calcule a matriz de correlação")
print("2. Crie um heatmap")
print("3. Analise as correlações com Nota_Final")
print("4. Dê recomendações para os estudantes")
print("\n💪 Bora lá!")

# SEU CÓDIGO AQUI:
# matriz_corr_estudantes = ...
# ...

## 🔗 Conexão com Regressão Linear (Módulo 4)

Lembra da regressão linear que vimos no módulo anterior? A correlação está **DIRETAMENTE** ligada a ela!

### 🧮 A Matemática da Conexão

Para regressão simples $y = a + bx$, o coeficiente angular $b$ é:

$$b = r \cdot \frac{\sigma_y}{\sigma_x}$$

E o $R^2$ (coeficiente de determinação) é:

$$R^2 = r^2$$

**Traduzindo**: 
- A **correlação** te diz a DIREÇÃO e FORÇA da relação
- A **regressão** te dá a EQUAÇÃO para fazer previsões
- O **R²** te diz quanto da variação é explicada pelo modelo

**Dica do Pedro**: Correlação e regressão são irmãs! Uma ajuda a entender a outra! 👯‍♀️

In [None]:
# Demonstrando a conexão entre correlação e regressão
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# Usando nossos dados de horas de estudo vs notas
x = horas_estudo.reshape(-1, 1)  # sklearn precisa de 2D
y = nota_final

# Calculando correlação
correlacao = np.corrcoef(horas_estudo, nota_final)[0, 1]

# Fazendo regressão linear
modelo = LinearRegression()
modelo.fit(x, y)
y_pred = modelo.predict(x)

# Calculando R²
r2 = r2_score(y, y_pred)

# Coeficientes
coef_angular = modelo.coef_[0]
intercepto = modelo.intercept_

print("🔗 CONEXÃO: CORRELAÇÃO ↔ REGRESSÃO")
print("=" * 50)
print(f"📊 Correlação (r): {correlacao:.4f}")
print(f"📈 R² da regressão: {r2:.4f}")
print(f"🎯 r² = {correlacao**2:.4f}")
print(f"✅ Diferença r² vs R²: {abs(correlacao**2 - r2):.10f}")

print(f"\n📐 Equação da reta: y = {intercepto:.3f} + {coef_angular:.3f}x")
print(f"📊 Desvio padrão X: {np.std(horas_estudo, ddof=1):.3f}")
print(f"📊 Desvio padrão Y: {np.std(nota_final, ddof=1):.3f}")
print(f"🧮 b teórico: r * (σy/σx) = {correlacao * np.std(nota_final, ddof=1) / np.std(horas_estudo, ddof=1):.3f}")

# Visualizando
plt.figure(figsize=(12, 8))

# Scatter plot
plt.scatter(horas_estudo, nota_final, alpha=0.5, color='blue', label='Dados')

# Linha de regressão
x_linha = np.linspace(horas_estudo.min(), horas_estudo.max(), 100)
y_linha = intercepto + coef_angular * x_linha
plt.plot(x_linha, y_linha, 'r-', linewidth=2, label=f'Regressão: y = {intercepto:.2f} + {coef_angular:.2f}x')

plt.xlabel('Horas de Estudo por Semana')
plt.ylabel('Nota Final')
plt.title(f'🔗 Correlação vs Regressão\nr = {correlacao:.3f} | R² = {r2:.3f}', fontweight='bold')
plt.legend()
plt.grid(True, alpha=0.3)

# Adicionando texto explicativo
plt.text(0.05, 0.95, f'💡 R² = r² = {correlacao:.3f}² = {r2:.3f}', 
         transform=plt.gca().transAxes, fontsize=12, 
         bbox=dict(boxstyle='round', facecolor='yellow', alpha=0.7))

plt.tight_layout()
plt.show()

print("\n💡 INTERPRETAÇÃO:")
print(f"• A correlação r = {correlacao:.3f} indica relação {'forte' if abs(correlacao) > 0.7 else 'moderada' if abs(correlacao) > 0.3 else 'fraca'}")
print(f"• O R² = {r2:.3f} significa que {r2*100:.1f}% da variação nas notas é explicada pelas horas de estudo")
print(f"• Para cada hora extra de estudo, a nota aumenta {coef_angular:.3f} pontos em média")

## 🎮 Exercício Prático 2: Implementação do Zero

Agora o desafio HARDCORE! Vou te dar apenas os dados, e você vai implementar TUDO do zero:

### 🏗️ Desafio: Implemente suas próprias funções

**Crie as seguintes funções:**
1. `minha_covariancia(x, y)` - Calcula covariância do zero
2. `minha_correlacao(x, y)` - Calcula correlação do zero
3. `matriz_correlacao_completa(dataframe)` - Matriz de correlação completa
4. `interpretar_correlacao(r)` - Retorna interpretação textual

### 📊 Teste com dados reais
Use o dataset que vou fornecer e compare seus resultados com o NumPy/SciPy!

In [None]:
# EXERCÍCIO 2: Implementação do Zero
# Vou dar os dados, você implementa as funções!

# Dataset de teste
np.random.seed(777)
n = 50
dados_teste = pd.DataFrame({
    'A': np.random.normal(10, 2, n),
    'B': np.random.normal(5, 1, n),
    'C': np.random.exponential(2, n),
    'D': np.random.uniform(0, 10, n)
})

# Criando algumas correlações artificiais
dados_teste['B'] = dados_teste['A'] * 0.7 + np.random.normal(0, 0.5, n)  # Correlação forte com A
dados_teste['C'] = dados_teste['A'] * -0.4 + np.random.normal(5, 1, n)   # Correlação negativa com A

print("🎯 EXERCÍCIO 2: IMPLEMENTAÇÃO DO ZERO")
print("=" * 50)
print("📊 Dataset de teste criado!")
print(dados_teste.head())

print("\n🏗️ SUAS TAREFAS:")
print("1. Implemente minha_covariancia(x, y)")
print("2. Implemente minha_correlacao(x, y)")
print("3. Implemente matriz_correlacao_completa(df)")
print("4. Implemente interpretar_correlacao(r)")
print("5. Compare com NumPy/SciPy")

# IMPLEMENTE AQUI:

def minha_covariancia(x, y):
    """
    Calcula a covariância entre duas variáveis
    """
    # SEU CÓDIGO AQUI
    pass

def minha_correlacao(x, y):
    """
    Calcula a correlação de Pearson entre duas variáveis
    """
    # SEU CÓDIGO AQUI
    pass

def matriz_correlacao_completa(df):
    """
    Cria matriz de correlação completa para um DataFrame
    """
    # SEU CÓDIGO AQUI
    pass

def interpretar_correlacao(r):
    """
    Retorna interpretação textual da correlação
    """
    # SEU CÓDIGO AQUI
    pass

print("\n💪 Bora implementar! Depois teste com:")
print("• minha_correlacao(dados_teste['A'], dados_teste['B'])")
print("• matriz_correlacao_completa(dados_teste)")
print("• Compare com dados_teste.corr()")

## 🚀 Preparando para o Próximo Módulo: Regressão Logística

No próximo módulo, vamos ver **Regressão Logística** - onde a correlação também vai ser importante!

### 🔮 O que vem por aí:
- Como classificar ao invés de prever valores contínuos
- A curva sigmoide e probabilidades
- Como a correlação ajuda a escolher features

### 🧠 Conceitos que vamos reusar:
1. **Matriz de correlação** para seleção de features
2. **Multicolinearidade** (quando features são muito correlacionadas)
3. **Análise exploratória** antes de modelar

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-05_img_04.png)

## 📚 Resumo Final: O que Aprendemos

**Liiindo!** Você chegou ao final do Módulo 5! 🎉

### 🎯 Conceitos Principais:

#### 📊 **Covariância**
- Mede como duas variáveis variam juntas
- Fórmula: $Cov(X,Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$
- Problema: depende da escala dos dados

#### 🎯 **Correlação**
- Covariância "normalizada" (sempre entre -1 e 1)
- Fórmula: $r = \frac{Cov(X,Y)}{\sigma_X \cdot \sigma_Y}$
- Interpretação mais fácil

#### ⚠️ **Cuidados**
- Correlação ≠ Causalidade
- Outliers podem distorcer
- Só mede relações lineares (Pearson)

#### 🔧 **Tipos**
- **Pearson**: Para dados numéricos normais
- **Spearman**: Para dados ordinais ou não-normais
- **Kendall**: Similar ao Spearman, mais robusta

### 💪 **Habilidades Desenvolvidas:**
✅ Calcular correlação na mão e com Python  
✅ Interpretar matrizes de correlação  
✅ Criar visualizações (heatmaps)  
✅ Identificar armadilhas e limitações  
✅ Aplicar em casos reais de negócio  
✅ Conectar com regressão linear  

### 🎊 **Dica Final do Pedro:**
Correlação é uma das ferramentas mais poderosas em Data Science! Use ela pra:
- Entender seus dados antes de modelar
- Selecionar features importantes
- Detectar problemas (multicolinearidade)
- Comunicar insights para o negócio

**Bora pro próximo módulo dominar a Regressão Logística! 🚀**