# üìà Regress√£o Linear Simples: A Linha que Tenta Prever o Futuro

## *M√≥dulo 4 - Estat√≠stica para IA*

**Pedro Nunes Guth**

---

E a√≠, pessoal! Bora falar de uma das t√©cnicas mais importantes da estat√≠stica e IA? A regress√£o linear simples √© tipo aquele amigo que sempre tenta adivinhar o que vai acontecer baseado no que j√° rolou antes.

Imagina que voc√™ t√° tentando prever o pre√ßo de um apartamento baseado no tamanho dele. Ou quanto voc√™ vai gastar de gasolina baseado na dist√¢ncia que vai viajar. √â exatamente isso que a regress√£o linear faz: ela desenha uma linha no meio dos pontos tentando capturar a rela√ß√£o entre duas vari√°veis!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-04_img_01.png)

In [None]:
# Setup inicial - bora importar as bibliotecas que vamos usar!
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import seaborn as sns

# Configurando o matplotlib para ficar bonitinho
plt.style.use('default')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

# Para reproduzir os mesmos resultados
np.random.seed(42)

print("Tudo carregado! Bora come√ßar a divers√£o! üöÄ")

## üéØ O que √© Regress√£o Linear Simples?

T√°, mas o que √© regress√£o linear simples mesmo? √â basicamente uma t√©cnica que tenta encontrar a **melhor linha reta** que passa pelos nossos dados. Essa linha vai nos ajudar a fazer previs√µes!

Pensa assim: voc√™ tem um monte de pontos espalhados num gr√°fico (como chuva de confete no carnaval), e voc√™ quer desenhar uma linha reta que "resume" onde esses pontos est√£o. Essa linha √© nossa **linha de regress√£o**!

### A equa√ß√£o da reta que voc√™ aprendeu na escola:

$$y = ax + b$$

Na regress√£o linear, a gente escreve assim:

$$\hat{y} = \beta_0 + \beta_1 x$$

Onde:
- $\hat{y}$ = valor previsto (o "y chap√©u")
- $\beta_0$ = intercepto (onde a linha corta o eixo Y)
- $\beta_1$ = coeficiente angular (inclina√ß√£o da linha)
- $x$ = vari√°vel independente (entrada)

**Dica do Pedro:** Lembra dos m√≥dulos anteriores? Aqui vamos usar muito a correla√ß√£o que estudamos! Se duas vari√°veis t√™m correla√ß√£o forte, a regress√£o linear vai funcionar melhor!

In [None]:
# Vamos criar dados sint√©ticos para entender melhor
# Imagine que estamos prevendo o pre√ßo de casas baseado no tamanho (em m¬≤)

# Tamanho das casas (vari√°vel X)
tamanho_casa = np.array([50, 70, 80, 100, 120, 140, 160, 180, 200, 220])

# Pre√ßo das casas (vari√°vel Y) - com um pouco de ru√≠do para ficar realista
preco_casa = 2000 * tamanho_casa + 50000 + np.random.normal(0, 20000, len(tamanho_casa))

print("Dados das casas:")
print(f"Tamanhos: {tamanho_casa}")
print(f"Pre√ßos: {preco_casa.astype(int)}")

# Vamos visualizar esses dados
plt.figure(figsize=(10, 6))
plt.scatter(tamanho_casa, preco_casa, color='blue', alpha=0.7, s=100)
plt.xlabel('Tamanho da Casa (m¬≤)')
plt.ylabel('Pre√ßo da Casa (R$)')
plt.title('Rela√ß√£o entre Tamanho e Pre√ßo das Casas')
plt.grid(True, alpha=0.3)
plt.show()

print("\nOlha s√≥! D√° pra ver que existe uma rela√ß√£o entre tamanho e pre√ßo, n√©?")

## üßÆ A Matem√°tica por Tr√°s: M√©todo dos M√≠nimos Quadrados

Agora vem a parte mais interessante! Como a gente encontra a **melhor linha**? 

A resposta √©: usando o **M√©todo dos M√≠nimos Quadrados**. √â tipo um jogo onde voc√™ quer minimizar a "raiva" dos pontos em rela√ß√£o √† linha.

### O que s√£o os "erros" ou "res√≠duos"?

Para cada ponto, temos:
- $y_i$ = valor real
- $\hat{y_i}$ = valor previsto pela nossa linha
- $e_i = y_i - \hat{y_i}$ = erro (res√≠duo)

### A fun√ß√£o que queremos minimizar:

$$SSE = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y_i})^2$$

**SSE** = Soma dos Quadrados dos Erros (Sum of Squared Errors)

### As f√≥rmulas m√°gicas para encontrar Œ≤‚ÇÄ e Œ≤‚ÇÅ:

$$\beta_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

$$\beta_0 = \bar{y} - \beta_1\bar{x}$$

Onde $\bar{x}$ e $\bar{y}$ s√£o as m√©dias que estudamos no M√≥dulo 1!

**Dica do Pedro:** Essa f√≥rmula do Œ≤‚ÇÅ √© praticamente a covari√¢ncia dividida pela vari√¢ncia! Lembra desses conceitos? Vamos ver eles mais a fundo no pr√≥ximo m√≥dulo!

In [None]:
# Vamos implementar o c√°lculo manual dos coeficientes!
# Isso vai nos ajudar a entender a matem√°tica por dentro

def calcular_regressao_manual(x, y):
    """
    Calcula os coeficientes da regress√£o linear usando as f√≥rmulas matem√°ticas
    """
    n = len(x)
    
    # Calculando as m√©dias (M√≥dulo 1!)
    x_media = np.mean(x)
    y_media = np.mean(y)
    
    print(f"M√©dia de X (tamanho): {x_media:.2f} m¬≤")
    print(f"M√©dia de Y (pre√ßo): {y_media:.2f} R$")
    
    # Calculando Œ≤‚ÇÅ (coeficiente angular)
    numerador = np.sum((x - x_media) * (y - y_media))
    denominador = np.sum((x - x_media) ** 2)
    
    beta_1 = numerador / denominador
    
    # Calculando Œ≤‚ÇÄ (intercepto)
    beta_0 = y_media - beta_1 * x_media
    
    print(f"\nCoeficientes calculados:")
    print(f"Œ≤‚ÇÅ (inclina√ß√£o): {beta_1:.2f}")
    print(f"Œ≤‚ÇÄ (intercepto): {beta_0:.2f}")
    
    return beta_0, beta_1

# Calculando nossos coeficientes
beta_0, beta_1 = calcular_regressao_manual(tamanho_casa, preco_casa)

print(f"\nInterpreta√ß√£o:")
print(f"- Para cada m¬≤ a mais, o pre√ßo aumenta R$ {beta_1:.2f}")
print(f"- Uma casa de 0 m¬≤ custaria R$ {beta_0:.2f} (intercepto)")

## üìä Visualizando a Linha de Melhor Ajuste

Agora que temos nossos coeficientes, vamos desenhar a linha de regress√£o! √â aqui que a m√°gica acontece - vamos ver como nossa linha "tenta" passar o mais pr√≥ximo poss√≠vel de todos os pontos.

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-04_img_02.png)

In [None]:
# Vamos criar a linha de regress√£o usando nossos coeficientes
x_linha = np.linspace(min(tamanho_casa), max(tamanho_casa), 100)
y_linha = beta_0 + beta_1 * x_linha

# Calculando os valores previstos para nossos pontos originais
y_previsto = beta_0 + beta_1 * tamanho_casa

# Criando o gr√°fico
plt.figure(figsize=(12, 8))

# Pontos originais
plt.scatter(tamanho_casa, preco_casa, color='blue', alpha=0.7, s=100, label='Dados Reais')

# Linha de regress√£o
plt.plot(x_linha, y_linha, color='red', linewidth=2, label=f'Linha de Regress√£o: y = {beta_1:.0f}x + {beta_0:.0f}')

# Valores previstos
plt.scatter(tamanho_casa, y_previsto, color='red', alpha=0.5, s=50, label='Valores Previstos')

# Linhas mostrando os erros (res√≠duos)
for i in range(len(tamanho_casa)):
    plt.plot([tamanho_casa[i], tamanho_casa[i]], [preco_casa[i], y_previsto[i]], 
             color='gray', linestyle='--', alpha=0.5)

plt.xlabel('Tamanho da Casa (m¬≤)')
plt.ylabel('Pre√ßo da Casa (R$)')
plt.title('Regress√£o Linear: Tamanho vs Pre√ßo das Casas')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("Liiindo! As linhas cinzas pontilhadas mostram os 'erros' - a diferen√ßa entre o valor real e o previsto.")
print("A nossa linha tenta minimizar a soma dos quadrados desses erros!")

## üî¢ Calculando as M√©tricas de Avalia√ß√£o

T√°, mas como sabemos se nossa linha √© boa? Precisamos de algumas m√©tricas para avaliar!

### 1. Erro Quadr√°tico M√©dio (MSE - Mean Squared Error):
$$MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y_i})^2$$

### 2. Raiz do Erro Quadr√°tico M√©dio (RMSE):
$$RMSE = \sqrt{MSE}$$

### 3. Coeficiente de Determina√ß√£o (R¬≤):
$$R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{\sum(y_i - \hat{y_i})^2}{\sum(y_i - \bar{y})^2}$$

O **R¬≤** vai de 0 a 1:
- R¬≤ = 1: Modelo perfeito!
- R¬≤ = 0: Modelo n√£o explica nada
- R¬≤ = 0.8: Modelo explica 80% da varia√ß√£o dos dados

**Dica do Pedro:** O R¬≤ est√° relacionado com a correla√ß√£o que vimos antes! Na regress√£o linear simples, R¬≤ = correla√ß√£o¬≤

In [None]:
# Vamos calcular as m√©tricas de avalia√ß√£o

def avaliar_modelo(y_real, y_previsto):
    """
    Calcula m√©tricas de avalia√ß√£o do modelo
    """
    # MSE - Erro Quadr√°tico M√©dio
    mse = np.mean((y_real - y_previsto) ** 2)
    
    # RMSE - Raiz do Erro Quadr√°tico M√©dio
    rmse = np.sqrt(mse)
    
    # R¬≤ - Coeficiente de Determina√ß√£o
    ss_res = np.sum((y_real - y_previsto) ** 2)  # Soma dos quadrados dos res√≠duos
    ss_tot = np.sum((y_real - np.mean(y_real)) ** 2)  # Soma total dos quadrados
    r2 = 1 - (ss_res / ss_tot)
    
    return mse, rmse, r2

# Calculando as m√©tricas
mse, rmse, r2 = avaliar_modelo(preco_casa, y_previsto)

print("üìä M√âTRICAS DE AVALIA√á√ÉO:")
print(f"MSE (Erro Quadr√°tico M√©dio): {mse:,.2f}")
print(f"RMSE (Raiz do Erro Quadr√°tico M√©dio): {rmse:,.2f} R$")
print(f"R¬≤ (Coeficiente de Determina√ß√£o): {r2:.4f}")

print(f"\nüìà INTERPRETA√á√ÉO:")
print(f"- Em m√©dia, nossos erros s√£o de R$ {rmse:,.0f}")
print(f"- Nosso modelo explica {r2*100:.1f}% da varia√ß√£o nos pre√ßos!")

# Vamos calcular tamb√©m a correla√ß√£o para comparar com R¬≤
correlacao = np.corrcoef(tamanho_casa, preco_casa)[0, 1]
print(f"\nüîó BONUS - Correla√ß√£o: {correlacao:.4f}")
print(f"Correla√ß√£o¬≤: {correlacao**2:.4f} (bem pr√≥ximo do R¬≤!)")

## üõ†Ô∏è Usando o Scikit-learn

T√° bom, agora que entendemos a matem√°tica, vamos ver como fazer isso de forma mais pr√°tica usando o scikit-learn! √â tipo usar uma calculadora depois de aprender a fazer conta na m√£o.

```mermaid
graph TD
    A[Dados de Entrada X,Y] --> B[LinearRegression]
    B --> C[Fit - Treinar o Modelo]
    C --> D[Coeficientes Œ≤‚ÇÄ, Œ≤‚ÇÅ]
    D --> E[Predict - Fazer Previs√µes]
    E --> F[M√©tricas de Avalia√ß√£o]
    F --> G[Modelo Pronto!]
```

**Dica do Pedro:** O sklearn faz exatamente a mesma matem√°tica que implementamos, s√≥ que otimizada e mais r√°pida!

In [None]:
# Usando o scikit-learn para comparar com nosso c√°lculo manual

# Preparando os dados (sklearn precisa de arrays 2D)
X = tamanho_casa.reshape(-1, 1)  # Vari√°vel independente
y = preco_casa  # Vari√°vel dependente

# Criando e treinando o modelo
modelo = LinearRegression()
modelo.fit(X, y)

# Obtendo os coeficientes
beta_0_sklearn = modelo.intercept_
beta_1_sklearn = modelo.coef_[0]

# Fazendo previs√µes
y_previsto_sklearn = modelo.predict(X)

print("üî¨ COMPARA√á√ÉO - Manual vs Scikit-learn:")
print(f"Œ≤‚ÇÄ (intercepto):")
print(f"  Manual: {beta_0:.2f}")
print(f"  Sklearn: {beta_0_sklearn:.2f}")

print(f"\nŒ≤‚ÇÅ (inclina√ß√£o):")
print(f"  Manual: {beta_1:.2f}")
print(f"  Sklearn: {beta_1_sklearn:.2f}")

# M√©tricas usando sklearn
mse_sklearn = mean_squared_error(y, y_previsto_sklearn)
r2_sklearn = r2_score(y, y_previsto_sklearn)

print(f"\nüìä M√âTRICAS (Sklearn):")
print(f"MSE: {mse_sklearn:,.2f}")
print(f"R¬≤: {r2_sklearn:.4f}")

print("\n‚úÖ Perfeito! Os resultados s√£o praticamente id√™nticos!")

## üéØ Fazendo Previs√µes

Agora vem a parte divertida! Vamos usar nosso modelo para prever o pre√ßo de casas de tamanhos que n√£o temos nos dados originais.

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-04_img_03.png)

In [None]:
# Vamos fazer algumas previs√µes interessantes!

def fazer_previsao(tamanho, modelo):
    """
    Faz previs√£o do pre√ßo baseado no tamanho
    """
    tamanho_2d = np.array([[tamanho]])
    preco_previsto = modelo.predict(tamanho_2d)[0]
    return preco_previsto

# Testando alguns tamanhos
tamanhos_teste = [60, 90, 150, 250, 300]

print("üè† PREVIS√ïES DE PRE√áOS:")
print("-" * 40)

for tamanho in tamanhos_teste:
    preco_pred = fazer_previsao(tamanho, modelo)
    print(f"Casa de {tamanho:3d} m¬≤: R$ {preco_pred:8,.0f}")

# Vamos visualizar essas previs√µes
plt.figure(figsize=(12, 8))

# Dados originais
plt.scatter(tamanho_casa, preco_casa, color='blue', alpha=0.7, s=100, label='Dados Originais')

# Linha de regress√£o estendida
x_estendido = np.linspace(40, 320, 100)
y_estendido = modelo.predict(x_estendido.reshape(-1, 1))
plt.plot(x_estendido, y_estendido, color='red', linewidth=2, label='Linha de Regress√£o')

# Previs√µes
precos_teste = [fazer_previsao(t, modelo) for t in tamanhos_teste]
plt.scatter(tamanhos_teste, precos_teste, color='green', s=150, marker='^', 
           label='Previs√µes', edgecolor='black', linewidth=2)

# Anota√ß√µes das previs√µes
for i, (tamanho, preco) in enumerate(zip(tamanhos_teste, precos_teste)):
    plt.annotate(f'{tamanho}m¬≤\nR${preco:,.0f}', 
                xy=(tamanho, preco), 
                xytext=(10, 20), textcoords='offset points',
                fontsize=9, ha='center',
                bbox=dict(boxstyle='round,pad=0.3', fc='yellow', alpha=0.7))

plt.xlabel('Tamanho da Casa (m¬≤)')
plt.ylabel('Pre√ßo da Casa (R$)')
plt.title('Regress√£o Linear: Dados Originais + Previs√µes')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("\nüéØ Aten√ß√£o: Cuidado com extrapola√ß√µes muito distantes dos dados originais!")

## üìà Analisando os Res√≠duos

Uma parte importante da regress√£o linear √© analisar os **res√≠duos** (erros). Eles nos contam muito sobre a qualidade do nosso modelo!

### O que queremos ver nos res√≠duos:
1. **Distribui√ß√£o Normal** (lembra do M√≥dulo 2?)
2. **M√©dia pr√≥xima de zero**
3. **Vari√¢ncia constante** (homocedasticidade)
4. **Sem padr√µes √≥bvios**

**Dica do Pedro:** Se os res√≠duos n√£o seguem esses padr√µes, pode ser que a regress√£o linear simples n√£o seja o melhor modelo para os dados!

In [None]:
# Analisando os res√≠duos do nosso modelo

# Calculando os res√≠duos
residuos = preco_casa - y_previsto_sklearn

# Criando subplots para v√°rias an√°lises
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Res√≠duos vs Valores Previstos
axes[0, 0].scatter(y_previsto_sklearn, residuos, alpha=0.7)
axes[0, 0].axhline(y=0, color='red', linestyle='--')
axes[0, 0].set_xlabel('Valores Previstos')
axes[0, 0].set_ylabel('Res√≠duos')
axes[0, 0].set_title('Res√≠duos vs Valores Previstos')
axes[0, 0].grid(True, alpha=0.3)

# 2. Histograma dos Res√≠duos
axes[0, 1].hist(residuos, bins=8, alpha=0.7, color='skyblue', edgecolor='black')
axes[0, 1].axvline(x=0, color='red', linestyle='--')
axes[0, 1].set_xlabel('Res√≠duos')
axes[0, 1].set_ylabel('Frequ√™ncia')
axes[0, 1].set_title('Distribui√ß√£o dos Res√≠duos')
axes[0, 1].grid(True, alpha=0.3)

# 3. Q-Q Plot (comparando com distribui√ß√£o normal)
from scipy import stats
stats.probplot(residuos, dist="norm", plot=axes[1, 0])
axes[1, 0].set_title('Q-Q Plot (Normalidade dos Res√≠duos)')
axes[1, 0].grid(True, alpha=0.3)

# 4. Res√≠duos vs Ordem (para detectar padr√µes temporais)
axes[1, 1].scatter(range(len(residuos)), residuos, alpha=0.7)
axes[1, 1].axhline(y=0, color='red', linestyle='--')
axes[1, 1].set_xlabel('Ordem dos Dados')
axes[1, 1].set_ylabel('Res√≠duos')
axes[1, 1].set_title('Res√≠duos vs Ordem')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estat√≠sticas dos res√≠duos
print("üìä ESTAT√çSTICAS DOS RES√çDUOS:")
print(f"M√©dia dos res√≠duos: {np.mean(residuos):,.2f}")
print(f"Desvio padr√£o dos res√≠duos: {np.std(residuos):,.2f}")
print(f"M√≠nimo: {np.min(residuos):,.2f}")
print(f"M√°ximo: {np.max(residuos):,.2f}")

# Teste de normalidade (Shapiro-Wilk)
shapiro_stat, shapiro_p = stats.shapiro(residuos)
print(f"\nüß™ TESTE DE NORMALIDADE (Shapiro-Wilk):")
print(f"Estat√≠stica: {shapiro_stat:.4f}")
print(f"P-valor: {shapiro_p:.4f}")
if shapiro_p > 0.05:
    print("‚úÖ Res√≠duos seguem distribui√ß√£o normal (p > 0.05)")
else:
    print("‚ö†Ô∏è Res√≠duos podem n√£o seguir distribui√ß√£o normal (p ‚â§ 0.05)")

## üéÆ Exerc√≠cio Pr√°tico 1: Seu Primeiro Modelo

Agora √© sua vez! Vamos criar um dataset de **horas de estudo vs nota na prova** e voc√™ vai implementar uma regress√£o linear do zero!

**Desafio:**
1. Calcule os coeficientes Œ≤‚ÇÄ e Œ≤‚ÇÅ manualmente
2. Fa√ßa previs√µes para 3 valores diferentes
3. Calcule o R¬≤
4. Interprete os resultados

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-04_img_04.png)

In [None]:
# EXERC√çCIO 1: Horas de Estudo vs Nota na Prova

# Dataset: Horas de estudo e notas correspondentes
horas_estudo = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
notas_prova = np.array([4.2, 5.1, 5.8, 6.5, 7.2, 7.8, 8.4, 8.9, 9.1, 9.5])

print("üìö DADOS DO EXERC√çCIO:")
print(f"Horas de Estudo: {horas_estudo}")
print(f"Notas da Prova: {notas_prova}")

# TODO: Sua implementa√ß√£o aqui!
# 1. Calcule Œ≤‚ÇÄ e Œ≤‚ÇÅ usando as f√≥rmulas matem√°ticas

# Suas vari√°veis:
# x_media = ?
# y_media = ?
# beta_1 = ?
# beta_0 = ?

print("\nüéØ COMPLETE O EXERC√çCIO ACIMA!")
print("Dica: Use as f√≥rmulas que vimos anteriormente")

# Visualize os dados primeiro
plt.figure(figsize=(10, 6))
plt.scatter(horas_estudo, notas_prova, color='purple', s=100, alpha=0.7)
plt.xlabel('Horas de Estudo')
plt.ylabel('Nota na Prova')
plt.title('Rela√ß√£o: Horas de Estudo vs Nota na Prova')
plt.grid(True, alpha=0.3)
plt.show()

## üöÄ Exemplo Avan√ßado: Dataset Real

Vamos trabalhar com um exemplo mais realista! Vou simular dados de **consumo de combust√≠vel vs dist√¢ncia percorrida** de um carro.

Aqui vamos ver como a regress√£o linear se comporta com dados que t√™m mais variabilidade, mais pr√≥ximos da realidade.

In [None]:
# Criando um dataset mais realista: Consumo de Combust√≠vel
np.random.seed(123)

# Dist√¢ncia percorrida (km)
distancia_km = np.random.uniform(50, 500, 50)  # 50 viagens diferentes

# Consumo de combust√≠vel (litros) - baseado na dist√¢ncia + ru√≠do
# Assumindo um consumo m√©dio de 0.08 litros por km
consumo_base = 0.08 * distancia_km
ruido = np.random.normal(0, 1.5, len(distancia_km))
consumo_litros = consumo_base + ruido
consumo_litros = np.maximum(consumo_litros, 0)  # Garantir que n√£o seja negativo

# Criando DataFrame para melhor visualiza√ß√£o
df_combustivel = pd.DataFrame({
    'Distancia_km': distancia_km,
    'Consumo_litros': consumo_litros
})

print("üöó DATASET DE COMBUST√çVEL:")
print(df_combustivel.head(10))
print(f"\nTotal de viagens: {len(df_combustivel)}")

# Estat√≠sticas descritivas (M√≥dulo 1!)
print("\nüìä ESTAT√çSTICAS DESCRITIVAS:")
print(df_combustivel.describe())

In [None]:
# An√°lise explorat√≥ria dos dados

fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# 1. Gr√°fico de dispers√£o
axes[0].scatter(df_combustivel['Distancia_km'], df_combustivel['Consumo_litros'], 
               alpha=0.6, color='green')
axes[0].set_xlabel('Dist√¢ncia (km)')
axes[0].set_ylabel('Consumo (litros)')
axes[0].set_title('Dispers√£o: Dist√¢ncia vs Consumo')
axes[0].grid(True, alpha=0.3)

# 2. Histograma da dist√¢ncia
axes[1].hist(df_combustivel['Distancia_km'], bins=15, alpha=0.7, color='blue', edgecolor='black')
axes[1].set_xlabel('Dist√¢ncia (km)')
axes[1].set_ylabel('Frequ√™ncia')
axes[1].set_title('Distribui√ß√£o das Dist√¢ncias')
axes[1].grid(True, alpha=0.3)

# 3. Histograma do consumo
axes[2].hist(df_combustivel['Consumo_litros'], bins=15, alpha=0.7, color='orange', edgecolor='black')
axes[2].set_xlabel('Consumo (litros)')
axes[2].set_ylabel('Frequ√™ncia')
axes[2].set_title('Distribui√ß√£o do Consumo')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Calculando a correla√ß√£o
correlacao_combustivel = df_combustivel['Distancia_km'].corr(df_combustivel['Consumo_litros'])
print(f"\nüîó CORRELA√á√ÉO: {correlacao_combustivel:.4f}")
if correlacao_combustivel > 0.8:
    print("‚úÖ Correla√ß√£o muito forte! Regress√£o linear deve funcionar bem.")
elif correlacao_combustivel > 0.6:
    print("‚úÖ Correla√ß√£o forte! Regress√£o linear √© uma boa op√ß√£o.")
elif correlacao_combustivel > 0.3:
    print("‚ö†Ô∏è Correla√ß√£o moderada. Regress√£o linear pode funcionar.")
else:
    print("‚ùå Correla√ß√£o fraca. Regress√£o linear pode n√£o ser a melhor op√ß√£o.")

In [None]:
# Implementando a regress√£o linear no dataset de combust√≠vel

# Preparando os dados
X_combustivel = df_combustivel['Distancia_km'].values.reshape(-1, 1)
y_combustivel = df_combustivel['Consumo_litros'].values

# Treinando o modelo
modelo_combustivel = LinearRegression()
modelo_combustivel.fit(X_combustivel, y_combustivel)

# Fazendo previs√µes
y_pred_combustivel = modelo_combustivel.predict(X_combustivel)

# Coeficientes
beta_0_comb = modelo_combustivel.intercept_
beta_1_comb = modelo_combustivel.coef_[0]

print("üöó RESULTADOS DA REGRESS√ÉO - COMBUST√çVEL:")
print(f"Œ≤‚ÇÄ (intercepto): {beta_0_comb:.4f} litros")
print(f"Œ≤‚ÇÅ (inclina√ß√£o): {beta_1_comb:.4f} litros/km")
print(f"\nInterpreta√ß√£o:")
print(f"- Para cada km rodado, o consumo aumenta {beta_1_comb:.4f} litros")
print(f"- Consumo base (0 km): {beta_0_comb:.2f} litros")

# M√©tricas de avalia√ß√£o
mse_comb = mean_squared_error(y_combustivel, y_pred_combustivel)
r2_comb = r2_score(y_combustivel, y_pred_combustivel)
rmse_comb = np.sqrt(mse_comb)

print(f"\nüìä M√âTRICAS:")
print(f"MSE: {mse_comb:.4f}")
print(f"RMSE: {rmse_comb:.4f} litros")
print(f"R¬≤: {r2_comb:.4f} ({r2_comb*100:.1f}% da varia√ß√£o explicada)")

# Visualizando o resultado
plt.figure(figsize=(12, 8))

# Pontos originais
plt.scatter(df_combustivel['Distancia_km'], df_combustivel['Consumo_litros'], 
           alpha=0.6, color='green', s=60, label='Dados Reais')

# Linha de regress√£o
x_range = np.linspace(df_combustivel['Distancia_km'].min(), 
                     df_combustivel['Distancia_km'].max(), 100)
y_range = modelo_combustivel.predict(x_range.reshape(-1, 1))
plt.plot(x_range, y_range, color='red', linewidth=3, 
         label=f'Regress√£o: y = {beta_1_comb:.4f}x + {beta_0_comb:.2f}')

plt.xlabel('Dist√¢ncia Percorrida (km)')
plt.ylabel('Consumo de Combust√≠vel (litros)')
plt.title(f'Regress√£o Linear: Consumo vs Dist√¢ncia (R¬≤ = {r2_comb:.3f})')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"\nüéØ Modelo final: Consumo = {beta_1_comb:.4f} √ó Dist√¢ncia + {beta_0_comb:.2f}")

## üéÆ Exerc√≠cio Pr√°tico 2: An√°lise Completa

Seu desafio final! Vou dar dados de **temperatura vs vendas de sorvete** e voc√™ vai fazer uma an√°lise completa:

**Tarefas:**
1. An√°lise explorat√≥ria
2. Implementar regress√£o linear
3. Avaliar o modelo
4. Analisar res√≠duos
5. Fazer 3 previs√µes
6. Dar sua conclus√£o final

**Dica do Pedro:** Use tudo que aprendemos at√© aqui! √â sua chance de brilhar! üåü

In [None]:
# EXERC√çCIO 2: Temperatura vs Vendas de Sorvete
np.random.seed(456)

# Dados: Temperatura (¬∞C) vs Vendas de Sorvete (unidades)
temperatura = np.array([18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40])
vendas_sorvete = np.array([45, 55, 65, 78, 85, 95, 110, 125, 140, 155, 170, 180]) + \
                np.random.normal(0, 8, len(temperatura))

print("üç¶ DADOS: TEMPERATURA VS VENDAS DE SORVETE")
print("Temperatura (¬∞C):", temperatura)
print("Vendas (unidades):", vendas_sorvete.astype(int))

# TODO: Sua an√°lise completa aqui!

# 1. AN√ÅLISE EXPLORAT√ìRIA
print("\nüìä 1. AN√ÅLISE EXPLORAT√ìRIA:")
# Calcule estat√≠sticas descritivas
# Fa√ßa gr√°fico de dispers√£o
# Calcule correla√ß√£o

# 2. REGRESS√ÉO LINEAR
print("\nüî¢ 2. REGRESS√ÉO LINEAR:")
# Implemente ou use sklearn
# Encontre Œ≤‚ÇÄ e Œ≤‚ÇÅ
# Interprete os coeficientes

# 3. AVALIA√á√ÉO DO MODELO
print("\nüìà 3. AVALIA√á√ÉO:")
# Calcule MSE, RMSE, R¬≤
# Fa√ßa gr√°fico com linha de regress√£o

# 4. AN√ÅLISE DE RES√çDUOS
print("\nüîç 4. RES√çDUOS:")
# Analise os res√≠duos
# Verifique normalidade

# 5. PREVIS√ïES
print("\nüéØ 5. PREVIS√ïES:")
# Preveja vendas para: 25¬∞C, 35¬∞C, 42¬∞C

# 6. CONCLUS√ÉO
print("\nüí≠ 6. SUA CONCLUS√ÉO:")
# O modelo √© bom? Por qu√™?
# Quais s√£o as limita√ß√µes?

print("\nüöÄ M√ÉOS √Ä OBRA! Complete todas as se√ß√µes acima.")

## ‚ö†Ô∏è Limita√ß√µes e Cuidados da Regress√£o Linear

Antes de terminar, √© importante conhecer as **limita√ß√µes** da regress√£o linear simples:

### üö® Pressupostos da Regress√£o Linear:

1. **Linearidade**: A rela√ß√£o entre X e Y deve ser linear
2. **Independ√™ncia**: As observa√ß√µes devem ser independentes
3. **Homocedasticidade**: Vari√¢ncia dos res√≠duos deve ser constante
4. **Normalidade**: Res√≠duos devem seguir distribui√ß√£o normal
5. **Aus√™ncia de Outliers**: Pontos extremos podem distorcer o modelo

### üîç Quando N√ÉO usar Regress√£o Linear:
- Rela√ß√£o n√£o-linear entre vari√°veis
- Dados categ√≥ricos (use regress√£o log√≠stica - M√≥dulo 6!)
- M√∫ltiplas vari√°veis independentes (use regress√£o m√∫ltipla)
- Dados com muitos outliers

**Dica do Pedro:** A regress√£o linear √© poderosa, mas n√£o √© martelo para todo parafuso! Sempre analise seus dados primeiro.

In [None]:
# Exemplo de quando a regress√£o linear N√ÉO funciona bem

# Criando dados com rela√ß√£o n√£o-linear (quadr√°tica)
x_nao_linear = np.linspace(-3, 3, 50)
y_nao_linear = x_nao_linear**2 + np.random.normal(0, 0.5, len(x_nao_linear))

# Tentando ajustar regress√£o linear em dados n√£o-lineares
modelo_ruim = LinearRegression()
modelo_ruim.fit(x_nao_linear.reshape(-1, 1), y_nao_linear)
y_pred_ruim = modelo_ruim.predict(x_nao_linear.reshape(-1, 1))

# R¬≤ vai ser baixo!
r2_ruim = r2_score(y_nao_linear, y_pred_ruim)

plt.figure(figsize=(12, 5))

# Subplot 1: Dados n√£o-lineares com linha linear
plt.subplot(1, 2, 1)
plt.scatter(x_nao_linear, y_nao_linear, alpha=0.6, color='red', label='Dados Reais')
plt.plot(x_nao_linear, y_pred_ruim, color='blue', linewidth=2, label='Regress√£o Linear')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'‚ùå Regress√£o Linear em Dados N√£o-Lineares\n(R¬≤ = {r2_ruim:.3f})')
plt.legend()
plt.grid(True, alpha=0.3)

# Subplot 2: Res√≠duos mostram padr√£o claro
residuos_ruim = y_nao_linear - y_pred_ruim
plt.subplot(1, 2, 2)
plt.scatter(y_pred_ruim, residuos_ruim, alpha=0.6, color='red')
plt.axhline(y=0, color='blue', linestyle='--')
plt.xlabel('Valores Previstos')
plt.ylabel('Res√≠duos')
plt.title('‚ùå Res√≠duos com Padr√£o Claro\n(Indica modelo inadequado)')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"‚ö†Ô∏è EXEMPLO DE MODELO INADEQUADO:")
print(f"R¬≤ = {r2_ruim:.3f} (muito baixo!)")
print(f"Os res√≠duos mostram um padr√£o claro - sinal de que o modelo linear n√£o √© adequado.")
print(f"\nSolu√ß√£o: Usar modelos n√£o-lineares ou transformar os dados!")

## üéä Resumo e Conex√µes com o Curso

Liiindo! Chegamos ao final do M√≥dulo 4! Vamos recapitular o que aprendemos:

### üß† O que vimos hoje:
1. **Conceito**: Regress√£o linear encontra a melhor linha reta nos dados
2. **Matem√°tica**: M√©todo dos m√≠nimos quadrados minimiza os erros ao quadrado
3. **F√≥rmulas**: Œ≤‚ÇÅ e Œ≤‚ÇÄ calculados com base nas m√©dias e vari√¢ncias
4. **Avalia√ß√£o**: MSE, RMSE e R¬≤ nos dizem qu√£o bom √© o modelo
5. **Res√≠duos**: An√°lise dos erros revela problemas do modelo

### üîó Conex√µes com m√≥dulos anteriores:
- **M√≥dulo 1**: Usamos m√©dia, vari√¢ncia e desvio padr√£o nas f√≥rmulas
- **M√≥dulo 2**: Assumimos distribui√ß√£o normal dos res√≠duos
- **M√≥dulo 3**: Aplicamos conceitos de probabilidade condicional

### üöÄ Preparando para os pr√≥ximos m√≥dulos:
- **M√≥dulo 5**: Vamos aprofundar correla√ß√£o e covari√¢ncia
- **M√≥dulo 6**: Regress√£o log√≠stica para classifica√ß√£o
- **M√≥dulo 7**: Amostragem e generaliza√ß√£o dos resultados

```mermaid
graph LR
    A[Dados X,Y] --> B[An√°lise Explorat√≥ria]
    B --> C[Verificar Correla√ß√£o]
    C --> D[Calcular Œ≤‚ÇÄ e Œ≤‚ÇÅ]
    D --> E[Fazer Previs√µes]
    E --> F[Avaliar com R¬≤, MSE]
    F --> G[Analisar Res√≠duos]
    G --> H[Modelo Final!]
```

**Dica do Pedro Final**: A regress√£o linear √© a base de muitos algoritmos de machine learning! Dominando ela, voc√™ tem uma base s√≥lida para algoritmos mais complexos.

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estat√≠stica-para-ia-modulo-04_img_05.png)

In [None]:
# üéâ PARAB√âNS! Voc√™ completou o M√≥dulo 4!

# Vamos criar um certificado visual do que voc√™ aprendeu
fig, ax = plt.subplots(figsize=(12, 8))

# Dados para demonstra√ß√£o final
x_final = np.linspace(0, 10, 100)
y_final = 2 * x_final + 1 + np.random.normal(0, 1, 100)

# Regress√£o final
modelo_final = LinearRegression()
modelo_final.fit(x_final.reshape(-1, 1), y_final)
y_pred_final = modelo_final.predict(x_final.reshape(-1, 1))

# Gr√°fico bonito
ax.scatter(x_final, y_final, alpha=0.5, color='lightblue', s=30)
ax.plot(x_final, y_pred_final, color='red', linewidth=3)

ax.set_xlabel('Vari√°vel Independente (X)', fontsize=14)
ax.set_ylabel('Vari√°vel Dependente (Y)', fontsize=14)
ax.set_title('üéì REGRESS√ÉO LINEAR SIMPLES - M√ìDULO 4 CONCLU√çDO!\n' + 
            'Voc√™ agora sabe como encontrar a linha que prev√™ o futuro!', 
            fontsize=16, pad=20)

# Anota√ß√µes educativas
ax.annotate('Pontos = Dados Reais', xy=(2, 6), xytext=(3, 15),
            arrowprops=dict(arrowstyle='->', color='blue'),
            fontsize=12, color='blue')

ax.annotate('Linha Vermelha = Modelo de Regress√£o', 
            xy=(7, 15), xytext=(5, 20),
            arrowprops=dict(arrowstyle='->', color='red'),
            fontsize=12, color='red')

ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print("üéâ PARAB√âNS! VOC√ä DOMINOU A REGRESS√ÉO LINEAR SIMPLES!")
print("\n‚úÖ Checklist do que voc√™ aprendeu:")
print("   ‚Ä¢ Conceitos matem√°ticos por tr√°s da regress√£o")
print("   ‚Ä¢ M√©todo dos m√≠nimos quadrados")
print("   ‚Ä¢ C√°lculo de Œ≤‚ÇÄ e Œ≤‚ÇÅ")
print("   ‚Ä¢ M√©tricas de avalia√ß√£o (MSE, RMSE, R¬≤)")
print("   ‚Ä¢ An√°lise de res√≠duos")
print("   ‚Ä¢ Implementa√ß√£o pr√°tica com Python")
print("   ‚Ä¢ Limita√ß√µes e cuidados")
print("\nüöÄ PR√ìXIMO M√ìDULO: Correla√ß√£o e Covari√¢ncia - Onde as Vari√°veis se Encontram")
print("\nBora continuar essa jornada incr√≠vel pela estat√≠stica! üìä‚ú®")