<a href="https://colab.research.google.com/github/MathMachado/DSWP/blob/master/Notebooks/NB15_ML_SL_REGRESSAO.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelos de Regressão

## O que é Regressão?

* A regressão é uma técnica de Machine Learning supervisionada usada para prever valores contínuos com base em variáveis independentes.

* Exemplos:
    * Prever o preço de imóveis com base no tamanho e localização.
    * Estimar a temperatura com base em dados históricos de clima.
    * Previsão de vendas futuras com base em gastos em marketing.

* Tipos de Regressão:

    * Regressão Linear Simples: Analisa a relação entre uma variável dependente e uma independente.
    * Regressão Linear Múltipla: Considera várias variáveis independentes para prever a dependente.
    * Regressão Polinomial: Modela relações não lineares entre variáveis.
    * Regressão Regularizada (Ridge, Lasso): Aplica penalização para evitar overfitting.

## Geração dos dados sintéticos



In [None]:
!pip install faker

In [None]:
from faker import Faker
import pandas as pd
import numpy as np

# Configurações iniciais
fake = Faker()
np.random.seed(42)

# Gerar dataset fake
data = {
    "idade": np.random.randint(18, 70, 2500),
    "renda_anual": np.random.normal(50000, 15000, 2500),
    "anos_experiencia": np.random.randint(1, 40, 2500),
    "pontuacao_credito": np.random.randint(300, 850, 2500),
    "possui_casa": np.random.choice([0, 1], 2500),
    "possui_carro": np.random.choice([0, 1], 2500),
    "gastos_mensais": np.random.normal(2000, 500, 2500),
    "poupanca": np.random.normal(20000, 10000, 2500),
    "valor_emprestimo": np.random.normal(100000, 50000, 2500),
    "prazo_emprestimo": np.random.choice([5, 10, 15, 20, 25, 30], 2500),
    "ocupacao": [fake.job() for _ in range(2500)],
    "setor": np.random.choice(["tecnologia", "financas", "saude", "educacao", "varejo"], 2500),
    "cidade": [fake.city() for _ in range(2500)],
    "estado": [fake.state_abbr() for _ in range(2500)],
    "n_dependentes": np.random.randint(0, 5, 2500),
    "regiao": np.random.choice(["norte", "sul", "leste", "oeste"], 2500),
    "educacao": np.random.choice(["ensino_medio", "graduacao", "mestrado", "doutorado"], 2500),
    "horas_trabalho_semanal": np.random.randint(20, 60, 2500),
    "tempo_empresa": np.random.randint(1, 20, 2500),
    "score_satisfacao": np.random.uniform(1, 5, 2500),
}

# Criação do DataFrame
df = pd.DataFrame(data)

# Adiciona uma variável dependente baseada em uma relação com outras variáveis
df["preco_predito"] = (
    5000
    + 30 * df["idade"]
    + 1.5 * df["renda_anual"]
    - 100 * df["anos_experiencia"]
    + 300 * df["possui_casa"]
    + np.random.normal(0, 5000, 2500)
)

df.head()

## Importar as bibliotecas necessárias


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


## Pré-processamento dos Dados Selecionamos apenas as variáveis numéricas e dividimos o dataset

In [None]:
# Seleção das variáveis numéricas
X = df[["idade", "renda_anual", "anos_experiencia", "possui_casa", "gastos_mensais"]]
y = df["preco_predito"]

# Divisão em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


## Treinamento do Modelo

In [None]:
# Criação e treinamento do modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)


## Avaliação do Modelo

In [None]:
# Previsões nos dados de teste
y_pred = modelo.predict(X_test)

# Métricas de avaliação
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print(f"MAE: {mae}")
print(f"MSE: {mse}")
print(f"RMSE: {rmse}")
print(f"R²: {r2}")


## Interpretação e Visualização
* Coeficientes do modelo de regressão

In [None]:
print("Coeficientes do Modelo:", modelo.coef_)
print("Intercepto:", modelo.intercept_)


* Visualização dos Resultados

A reta de regressão, neste caso, é dada por $y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + \beta_4X_4 + \beta_5X_5 = intercepto + 23.01idade + 1.49renda_anual - 116.66anos_experiencia + 502.72possui_casa + 0.67gastos_mensais$.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Ajuste do modelo linear para plotar a reta de regressão
# Calculando a linha de regressão com base nos valores preditos e reais
coef = np.polyfit(y_test, y_pred, 1)  # Encontra os coeficientes da reta (a*x + b)
poly1d_fn = np.poly1d(coef)  # Gera a função da reta

# Plot dos pontos verdadeiros vs preditos
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, alpha=0.5, label="Pontos (Verdadeiro vs Predito)")
plt.plot(y_test, poly1d_fn(y_test), color='red', label="Reta de Regressão")  # Adiciona a reta de regressão
plt.xlabel("Valores Verdadeiros")
plt.ylabel("Valores Preditos")
plt.title("Verdadeiro vs Predito com Reta de Regressão")
plt.legend()
plt.show()



## Conclusão
* Explicação dos coeficientes:
    * Cada coeficiente indica o impacto de uma variável na variável-alvo (preco_predito).
* Interpretação do R²:
    * Percentual de variação da variável-alvo explicado pelas variáveis independentes.
* Discussão sobre melhorias:
    * Incluir mais variáveis explicativas.
    * Testar modelos mais complexos como Random Forest Regressor.

# Aplicações Práticas da Regressão

A regressão tem diversas aplicações práticas em áreas como negócios, ciência, engenharia e saúde. Aqui estão alguns exemplos organizados por setor:

### **1. Negócios e Finanças**
- **Previsão de Vendas:** Estimar vendas futuras com base em gastos com marketing, sazonalidade ou histórico de vendas.
- **Precificação de Produtos:** Determinar o preço ideal de produtos com base em variáveis como custo de produção, demanda e concorrência.
- **Análise de Crédito:** Prever a probabilidade de um cliente pagar um empréstimo, utilizando variáveis como renda, idade e histórico de crédito.
- **Modelagem de Risco:** Avaliar riscos financeiros, como variações em taxas de câmbio ou preços de ações.

### **2. Saúde**
- **Previsão de Doenças:** Estimar a progressão de doenças crônicas com base em dados como idade, histórico médico e hábitos de vida.
- **Custo de Tratamento:** Prever custos hospitalares com base no tipo de tratamento, idade do paciente e condições pré-existentes.
- **Pesquisa Médica:** Analisar a eficácia de medicamentos ou terapias usando dados experimentais.

### **3. Engenharia e Tecnologia**
- **Manutenção Preditiva:** Prever falhas em equipamentos com base em medições como temperatura, vibração e ciclos de uso.
- **Otimização de Processos:** Estimar tempos de produção ou eficiência energética em processos industriais.
- **Controle de Qualidade:** Analisar dados de sensores para prever defeitos em produtos durante a fabricação.

### **4. Marketing e Varejo**
- **Segmentação de Clientes:** Identificar padrões de consumo e prever o comportamento de compra de diferentes segmentos.
- **Análise de Campanhas Publicitárias:** Avaliar o impacto de campanhas em métricas como cliques ou conversões.
- **Gestão de Estoque:** Prever a demanda de produtos com base em tendências de mercado.

### **5. Ciência e Meio Ambiente**
- **Previsão de Mudanças Climáticas:** Modelar variações em temperatura, níveis de poluição e padrões de chuva ao longo do tempo.
- **Estimativas Populacionais:** Projetar o crescimento populacional em regiões específicas.
- **Estudo de Fenômenos Naturais:** Prever a intensidade de eventos como terremotos, tsunamis ou furacões.

### **6. Educação**
- **Predição de Desempenho Escolar:** Estimar o desempenho dos alunos com base em frequência, histórico acadêmico e participação em atividades extracurriculares.
- **Análise de Taxas de Evasão:** Prever quais alunos têm maior probabilidade de abandonar os estudos.

### **7. Transporte e Logística**
- **Previsão de Tráfego:** Estimar o fluxo de tráfego em horários e locais específicos.
- **Otimização de Rotas:** Calcular tempos de entrega ou custos de transporte.
- **Manutenção de Veículos:** Prever a necessidade de manutenção com base no uso e idade dos veículos.

### **8. Ciências Sociais**
- **Análise Econômica:** Estimar indicadores como inflação, PIB ou desemprego com base em fatores econômicos.
- **Estudos Demográficos:** Prever tendências populacionais, como taxas de natalidade ou migração.

### **9. Esportes**
- **Previsão de Desempenho:** Estimar o desempenho de atletas em competições com base em treinos e histórico.
- **Análise de Estatísticas:** Modelar resultados de jogos ou campeonatos.

### **10. Energia e Recursos Naturais**
- **Estimativa de Consumo:** Prever o consumo de energia elétrica com base em padrões de uso.
- **Exploração de Recursos:** Modelar a produção de petróleo ou gás com base em dados geológicos.

### Benefícios das Aplicações Práticas de Regressão
- Ajuda na **tomada de decisão baseada em dados**.
- Melhora o **planejamento e previsões**.
- Aumenta a eficiência e reduz custos operacionais.
- Fornece insights detalhados sobre os fatores que impactam os resultados.

Esses exemplos mostram como a regressão pode ser aplicada para resolver problemas reais, trazendo valor significativo em diferentes áreas.

## Métricas para avaliar a performance dos modelos de Regressão
### **Diferença entre RMSE e MAE**

O **RMSE (Root Mean Squared Error)** e o **MAE (Mean Absolute Error)** são métricas usadas para avaliar a precisão de modelos de regressão, medindo o erro entre os valores preditos e os valores reais. Ambos têm usos específicos e características distintas.

---

### **1. RMSE - Root Mean Squared Error**
O RMSE calcula a raiz quadrada da média dos erros ao quadrado. A fórmula é:

$
RMSE = \sqrt{\frac{\sum_{i=1}^n (\hat{y}_i - y_i)^2}{n} }
$

- **Interpretação:**
  - Penaliza mais fortemente os erros grandes devido ao uso do quadrado na fórmula.
  - É sensível a outliers, pois erros maiores têm um impacto desproporcional.
  - Mede o erro em uma escala semelhante à variável-alvo.

- **Vantagem:**
  - Útil em casos onde erros grandes devem ser tratados com mais rigor.
  - Ideal para aplicações como previsões financeiras ou sistemas críticos onde grandes erros podem ser mais prejudiciais.

- **Desvantagem:**
  - Menos intuitivo, pois o impacto de erros grandes pode não ser proporcional ao contexto.

---

### **2. MAE - Mean Absolute Error**
O MAE calcula a média das diferenças absolutas entre os valores preditos e os reais. A fórmula é:

$
MAE = \frac{\sum_{i=1}^n |\hat{y}_i - y_i|}{n}
$

- **Interpretação:**
  - Mede o erro médio em termos absolutos, sem considerar a direção (positivo ou negativo).
  - Penaliza erros de forma linear, ou seja, cada erro tem o mesmo impacto na métrica.

- **Vantagem:**
  - Mais robusto a outliers, já que não eleva os erros ao quadrado.
  - Fácil de interpretar, pois está na mesma escala da variável-alvo.

- **Desvantagem:**
  - Não diferencia bem entre erros pequenos e grandes, tratando todos de forma linear.

---

### **Diferenças Práticas**
| Aspecto                  | RMSE                                  | MAE                                   |
|--------------------------|---------------------------------------|---------------------------------------|
| **Sensibilidade a Outliers** | Alta (erros grandes têm maior impacto) | Baixa (erros são tratados linearmente) |
| **Escala**               | Mesma escala que a variável-alvo     | Mesma escala que a variável-alvo     |
| **Uso Geral**            | Prioriza penalização de erros grandes | Mede erros médios sem distorções      |
| **Complexidade**         | Mais complexo de interpretar         | Mais simples de entender             |

---

### **Quando usar cada um?**
- **RMSE:**
  - Quando grandes erros são mais críticos e precisam ser penalizados mais severamente.
  - Exemplo: Sistemas de previsão financeira ou previsão meteorológica.

- **MAE:**
  - Quando você quer uma medida mais robusta e simples de erro médio.
  - Exemplo: Previsão de vendas onde erros extremos não têm um impacto desproporcional.

Em resumo, o RMSE é mais sensível a erros grandes e enfatiza a precisão global, enquanto o MAE é mais intuitivo e robusto em relação a outliers. A escolha depende do objetivo da análise e do impacto que grandes erros têm no problema em questão.

# Exercícios
* Usando o dataframe que acabamos de criar, responda:

1. Exploração dos Dados
Pergunta: Carregue a base de dados e responda:
- Qual é o tamanho do dataset?
- Quantas variáveis são numéricas e quantas são categóricas?
- Qual é a média, mediana e desvio padrão da variável `preco_predito`?

Objetivo: Familiarizar-se com a estrutura do dataset antes de aplicar os modelos.

---

2. Correlação entre Variáveis
Pergunta: Calcule a correlação entre todas as variáveis numéricas. Quais variáveis têm maior correlação com a variável `preco_predito`?

Objetivo: Identificar relações entre variáveis e selecionar potenciais preditores.

---

3. Divisão do Dataset
Pergunta: Divida o dataset em conjuntos de treino (70%) e teste (30%). Certifique-se de que a proporção de `preco_predito` é preservada em ambos os conjuntos.

Objetivo: Treinar a habilidade de dividir dados corretamente para modelos de aprendizado supervisionado.

---

4. Treinamento de um Modelo Linear
Pergunta: Treine um modelo de regressão linear usando as variáveis numéricas como preditores (`idade`, `renda_anual`, `anos_experiencia`, `possui_casa`, `gastos_mensais`) para prever `preco_predito`. Qual é o valor do R² nos dados de treino?

Objetivo: Aprender a ajustar um modelo linear básico e interpretar métricas.

---

5. Avaliação do Modelo Linear
Pergunta: Avalie o modelo de regressão linear nos dados de teste. Calcule as métricas:
- MAE (Mean Absolute Error)
- RMSE (Root Mean Squared Error)
- R²

Objetivo: Entender como avaliar a performance de um modelo preditivo.

---

6. Interpretação dos Coeficientes
Pergunta: Exiba os coeficientes da regressão linear. Quais variáveis têm o maior impacto (positivo ou negativo) em `preco_predito`? Interprete esses coeficientes no contexto do problema.

Objetivo: Desenvolver a habilidade de interpretar os coeficientes do modelo.

---

7. Visualização dos Resultados
Pergunta: Crie um gráfico de dispersão mostrando os valores verdadeiros (`preco_predito`) versus os valores preditos. Inclua a reta de regressão para destacar a tendência.

Objetivo: Visualizar a performance do modelo e identificar possíveis desvios.

---

8. Regressão Polinomial
Pergunta: Ajuste um modelo de regressão polinomial (grau 2) para prever `preco_predito` usando as variáveis numéricas. O modelo polinomial melhora a performance em comparação ao modelo linear?

Objetivo: Explorar como modelos mais complexos podem melhorar a precisão em dados não lineares.

---

9. Detecção de Outliers
Pergunta: Identifique os outliers nos resíduos do modelo de regressão linear (diferença entre valores reais e preditos). Quantos outliers foram encontrados (valores fora de 3 desvios padrão)?

Objetivo: Ensinar técnicas de análise de resíduos e tratamento de outliers.

---

10. Comparação entre Modelos
Pergunta: Compare os modelos:
- Regressão Linear Simples
- Regressão Polinomial
- Random Forest Regressor

Use as métricas MAE, RMSE e R² para determinar qual modelo oferece o melhor desempenho. Quais são os pontos fortes e fracos de cada abordagem?

Objetivo: Compreender os benefícios e limitações de diferentes modelos de regressão.