<a href="https://colab.research.google.com/github/MathMachado/DSWP/blob/master/Notebooks/NB15_ML_SL_REGRESSAO.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelos de Regressão

## O que é Regressão?

* A regressão é uma técnica de Machine Learning supervisionada usada para prever valores contínuos com base em variáveis independentes.

* Exemplos:
    * Prever o preço de imóveis com base no tamanho e localização.
    * Estimar a temperatura com base em dados históricos de clima.
    * Previsão de vendas futuras com base em gastos em marketing.

* Tipos de Regressão:

    * Regressão Linear Simples: Analisa a relação entre uma variável dependente e uma independente.
    * Regressão Linear Múltipla: Considera várias variáveis independentes para prever a dependente.
    * Regressão Polinomial: Modela relações não lineares entre variáveis.
    * Regressão Regularizada (Ridge, Lasso): Aplica penalização para evitar overfitting.

## Geração dos dados sintéticos



In [None]:
!pip install faker

In [None]:
from faker import Faker
import pandas as pd
import numpy as np

# Configurações iniciais
fake = Faker()
np.random.seed(42)

# Gerar dataset fake
data = {
    "idade": np.random.randint(18, 70, 2500),
    "renda_anual": np.random.normal(50000, 15000, 2500),
    "anos_experiencia": np.random.randint(1, 40, 2500),
    "pontuacao_credito": np.random.randint(300, 850, 2500),
    "possui_casa": np.random.choice([0, 1], 2500),
    "possui_carro": np.random.choice([0, 1], 2500),
    "gastos_mensais": np.random.normal(2000, 500, 2500),
    "poupanca": np.random.normal(20000, 10000, 2500),
    "valor_emprestimo": np.random.normal(100000, 50000, 2500),
    "prazo_emprestimo": np.random.choice([5, 10, 15, 20, 25, 30], 2500),
    "ocupacao": [fake.job() for _ in range(2500)],
    "setor": np.random.choice(["tecnologia", "financas", "saude", "educacao", "varejo"], 2500),
    "cidade": [fake.city() for _ in range(2500)],
    "estado": [fake.state_abbr() for _ in range(2500)],
    "n_dependentes": np.random.randint(0, 5, 2500),
    "regiao": np.random.choice(["norte", "sul", "leste", "oeste"], 2500),
    "educacao": np.random.choice(["ensino_medio", "graduacao", "mestrado", "doutorado"], 2500),
    "horas_trabalho_semanal": np.random.randint(20, 60, 2500),
    "tempo_empresa": np.random.randint(1, 20, 2500),
    "score_satisfacao": np.random.uniform(1, 5, 2500),
}

# Criação do DataFrame
df = pd.DataFrame(data)

# Adiciona uma variável dependente baseada em uma relação com outras variáveis
df["preco_predito"] = (
    5000
    + 30 * df["idade"]
    + 1.5 * df["renda_anual"]
    - 100 * df["anos_experiencia"]
    + 300 * df["possui_casa"]
    + np.random.normal(0, 5000, 2500)
)

df.head()

## Importar as bibliotecas necessárias


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


## Pré-processamento dos Dados Selecionamos apenas as variáveis numéricas e dividimos o dataset

In [None]:
# Seleção das variáveis numéricas
X = df[["idade", "renda_anual", "anos_experiencia", "possui_casa", "gastos_mensais"]]
y = df["preco_predito"]

# Divisão em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


## Treinamento do Modelo

In [None]:
# Criação e treinamento do modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)


## Avaliação do Modelo

In [None]:
# Previsões nos dados de teste
y_pred = modelo.predict(X_test)

# Métricas de avaliação
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print(f"MAE: {mae}")
print(f"MSE: {mse}")
print(f"RMSE: {rmse}")
print(f"R²: {r2}")


## Interpretação e Visualização
* Coeficientes do modelo de regressão

In [None]:
print("Coeficientes do Modelo:", modelo.coef_)
print("Intercepto:", modelo.intercept_)


* Visualização dos Resultados

In [None]:
import matplotlib.pyplot as plt

# Plot do verdadeiro vs predito
plt.scatter(y_test, y_pred)
plt.xlabel("Valores Verdadeiros")
plt.ylabel("Valores Preditos")
plt.title("Verdadeiro vs Predito")
plt.show()


## Conclusão
* Explicação dos coeficientes:
    * Cada coeficiente indica o impacto de uma variável na variável-alvo (preco_predito).
* Interpretação do R²:
    * Percentual de variação da variável-alvo explicado pelas variáveis independentes.
* Discussão sobre melhorias:
    * Incluir mais variáveis explicativas.
    * Testar modelos mais complexos como Random Forest Regressor.