# 📊 Regressão Linear Simples - Divisão Treino/Teste no Modelo de Diabetes

## 🎯 Objetivo
Preparar o dataset e dividir em treino/teste para avaliar modelos de regressão com e sem IMC.

## 📦 Etapa 1: Importação das bibliotecas

In [1]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, r2_score

## 📂 Etapa 2: Carregando e preparando os dados


In [2]:
df = pd.read_csv("exame_diabes.csv")
df = df.drop(columns=["id_paciente"])
df = pd.get_dummies(df, columns=["genero"], drop_first=True)

# Criar coluna de IMC

In [3]:
df["altura_m"] = df["altura"] / 100
df["imc"] = df["peso"] / (df["altura_m"] ** 2)
df.drop(columns=["altura_m"], inplace=True)

## 📐 Etapa 3: Separar variáveis X (explicativas) e y (target)
### 🔹 Modelo 1: todas as features exceto 'resultado'

In [4]:
X1 = df.drop(columns=["resultado"])
y = df["resultado"]

### 🔹 Modelo 2: apenas 'imc' como preditor

In [5]:
X2 = df[["imc"]]

## ✂️ Etapa 4: Divisão treino/teste (70/30)

In [6]:
X1_train, X1_test, y1_train, y1_test = train_test_split(X1, y, test_size=0.3, random_state=42)
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y, test_size=0.3, random_state=42)

## 📈 Etapa 5: Treinar e avaliar modelos

In [7]:
modelo1 = LinearRegression().fit(X1_train, y1_train)
modelo2 = LinearRegression().fit(X2_train, y2_train)

In [8]:
y1_pred = modelo1.predict(X1_test)
y2_pred = modelo2.predict(X2_test)

In [9]:
print("Modelo 1 (todas as variáveis):")
print("MAE:", mean_absolute_error(y1_test, y1_pred))
print("R² :", r2_score(y1_test, y1_pred))

Modelo 1 (todas as variáveis):
MAE: 10.658071277528022
R² : -0.16015589060715918


In [11]:
print("\nModelo 2 (apenas IMC):")
print("MAE:", mean_absolute_error(y2_test, y2_pred))
print("R² :", r2_score(y2_test, y2_pred))


Modelo 2 (apenas IMC):
MAE: 9.906676504559353
R² : -0.05667934120992646


## ✅ Conclusão

- Dividimos os dados com `train_test_split` (70% treino, 30% teste)
- Avaliamos dois modelos:
  - Modelo 1: múltiplas features
  - Modelo 2: somente IMC
- Métricas como MAE e R² indicam qual modelo tem melhor desempenho preditivo
