# üìä Regress√£o Linear Simples - Divis√£o Treino/Teste no Modelo de Diabetes

## üéØ Objetivo
Preparar o dataset e dividir em treino/teste para avaliar modelos de regress√£o com e sem IMC.

## üì¶ Etapa 1: Importa√ß√£o das bibliotecas

In [1]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, r2_score

## üìÇ Etapa 2: Carregando e preparando os dados


In [2]:
df = pd.read_csv("exame_diabes.csv")
df = df.drop(columns=["id_paciente"])
df = pd.get_dummies(df, columns=["genero"], drop_first=True)

# Criar coluna de IMC

In [3]:
df["altura_m"] = df["altura"] / 100
df["imc"] = df["peso"] / (df["altura_m"] ** 2)
df.drop(columns=["altura_m"], inplace=True)

## üìê Etapa 3: Separar vari√°veis X (explicativas) e y (target)
### üîπ Modelo 1: todas as features exceto 'resultado'

In [4]:
X1 = df.drop(columns=["resultado"])
y = df["resultado"]

### üîπ Modelo 2: apenas 'imc' como preditor

In [5]:
X2 = df[["imc"]]

## ‚úÇÔ∏è Etapa 4: Divis√£o treino/teste (70/30)

In [6]:
X1_train, X1_test, y1_train, y1_test = train_test_split(X1, y, test_size=0.3, random_state=42)
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y, test_size=0.3, random_state=42)

## üìà Etapa 5: Treinar e avaliar modelos

In [7]:
modelo1 = LinearRegression().fit(X1_train, y1_train)
modelo2 = LinearRegression().fit(X2_train, y2_train)

In [8]:
y1_pred = modelo1.predict(X1_test)
y2_pred = modelo2.predict(X2_test)

In [9]:
print("Modelo 1 (todas as vari√°veis):")
print("MAE:", mean_absolute_error(y1_test, y1_pred))
print("R¬≤ :", r2_score(y1_test, y1_pred))

Modelo 1 (todas as vari√°veis):
MAE: 10.658071277528022
R¬≤ : -0.16015589060715918


In [11]:
print("\nModelo 2 (apenas IMC):")
print("MAE:", mean_absolute_error(y2_test, y2_pred))
print("R¬≤ :", r2_score(y2_test, y2_pred))


Modelo 2 (apenas IMC):
MAE: 9.906676504559353
R¬≤ : -0.05667934120992646


## ‚úÖ Conclus√£o

- Dividimos os dados com `train_test_split` (70% treino, 30% teste)
- Avaliamos dois modelos:
  - Modelo 1: m√∫ltiplas features
  - Modelo 2: somente IMC
- M√©tricas como MAE e R¬≤ indicam qual modelo tem melhor desempenho preditivo
