# 🧠 Preparação de Variáveis Categóricas para Modelos de Regressão

## 🎯 Objetivo
Converter variáveis categóricas em numéricas usando **One-Hot Encoding**, e preparar o dataset para uso em modelos de regressão.

## 📦 Etapa 1: Importar bibliotecas

In [1]:
import pandas as pd

## 📂 Etapa 2: Carregar o dataset

In [2]:
df = pd.read_csv("exame_diabes.csv")
df.head()

Unnamed: 0,id_paciente,genero,idade,peso,altura,resultado
0,1,M,46,83,165,98
1,2,F,23,83,164,82
2,3,M,39,71,154,93
3,4,F,26,103,165,95
4,5,M,27,55,176,100


## 🔍 Etapa 3: Remover colunas irrelevantes

In [3]:
# 'id_paciente' é uma coluna apenas identificadora
df = df.drop(columns=["id_paciente"])

## 🧠 Etapa 4: Aplicar One-Hot Encoding na variável 'genero'

In [4]:
df_encoded = pd.get_dummies(df, columns=["genero"], drop_first=True)
df_encoded.head()

Unnamed: 0,idade,peso,altura,resultado,genero_M
0,46,83,165,98,True
1,23,83,164,82,False
2,39,71,154,93,True
3,26,103,165,95,False
4,27,55,176,100,True


## ℹ️ Etapa 5: Visualizar o resultado

In [5]:
print("Colunas após codificação:")
print(df_encoded.columns)

Colunas após codificação:
Index(['idade', 'peso', 'altura', 'resultado', 'genero_M'], dtype='object')


## ✅ Conclusão
Agora temos:
- A variável 'genero' convertida em binária (`genero_M`)
- Somente variáveis numéricas no dataset
- Pronto para ser utilizado em modelos de regressão