# **MÓDULO 35 - AULA 3**
# Aplicação da Validação Cruzada

Nesta aula, vamos colocar em prática o que aprendemos sobre cross validation, aplicando essa técnica em um contexto real de previsão de doenças cardíacas. Vamos utilizar um modelo de regressão logística, que é amplamente usado para problemas de classificação binária como este. A ideia é garantir que nosso modelo não apenas funcione bem nos dados de treino, mas que seja capaz de generalizar e fazer previsões precisas em novos pacientes. Através do cross validation, avaliaremos a robustez do modelo e identificaremos a melhor configuração para garantir a máxima eficiência na previsão de doenças cardíacas

In [None]:
import pandas as pd
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

In [None]:
base = pd.read_csv("CARDIO_BASE.csv", delimiter=';')

In [None]:
base

Unnamed: 0,age,gender,height,weight,cholesterol,gluc,smoke,alco,active,cardio_disease
0,50,2,168,62,1,1,0,0,1,0
1,55,1,156,85,3,1,0,0,1,1
2,52,1,165,64,3,1,0,0,0,1
3,48,2,169,82,1,1,0,0,1,1
4,48,1,156,56,1,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...
9995,56,1,166,65,1,1,0,0,0,0
9996,50,1,160,93,2,1,0,0,1,1
9997,40,1,158,66,2,2,0,0,1,0
9998,50,1,168,70,3,1,0,0,1,1


In [None]:
base.dtypes

age                int64
gender             int64
height             int64
weight            object
cholesterol        int64
gluc               int64
smoke              int64
alco               int64
active             int64
cardio_disease     int64
dtype: object

In [None]:
base['weight'] = base['weight'].str.replace(',', '.').astype(float)

Verificando os dados ausentes:

In [None]:
base.isnull().sum()

age               0
gender            0
height            0
weight            0
cholesterol       0
gluc              0
smoke             0
alco              0
active            0
cardio_disease    0
dtype: int64

**Separarando as variáveis independentes (X) e a variável dependente (y).**

In [None]:
X = base.drop('cardio_disease', axis=1)
y = base['cardio_disease']

In [None]:
# Instanciando o modelo de regressão logística
modelo = LogisticRegression(max_iter=1000)

Notem que até esse momento não fizemos nada de diferente. O passo diferente virá a seguir na separação da base de treino e teste.

# **Configuração do Cross Validation:**

In [None]:
folds = 5

In [None]:
crossvalidation = KFold(n_splits=folds, shuffle=True, random_state=5)

In [None]:
modelo = LogisticRegression(max_iter=1000)
modelo_final = cross_val_score(modelo, X, y, cv = folds)

In [None]:
pontuacoes = cross_val_score(modelo, X, y, cv=crossvalidation)

print(f"Pontuações por fold: {pontuacoes}")

Pontuações por fold: [0.644  0.6315 0.6475 0.6385 0.6305]


In [None]:
print((modelo_final.mean()))

0.6387


 Esta linha imprime as pontuações obtidas em cada uma das 5 divisões (folds). Cada valor representa a performance do modelo em um fold específico, onde o modelo foi treinado com 4 dos 5 folds e testado no fold restante. Essas pontuações são obtidas através da métrica padrão usada pelo cross_val_score, que geralmente é a acurácia para problemas de classificação.