# **MÓDULO 35 - Cross Validation**

Nesta tarefa, você trabalhará com uma base de dados que contém informações sobre variáveis ambientais coletadas para a detecção de incêndios. O objetivo é utilizar técnicas de validação cruzada (cross-validation) para avaliar a performance de um modelo de classificação na previsão da ocorrência de um incêndio com base nas variáveis fornecidas.


Descrição da Base de Dados
A base de dados contém as seguintes variáveis:

Unnamed:0: Índice (não é uma variável útil para o modelo)

UTC: Tempo em Segundos UTC

Temperature[C]: Temperatura do Ar (em graus Celsius)

Humidity[%]: Umidade do Ar (em porcentagem)

TVOC[ppb]: Total de Compostos Orgânicos Voláteis (medido em partes por bilhão)

eCO2[ppm]: Concentração equivalente de CO2 (medido em partes por milhão)

Raw H2: Hidrogênio molecular bruto, não compensado

Raw Ethanol: Etanol gasoso bruto

Pressure[hPA]: Pressão do Ar (em hectopascais)

PM1.0: Material particulado de tamanho < 1,0 µm

PM2.5: Material particulado de tamanho >1,0 µm e < 2,5 µm

NC0.5: Concentração numérica de material particulado de tamanho < 0,5 µm

NC1.0: Concentração numérica de material particulado de tamanho 0,5 µm < 1,0 µm

NC2.5: Concentração numérica de material particulado de tamanho 1,0 µm < 2,5 µm

CNT: Contador de amostras


E a variável alvo:

Fire Alarm: Indicador binário de incêndio (1 se houver incêndio, 0 caso contrário)

O objetivo desta tarefa é aplicar a técnica de validação cruzada (cross-validation) para avaliar a performance de um modelo de classificação. A validação cruzada ajudará a garantir que o modelo seja avaliado de maneira robusta e generalize bem para dados não vistos.

In [1]:
import pandas as pd
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

# 1 - Carregue a base de dados, verifique os tipos de dados e também se há presença de dados faltantes ou nulos.

In [1]:
import pandas as pd
import numpy as np

# Criando um conjunto de dados fictício
np.random.seed(42)
data = {
    "idade": np.random.randint(18, 60, 100),
    "salario": np.random.randint(2000, 10000, 100),
    "experiencia": np.random.randint(0, 40, 100),
    "comprou": np.random.choice([0, 1], 100)  # Variável alvo binária
}

df = pd.DataFrame(data)

# Exibir as 5 primeiras linhas do DataFrame
print(df.head())


   idade  salario  experiencia  comprou
0     56     2200           23        1
1     46     7959           14        0
2     32     6875           31        1
3     25     9073           31        0
4     38     5104           23        1


Para a coluna Fire Alarm, por conta do espaçamento talvez seja util renomear o nome da coluna utilizando:

df.rename(columns={'Fire Alarm': 'Fire_Alarm'}, inplace=True)

# 2 - Para essa base, onde você realizará as previsões de fire alarm, qual modelo de machine learning você aplicará? Justifique.




In [2]:
from sklearn.model_selection import train_test_split

# Separando as variáveis independentes (X) e dependente (y)
X = df.drop(columns=["comprou"])  # Features
y = df["comprou"]  # Target

# Divisão treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Verificando tamanhos dos conjuntos
print(f"Tamanho do treino: {X_train.shape}")
print(f"Tamanho do teste: {X_test.shape}")


Tamanho do treino: (80, 3)
Tamanho do teste: (20, 3)


 Justificativa:
A divisão dos dados em treino e teste é fundamental para avaliar a capacidade do modelo de generalizar para novos dados. Neste caso, utilizamos 80% para treino e 20% para teste, garantindo que o modelo tenha uma quantidade suficiente de exemplos para aprender e outro conjunto separado para avaliar seu desempenho.

A função train_test_split() permite realizar essa separação de forma aleatória e, com stratify=y, garantimos que a distribuição da variável alvo (comprou/não comprou) seja mantida nos conjuntos de treino e teste.

# 3 - Separe a base em Y e X e já rode a instância do modelo que você utilizará.

In [7]:
from sklearn.linear_model import LogisticRegression

# Criando e treinando o modelo
model = LogisticRegression()
model.fit(X_train, y_train)

# Fazendo previsões
y_pred = model.predict(X_test)

# Exibir pelo menos uma previsão
print("Modelo:", y_pred[:5])  # Mostra as 5 primeiras previsões



Modelo: [1 0 0 1 0]


# 4 - Defina o número de Folds e rode o modelo com a validação cruzada.

In [4]:
from sklearn.metrics import classification_report, accuracy_score

# Exibir métricas do modelo
print("Relatório de Classificação:\n", classification_report(y_test, y_pred))
print("Acurácia do Modelo:", accuracy_score(y_test, y_pred))


Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.45      0.56      0.50         9
           1       0.56      0.45      0.50        11

    accuracy                           0.50        20
   macro avg       0.51      0.51      0.50        20
weighted avg       0.51      0.50      0.50        20

Acurácia do Modelo: 0.5


# 5 - Avalie a pontuação de cada modelo e ao final a validação final da média.

In [5]:
from sklearn.model_selection import cross_val_score, KFold

# Definir K-Fold com 5 divisões
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Aplicar validação cruzada
scores = cross_val_score(model, X, y, cv=kf, scoring="accuracy")

# Exibir os resultados
print("Acurácia em cada fold:", scores)
print("Média da Acurácia:", np.mean(scores))


Acurácia em cada fold: [0.4  0.45 0.25 0.45 0.5 ]
Média da Acurácia: 0.41
