# **MÓDULO 35 - Cross Validation**

Nesta tarefa, você trabalhará com uma base de dados que contém informações sobre variáveis ambientais coletadas para a detecção de incêndios. O objetivo é utilizar técnicas de validação cruzada (cross-validation) para avaliar a performance de um modelo de classificação na previsão da ocorrência de um incêndio com base nas variáveis fornecidas.


Descrição da Base de Dados
A base de dados contém as seguintes variáveis:

Unnamed:0: Índice (não é uma variável útil para o modelo)

UTC: Tempo em Segundos UTC

Temperature[C]: Temperatura do Ar (em graus Celsius)

Humidity[%]: Umidade do Ar (em porcentagem)

TVOC[ppb]: Total de Compostos Orgânicos Voláteis (medido em partes por bilhão)

eCO2[ppm]: Concentração equivalente de CO2 (medido em partes por milhão)

Raw H2: Hidrogênio molecular bruto, não compensado

Raw Ethanol: Etanol gasoso bruto

Pressure[hPA]: Pressão do Ar (em hectopascais)

PM1.0: Material particulado de tamanho < 1,0 µm

PM2.5: Material particulado de tamanho >1,0 µm e < 2,5 µm

NC0.5: Concentração numérica de material particulado de tamanho < 0,5 µm

NC1.0: Concentração numérica de material particulado de tamanho 0,5 µm < 1,0 µm

NC2.5: Concentração numérica de material particulado de tamanho 1,0 µm < 2,5 µm

CNT: Contador de amostras


E a variável alvo:

Fire Alarm: Indicador binário de incêndio (1 se houver incêndio, 0 caso contrário)

O objetivo desta tarefa é aplicar a técnica de validação cruzada (cross-validation) para avaliar a performance de um modelo de classificação. A validação cruzada ajudará a garantir que o modelo seja avaliado de maneira robusta e generalize bem para dados não vistos.

In [3]:
# ## 1 - Importando bibliotecas necessárias

# %% 
# Pandas para manipulação de dados
import pandas as pd

# Modelos e métricas do scikit-learn
from sklearn.model_selection import train_test_split, cross_val_score, KFold
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score

# 1 - Carregue a base de dados, verifique os tipos de dados e também se há presença de dados faltantes ou nulos.

In [4]:
# Aqui carregamos o CSV e verificamos tipos de dados, presença de valores nulos e a estrutura da base.

# Carregando o dataset
df = pd.read_csv("Cientista de dados M35 - smoke_detection_iot.csv")  # Substitua pelo nome real do arquivo

# Mostrando as primeiras linhas para ter uma visão geral
print(df.head())

# Informações gerais sobre os tipos de dados e não nulos
print(df.info())

# Verificando se existem valores nulos
print(df.isnull().sum())

# Renomeando a coluna alvo para evitar problemas com espaços
df.rename(columns={'Fire Alarm': 'Fire_Alarm'}, inplace=True)


   Unnamed: 0         UTC  Temperature[C]  Humidity[%]  TVOC[ppb]  eCO2[ppm]  \
0           0  1654733331          20.000        57.36          0        400   
1           1  1654733332          20.015        56.67          0        400   
2           2  1654733333          20.029        55.96          0        400   
3           3  1654733334          20.044        55.28          0        400   
4           4  1654733335          20.059        54.69          0        400   

   Raw H2  Raw Ethanol  Pressure[hPa]  PM1.0  PM2.5  NC0.5  NC1.0  NC2.5  CNT  \
0   12306        18520        939.735    0.0    0.0    0.0    0.0    0.0    0   
1   12345        18651        939.744    0.0    0.0    0.0    0.0    0.0    1   
2   12374        18764        939.738    0.0    0.0    0.0    0.0    0.0    2   
3   12390        18849        939.736    0.0    0.0    0.0    0.0    0.0    3   
4   12403        18921        939.744    0.0    0.0    0.0    0.0    0.0    4   

   Fire Alarm  
0           0  


Para a coluna Fire Alarm, por conta do espaçamento talvez seja util renomear o nome da coluna utilizando:

df.rename(columns={'Fire Alarm': 'Fire_Alarm'}, inplace=True)

# 2 - Para essa base, onde você realizará as previsões de fire alarm, qual modelo de machine learning você aplicará? Justifique.




# ## 3 - Escolhendo o modelo de Machine Learning
 
 Vamos utilizar **Regressão Logística**, pois é um modelo simples, interpretable e eficiente para problemas de classificação binária como a detecção de incêndios (Fire_Alarm).
 
 Justificativa:
 - Fire_Alarm é binário (0 ou 1)
 - Regressão logística fornece probabilidades
 - Funciona bem como baseline para comparação com modelos mais complexos

# 3 - Separe a base em Y e X e já rode a instância do modelo que você utilizará.

In [None]:
# ## 4 - Separando variáveis independentes (X) e variável alvo (y)

# Variável alvo
y = df['Fire_Alarm']

# Variáveis preditoras (removendo colunas irrelevantes)
X = df.drop(['Fire_Alarm', 'Unnamed: 0'], axis=1, errors='ignore')

# Visualizando as dimensões de X e y
print("Shape X:", X.shape)
print("Shape y:", y.shape)

# 4 - Defina o número de Folds e rode o modelo com a validação cruzada.

In [11]:
# seu código aqui

# 5 - Avalie a pontuação de cada modelo e ao final a validação final da média.

In [16]:
# seu código aqui