# **MÓDULO 35 - Cross Validation**

Nesta tarefa, você trabalhará com uma base de dados que contém informações sobre variáveis ambientais coletadas para a detecção de incêndios. O objetivo é utilizar técnicas de validação cruzada (cross-validation) para avaliar a performance de um modelo de classificação na previsão da ocorrência de um incêndio com base nas variáveis fornecidas.


Descrição da Base de Dados
A base de dados contém as seguintes variáveis:

Unnamed:0: Índice (não é uma variável útil para o modelo)

UTC: Tempo em Segundos UTC

Temperature[C]: Temperatura do Ar (em graus Celsius)

Humidity[%]: Umidade do Ar (em porcentagem)

TVOC[ppb]: Total de Compostos Orgânicos Voláteis (medido em partes por bilhão)

eCO2[ppm]: Concentração equivalente de CO2 (medido em partes por milhão)

Raw H2: Hidrogênio molecular bruto, não compensado

Raw Ethanol: Etanol gasoso bruto

Pressure[hPA]: Pressão do Ar (em hectopascais)

PM1.0: Material particulado de tamanho < 1,0 µm

PM2.5: Material particulado de tamanho >1,0 µm e < 2,5 µm

NC0.5: Concentração numérica de material particulado de tamanho < 0,5 µm

NC1.0: Concentração numérica de material particulado de tamanho 0,5 µm < 1,0 µm

NC2.5: Concentração numérica de material particulado de tamanho 1,0 µm < 2,5 µm

CNT: Contador de amostras


E a variável alvo:

Fire Alarm: Indicador binário de incêndio (1 se houver incêndio, 0 caso contrário)

O objetivo desta tarefa é aplicar a técnica de validação cruzada (cross-validation) para avaliar a performance de um modelo de classificação. A validação cruzada ajudará a garantir que o modelo seja avaliado de maneira robusta e generalize bem para dados não vistos.

In [6]:
import pandas as pd
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 1 - Carregue a base de dados, verifique os tipos de dados e também se há presença de dados faltantes ou nulos.

In [2]:
df = pd.read_csv('Cientista de dados M35 - smoke_detection_iot.csv')
df.info()
# Não foi detectado nenhum valor ausente. 
# Apenas as colunas TVOC, NC e PM possuem valores zero não booleanos.
# Um TVOC = 0  presente em inúmeras linhas da coluna será mantido por didática, embora seja quase impossível obter esse valor de pureza.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 62630 entries, 0 to 62629
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Unnamed: 0      62630 non-null  int64  
 1   UTC             62630 non-null  int64  
 2   Temperature[C]  62630 non-null  float64
 3   Humidity[%]     62630 non-null  float64
 4   TVOC[ppb]       62630 non-null  int64  
 5   eCO2[ppm]       62630 non-null  int64  
 6   Raw H2          62630 non-null  int64  
 7   Raw Ethanol     62630 non-null  int64  
 8   Pressure[hPa]   62630 non-null  float64
 9   PM1.0           62630 non-null  float64
 10  PM2.5           62630 non-null  float64
 11  NC0.5           62630 non-null  float64
 12  NC1.0           62630 non-null  float64
 13  NC2.5           62630 non-null  float64
 14  CNT             62630 non-null  int64  
 15  Fire Alarm      62630 non-null  int64  
dtypes: float64(8), int64(8)
memory usage: 7.6 MB


Para a coluna Fire Alarm, por conta do espaçamento talvez seja util renomear o nome da coluna utilizando:

df.rename(columns={'Fire Alarm': 'Fire_Alarm'}, inplace=True)

In [3]:
df.rename(columns={'Fire Alarm': 'Fire_Alarm', 'Raw H2': 'Raw_H2', 'Raw Ethanol':'Raw_Ethanol'}, inplace=True)

# 2 - Para essa base, onde você realizará as previsões de fire alarm, qual modelo de machine learning você aplicará? Justifique.




In [None]:
# Irei realizar dois modelos distintos para essa tarefa, deixarei documentado o modelo que tiver menor desempenho.
# Irei testar o modelo de Regressão logística e Random Florest, se pudesse apostar minhas fichas em um deles, apostaria no Random Forest

# 3 - Separe a base em Y e X e já rode a instância do modelo que você utilizará.

In [11]:
# 3 - Random Forest
X = df.drop('Fire_Alarm',axis = 1)
Y = df['Fire_Alarm']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Iniciando o modelo Random Forest
rf_model = RandomForestClassifier(random_state=42)
# Treinando o modelo
rf_model.fit(X_train, Y_train)
# Fazendo previsões no conjunto de teste
Y_pred = rf_model.predict(X_test)
# Avaliando o modelo
accuracy = accuracy_score(Y_test, Y_pred)
report = classification_report(Y_test, Y_pred)
conf_matrix = confusion_matrix(Y_test, Y_pred)


print(f"Acurácia: {accuracy:.2f}")
print("Relatório de Classificação:\n", report)
print("Matriz de Confusão:\n", conf_matrix)

# O modelo apresentou um comportamento de predição PERFEITO.

Acurácia: 1.00
Relatório de Classificação:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00      3594
           1       1.00      1.00      1.00      8932

    accuracy                           1.00     12526
   macro avg       1.00      1.00      1.00     12526
weighted avg       1.00      1.00      1.00     12526

Matriz de Confusão:
 [[3594    0]
 [   0 8932]]


In [18]:
# 3 - Regressão Logística
X 
Y 
# Separação da base em treino e teste
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Iniciando o modelo de Regressão Logística
lr_model = LogisticRegression(random_state=42, max_iter=200)
# Treinando o modelo
lr_model.fit(X_train, Y_train)
# Fazendo previsões no conjunto de teste
Y_pred_lr = lr_model.predict(X_test)
# Avaliando o modelo
accuracy_lr = accuracy_score(Y_test, Y_pred_lr)
report_lr = classification_report(Y_test, Y_pred_lr)
conf_matrix_lr = confusion_matrix(Y_test, Y_pred_lr)

print(f"--- Resultados para Regressão Logística ---")
print(f"Acurácia: {accuracy_lr:.2f}")
print("Relatório de Classificação:\n", report_lr)
print("Matriz de Confusão:\n", conf_matrix_lr)

--- Resultados para Regressão Logística ---
Acurácia: 0.97
Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.93      0.98      0.96      3594
           1       0.99      0.97      0.98      8932

    accuracy                           0.97     12526
   macro avg       0.96      0.98      0.97     12526
weighted avg       0.98      0.97      0.97     12526

Matriz de Confusão:
 [[3530   64]
 [ 253 8679]]


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


# 4 - Defina o número de Folds e rode o modelo com a validação cruzada.

In [12]:
# 4 - Random Forest
kf = KFold(n_splits=5, shuffle=True, random_state=42)
cv_scores = cross_val_score(rf_model, X, Y, cv=kf, scoring='accuracy')
print(f"Acurácias por fold na validação cruzada: {cv_scores}")
print(f"Acurácia média da validação cruzada: {cv_scores.mean():.2f}")
print(f"Desvio padrão da acurácia: {cv_scores.std():.2f}")
# O desvio padrão de zero nos confirma consistência entre os splits realizados. 
# Os resultados todos próximos de 1 confirmam a robustez e capacidade preditória do modelo.

Acurácias por fold na validação cruzada: [1.         0.9997605  0.99984033 1.         0.99960083]
Acurácia média da validação cruzada: 1.00
Desvio padrão da acurácia: 0.00


In [19]:
# 4 - Regressão Logística
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Realizando a validação cruzada para o modelo de Regressão Logística
cv_scores_lr = cross_val_score(lr_model, X, Y, cv=kf, scoring='accuracy')

print(f"--- Resultados da Validação Cruzada para Regressão Logística ---")
print(f"Acurácias por fold na validação cruzada: {cv_scores_lr}")
print(f"Acurácia média da validação cruzada: {cv_scores_lr.mean():.2f}")
print(f"Desvio padrão da acurácia: {cv_scores_lr.std():.2f}")

STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


--- Resultados da Validação Cruzada para Regressão Logística ---
Acurácias por fold na validação cruzada: [0.97565065 0.97748683 0.97732716 0.97692799 0.97581031]
Acurácia média da validação cruzada: 0.98
Desvio padrão da acurácia: 0.00


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


# 5 - Avalie a pontuação de cada modelo e ao final a validação final da média.

In [16]:
# Com base nesses resultados, o modelo Random Forest é claramente superior para esta tarefa de detecção de incêndios no conjunto de dados.
# Sua capacidade de atingir 100% de precisão e recall, eliminando Falsos Positivos(quando não houve incêndio mas o algoritmo disse que houve) 
# e, principalmente, Falsos Negativos(quando houve incêndio o o algoritmo não previu), o torna a escolha ideal.