## Integrantes

Angello Turano RM: 556511

Cau√£ Sanches RM:558317

Leonardo Bianchi RM:558576




## Para prever o risco de queimadas com base em dados ambientais coletados por sensores IoT, desenvolvemos uma solu√ß√£o de machine learning com as seguintes etapas:

1. Gera√ß√£o de Dados Sint√©ticos
Como ainda n√£o h√° dados reais de sensores dispon√≠veis, simulamos um conjunto com 1.000 registros, contendo as seguintes vari√°veis ambientais:

temperatura (¬∞C)

umidade (%)

fumaca (ppm)

vento (km/h)

Tamb√©m criamos uma vari√°vel alvo chamada risco_queimada, com valor 1 (com risco) ou 0 (sem risco), baseado na hip√≥tese:

Se temperatura > 35¬∞C e umidade < 30% e fumaca > 120 ppm, ent√£o h√° risco de queimada.

2. Explora√ß√£o de Dados (EDA)
Realizamos uma an√°lise explorat√≥ria para entender melhor os dados:

Visualiza√ß√£o dos dados com histogramas;

Estat√≠sticas descritivas (m√©dia, desvio padr√£o, etc.);

Compara√ß√£o das m√©dias das vari√°veis entre os casos com e sem risco;

Verifica√ß√£o do equil√≠brio entre as classes (0 e 1).

3. Prepara√ß√£o dos Dados
Selecionamos as vari√°veis de entrada (temperatura, umidade, fumaca, vento) e a vari√°vel alvo (risco_queimada). Dividimos os dados em:

Treinamento (70%)

Teste (30%)

Mantivemos a propor√ß√£o de classes usando stratify no train_test_split.

4. Treinamento do Modelo
Utilizamos o algoritmo Random Forest, que √© robusto, n√£o-linear e funciona bem com dados tabulares e vari√°veis correlacionadas.

5. Avalia√ß√£o do Modelo
O modelo foi avaliado com:

Matriz de confus√£o

Relat√≥rio de classifica√ß√£o (precis√£o, recall, F1-score)

Valida√ß√£o cruzada (5-fold) para garantir robustez

6. Import√¢ncia das Vari√°veis
Calculamos a import√¢ncia dos sensores (vari√°veis) na previs√£o do risco de queimada. Isso nos ajuda a saber quais sensores s√£o mais relevantes:

Fuma√ßa ‚Üí maior impacto

Temperatura

Umidade

Vento ‚Üí menor impacto


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

%matplotlib inline

# 1. Gerar dados sint√©ticos
np.random.seed(42)
n_amostras = 1000

# ‚îÄ‚îÄ‚îÄ Simular dados dos sensores ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
temperatura = np.random.normal(loc=30, scale=5, size=n_amostras)
umidade = np.random.normal(loc=40, scale=10, size=n_amostras)
fumaca = np.random.normal(loc=100, scale=50, size=n_amostras)
vento = np.random.normal(loc=10, scale=3, size=n_amostras)

# ‚îÄ‚îÄ‚îÄ Criar r√≥tulos de risco (0 = sem risco, 1 = com risco) ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
risco_queimada = ((temperatura > 35) & (umidade < 30) & (fumaca > 120)).astype(int)

# Criar DataFrame com os dados
dados = pd.DataFrame({
    'temperatura': temperatura,
    'umidade': umidade,
    'fumaca': fumaca,
    'vento': vento,
    'risco_queimada': risco_queimada
})

# 2. Explora√ß√£o dos Dados (EDA)
print("Primeiras linhas do conjunto de dados:")
display(dados.head(10))

print("\nEstat√≠sticas descritivas:")
print(dados.describe())

# 2.1 Histograma das vari√°veis
fig, eixos = plt.subplots(2, 2, figsize=(12, 8))
eixos = eixos.flatten()
variaveis = ['temperatura', 'umidade', 'fumaca', 'vento']

for i, variavel in enumerate(variaveis):
    eixos[i].hist(dados[variavel], bins=30, edgecolor='black')
    eixos[i].set_title(f'Histograma de {variavel}')
    eixos[i].set_xlabel(variavel)
    eixos[i].set_ylabel('Frequ√™ncia')

plt.tight_layout()
plt.show()

# 2.2 Contagem de classes
print("\nDistribui√ß√£o de classes (risco de queimada):")
print(dados['risco_queimada'].value_counts())

# 2.3 M√©dias por classe
print("\nM√©dias das vari√°veis por classe (0 = sem risco, 1 = com risco):")
print(dados.groupby('risco_queimada').mean())

# 3. Separar vari√°veis independentes e alvo
X = dados[variaveis]
y = dados['risco_queimada']

# 3.1 Dividir dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

# 4. Treinar modelo Random Forest
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_treino, y_treino)

# 5. Avalia√ß√£o no conjunto de teste
y_previsto = modelo.predict(X_teste)

print("\nMatriz de Confus√£o:")
print(confusion_matrix(y_teste, y_previsto))

print("\nRelat√≥rio de Classifica√ß√£o:")
print(classification_report(y_teste, y_previsto))

# 6. Valida√ß√£o cruzada (5-fold)
validacoes = cross_val_score(modelo, X, y, cv=5, scoring='accuracy')
print("Acur√°cia por valida√ß√£o cruzada (5-fold):", validacoes)
print("Acur√°cia m√©dia:", validacoes.mean())

# 7. Import√¢ncia das vari√°veis
importancias = modelo.feature_importances_
importancia_variaveis = pd.Series(importancias, index=variaveis).sort_values(ascending=False)

print("\nImport√¢ncia das vari√°veis (sensores):")
print(importancia_variaveis)

# 7.1 Gr√°fico de import√¢ncia
plt.figure(figsize=(6, 4))
importancia_variaveis.plot(kind='bar', edgecolor='black')
plt.title('Import√¢ncia dos Sensores na Previs√£o de Queimada')
plt.xlabel('Sensor')
plt.ylabel('Import√¢ncia')
plt.tight_layout()
plt.show()

# 8. Conclus√£o
print("\nüîç Conclus√µes:")
print("- Hip√≥tese confirmada: alta temperatura, baixa umidade e alta fuma√ßa se correlacionam com risco.")
print("- Modelo Random Forest mostrou boa performance nas m√©tricas.")
print("- Import√¢ncia dos sensores ajuda a priorizar dispositivos no sistema IoT.")


‚úÖ Justificativa da Escolha do Modelo de Machine Learning e da T√©cnica Aplicada
Para o desenvolvimento do modelo preditivo de risco de queimadas com base em dados ambientais captados por sensores IoT, foi escolhida a t√©cnica de classifica√ß√£o supervisionada com o algoritmo Random Forest Classifier. A justificativa para essa escolha se baseia em diversos crit√©rios t√©cnicos, conforme descrito a seguir:

üîé 1. Tipo de Problema: Classifica√ß√£o Bin√°ria
O problema em quest√£o envolve prever se uma determinada combina√ß√£o de vari√°veis ambientais representa risco de queimada (1) ou n√£o representa risco (0). Isso caracteriza um problema t√≠pico de classifica√ß√£o bin√°ria supervisionada, em que o modelo aprende a partir de exemplos rotulados.

üå≥ 2. Escolha do Modelo: Random Forest
O modelo selecionado foi o Random Forest, que √© um conjunto de √°rvores de decis√£o (ensemble). Ele apresenta v√°rias vantagens em rela√ß√£o a modelos simples como regress√£o log√≠stica ou uma √∫nica √°rvore de decis√£o:

‚úÖ Robustez a ru√≠dos e overfitting: por combinar m√∫ltiplas √°rvores, o modelo reduz o risco de overfitting presente em √°rvores isoladas.

‚úÖ Capacidade de lidar com rela√ß√µes n√£o lineares: as intera√ß√µes entre temperatura, umidade e fuma√ßa nem sempre seguem padr√µes lineares. O Random Forest trata bem essas complexidades.

‚úÖ Import√¢ncia das vari√°veis: o modelo oferece uma m√©trica clara de quais sensores (vari√°veis) s√£o mais relevantes para o risco de queimada.

‚úÖ Boa performance sem necessidade de muito ajuste de hiperpar√¢metros: ideal para projetos acad√™micos com tempo limitado.

‚öôÔ∏è 3. T√©cnica Aplicada: Pipeline Supervisionado com Valida√ß√£o
O processo adotado seguiu as boas pr√°ticas de ci√™ncia de dados, com as seguintes etapas:

üìä Explora√ß√£o e limpeza dos dados: an√°lise estat√≠stica e visual para entendimento dos dados.

üß™ Divis√£o entre treino e teste (70/30), com estratifica√ß√£o da vari√°vel alvo.

üß† Treinamento do modelo com Random Forest utilizando scikit-learn.

üìà Avalia√ß√£o com m√©tricas de classifica√ß√£o (precis√£o, recall, F1-score) e valida√ß√£o cruzada (cross-validation 5-fold) para testar a estabilidade do modelo.

üìä An√°lise da import√¢ncia das vari√°veis para justificar tecnicamente o uso de sensores espec√≠ficos.

üß† 4. Por que n√£o foram escolhidos outros modelos?
‚ùå Regress√£o log√≠stica: assume rela√ß√£o linear entre vari√°veis, o que n√£o se aplica bem ao problema.

‚ùå SVM: embora eficiente, exige mais ajuste e n√£o √© t√£o interpret√°vel quanto Random Forest.

‚ùå Redes neurais: embora potentes, seriam desnecess√°rias para esse problema relativamente simples, al√©m de menos interpret√°veis e mais custosas computacionalmente.

üéØ Conclus√£o da Justificativa
O modelo Random Forest foi escolhido por sua efici√™ncia, precis√£o e capacidade de interpretar vari√°veis ambientais complexas. Al√©m disso, sua robustez e baixa exig√™ncia de ajuste fino o tornam ideal para aplica√ß√µes pr√°ticas com sensores IoT, em que os dados podem apresentar ru√≠dos e varia√ß√µes.

Essa escolha garante bom desempenho preditivo e facilidade de integra√ß√£o em sistemas de monitoramento em tempo real para preven√ß√£o de queimadas.

