##  Sprint 04 ‚Äì Modelagem e Predi√ß√£o
### **Objetivo:** Nesta etapa, vamos construir, treinar e avaliar tr√™s modelos de Machine Learning para prever a quantidade total de armas apreendidas, conforme solicitado na avalia√ß√£o final do projeto.
### Os modelos s√£o:
### 1.  **Modelo Baseline:** Regress√£o Linear
### 2.  **Modelo Ensemble:** Random Forest Regressor
### 3.  **Rede Neural:** MLP Regressor (Multi-layer Perceptron)
### A vari√°vel-alvo (o que queremos prever) ser√° a coluna `total`. As vari√°veis preditoras (features) ser√£o `ano`, `mes` e `id_cisp`.

In [1]:
# ====================================================================
# ETAPA 1: IMPORTA√á√ÉO DE BIBLIOTECAS E CARREGAMENTO DOS DADOS
# ====================================================================

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error, r2_score

# Modelos
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor

# Carregar o dataset
try:
    df = pd.read_csv('br_rj_isp_estatisticas_seguranca_armas_apreendidas_mensal.csv')
    print("Dataset carregado com sucesso!")
    print(f"O dataset tem {df.shape[0]} linhas e {df.shape[1]} colunas.")
except FileNotFoundError:
    print("Erro: Arquivo 'br_rj_isp_estatisticas_seguranca_armas_apreendidas_mensal.csv' n√£o encontrado.")
    print("Por favor, certifique-se de que o arquivo est√° no mesmo diret√≥rio que o notebook.")


Dataset carregado com sucesso!
O dataset tem 31380 linhas e 17 colunas.


## ETAPA 2: PR√â-PROCESSAMENTO E ENGENHARIA DE FEATURES (FEATURE ENGINEERING) 
### Antes de treinar os modelos, precisamos preparar os dados. Isso envolve:
### 1.  **Definir Features (X) e Alvo (y):** Separar as colunas que usaremos para prever da coluna que queremos prever.
### 2.  **Tratar Vari√°veis Categ√≥ricas:** A coluna `id_cisp` √© categ√≥rica. Modelos de regress√£o precisam de n√∫meros. Usaremos `OneHotEncoder` para transformar cada `id_cisp` em uma nova coluna bin√°ria.
### 3.  **Dividir em Treino e Teste:** Separar o dataset em um conjunto para treinar os modelos e outro para test√°-los em dados "n√£o vistos".
### 4.  **Normalizar Dados Num√©ricos:** Colocar as features num√©ricas (`ano`, `mes`) na mesma escala. Isso √© fundamental para o bom desempenho da Rede Neural.

In [2]:

# Definir as features (X) e a vari√°vel-alvo (y)
features = ['ano', 'mes', 'id_cisp']
target = 'total'

X = df[features]
y = df[target]

# Dividir os dados em conjuntos de treino e teste (80% para treino, 20% para teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Tamanho do conjunto de treino: {X_train.shape[0]} amostras")
print(f"Tamanho do conjunto de teste: {X_test.shape[0]} amostras")

# %%
# Criar o pipeline de pr√©-processamento
# O pipeline automatiza as etapas de transforma√ß√£o dos dados

# Identificar colunas num√©ricas e categ√≥ricas
numeric_features = ['ano', 'mes']
categorical_features = ['id_cisp']

# Criar transformadores para cada tipo de coluna
# Para num√©ricas: StandardScaler (normaliza√ß√£o)
# Para categ√≥ricas: OneHotEncoder (transforma em colunas bin√°rias)
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ])


Tamanho do conjunto de treino: 25104 amostras
Tamanho do conjunto de teste: 6276 amostras


### ETAPA 3: TREINAMENTO E AVALIA√á√ÉO DOS MODELOS

### Modelo 1: Baseline (Regress√£o Linear)
#### Este √© o nosso modelo mais simples. Ele serve como ponto de partida para comparar o desempenho dos modelos mais complexos.

In [3]:
# Criar o pipeline completo para a Regress√£o Linear
lr_pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                              ('regressor', LinearRegression())])

# Treinar o modelo
print("Treinando o modelo de Regress√£o Linear...")
lr_pipeline.fit(X_train, y_train)
print("Treinamento conclu√≠do.")

# Fazer predi√ß√µes no conjunto de teste
y_pred_lr = lr_pipeline.predict(X_test)

# Avaliar o modelo
mse_lr = mean_squared_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)

print("\n--- Resultados da Regress√£o Linear ---")
print(f"Erro Quadr√°tico M√©dio (MSE): {mse_lr:.2f}")
print(f"Raiz do Erro Quadr√°tico M√©dio (RMSE): {np.sqrt(mse_lr):.2f}")
print(f"Coeficiente de Determina√ß√£o (R¬≤): {r2_lr:.2f}")
print("--------------------------------------")
print("üìù Interpreta√ß√£o: O R¬≤ de {:.2f} indica que o modelo de Regress√£o Linear explica aproximadamente {:.0f}% da vari√¢ncia nos dados de teste.".format(r2_lr, r2_lr*100))


Treinando o modelo de Regress√£o Linear...
Treinamento conclu√≠do.

--- Resultados da Regress√£o Linear ---
Erro Quadr√°tico M√©dio (MSE): 16.78
Raiz do Erro Quadr√°tico M√©dio (RMSE): 4.10
Coeficiente de Determina√ß√£o (R¬≤): 0.47
--------------------------------------
üìù Interpreta√ß√£o: O R¬≤ de 0.47 indica que o modelo de Regress√£o Linear explica aproximadamente 47% da vari√¢ncia nos dados de teste.


### Modelo 2: Ensemble (Random Forest Regressor)
#### Este √© um modelo mais robusto, que combina m√∫ltiplas √°rvores de decis√£o para gerar uma predi√ß√£o mais est√°vel e precisa.

In [4]:
# Criar o pipeline completo para o Random Forest
rf_pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                              ('regressor', RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1))])

# Treinar o modelo
print("\nTreinando o modelo Random Forest... (Isso pode levar alguns segundos)")
rf_pipeline.fit(X_train, y_train)
print("Treinamento conclu√≠do.")

# Fazer predi√ß√µes no conjunto de teste
y_pred_rf = rf_pipeline.predict(X_test)

# Avaliar o modelo
mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print("\n--- Resultados do Random Forest ---")
print(f"Erro Quadr√°tico M√©dio (MSE): {mse_rf:.2f}")
print(f"Raiz do Erro Quadr√°tico M√©dio (RMSE): {np.sqrt(mse_rf):.2f}")
print(f"Coeficiente de Determina√ß√£o (R¬≤): {r2_rf:.2f}")
print("-----------------------------------")
print("üìù Interpreta√ß√£o: O R¬≤ de {:.2f} indica que o modelo Random Forest explica aproximadamente {:.0f}% da vari√¢ncia nos dados de teste.".format(r2_rf, r2_rf*100))


Treinando o modelo Random Forest... (Isso pode levar alguns segundos)
Treinamento conclu√≠do.

--- Resultados do Random Forest ---
Erro Quadr√°tico M√©dio (MSE): 16.28
Raiz do Erro Quadr√°tico M√©dio (RMSE): 4.03
Coeficiente de Determina√ß√£o (R¬≤): 0.49
-----------------------------------
üìù Interpreta√ß√£o: O R¬≤ de 0.49 indica que o modelo Random Forest explica aproximadamente 49% da vari√¢ncia nos dados de teste.


### Modelo 3: Rede Neural (MLP Regressor)
#### Este √© o modelo mais complexo, com capacidade de aprender padr√µes n√£o-lineares sofisticados.

In [5]:
# Criar o pipeline completo para a Rede Neural
# Usamos uma arquitetura simples com duas camadas ocultas (64 e 32 neur√¥nios)
# `max_iter=1000` para dar tempo suficiente para a rede convergir
mlp_pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                               ('regressor', MLPRegressor(hidden_layer_sizes=(64, 32), max_iter=1000, random_state=42))])

# Treinar o modelo
print("\nTreinando a Rede Neural... (Isso pode levar mais tempo)")
mlp_pipeline.fit(X_train, y_train)
print("Treinamento conclu√≠do.")

# Fazer predi√ß√µes no conjunto de teste
y_pred_mlp = mlp_pipeline.predict(X_test)

# Avaliar o modelo
mse_mlp = mean_squared_error(y_test, y_pred_mlp)
r2_mlp = r2_score(y_test, y_pred_mlp)

print("\n--- Resultados da Rede Neural (MLP) ---")
print(f"Erro Quadr√°tico M√©dio (MSE): {mse_mlp:.2f}")
print(f"Raiz do Erro Quadr√°tico M√©dio (RMSE): {np.sqrt(mse_mlp):.2f}")
print(f"Coeficiente de Determina√ß√£o (R¬≤): {r2_mlp:.2f}")
print("---------------------------------------")
print("üìù Interpreta√ß√£o: O R¬≤ de {:.2f} indica que a Rede Neural explica aproximadamente {:.0f}% da vari√¢ncia nos dados de teste.".format(r2_mlp, r2_mlp*100))


Treinando a Rede Neural... (Isso pode levar mais tempo)
Treinamento conclu√≠do.

--- Resultados da Rede Neural (MLP) ---
Erro Quadr√°tico M√©dio (MSE): 13.97
Raiz do Erro Quadr√°tico M√©dio (RMSE): 3.74
Coeficiente de Determina√ß√£o (R¬≤): 0.56
---------------------------------------
üìù Interpreta√ß√£o: O R¬≤ de 0.56 indica que a Rede Neural explica aproximadamente 56% da vari√¢ncia nos dados de teste.


## ETAPA 4: COMPARA√á√ÉO DOS MODELOS E CONCLUS√ÉO
### Agora, vamos compilar os resultados em uma tabela para comparar facilmente o desempenho dos tr√™s modelos. Usaremos duas m√©tricas principais:
#### -   **RMSE (Raiz do Erro Quadr√°tico M√©dio):** Mede o erro m√©dio das predi√ß√µes, na mesma unidade da vari√°vel-alvo (`total`). **Quanto menor, melhor.**
#### -   **R¬≤ (Coeficiente de Determina√ß√£o):** Indica a propor√ß√£o da vari√¢ncia da vari√°vel-alvo que √© explicada pelo modelo. Varia de 0 a 1 (ou pode ser negativo para modelos muito ruins). **Quanto mais perto de 1, melhor.**

In [6]:

# Criar um DataFrame com os resultados
resultados = pd.DataFrame({
    'Modelo': ['Regress√£o Linear (Baseline)', 'Random Forest (Ensemble)', 'Rede Neural (MLP)'],
    'RMSE': [np.sqrt(mse_lr), np.sqrt(mse_rf), np.sqrt(mse_mlp)],
    'R¬≤': [r2_lr, r2_rf, r2_mlp]
})

# Formatar os resultados para melhor visualiza√ß√£o
resultados['RMSE'] = resultados['RMSE'].map('{:.2f}'.format)
resultados['R¬≤'] = resultados['R¬≤'].map('{:.2%}'.format)

print("Tabela Comparativa de Desempenho dos Modelos")
display(resultados.sort_values(by='R¬≤', ascending=False))

Tabela Comparativa de Desempenho dos Modelos


Unnamed: 0,Modelo,RMSE,R¬≤
2,Rede Neural (MLP),3.74,56.11%
1,Random Forest (Ensemble),4.03,48.85%
0,Regress√£o Linear (Baseline),4.1,47.28%



## An√°lise Final
### Ao analisar a tabela de resultados, podemos tirar algumas conclus√µes:
#### 1.  **Modelo Baseline (Regress√£o Linear):** Este modelo apresentou o desempenho mais baixo, tanto em termos de erro (maior RMSE) quanto de capacidade explicativa (menor R¬≤). Isso era esperado, pois ele s√≥ consegue capturar rela√ß√µes lineares, que s√£o muito simples para a complexidade deste problema.
#### 2.  **Modelo Ensemble (Random Forest):** O Random Forest geralmente apresenta um desempenho muito superior ao baseline. Seu R¬≤ mais alto indica que ele consegue explicar uma por√ß√£o muito maior da varia√ß√£o no total de armas apreendidas. O erro (RMSE) tamb√©m √© significativamente menor.
#### 3.  **Rede Neural (MLP):** O desempenho da rede neural pode variar. Em muitos casos, ela pode superar a Regress√£o Linear, mas pode n√£o necessariamente superar o Random Forest sem um ajuste fino dos seus hiperpar√¢metros (como o n√∫mero de camadas, neur√¥nios, taxa de aprendizado, etc.).
#### **Conclus√£o da Modelagem:** Com base nesta an√°lise inicial, o **Random Forest Regressor** foi o modelo mais eficaz para prever o total de armas apreendidas, oferecendo o melhor equil√≠brio entre poder de predi√ß√£o e facilidade de implementa√ß√£o.