<a href="https://colab.research.google.com/github/andre290409/caminhos_da_estatistica/blob/main/ML7_ex_projeto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="http://meusite.mackenzie.br/rogerio/mackenzie_logo/UPM.2_horizontal_vermelho.jpg"  width=300, align="right">
<br>
<br>
<br>
<br>
<br>

# ***Título do seu projeto***
---

$\rightarrow$ **esta célula deve ser removida na entrega do projeto**

Siga este template para entrega do seu projeto. O código deste notebook precisa ser 100% executável, sem a necessidade de qualquer operação adicional como por exemplo a download, cópia ou alteração de arquivos. Crie assim repositórios públicos para suas bases de dados, por exemplo, disponibilizando-as no GitHub.

## Entregas na Tarefa do Moodle

1. Poste este Python notebook (.ipynb) modificado com o seu projeto.
2. Poste o endereço (link) do Python notebook do seu projeto compartilhado (público para leitura) nos comentários da tarefa
3. Um vídeo de até 5min com a apresentação do seu projeto em formato .mp4
4. Opcional, poste o .pptx da apresentação

## Vídeo

O vídeo deve contemplar:

1. Apresentação e Justificativa do seu problema
2. A abordagem dada ao problema (fonte dos dados, transformações, modelos avaliados)
3. A solução e seus resultados
4. Diferenciais e Melhorias Futuras do trabalho (modelos e técnicas diferenciadas que foram empregadas, limitações do modelo atual e como melhora-las etc.)







In [78]:
#@title Identificação do Grupo

#@markdown Integrantes do Grupo (*informe \<TIA\>,\<nome\>*)
Aluno1 = '10424359, André Gustavo' #@param {type:"string"}




# **Apresentação**

# Problema

Este projeto visa prever o volume de movimentações migratórias em diferentes Unidades Federativas (UFs) do Brasil, com base em dados históricos (Desde Agosto/2024 até Outubro/2024). A escolha do problema se justifica pela relevância crescente do monitoramento de fluxos migratórios, seja para fins de segurança pública, seja para apoiar o planejamento de recursos e políticas públicas voltadas ao controle e apoio de migrantes. A previsão de tais movimentações permite uma melhor distribuição de recursos e a mitigação de potenciais desafios logísticos e econômicos.


# Referencial Teórico

O referencial teórico envolve duas áreas principais: análise de movimentação migratória e técnicas de previsão com aprendizado de máquina. O estudo de movimentação migratória inclui as variáveis sociais, econômicas e políticas que influenciam a entrada e saída de migrantes. Já no campo técnico, foram consideradas técnicas de aprendizado supervisionado, como a regressão linear e o Random Forest, amplamente aplicadas em previsões contínuas. A regressão linear é simples e eficiente para relações lineares, enquanto o Random Forest, uma técnica de ensemble, captura interações complexas entre variáveis, oferecendo robustez frente a ruídos e não-linearidades.

# Metodologia

O projeto seguiu as seguintes etapas:

Aquisição dos Dados: Dados migratórios mensais de diferentes UFs, contendo colunas como UF de atendimento, tipo de movimentação, classificação, nacionalidade e o total de movimentações.

Tratamento e Pré-processamento dos Dados: Foram realizadas limpezas, incluindo a substituição de outliers e a normalização de valores, além do tratamento de valores nulos e categóricos.

Divisão dos Dados: Separação dos dados em conjunto de treinamento e teste para validação.

Modelos Utilizados:
*   Modelo 1: Regressão Linear, empregado inicialmente para estabelecer um modelo básico de previsão e avaliar a precisão.
*   Modelo 2: Random Forest, que utiliza uma abordagem mais robusta para capturar relações complexas entre as variáveis e, portanto, espera-se maior precisão.

Implementação: Com o RandomForestRegressor e o LinearRegression, ambos modelos foram ajustados e testados. Os erros médios absolutos e percentuais foram utilizados para avaliação comparativa da precisão de cada modelo.


# Resultados

O Random Forest apresentou uma melhoria de desempenho em relação ao modelo de regressão linear, reduzindo o erro médio absoluto e mostrando-se mais robusto na previsão de movimentações. A comparação foi ilustrada por meio de gráficos, onde as médias de movimentações reais e previstas foram visualizadas para diferentes UFs, com destaque para a previsibilidade do Random Forest em cenários complexos. A tabela de resultados indica que o Random Forest é o modelo mais eficaz, com um menor Erro Médio Absoluto (MAE) e Erro Médio Percentual (MAPE), validando a eficácia do método de ensemble para esta aplicação.

# **Implementação**

# Base de Dados

*Descreva aqui os dados utilizados, discuta eventuais transformações e/ou seleções dos dados e preparações nos dados.*




In [79]:
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')

df_ago = pd.read_csv('/content/drive/MyDrive/STI_MOVIMENTO_2024_08.csv', sep=';', encoding='latin-1')
df_ago.head()

df_set = pd.read_csv('/content/drive/MyDrive/STI_MOVIMENTO_2024_09.csv', sep=';', encoding='latin-1')
df_set.head()

df_out = pd.read_csv('/content/drive/MyDrive/STI_MOVIMENTO_2024_10.csv', sep=';', encoding='latin-1')
df_out.head()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Unnamed: 0,UF_ATENDIMENTO,TIPO,CLASSIFICACAO,NACIONALIDADE,TOTAL
0,AC,ENTRADA,PERMANENTE,ARGENTINA,5
1,AC,ENTRADA,PERMANENTE,BOLÍVIA,29
2,AC,ENTRADA,PERMANENTE,CHILE,1
3,AC,ENTRADA,PERMANENTE,COLÔMBIA,11
4,AC,ENTRADA,PERMANENTE,ESTADOS UNIDOS,1


## **Modelo 1**
Previsão de Movimento Migratório Mensal (Regressão Linear)


### **Modelo 1:** Preparação dos Dados


In [80]:
# Adicionar uma coluna "MÊS" em cada DataFrame
df_ago['MÊS'] = '08'
df_set['MÊS'] = '09'
df_out['MÊS'] = '10'

# Combinar os DataFrames em um único DataFrame
dados_completos = pd.concat([df_ago, df_set, df_out])

# Resetar o índice (opcional, mas útil para manter a indexação organizada)
dados_completos.reset_index(drop=True, inplace=True)

# Visualizar os primeiros registros para confirmar que os dados foram combinados corretamente
dados_completos.head()

Unnamed: 0,UF_ATENDIMENTO,TIPO,CLASSIFICACAO,NACIONALIDADE,TOTAL,MÊS
0,AC,ENTRADA,PERMANENTE,ANGOLA,1,8
1,AC,ENTRADA,PERMANENTE,BOLÍVIA,30,8
2,AC,ENTRADA,PERMANENTE,CANADÁ,1,8
3,AC,ENTRADA,PERMANENTE,CHILE,1,8
4,AC,ENTRADA,PERMANENTE,COLÔMBIA,9,8


In [81]:
#Apagar linhas com valores ausentes
dados_completos.dropna(axis=0, how='any', inplace=True)

print(dados_completos.isnull().sum())

UF_ATENDIMENTO    0
TIPO              0
CLASSIFICACAO     0
NACIONALIDADE     0
TOTAL             0
MÊS               0
dtype: int64


In [82]:
# Remover duplicatas
dados_completos.drop_duplicates(inplace=True)


In [83]:
# Verificar os tipos de dados
print(dados_completos.dtypes)


UF_ATENDIMENTO    object
TIPO              object
CLASSIFICACAO     object
NACIONALIDADE     object
TOTAL             object
MÊS               object
dtype: object


In [84]:
# Converter a coluna 'TOTAL' para tipo numérico, tratando possíveis erros
dados_completos['TOTAL'] = pd.to_numeric(dados_completos['TOTAL'], errors='coerce')

# Verificar se a conversão foi bem-sucedida
print(dados_completos.dtypes)


UF_ATENDIMENTO     object
TIPO               object
CLASSIFICACAO      object
NACIONALIDADE      object
TOTAL             float64
MÊS                object
dtype: object


In [85]:
dados_completos.head()

Unnamed: 0,UF_ATENDIMENTO,TIPO,CLASSIFICACAO,NACIONALIDADE,TOTAL,MÊS
0,AC,ENTRADA,PERMANENTE,ANGOLA,1.0,8
1,AC,ENTRADA,PERMANENTE,BOLÍVIA,30.0,8
2,AC,ENTRADA,PERMANENTE,CANADÁ,1.0,8
3,AC,ENTRADA,PERMANENTE,CHILE,1.0,8
4,AC,ENTRADA,PERMANENTE,COLÔMBIA,9.0,8


In [86]:
# Passo 1: Agrupar dados por UF, TIPO, CLASSIFICACAO, NACIONALIDADE e MÊS, somando o total
dados_agrupados = dados_completos.groupby(['UF_ATENDIMENTO', 'TIPO', 'CLASSIFICACAO', 'NACIONALIDADE', 'MÊS'])['TOTAL'].sum().reset_index()

In [87]:
df_prev = df_ago.copy()
df_prev['TOTAL'] = 0
df_prev['MÊS'] = 11


### **Modelo 1:** Modelo


In [88]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# Separar variáveis preditoras e variável alvo
X = dados_agrupados[['UF_ATENDIMENTO', 'TIPO', 'CLASSIFICACAO', 'NACIONALIDADE', 'MÊS']]
y = dados_agrupados['TOTAL']

# Codificar variáveis categóricas e padronizar dados numéricos
preprocessamento = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), ['UF_ATENDIMENTO', 'TIPO', 'CLASSIFICACAO', 'NACIONALIDADE', 'MÊS']),
        ('num', StandardScaler(), []),
    ],
    remainder='passthrough'
)
# Dividir os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Modelo de Regressão Linear com GridSearchCV ###
modelo_linear = Pipeline(steps=[
    ('preprocessamento', preprocessamento),
    ('regressor', LinearRegression())
])

# Treinar e avaliar o modelo de Regressão Linear
modelo_linear.fit(X_train, y_train)
y_pred_linear = modelo_linear.predict(X_test)
mse_linear = mean_squared_error(y_test, y_pred_linear)
r2_linear = r2_score(y_test, y_pred_linear)

print(f"Linear Regression - MSE: {mse_linear:}, R²: {r2_linear:.2f}")

Linear Regression - MSE: 371576.2254191536, R²: 0.21


In [89]:
# Prever os totais para o próximo mês usando o modelo de Regressão Linear
# Convert categorical columns to string type before prediction
for col in ['UF_ATENDIMENTO', 'TIPO', 'CLASSIFICACAO', 'NACIONALIDADE', 'MÊS']:
    df_prev[col] = df_prev[col].astype(str)

y_prev_pred_linear = modelo_linear.predict(df_prev)
# Transformar os valores negativos em positivos (valor absoluto)
y_prev_pred_linear = np.abs(y_prev_pred_linear)

# Arredondar os valores previstos
y_prev_pred_linear = np.round(y_prev_pred_linear, 0)

# Criar DataFrame com os resultados previstos
df_prev['TOTAL_PREVISTO'] = y_prev_pred_linear

# Visualizar os resultados
print(df_prev[['UF_ATENDIMENTO', 'TIPO', 'CLASSIFICACAO', 'NACIONALIDADE', 'MÊS', 'TOTAL_PREVISTO']])

      UF_ATENDIMENTO     TIPO CLASSIFICACAO  \
0                 AC  ENTRADA    PERMANENTE   
1                 AC  ENTRADA    PERMANENTE   
2                 AC  ENTRADA    PERMANENTE   
3                 AC  ENTRADA    PERMANENTE   
4                 AC  ENTRADA    PERMANENTE   
...              ...      ...           ...   
10166             SP  SAIDA      TEMPORÁRIO   
10167             SP  SAIDA      TEMPORÁRIO   
10168             SP  SAIDA      TEMPORÁRIO   
10169             SP  SAIDA      OUTROS       
10170             SP  SAIDA      OUTROS       

                                  NACIONALIDADE MÊS  TOTAL_PREVISTO  
0      ANGOLA                                    11           311.0  
1      BOLÍVIA                                   11            12.0  
2      CANADÁ                                    11           208.0  
3      CHILE                                     11            48.0  
4      COLÔMBIA                                  11             1.0  
...            

**Modelo 1:** Resultados


In [90]:
import plotly.express as px

# Criar uma cópia do df_prev e df_agrupados para garantir que estamos trabalhando com dados atualizados
df_reais = dados_agrupados[['UF_ATENDIMENTO', 'MÊS', 'TOTAL']].copy()
df_reais['Tipo'] = 'Real'

# Criar df_prev com a coluna 'Tipo' indicando que são valores previstos
df_prev_plot = df_prev[['UF_ATENDIMENTO', 'MÊS', 'TOTAL_PREVISTO']].copy()
df_prev_plot['Tipo'] = 'Previsto'
df_prev_plot.rename(columns={'TOTAL_PREVISTO': 'TOTAL'}, inplace=True)

# Garantir que o formato do mês seja consistente (2 dígitos)
df_prev_plot['MÊS'] = df_prev_plot['MÊS'].astype(str).apply(lambda x: x.zfill(2))

# Combinar os dados reais e as previsões **antes** de agrupar
df_plot = pd.concat([df_reais, df_prev_plot])

# Garantir que os meses estão em ordem crescente para plotagem correta
df_plot['MÊS'] = pd.to_datetime(df_plot['MÊS'], format='%m')
df_plot['MÊS'] = df_plot['MÊS'].dt.strftime('%m')  # Transformar de volta para string

# Arredondar os valores de 'TOTAL' para números inteiros
df_plot['TOTAL'] = df_plot['TOTAL'].round(0).astype(int)

# Agrupar os dados por UF, Mês e Tipo (Real/Previsto) para somar os totais por mês
df_plot_agg = df_plot.groupby(['UF_ATENDIMENTO', 'MÊS', 'Tipo'], as_index=False)['TOTAL'].sum()

# Criar o gráfico interativo com apenas bolinhas
fig = px.scatter(df_plot_agg,
                 x='MÊS',
                 y='TOTAL',
                 color='UF_ATENDIMENTO',
                 symbol='Tipo',
                 title='Movimentação Migratória Real e Previsão por Mês e UF',
                 labels={'TOTAL': 'Total de Entradas/Saídas', 'MÊS': 'Mês', 'UF_ATENDIMENTO': 'UF'},
                 category_orders={"MÊS": ['08', '09', '10', '11']})  # Garantir ordem correta dos meses


fig.update_layout(
    xaxis_title='Mês',
    yaxis_title='Total de Entradas/Saídas',
    legend_title='UF e Tipo',
    template='plotly_dark',
    showlegend=True
)

fig.show()


### **Modelo 2:** Modelo Previsão de Movimento Migratório Mensal (Random Forest)




In [98]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# 1. Prepare the data
X = dados_agrupados[['UF_ATENDIMENTO', 'TIPO', 'CLASSIFICACAO', 'NACIONALIDADE', 'MÊS']]
y = dados_agrupados['TOTAL']

# 2. One-hot encode categorical features
categorical_features = ['UF_ATENDIMENTO', 'TIPO', 'CLASSIFICACAO', 'NACIONALIDADE', 'MÊS']
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)],
    remainder='passthrough'
)

modelo_rf = Pipeline(steps=[
    ('preprocessamento', preprocessamento),
    ('regressor', RandomForestRegressor(n_estimators=100, random_state=42))
])

# Treinar e avaliar o modelo
modelo_rf.fit(X_train, y_train)
y_pred_rf = modelo_rf.predict(X_test)

mse_rf = mean_squared_error(y_test, y_pred_rf)
print(f"Erro quadrático médio (MSE) com Random Forest: {mse_rf}")

Erro quadrático médio (MSE) com Random Forest: 64508.6399889642


In [100]:
# Calculate the total movement per UF per month
total_por_uf_mes = dados_agrupados.groupby(['UF_ATENDIMENTO', 'MÊS'])['TOTAL'].sum().reset_index()

# Calculate the average total movement per UF across all months
media_por_uf = total_por_uf_mes.groupby('UF_ATENDIMENTO')['TOTAL'].mean().reset_index()
media_por_uf.rename(columns={'TOTAL': 'Média_por_UF'}, inplace=True)

# Display the result
print(media_por_uf)

   UF_ATENDIMENTO   Média_por_UF
0              AC    8200.333333
1              AL    3328.666667
2              AM   12434.666667
3              AP   10449.000000
4              BA   44618.000000
5              CE   21967.000000
6              DF   14313.000000
7              ES    3422.666667
8              GO      59.333333
9              MA     671.000000
10             MG    9901.666667
11             MS   12042.000000
12             MT     595.666667
13             PA   20480.333333
14             PB     324.000000
15             PE   11972.666667
16             PR   71813.333333
17             RJ  137541.000000
18             RN    8175.666667
19             RO    1140.000000
20             RR   18332.333333
21             RS   34884.333333
22             SC   23604.000000
23             SE      63.666667
24             SP  359187.333333


**Modelo 2:** Resultados


In [103]:
import plotly.express as px
import pandas as pd


# 1. Calcular media total por UF from dados_agrupados
media_por_uf = dados_agrupados.groupby(['UF_ATENDIMENTO', 'MÊS'])['TOTAL'].sum().reset_index()
media_por_uf = media_por_uf.groupby('UF_ATENDIMENTO')['TOTAL'].mean().reset_index()
media_por_uf.rename(columns={'TOTAL': 'Média_Real'}, inplace=True)

# 2. Get Random Forest predictions for the entire dataset
# Use modelo_rf instead of best_model (assuming it's the trained model)
y_pred_all = modelo_rf.predict(X)

# 3. Create a DataFrame for predictions with UF_ATENDIMENTO
predictions_df = pd.DataFrame({'UF_ATENDIMENTO': dados_agrupados['UF_ATENDIMENTO'],
                                 'TOTAL_PREVISTO': y_pred_all})

# 4. Sum predictions by UF_ATENDIMENTO
total_previsto_rf = predictions_df.groupby('UF_ATENDIMENTO')['TOTAL_PREVISTO'].sum().reset_index()
total_previsto_rf.rename(columns={'TOTAL_PREVISTO': 'Total_Previsto_RF'}, inplace=True)

# Calculate average predicted movement per UF
media_prevista_rf = total_previsto_rf.groupby('UF_ATENDIMENTO')['Total_Previsto_RF'].mean().reset_index()
media_prevista_rf.rename(columns={'Total_Previsto_RF': 'Média_Prevista_RF'}, inplace=True)

# 5. Merge the real averages and predicted averages DataFrames
df_comparacao = pd.merge(media_por_uf, media_prevista_rf, on='UF_ATENDIMENTO', how='outer')

# 6. Create the bar chart with Plotly Express
fig = px.bar(df_comparacao, x='UF_ATENDIMENTO', y=['Média_Real', 'Média_Prevista_RF'],
             barmode='group', title='Comparação entre Média Real e Prevista (RF) por UF',
             labels={'UF_ATENDIMENTO': 'UF', 'value': 'Média de Movimentações'},
             text_auto='.0f')  # Display integer values in the bars

# Customize the layout (optional)
fig.update_layout(template='plotly_dark')
fig.update_traces(textfont_size=12, textangle=0, textposition="outside", cliponaxis=False)  # Customize text appearance

fig.show()

# **Conclusão**

*Apresente a conclusão do seu estudo comparando ainda os resultados obtidos com o referencial teórico apresentado.*



In [104]:
from sklearn.metrics import r2_score

# Métricas do modelo Linear Regression
mse_lr = mean_squared_error(y_test, y_pred)
r2_lr = r2_score(y_test, y_pred)

# Métricas do modelo Random Forest
mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"Regressão Linear - MSE: {mse_linear:.2f}, R²: {r2_linear:.2f}")
print(f"Modelo Random Forest - MSE: {mse_rf:.2f}, R²: {r2_rf:.2f}")


Regressão Linear - MSE: 371576.23, R²: 0.21
Modelo Random Forest - MSE: 64508.64, R²: 0.86


# **Referências**

*Indique as referências empregadas, incluindo as fontes de dados.*

---

In [None]:
#@title Avaliação
Completo = 10 #@param {type:"slider", min:0, max:10, step:1}
#@markdown Projeto cumpre todos os itens pedidos.
Relevancia = 9 #@param {type:"slider", min:0, max:10, step:1}
#@markdown As seleções de dados e eventos para análise são relevantes e justificados.
Tecnicas = 6 #@param {type:"slider", min:0, max:10, step:1}
#@markdown As técnicas de empregadas são adequadas e corretamente aplicadas.
Apresentacao = 7 #@param {type:"slider", min:0, max:10, step:1}
#@markdown A apresentação dos resultados é clara e objetiva.
Analise = 8 #@param {type:"slider", min:0, max:10, step:1}
#@markdown As premissas de análise se justificam e a analise é correta.
Conclusao = 7 #@param {type:"slider", min:0, max:10, step:1}
#@markdown As conclusões são justificadas e relevantes
Bonus = 0.5 #@param {type:"slider", min:0, max:1, step:0.5}
#@markdown A critério do professor por inovações na abordagem e no uso de técnicas de Análise de Dados








In [None]:
#@markdown ### Nota Final
nota = Completo + Relevancia + Tecnicas + Apresentacao + Analise + Conclusao

nota = nota / 6 + Bonus

print(f'Nota final do trabalho {nota :.1f}')

import numpy as np
import pandas as pd

alunos = pd.DataFrame()

lista_tia = []
lista_nome = []

for i in range(1,6):
  exec("if Aluno" + str(i) + " !='None':  lista = Aluno" + str(i) + ".split(','); lista_tia.append(lista[0]); lista_nome.append(lista[1].upper())")

alunos['tia'] = lista_tia
alunos['nome'] = lista_nome
alunos['nota'] = np.round(nota,1)
print()
alunos