# Etapa 1: Extração, Transformação e Limpeza (ETL) dos Dados de Migração

**Objetivo:** Carregar os dados brutos do arquivo `STI_MOVIMENTO_2025_06.csv`, realizar a limpeza e a transformação necessárias, e salvar um arquivo limpo para a próxima etapa de análise.

In [8]:
# Importação da Biblioteca (Código)
import pandas as pd
import os

print("Biblioteca Pandas importada com sucesso.")

Biblioteca Pandas importada com sucesso.


In [9]:
# Carregamento dos Dados Brutos (Código)
# Define o caminho para o arquivo de dados brutos
caminho_dados_brutos = 'dados/STI_MOVIMENTO_2025_06.csv'

# Carrega os dados, especificando o separador e a codificação
try:
    df_bruto = pd.read_csv(caminho_dados_brutos, sep=';', encoding='latin-1')
    print("Dados brutos carregados com sucesso!")
except FileNotFoundError:
    print(f"Erro: Arquivo não encontrado no caminho '{caminho_dados_brutos}'")

Dados brutos carregados com sucesso!


In [10]:
# Exploração Inicial dos Dados (Código)
# Exibe as 5 primeiras linhas para entender a estrutura
print("Amostra dos dados brutos:")
df_bruto.head()

Amostra dos dados brutos:


Unnamed: 0,UF_ATENDIMENTO,TIPO,CLASSIFICACAO,NACIONALIDADE,TOTAL
0,AC,ENTRADA,PERMANENTE,ALEMANHA,1
1,AC,ENTRADA,PERMANENTE,ARGENTINA,2
2,AC,ENTRADA,PERMANENTE,BOLÍVIA,21
3,AC,ENTRADA,PERMANENTE,COLÔMBIA,2
4,AC,ENTRADA,PERMANENTE,ESPANHA,1


In [11]:
# Verificação de Informações (Código)
# Exibe informações sobre as colunas, tipos de dados e valores nulos
print("Informações gerais do DataFrame:")
df_bruto.info()

Informações gerais do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10873 entries, 0 to 10872
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   UF_ATENDIMENTO  10873 non-null  object
 1   TIPO            10873 non-null  object
 2   CLASSIFICACAO   10873 non-null  object
 3   NACIONALIDADE   10862 non-null  object
 4   TOTAL           10873 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 424.9+ KB


In [12]:
# Limpeza e Transformação dos Dados (Código)
# Cria uma cópia do DataFrame para realizar as modificações
df_limpo = df_bruto.copy()

print("Iniciando o processo de limpeza...")

# 1. Converte a coluna 'TOTAL' para um tipo numérico.
#    'coerce' transforma valores que não são números em 'NaT' (Not a Time), que podemos tratar como nulos.
df_limpo['TOTAL'] = pd.to_numeric(df_limpo['TOTAL'], errors='coerce')
print("Coluna 'TOTAL' convertida para tipo numérico.")

# 2. Remove linhas onde a coluna 'TOTAL' ficou nula após a conversão.
#    Isso garante que só teremos valores numéricos válidos.
linhas_antes = len(df_limpo)
df_limpo.dropna(subset=['TOTAL'], inplace=True)
linhas_depois = len(df_limpo)
print(f"{linhas_antes - linhas_depois} linhas com valores inválidos na coluna 'TOTAL' foram removidas.")

# 3. Converte a coluna 'TOTAL' para o tipo inteiro, para economizar memória e ser mais preciso.
df_limpo['TOTAL'] = df_limpo['TOTAL'].astype(int)
print("Coluna 'TOTAL' convertida para tipo inteiro.")

print("\nProcesso de limpeza concluído!")

Iniciando o processo de limpeza...
Coluna 'TOTAL' convertida para tipo numérico.
0 linhas com valores inválidos na coluna 'TOTAL' foram removidas.
Coluna 'TOTAL' convertida para tipo inteiro.

Processo de limpeza concluído!


In [13]:
# Verificação Pós-Limpeza (Código)
# Verifica as informações novamente para confirmar que as alterações foram aplicadas
print("Informações do DataFrame após a limpeza:")
df_limpo.info()

print("\nAmostra dos dados limpos:")
df_limpo.head()

Informações do DataFrame após a limpeza:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10873 entries, 0 to 10872
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   UF_ATENDIMENTO  10873 non-null  object
 1   TIPO            10873 non-null  object
 2   CLASSIFICACAO   10873 non-null  object
 3   NACIONALIDADE   10862 non-null  object
 4   TOTAL           10873 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 424.9+ KB

Amostra dos dados limpos:


Unnamed: 0,UF_ATENDIMENTO,TIPO,CLASSIFICACAO,NACIONALIDADE,TOTAL
0,AC,ENTRADA,PERMANENTE,ALEMANHA,1
1,AC,ENTRADA,PERMANENTE,ARGENTINA,2
2,AC,ENTRADA,PERMANENTE,BOLÍVIA,21
3,AC,ENTRADA,PERMANENTE,COLÔMBIA,2
4,AC,ENTRADA,PERMANENTE,ESPANHA,1


In [14]:
# Salvando os Dados Limpos (Código)
# Cria a pasta 'dados_processados' se ela não existir
if not os.path.exists('dados_processados'):
    os.makedirs('dados_processados')
    print("Pasta 'dados_processados' criada.")

# Define o caminho para o novo arquivo CSV limpo
caminho_dados_limpos = 'dados_processados/movimento_migratorio_limpo.csv'

# Salva o DataFrame limpo em um novo arquivo, sem o índice
df_limpo.to_csv(caminho_dados_limpos, index=False)

print(f"\nDados limpos salvos com sucesso em: '{caminho_dados_limpos}'")

Pasta 'dados_processados' criada.

Dados limpos salvos com sucesso em: 'dados_processados/movimento_migratorio_limpo.csv'
