In [1]:
import pandas as pd
import os

# Leitura dos arquivos

In [None]:
# Leitura dos dados de Censo do IBGE de 2022

df_censo = pd.read_csv('./dados/censo.csv', header=0, sep=';')
df_censo.info()
df_censo.head(5)

In [None]:
## Leitura do dicionário de dados

df_dicionario = pd.read_csv('./dados/dicionario_censo_1.csv')
df_dicionario.head(5)

In [None]:
# Leitura dos dados de IDH 2010

df_idh = pd.read_csv('./dados/idh.csv',header=0, sep=';')
df_idh.info()
df_idh.head(5)

In [None]:
# Leitura dos dados de votação 2022

df_votos = pd.read_csv('./dados/votos.csv', encoding='latin1', header=0, sep=';')
df_votos.info()
df_votos.head(5)

In [None]:
# Leitura dos dados de furtos 2009 a 2023

df_furtos = pd.read_csv('./dados/furtos.csv', header=0, sep=',')
df_furtos.info()
df_furtos.head(5)

In [None]:
df_mapas_uf = pd.read_csv('./dados/mapas_uf.csv', header=0, sep=',')
df_mapas_uf.info()
df_mapas_uf.head(5)

In [None]:
df_mapas_municipio = pd.read_csv('./dados/mapas_municipio.csv', header=0, sep=',')
df_mapas_municipio.info()
df_mapas_municipio.head(5)

In [None]:
df_diretorios_uf = pd.read_csv('./dados/diretorios_uf.csv', header=0, sep=',')
df_diretorios_uf.info()
df_diretorios_uf.head(5)

In [None]:
df_diretorios_municipio = pd.read_csv('./dados/diretorios_municipio.csv', header=0, sep=',')
df_diretorios_municipio.info()
df_diretorios_municipio.head(5)

# Tratamento dos dados

### Idh

- divisão da coluna `Territorialidades` em `Estado` e `Cidade`
- renomeação das colunas

In [None]:
import numpy as np

df_idh['estado'] = df_idh['Territorialidades'].str.split('(').str[1].str.split(')').str[0]
df_idh['cidade'] = df_idh['Territorialidades'].str.split('(').str[0]

df_idh.rename(columns={'IDHM 2010': 'idh', 'Territorialidades': 'territorialidades'}, inplace=True)
df_idh['idh'] = df_idh['idh'].str.replace(',', '.').replace(' ', np.nan).astype(float)

df_idh.head(5)

### Censo

- renomeação das colunas

In [None]:
# Criar um dicionário de mapeamento a partir do df_dicionario
mapping = {
    'CD_REGIAO': 'codigo_regiao',
    'NM_REGIAO': 'nome_regiao',
    'CD_UF': 'codigo_uf',
    'NM_UF': 'nome_uf',
    'CD_MUNICIPIO': 'codigo_municipio',
    'NM_MUNICIPIO': 'nome_municipio',
    'Total_setores': 'total_setores',
    'v0001': 'total_pessoas',
    'v0002': 'total_domicilios',
    'v0003': 'total_domicilios_particulares',
    'v0004': 'total_domicilios_coletivos',
    'v0005': 'media_moradores_domicilio_particular_ocupado',
    'v0006': 'percentual_domicilios_particulares_ocupados',
    'v0007': 'total_domicilios_particulares_ocupados',
}

# Renomear as colunas do df_censo
df_censo = df_censo.rename(columns=mapping)
df_censo.head(5)

### Votos

- renomeação das colunas

In [13]:
df_votos.rename(columns={
    'CD_MUNICIPIO': 'codigo_municipio',
    'NM_MUNICIPIO': 'nome_municipio',
    'NM_VOTAVEL': 'nome_candidato',
    'QT_VOTOS': 'total_votos'
}, inplace=True)

### Furtos

- mudança do tipo de dado da coluna `Data` para `datetime`
- criação da coluna `Ano` a partir da coluna `Data`
- renomeação das colunas

In [14]:
df_furtos['Data'] = df_furtos['Data'] = pd.to_datetime(df_furtos['Data'], format='%d-%b-%y', dayfirst=True)
df_furtos['ano'] = df_furtos['Data'].dt.year

df_furtos.rename(columns={
    'Município': 'nome_municipio',
    'Dia da Semana': 'dia_semana',
    'Data': 'data',
    'Hora': 'hora'
}, inplace=True)

### UFs

In [None]:
df_mapas_uf.rename(columns={
    'sigla_uf': 'SG_UF',
}, inplace=True)

df_mapas_uf.head(5)

### Municípios

In [None]:
df_mapas_municipio.rename(columns={
    'sigla_uf': 'SG_UF',
}, inplace=True)

df_mapas_municipio.head(5)

### Diretórios UF

In [None]:
df_diretorios_uf.rename(columns={
    'sigla': 'SG_UF',
}, inplace=True)

df_diretorios_uf.head(5)

### Diretórios Município

In [None]:
df_diretorios_municipio.rename(columns={
    'nome': 'nome_municipio',
    'sigla_uf': 'SG_UF'
}, inplace=True)

df_diretorios_municipio.head(5)

# Filtro de dados

### Votos

- filtrar dados de votos para Deputados Federais

In [None]:
df_votos = df_votos[df_votos['DS_CARGO']=='DEPUTADO FEDERAL'].reset_index(drop=True)
df_votos.info()

### Censo

- filtrar dados de censo para o Estado de Ceará

In [None]:
df_censo = df_censo[df_censo['nome_uf'] == 'Ceará'].reset_index(drop=True)
df_censo.info()

### Mapas

In [None]:
df_mapas_uf = df_mapas_uf[df_mapas_uf['SG_UF'] == 'CE'].reset_index(drop=True)
df_mapas_uf.info()
df_mapas_uf.head(5)

In [None]:
df_mapas_municipio = df_mapas_municipio[df_mapas_municipio['SG_UF'] == 'CE'].reset_index(drop=True)
df_mapas_municipio.info()
df_mapas_municipio.head(5)

In [None]:
df_diretorios_uf = df_diretorios_uf[df_diretorios_uf['SG_UF'] == 'CE'].reset_index(drop=True)
df_diretorios_uf.info()
df_diretorios_uf.head(5)

In [None]:
df_diretorios_municipio = df_diretorios_municipio[df_diretorios_municipio['SG_UF'] == 'CE'].reset_index(drop=True)
df_diretorios_municipio.info()
df_diretorios_municipio.head(5)

### IDH 

In [None]:
df_idh = df_idh[df_idh['idh'].notna()].reset_index(drop=True)
df_idh

# Agrergação dos dados

### Votos

- agrupar votos por cidade e candidato

In [None]:
df_votos_agrupados = df_votos.groupby(['codigo_municipio','nome_municipio', 'nome_candidato'])[['total_votos']].sum().reset_index()
df_votos_agrupados.info()

### Furtos

- agrupar furtos por cidade e ano

In [None]:
df_furtos_agrupados = df_furtos.groupby(['nome_municipio', 'ano']).size().reset_index()
df_furtos_agrupados.rename(columns={0: 'total_furtos'}, inplace=True)
df_furtos_agrupados

# Exploração dos dados

In [None]:
df_votos_agrupados[['total_votos']].describe()

In [None]:
df_idh[['idh']].describe()

In [None]:
df_censo.describe()

In [None]:
df_furtos_agrupados.describe()

## Gerar as tabelas finais

### Votos

In [None]:
votos = df_votos[['ANO_ELEICAO', 'CD_TIPO_ELEICAO', 'NM_TIPO_ELEICAO', 'NR_TURNO', 'DT_ELEICAO', 'SG_UE','NM_UE','codigo_municipio','nome_municipio','NR_ZONA', 'NR_SECAO', 'CD_CARGO', 'DS_CARGO', 'NR_VOTAVEL', 'nome_candidato', 'total_votos']]

votos.rename(columns={
    'ANO_ELEICAO': 'ano_eleicao',
    'CD_TIPO_ELEICAO': 'codigo_tipo_eleicao',
    'NM_TIPO_ELEICAO': 'nome_tipo_eleicao',
    'NR_TURNO': 'numero_turno',
    'SG_UE': 'sigla_uf',
    'NM_UE': 'nome_uf',
    'codigo_municipio': 'id_municipio',
    'NR_ZONA': 'numero_zona',
    'NR_SECAO': 'numero_secao',
    'CD_CARGO': 'codigo_cargo',
    'DS_CARGO': 'nome_cargo',
    'NR_VOTAVEL': 'numero_candidato',
    'total_votos': 'total_votos'
}, inplace=True)

votos.to_csv('tabelas/VOTOS.csv', index=False)

votos

### Candidatos

In [None]:
df_candidatos = df_votos[['nome_candidato', 'CD_CARGO','DS_CARGO', 'NR_VOTAVEL']].drop_duplicates().reset_index(drop=True)
df_candidatos.rename(columns={
    'CD_CARGO': 'codigo_cargo',
    'DS_CARGO': 'nome_cargo',
    'NR_VOTAVEL': 'numero_candidato'
}, inplace=True    
)

df_candidatos.to_csv('tabelas/CANDIDATOS.csv', index=False)

df_candidatos 

### Censo

In [None]:
df_censo.rename(columns={
    'codigo_uf': 'id_uf',
    'CD_MUNICIPIO': 'id_municipio',
    'NM_MUN': 'nome_municipio'
}, inplace=True)
df_censo.to_csv('tabelas/CENSO.csv', index=False)
df_censo

### IDH

In [None]:
df_idh.rename(columns={
    'estado': 'nome_uf',
    'cidade': 'nome_municipio',
}, inplace=True)
df_idh.to_csv('tabelas/IDH.csv', index=False)
df_idh

### Furtos

In [None]:
df_furtos_agrupados.to_csv('./tabelas/FURTOS.csv', index=False)
df_furtos_agrupados

### Municipio

In [None]:
df_diretorios_municipio = df_diretorios_municipio[['id_municipio','id_municipio_tse', 'id_uf','nome_municipio','centroide']]

df_diretorios_municipio.to_csv('./tabelas/MUNICIPIOS.csv', index=False)

df_diretorios_municipio

### Estados

In [None]:
df_estados = df_diretorios_uf.merge(df_mapas_uf[['id_uf','geometria']], on='id_uf')
df_estados.rename(columns={'id_uf': 'id_ud', 'SG_uf': 'sigla_uf', 'nome': 'nome_uf'}, inplace=True)

df_estados.to_csv('./tabelas/ESTADOS.csv', index=False)

df_estados