## Normalização dos dados

In [1]:
import pandas as pd

### Normalizando a tabela de estados

In [7]:
df_uf1 = pd.read_csv("uf_vitimas.csv", encoding='latin1', sep=';')
df_uf2 = pd.read_csv("uf_ocorrencias.csv", encoding='latin1', sep=';')

In [10]:
df_uf1.head()

Unnamed: 0,UF,Tipo Crime,Ano,Mês,Vítimas
0,Acre,Homicídio doloso,2015,1,13
1,Acre,Homicídio doloso,2015,2,10
2,Acre,Homicídio doloso,2015,3,16
3,Acre,Homicídio doloso,2015,4,22
4,Acre,Homicídio doloso,2015,5,15


In [11]:
df_uf2.head()

Unnamed: 0,UF,Tipo Crime,Ano,Mês,Ocorrências
0,Acre,Estupro,2015,1,6
1,Acre,Furto de veículo,2015,1,0
2,Acre,Homicídio doloso,2015,1,13
3,Acre,Lesão corporal seguida de morte,2015,1,0
4,Acre,Roubo a instituição financeira,2015,1,0


In [28]:
columns = ['nome', 'tipo_crime', 'ano', 'mes', 'vitimas', 'ocorrencias']
result = pd.merge(df_uf1, df_uf2, on=['UF', 'Tipo Crime', 'Ano', 'Mês'], how='outer')
result.columns = columns

In [32]:
result

Unnamed: 0,nome,tipo_crime,ano,mes,vitimas,ocorrencias
0,Acre,Homicídio doloso,2015,1,13.0,13.0
1,Acre,Homicídio doloso,2015,2,10.0,10.0
2,Acre,Homicídio doloso,2015,3,16.0,16.0
3,Acre,Homicídio doloso,2015,4,22.0,22.0
4,Acre,Homicídio doloso,2015,5,15.0,15.0
...,...,...,...,...,...,...
15179,Tocantins,Roubo a instituição financeira,2020,3,,0.0
15180,Tocantins,Roubo de carga,2020,3,,0.0
15181,Tocantins,Roubo de veículo,2020,3,,59.0
15182,Tocantins,Roubo seguido de morte (latrocínio),2020,3,,2.0


In [27]:
columns
est_uf = pd.read_csv("estados.csv", encoding='utf-8')
est_uf.head()

Unnamed: 0,codigo_uf,uf,nome,latitude,longitude
0,11,RO,Rondônia,-10.83,-63.34
1,12,AC,Acre,-8.77,-70.55
2,13,AM,Amazonas,-3.47,-65.1
3,14,RR,Roraima,1.99,-61.33
4,15,PA,Pará,-3.79,-52.48


In [35]:
res_final = pd.merge(result, est_uf, on='nome', how='left').drop(['codigo_uf', 'latitude', 'longitude'], axis=1)

In [40]:
res_final[res_final['uf'].isna()] = 'RJ'

In [112]:
res_final.to_csv('new/dados_uf.csv', encoding='utf-8', index=False)

### Normalizando base de dados por municípios

In [86]:
columns = ['municipio', 'uf', 'regiao', 'mes_ano', 'vitimas']
df = pd.read_csv('munic_atual.csv', encoding='latin1', sep=';')
df.columns = columns

In [90]:
meses = []
anos = []

for item in df.mes_ano:
    try:
        mes = item.split('/')[0]
        ano = item.split('/')[1]
    except:
        try:
            mes = item.split('-')[0]
            ano = item.split('-')[1]
        except: 
            try:
                mes = item.split(' ')[0]
                ano = item.split(' ')[1]
            except:
                print(item)
    
    meses.append(mes)
    anos.append(ano)

df['mes'] = meses
df['ano'] = anos

df.drop('mes_ano', axis=1, inplace=True)

In [106]:
df

Unnamed: 0,municipio,uf,regiao,vitimas,mes,ano
0,Bujari,AC,NORTE,1.0,jan,18
1,Cruzeiro do Sul,AC,NORTE,8.0,jan,18
2,Feijó,AC,NORTE,3.0,jan,18
3,Jordão,AC,NORTE,1.0,jan,18
4,Mâncio Lima,AC,NORTE,1.0,jan,18
...,...,...,...,...,...,...
136524,Ponte Alta Do Tocantins,TO,NORTE,1.0,mar,20
136525,Porto Nacional,TO,NORTE,2.0,mar,20
136526,Recursolândia,TO,NORTE,1.0,mar,20
136527,São Bento Do Tocantins,TO,NORTE,1.0,mar,20


In [108]:
mes_map = {
    "jan": '1',
    "fev": '2',
    "mar": '3',
    "abr": '4',
    "mai": '5',
    "jun": '6',
    "jul": '7',
    "ago": '8',
    "set": '9',
    "out": '10',
    "nov": '11',
    "dez": '12'
}


df.replace(mes_map, inplace=True)

In [111]:
df.to_csv('new/dados_mun.csv', encoding='utf-8', index=False)