In [None]:
import requests
import pandas as pd
import os
import wget
import zipfile
from urllib.error import HTTPError
from sqlalchemy import create_engine

In [None]:
root_folder = 'dados/'

folder_renach = 'renach/'
folder_infracoes = 'infracoes/'
folder_renaest = 'renaest/'

In [None]:
os.mkdir(root_folder + folder_renach)
os.mkdir(root_folder + folder_renaest)

In [None]:
engine = create_engine('postgresql+psycopg2://postgres:postgres@localhost:5432/siad')

#### Criando dados de data

In [None]:
data = pd.DataFrame(pd.date_range(start='01-01-2018', end='31-12-2022'), columns=['data'])

data['id'] = data.index + 1
data['ano'] = data['data'].dt.year
data['mes'] = data['data'].dt.month
data['ano_mes'] = data['ano'] * 100 + data['mes']

In [None]:
data

In [None]:
with engine.connect() as conn:
    data.to_sql(name='data', con=conn, if_exists='replace', index=False)

## Lendo dados dos arquivos do RENACH

In [None]:
os.chdir(root_folder + folder_renach)

for ano in [2018, 2019, 2020, 2021, 2022]:
    for mes in range(1, 13):    
        
        try:
            data = f'{ano}_{mes:02d}'
            url = f'https://www.gov.br/transportes/pt-br/assuntos/transito/arquivos-senatran/estatisticas/renach/csv/condutores_habilitados_{data}.csv'
            
            wget.download(url)
        except:
            data = f'{ano}-{mes:02d}'
            url = f'https://www.gov.br/transportes/pt-br/assuntos/transito/arquivos-senatran/estatisticas/renach/csv/condutores_habilitados_{data}.csv'

            wget.download(url)

os.chdir('../..')            

In [None]:
df_result = pd.DataFrame()

for file in os.listdir(root_folder + folder_renach):
    df = pd.read_csv(root_folder + folder_renach + file, encoding='utf_16', decimal=',', thousands='.')

    file = file.replace('-', '_')  
    df['ano_mes'] = int(file.split('_')[2] + file.split('_')[3].split('.')[0])
    df_result = pd.concat([df_result, df], axis='index')

### Adiquirindo a relação de nome/sigla das UFs

In [None]:
response = requests.get('http://servicodados.ibge.gov.br/api/v1/localidades/estados?orderBy=id').json()

In [None]:
ufs = {}
for uf in response: ufs[uf['nome']] = uf['sigla']

In [None]:
df_result['uf'] = [ufs[nome_uf] for nome_uf in df_result['UF Habilitação Atual']]
df_result['categoria_cnh'] = df_result['Categoria'].str.split('-', expand=True)[0]

In [None]:
df_result = df_result[['uf', 'Sexo', 'Faixa Etária', 'categoria_cnh', 'Qt. Condutor Histórico', 'ano_mes']]

quantidade_condutores = df_result.rename(columns={
    'Sexo':'sexo',
    'Faixa Etária':'faixa_etaria',
    'Qt. Condutor Histórico':'qtd_condutores'
})

In [None]:
quantidade_condutores

In [None]:
with engine.connect() as conn:
    quantidade_condutores.to_sql(name='quantidade_condutores', con=conn, if_exists='replace', index=False)

## Adiquirindo dados sobre os tipos de infrações

In [None]:
os.chdir(root_folder + folder_infracoes)

try:
    url = 'https://www.gov.br/transportes/pt-br/centrais-de-conteudo/tabela-codigo-infracoes-renainf-xlsx'
    
    wget.download(url)
except:
    print('Erro de download.')

os.chdir('../..')  

In [None]:
df_infracoes = pd.read_excel(root_folder + folder_infracoes + 'codigos/tabela-codigo-infracoes-renainf-xlsx.xlsx', engine='openpyxl')

In [None]:
df_infracoes['id'] = df_infracoes.index + 1
df_infracoes = df_infracoes[['id', 'Código da Infração', 'Descrição da Infração', 'Gravidade', 'Órgão Competente']]

infracoes = df_infracoes.rename(columns={
    'Código da Infração':'codigo_infracao',
    'Descrição da Infração':'descricao_infracao',
    'Gravidade':'gravidade',
    'Órgão Competente':'orgao_competente'
})

In [None]:
infracoes

In [None]:
with engine.connect() as conn:
    infracoes.to_sql(name='infracoes', con=conn, if_exists='replace', index=False)

## Adiquirindo dados do RENAEST

#### Localidade

In [None]:
os.chdir(root_folder + folder_renaest)

try:
    url = 'http://dados.transportes.gov.br/dataset/42e2320b-ea67-4fdc-896f-71363e043fc6/resource/73b35d71-d701-441c-83da-405c9e7bb145/download/renaest_dabertos_20230412.zip'
    
    wget.download(url)
except:
    print('Erro de download.')

os.chdir('../..')  

# extrai os arquivos
with zipfile.ZipFile(root_folder + folder_renaest + 'renaest_dabertos_20230412.zip') as zip_ref:
    zip_ref.extractall(root_folder + folder_renaest)

os.remove(root_folder + folder_renaest + 'renaest_dabertos_20230412.zip')

In [None]:
df_localidade = pd.read_csv('dados/renaest/Localidade_DadosAbertos_20230412.csv', sep=';')

In [None]:
df_localidade.head()

In [None]:
df_localidade.drop_duplicates(subset=['mes_ano_referencia', 'codigo_ibge'], inplace=True)
df_localidade = df_localidade[df_localidade['ano_referencia'] < 2023]

df_localidade['ano_mes'] = df_localidade['ano_referencia'] * 100 + df_localidade['mes_referencia']
df_localidade['metropolitana'] = df_localidade['regiao_metropolitana'] == 'sim'

df_localidade = df_localidade.rename(columns={
    'qtde_habitantes':'qtd_habitantes'
})

In [None]:
localidade = df_localidade[['ano_mes', 'municipio', 'uf', 'metropolitana', 'qtd_habitantes', 'frota_total', 'frota_circulante', 'regiao', 'codigo_ibge']].reset_index(drop=True)
localidade['id'] = localidade.index + 1

In [None]:
localidade

In [None]:
with engine.connect() as conn:
    localidade.to_sql(name='localidade', con=conn, if_exists='replace', index=False)

#### Veículos

In [None]:
df_veiculo = pd.read_csv('dados/renaest/TipoVeiculo_DadosAbertos_20230412.csv', sep=';')

veiculo = df_veiculo.copy()

In [None]:
veiculo.drop_duplicates(subset=['tipo_veiculo'], inplace=True)
veiculo = veiculo[['tipo_veiculo']].reset_index(drop=True)
veiculo['id'] = veiculo.index + 1

In [None]:
veiculo = veiculo.rename(columns={
    'tipo_veiculo':'tipo'
})

In [None]:
veiculo

In [None]:
with engine.connect() as conn:
    veiculo.to_sql(name='veiculo', con=conn, if_exists='replace', index=False)

#### Vítimas


In [None]:
df_vitimas = pd.read_csv('dados/renaest/Vitimas_DadosAbertos_20230412.csv', sep=';')

In [None]:
df_vitimas = df_vitimas[['num_acidente', 'faixa_idade', 'genero', 'tp_envolvido', 'susp_alcool']].reset_index(drop=True)
df_vitimas['id'] = df_vitimas.index + 1

In [None]:
vitimas = df_vitimas.rename(columns={
    'tp_envolvido':'tipo',
    'susp_alcool':'suspeita_alcoolizado'
})

In [None]:
vitimas

In [None]:
with engine.connect() as conn:
    vitimas.to_sql(name='vitimas', con=conn, if_exists='replace', index=False)

#### Acidentes

In [None]:
df_acidentes = pd.read_csv('dados/renaest/Acidentes_DadosAbertos_20230412.csv', sep=';')

In [None]:
df_acidentes.head()

In [None]:
df_acidentes['ano_mes'] = df_acidentes['ano_acidente'] * 100 + df_acidentes['mes_acidente']
df_acidentes['data_acidente'] = pd.to_datetime(df_acidentes['data_acidente'])

In [None]:
df_acidentes = df_acidentes.merge(
    localidade,
    how='inner',
    on=['codigo_ibge', 'ano_mes']
)

In [None]:
df_acidentes.rename(columns={'id':'id_localidade'}, inplace=True)

In [None]:
df_acidentes = df_acidentes.merge(
    vitimas,
    how='inner', 
    on=['num_acidente']
)

In [None]:
df_acidentes.rename(columns={'id':'id_vitima'}, inplace=True)

In [None]:
df_acidentes = df_acidentes[['num_acidente', 'id_localidade', 'id_vitima', 'data_acidente', 'tp_acidente', 'cond_meteorologica', 'qtde_envolvidos', 'qtde_feridosilesos', 'qtde_obitos']]

In [None]:
df_acidentes = df_acidentes.merge(
    df_veiculo,
    how='inner',
    on=['num_acidente']
).merge(
    veiculo,
    how='inner',
    left_on=['tipo_veiculo'],
    right_on=['tipo']
)

In [None]:
df_acidentes = df_acidentes[['num_acidente', 'id_localidade', 'id', 'id_vitima', 'data_acidente', 'tp_acidente', 'cond_meteorologica', 'qtde_envolvidos', 'qtde_feridosilesos', 'qtde_obitos']]

In [None]:
df_acidentes = df_acidentes.merge(
    data,
    how='inner',
    left_on=['data_acidente'],
    right_on=['data']
)

In [None]:
df_acidentes = df_acidentes[['num_acidente', 'id_localidade', 'id_x', 'id_vitima', 'id_y', 'data_acidente', 'tp_acidente', 'cond_meteorologica', 'qtde_envolvidos', 'qtde_feridosilesos', 'qtde_obitos']]

In [None]:
acidentes = df_acidentes.rename(columns={
    'id_x':'id_veiculo',
    'id_y':'id_data',
    'tp_acidente':'tipo_acidente',
    'qtde_feridosilesos':'qtde_feridos_ilesos'
})

In [None]:
acidentes

In [None]:
with engine.connect() as conn:
    acidentes.to_sql(name='acidentes', con=conn, if_exists='replace', index=False)

## Adiquirindo os dados de quantidades de infrações

In [None]:
os.chdir(root_folder + folder_infracoes)

for ano in [2019, 2020, 2021, 2022]:    
    for mes in range(1, 13):    
        
        try:
            data = f'{ano}_{mes:02d}'
            url = f'https://www.gov.br/transportes/pt-br/assuntos/transito/arquivos-senatran/estatisticas/renainf/xlsx/{data}_infracoes_com_np.xlsx'
            
            wget.download(url)
        
        except HTTPError as error:
            
            try:
                data = f'{ano}-{mes:02d}'
                url = f'https://www.gov.br/transportes/pt-br/assuntos/transito/arquivos-senatran/estatisticas/renainf/xlsx/{data}_infracoes_com_np.xlsx'

                wget.download(url)
            except:
                print(error)
                print(f'{data} não presente.')
                pass

os.chdir('../..')            

In [None]:
def processa_cabecalho_tipo_1(path):    
    df = pd.read_excel(path, engine='openpyxl')

    file = path.split('/')[-1]
    df.columns = df.iloc[2]
    df = df.iloc[4:-1]

    # recupera o ano_mes que está sendo analisado
    file = file.replace('-', '_')  
    ano_mes = int(file.split('_')[0] + file.split('_')[1]) 

    # coloca o df no formato desejado para obter os dados
    df = df.reset_index(drop=True)
    df.columns.values[0] = 'codigo_infracao'
        
    df.set_index('codigo_infracao', inplace=True)

    return df, ano_mes

def processa_cabecalho_tipo_2(path):
    df = pd.read_excel(path, engine='openpyxl')

    file = path.split('/')[-1]
    
    # recupera o ano_mes que está sendo analisado
    file = file.replace('-', '_')  
    ano_mes = int(file.split('_')[0] + file.split('_')[1]) 
    
    df.columns = df.iloc[4]
    # trata última linha do arquivo que é usada como totalizador
    if ano_mes <= 202009:
        df = df.iloc[6:-1]
    else:
        df = df.iloc[6:]

    # coloca o df no formato desejado para obter os dados
    df = df.reset_index(drop=True)
    df.columns.values[0] = 'codigo_infracao'
        
    df.set_index('codigo_infracao', inplace=True)

    return df, ano_mes

def processa_cabecalho_tipo_3(path):
    df = pd.read_excel(path, engine='openpyxl')

    file = path.split('/')[-1]

    # recupera o ano_mes que está sendo analisado
    file = file.replace('-', '_')  
    ano_mes = int(file.split('_')[0] + file.split('_')[1]) 

    df.rename(columns={
        'UF':'uf',
        'Codigo_Infracao':'codigo_infracao',
        'Cod_Infracao':'codigo_infracao',
        'Quantidade':'qtd'
    }, inplace=True)
        
    df['ano_mes'] = ano_mes

    return df

def processa_cabecalho_tipo_4(path):
    df = pd.read_excel(path, engine='openpyxl')

    file = path.split('/')[-1]

    df = df[1:]

    # recupera o ano_mes que está sendo analisado
    file = file.replace('-', '_')  
    ano_mes = int(file.split('_')[0] + file.split('_')[1]) 

    # coloca o df no formato desejado para obter os dados
    df = df.reset_index(drop=True)
    df.columns.values[0] = 'codigo_infracao'
        
    df.set_index('codigo_infracao', inplace=True)

    return df, ano_mes

def processa_cabecalho_tipo_5(path):
    df = pd.read_excel(path, engine='openpyxl')

    file = path.split('/')[-1]

    df = df[1:]

    # recupera o ano_mes que está sendo analisado
    file = file.replace('-', '_')  
    ano_mes = int(file.split('_')[0] + file.split('_')[1]) 

    # coloca o df no formato desejado para obter os dados
    df.columns.values[0] = 'codigo_infracao'
        
    df.set_index('codigo_infracao', inplace=True)

    return df, ano_mes


In [None]:
def formata_df(df, ano_mes):
    # para cada arquivo, adiciona ano_mes e modifica o formato do df
    df_temp = pd.DataFrame()

    for idx in range(len(df.index)): #27 estados

        df2 = pd.DataFrame(data={
            'uf':df.columns,
            'qtd':df.iloc[idx].tolist(),
            'codigo_infracao':df.iloc[idx].name,
            'ano_mes':ano_mes
        })

        df_temp = pd.concat([df_temp, df2], axis='index')

    # guarda os valores no df final
    df_temp.dropna(subset=['qtd'], inplace=True)

    return df_temp

In [None]:
df_result = pd.DataFrame()
df_temp = pd.DataFrame()

folder_path = root_folder + folder_infracoes + 'cabecalho_1/'
for file in os.listdir(folder_path):

    df = pd.DataFrame()

    df, ano_mes = processa_cabecalho_tipo_1(folder_path + file)
    df_temp = pd.concat([df_temp, formata_df(df, ano_mes)], axis='index')

df_result = pd.concat([df_result, df_temp], axis='index')

folder_path = root_folder + folder_infracoes + 'cabecalho_2/'
for file in os.listdir(folder_path):

    df = pd.DataFrame()

    df, ano_mes = processa_cabecalho_tipo_2(folder_path + file)
    df_temp = pd.concat([df_temp, formata_df(df, ano_mes)], axis='index')

df_result = pd.concat([df_result, df_temp], axis='index')

folder_path = root_folder + folder_infracoes + 'cabecalho_3/'
for file in os.listdir(folder_path):

    df = pd.DataFrame()

    df = processa_cabecalho_tipo_3(folder_path + file)
    df_temp = pd.concat([df_temp, df], axis='index')

df_result = pd.concat([df_result, df_temp], axis='index')

folder_path = root_folder + folder_infracoes + 'cabecalho_4/'
for file in os.listdir(folder_path):

    df = pd.DataFrame()

    df, ano_mes = processa_cabecalho_tipo_4(folder_path + file)
    df_temp = pd.concat([df_temp, formata_df(df, ano_mes)], axis='index')

df_result = pd.concat([df_result, df_temp], axis='index')

folder_path = root_folder + folder_infracoes + 'cabecalho_5/'
for file in os.listdir(folder_path):

    df = pd.DataFrame()

    df, ano_mes = processa_cabecalho_tipo_5(folder_path + file)
    df_temp = pd.concat([df_temp, formata_df(df, ano_mes)], axis='index')

df_result = pd.concat([df_result, df_temp], axis='index')

In [None]:
quantidade_infracoes = df_result.merge(
    infracoes,
    how='left',
    on='codigo_infracao'
)

In [None]:
quantidade_infracoes.rename(columns={
    'id':'id_infracao'
}, inplace=True)

quantidade_infracoes = quantidade_infracoes[['id_infracao', 'ano_mes', 'uf', 'qtd']]

In [None]:
quantidade_infracoes

In [None]:
with engine.connect() as conn:
    quantidade_infracoes.to_sql(name='quantidade_infracoes', con=conn, if_exists='replace', index=False)