# Universidade de Brasília
## Programa de Pós-Graduação em Computação Aplicada
## Mestrato Profissional em Computação Aplicada
### Mineração de Dados
#### Professor: Marcelo Ladeira
#### Alunos: 
##### 22000xxxx - Alisson Melo Rios
##### 220005401 - Filipe Oliveira da Silva
##### 220005559 - Luís Eduardo Barreiro de Jesus


## 1. PREPARAÇÃO DO AMBIENTE DE PROCESSAMENTO

In [1]:
# Preparação do Ambiente
## Seção de bibliotecas
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
from mlxtend.frequent_patterns import apriori, association_rules

import datetime 

import folium
from folium.plugins import HeatMap, HeatMapWithTime, MarkerCluster

from apyori import apriori

In [2]:
import sqlalchemy
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy_utils import database_exists, create_database
from local_settings import postgresql as settings

In [3]:
def conn_bd():
    #url com dados de conexão com o SGBD
    url = 'postgresql://postgres:curso@localhost:15432'
    #conexão com o banco de dados
    engine = create_engine(url, echo=True)
    connection = engine.connect()
    return connection

In [4]:
connection = conn_bd()

2023-08-28 07:53:33,386 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2023-08-28 07:53:33,387 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:33,391 INFO sqlalchemy.engine.Engine select current_schema()
2023-08-28 07:53:33,392 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:33,393 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2023-08-28 07:53:33,394 INFO sqlalchemy.engine.Engine [raw sql] {}


## 2. MANIPULAÇÃO DE DADOS

Nesta seção, faz-se a manipulação dos dados de forma a se gerar as informações de acordo com a necessidade da análise dos dados.

### 2.1. Colunas do Dataframe

Nesta subseção, trabalha-se a identificação de subgrupos de dados carregados de registros de Acidentes da PRF.

In [5]:
## Criar um dataframe vazio para concatenação a partir da carga de um dos arquivos
df1 = pd.read_csv("./dados/datatran2022.csv", sep=";", dtype={'br': 'str', 'id': 'int64'}, decimal=",", encoding="latin1", nrows=1)

# Extract column names into a list
column_names = [x for x in df1.columns]

# Create empty DataFrame with those column names
dft = pd.DataFrame(columns=column_names)    

# Apagar o DataFrame 
del df1


In [6]:
dft

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop


In [7]:
# Constantes
## Colunas do Dataframe e operações tipo 1
## sumarização da quantidade de pessoas e estado em consequência do acidente
col_oper1 = {'id':'count', 'pessoas':'sum', 'mortos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'veiculos':'sum'}

## Colunas do Dataframe e operações tipo 2
col_oper2 = {'id':'count', 'mortos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'veiculos':'sum'}

#------------------------------------------------------------
# Para a geração de subdatasets
#------------------------------------------------------------
## colunas dos registros de acidentes 
col_acidentes = ['id',  
                'data_inversa',
                'hora',
                'minuto',
                'dia_semana',  
                'br',
                'km',
                'kmint',
                'uf',
                'municipio', 
                'causa_acidente', 
                'tipo_acidente',
                'classificacao_acidente', 
                'fase_dia', 
                'sentido_via',
                'condicao_metereologica', 
                'tipo_pista',
                'tracado_via', 
                'ilesos',
                'feridos_leves', 
                'feridos_graves', 
                'mortos',
                'uso_solo',
                'latitude', 
                'longitude',
                'ano_mes',
                'anomes_nr',
                'ano',
                'mes',
                'secao',
                'pos_concessao']

## colunas dos registros de veículos
col_veiculos = ['id',  
                'data_inversa',
                'ano_mes',
                'anomes_nr',
                'ano',
                'mes',
                'hora',
                'minuto',
                'id_veiculo', 
                'tipo_veiculo', 
                'marca', 
                'ano_fabricacao_veiculo',
                'ilesos',
                'feridos_leves', 
                'feridos_graves',
                'mortos',
                'latitude',
                'longitude',
                'classificacao_acidente',
                'secao',
                'pos_concessao']

## colunas dos registros de pessoas
col_pessoas =  ['id',  
                'data_inversa',
                'hora',
                'minuto',
                'id_veiculo',
                'pesid',
                'tipo_envolvido', 
                'estado_fisico', 
                'idade', 
                'sexo',
                'latitude',
                'longitude',
                'secao',
                'pos_concessao']

### 2.2. Carga do(s) arquivo(s) de registro de acidentes

A fonte de dados está disponível no sítio eletrônico de Dados Abertos da Polícia Rodoviária Federal, Órgão responsável, dentro outras, do patrulhamento das rodovias (CF 1988, art. 144, § 2º).

Link: https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-acidentes

### 2.2.1. Procedimentos e funções para carga dos arquivos

In [8]:
# função para carregar os arquivos de acidentes de trânsito
def _carrega_arquivos(_ano, df, _separador, _enconding):
    print(f"Início da carga do arquivo de acidentes de {_ano}....", datetime.datetime.today())
    
    # Carregar o arquivo
    dftmp = pd.read_csv(f"./dados/datatran{_ano}.csv", dtype={'br': 'str', 'id': 'int64'}, encoding=_enconding, decimal=",", sep=_separador, parse_dates=True)
    print(dftmp['id'].min(), dftmp['id'].max())
    
    
    # Filtrar somente a a BR-040
    dftmp = dftmp.loc[(dftmp['br']=='40')]
    
    # Upper em campos string
    dftmp['causa_acidente'] = dftmp['causa_acidente'].str.upper()
    dftmp['tipo_acidente'] = dftmp['tipo_acidente'].str.upper()
    dftmp["classificacao_acidente"] = dftmp["classificacao_acidente"].str.upper()
    dftmp["fase_dia"] = dftmp["fase_dia"].str.upper()
    dftmp["sentido_via"] = dftmp["sentido_via"].str.upper()
    dftmp["condicao_metereologica"] = dftmp["condicao_metereologica"].str.upper()
    dftmp["tipo_pista"] = dftmp["tipo_pista"].str.upper()
    dftmp["tracado_via"] = dftmp["tracado_via"].str.upper()
    dftmp["uso_solo"] = dftmp["uso_solo"].str.upper()
#    dftmp['estado_fisico'] = dftmp['estado_fisico'].str.upper()
    dftmp['dia_semana'] = dftmp['dia_semana'].str.upper()
#    dftmp['tipo_veiculo'] = dftmp['tipo_veiculo'].str.upper()
    
    # retirar espaços em branco
    dftmp["classificacao_acidente"] = dftmp["classificacao_acidente"].str.strip()
    dftmp["causa_acidente"] = dftmp["causa_acidente"].str.strip()
    dftmp["tipo_acidente"] = dftmp["tipo_acidente"].str.strip()
    dftmp["fase_dia"] = dftmp["fase_dia"].str.strip()
    dftmp["sentido_via"] = dftmp["sentido_via"].str.strip()
    dftmp["condicao_metereologica"] = dftmp["condicao_metereologica"].str.strip()
    dftmp["tipo_pista"] = dftmp["tipo_pista"].str.strip()
    dftmp["tracado_via"] = dftmp["tracado_via"].str.strip()
    dftmp["uso_solo"] = dftmp["uso_solo"].str.strip()
#    dftmp['estado_fisico'] = dftmp['estado_fisico'].str.strip()
    dftmp['dia_semana'] = dftmp['dia_semana'].str.strip()
    #dftmp["ano_fabricacao_veiculo"] = dftmp["ano_fabricacao_veiculo"].str.strip()
   
    # Transformar km em numérico
    dftmp["km"] = pd.to_numeric(dftmp["km"])
    # Manipulando o campo KM para criar um campo KM de valor inteiro para posteriormente incluir
    dftmp["kmint"] = dftmp["km"].astype(int)
    
    # Transformar o campo no tipo Datetime
    dftmp["data_inversa"] = pd.to_datetime(dftmp["data_inversa"])
    # Criar campo ano
    dftmp["ano"] = dftmp["data_inversa"].dt.year
    # Criar campo mês
    dftmp["mes"] = dftmp["data_inversa"].dt.month
    # Campo com ano e mês
    dftmp["ano_mes"] = dftmp['data_inversa'].dt.strftime('%B/%Y')
    dftmp["anomes_nr"] = dftmp['data_inversa'].dt.strftime('%Y%m')
    # Campo Hora e minuto
    dftmp["horario"] = pd.to_datetime(dftmp["horario"])
    dftmp["hora"] = dftmp['horario'].dt.strftime('%H')
    dftmp["minuto"] = dftmp['horario'].dt.strftime('%M') 
    dftmp.drop(columns=['horario'], inplace=True)
    
    # Manipulando o campo br
    dftmp["br"] = "BR-" + dftmp["br"].str.zfill(3)
    
    
    # Idade do Veículo
    #dftmp["idade_veiculo"] = dftmp["ano"] - pd.to_numeric(dftmp["ano_fabricacao_veiculo"].str.strip())
    
    df = pd.concat([df, dftmp], axis=0)
    print(f"Fim da carga do arquivo de acidentes de {_ano}....", datetime.datetime.today())
    print("Total de registros carregadas da BR-040...", len(dftmp))
    del dftmp
    return df

# Definir função para atualização do lat e long vazio
def _find_mean_lat_long(_uf, _km, df):
    xlat = df.loc[(df['uf']==_uf)&(df['km']==_km)].groupby(['uf','km']).agg({'latitude':'mean'})
    #xlat.reset_index()
    xlong = df.loc[(df['uf']==_uf)&(df['km']==_km)].groupby(['uf','km']).agg({'longitude':'mean'})
    #xlong.reset_index()
    return xlat, xlong
    
## ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
## -- funções para agrupadores 
## ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

dictio = {'id':'count', 'ilesos':'sum','feridos_leves':'sum','feridos_graves':'sum', 'mortos':'sum'}

# Análise estatística dos dados de acidentes
def _acidentes(df, aggr_field, dicio ):
    ## Acidentes por ano_mes
    #dfagg_acid = dfacid.groupby(['causa_acidente']).agg({'id':'count', 'ilesos':'sum','feridos_leves':'sum','feridos_graves':'sum', 'mortos':'sum'})
    df = df.groupby(aggr_field).agg(dicio)
    # Altera o nome da coluna id para qtd - count(id)
    df.rename(columns={'id':'qtd'}, inplace=True)
    df['percentual_mortalidade'] = df['mortos'] / df['qtd'] * 100
    df.reset_index(inplace=True)
    df = df.sort_values(by=['percentual_mortalidade'],ascending=False)
    return df

def _acidente_pessoas(df, aggr_field, dict_pess):
    print(aggr_field)
    df = df.groupby(aggr_field).agg(dict_pess)
    return df
    

### 2.2.2. Carregar os arquivos

In [9]:
# Realização da carga do arquivos para dataframe
# parâmetros: ano dos regitros, dataframe, separador, encoding

# dft -- Todos os registros de acidentes da BR-040 desde 2007 até 2021

dft = _carrega_arquivos("2007", dft, ";","latin1")
dft = _carrega_arquivos("2008", dft, ";","latin1")
dft = _carrega_arquivos("2009", dft, ";","latin1")
dft = _carrega_arquivos("2010", dft, ";","latin1")
dft = _carrega_arquivos("2011", dft, ";","latin1")
dft = _carrega_arquivos("2012", dft, ";","latin1")
dft = _carrega_arquivos("2013", dft, ";","latin1")
dft = _carrega_arquivos("2014", dft, ";","latin1")
dft = _carrega_arquivos("2015", dft, ";","latin1")
dft = _carrega_arquivos("2016", dft, ";","latin1")
dft = _carrega_arquivos("2017", dft, ";","latin1")
dft = _carrega_arquivos("2018", dft, ";","latin1")
dft = _carrega_arquivos("2019", dft, ";","latin1")
dft = _carrega_arquivos("2020", dft, ";","latin1")
dft = _carrega_arquivos("2021", dft, ";","latin1")
#dft = _carrega_arquivos("2022", dft, ";","latin1")


Início da carga do arquivo de acidentes de 2007.... 2023-08-28 07:53:33.456693
10 83384908
Fim da carga do arquivo de acidentes de 2007.... 2023-08-28 07:53:33.727312
Total de registros carregadas da BR-040... 7028
Início da carga do arquivo de acidentes de 2008.... 2023-08-28 07:53:33.727788
323803 83412416
Fim da carga do arquivo de acidentes de 2008.... 2023-08-28 07:53:34.008342
Total de registros carregadas da BR-040... 7576
Início da carga do arquivo de acidentes de 2009.... 2023-08-28 07:53:34.009525
471611 83441662
Fim da carga do arquivo de acidentes de 2009.... 2023-08-28 07:53:34.317964
Total de registros carregadas da BR-040... 8019
Início da carga do arquivo de acidentes de 2010.... 2023-08-28 07:53:34.319717
635999 83444179
Fim da carga do arquivo de acidentes de 2010.... 2023-08-28 07:53:34.693268
Total de registros carregadas da BR-040... 9680
Início da carga do arquivo de acidentes de 2011.... 2023-08-28 07:53:34.695472
26946 83448543
Fim da carga do arquivo de acident

### 2.2.3. Selecionar os trecho da rodovia objeto do estudo (D+ seleções)

In [10]:
# Criar dataframe com o trecho da BR-040 concedido à via 040

# - Condições:
# -- DF: KM 000 até km 8,400 
# -- GO: Todo o trecho
# -- MG: KM 000 até KM 773

# dftc = Dataframe Trecho da Concessão
dftc = pd.concat([dft[(dft.uf == 'DF')&(dft.km > 0)&(dft.km < 8.1)], dft[(dft.uf == 'GO')], dft[(dft.uf == 'MG')&(dft.km > 0)&(dft.km < 774)]], axis=0)

# -----------------------------------------------------------------------------------------------
# Incluir marcador de Seção da Rodovia, de acordo com o quantitativo de acidentes observador 
# -----------------------------------------------------------------------------------------------
dftc['secao'] = 0
# Trecho de índice de acidente alto - Região Metropolitana de Brasília
dftc.loc[dftc['uf'] == 'DF', 'secao'] = 1                           # parte do trecho 1 - Dentro do DF
dftc.loc[((dftc['uf'] == 'GO')&(dftc['km'] <= 96)) , 'secao'] = 1   # parte do trecho 1 - DF até o município de Criatalina/GO, km 96 - próximo ao trevo com a BR-060

# Trecho de índice de acidentes baixo - De Cristalina até DF
dftc.loc[((dftc['uf'] == 'GO')&(dftc['km'] > 96))  , 'secao'] = 2   # parte do trecho 2 - Cristalina/GO
dftc.loc[((dftc['uf'] == 'MG')&(dftc['km'] <= 422)), 'secao'] = 2   # parte do trecho 2 - Paracatu/MG até o KM 422

# Trecho de índice de acidente alto - Trecho que vai de Sete Lagoas até Juiz de Fora
dftc.loc[((dftc['uf'] == 'MG')&(dftc['km'] > 422)) , 'secao'] = 3   # parte do trecho 2 - Paracatu/MG até o KM 422


dftc['trecho_duplicado'] = 0
dftc.loc[((dftc['uf'] == 'GO')&((dftc['km'] >= 33.5)&(dftc['km'] <= 40.5))) , 'trecho_duplicado'] = 1   # Trecho Duplicado
dftc.loc[((dftc['uf'] == 'GO')&((dftc['km'] >= 51.5)&(dftc['km'] <= 58.2))) , 'trecho_duplicado'] = 1   # Trecho Duplicado
dftc.loc[((dftc['uf'] == 'GO')&((dftc['km'] >= 69.5)&(dftc['km'] <= 74.5))) , 'trecho_duplicado'] = 1   # Trecho Duplicado
dftc.loc[((dftc['uf'] == 'GO')&((dftc['km'] >= 79.0)&(dftc['km'] <= 88.8))) , 'trecho_duplicado'] = 1   # Trecho Duplicado
dftc.loc[((dftc['uf'] == 'GO')&((dftc['km'] >= 105.3)&(dftc['km'] <= 130.3))) , 'trecho_duplicado'] = 1   # Trecho Duplicado
dftc.loc[((dftc['uf'] == 'MG')&((dftc['km'] >= 167.5)&(dftc['km'] <= 172.6))) , 'trecho_duplicado'] = 1   # Trecho Duplicado

# -----------------------------------------------------------------------------------------------
# Incluir marcador de registro pré ou pós concessão da Rodovia 
# -----------------------------------------------------------------------------------------------
dftc['pos_concessao'] = 0
dftc.loc[dftc['anomes_nr'] >= '201501', 'pos_concessao'] = 1   # Marcar como pós concessão a partir do mês de julho de 2014

dftc

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,ano,kmint,mes,ano_mes,anomes_nr,hora,minuto,secao,trecho_duplicado,pos_concessao
790,175013,2007-03-01,QUARTA,,DF,BR-040,5.8,BRASILIA,OUTRAS,COLISÃO TRASEIRA,...,2007.0,5.0,3.0,March/2007,200703,19,10,1,0,0
1825,176396,2007-01-01,SEGUNDA,,DF,BR-040,4.4,BRASILIA,DEFEITO NA VIA,SAÍDA DE PISTA,...,2007.0,4.0,1.0,January/2007,200701,23,00,1,0,0
2193,176880,2007-08-01,SEGUNDA,,DF,BR-040,3.0,BRASILIA,DEFEITO MECÂNICO EM VEÍCULO,COLISÃO TRASEIRA,...,2007.0,3.0,8.0,August/2007,200708,14,30,1,0,0
2221,176914,2007-08-01,SEGUNDA,,DF,BR-040,3.0,BRASILIA,OUTRAS,COLISÃO TRASEIRA,...,2007.0,3.0,8.0,August/2007,200708,14,30,1,0,0
2575,177406,2007-03-01,QUARTA,,DF,BR-040,2.0,BRASILIA,FALTA DE ATENÇÃO,COLISÃO TRASEIRA,...,2007.0,2.0,3.0,March/2007,200703,15,45,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
64449,447921,2021-08-04,QUARTA-FEIRA,,MG,BR-040,524.0,CONTAGEM,MANOBRA DE MUDANÇA DE FAIXA,COLISÃO LATERAL MESMO SENTIDO,...,2021.0,524.0,8.0,August/2021,202108,15,50,3,0,1
64460,450070,2021-10-11,SEGUNDA-FEIRA,,MG,BR-040,737.8,SANTOS DUMONT,VELOCIDADE INCOMPATÍVEL,COLISÃO LATERAL SENTIDO OPOSTO,...,2021.0,737.0,10.0,October/2021,202110,14,05,3,0,1
64472,454370,2021-10-09,SÁBADO,,MG,BR-040,112.7,LAGOA GRANDE,REAÇÃO TARDIA OU INEFICIENTE DO CONDUTOR,SAÍDA DE LEITO CARROÇÁVEL,...,2021.0,112.0,10.0,October/2021,202110,06,35,2,0,1
64485,455947,2021-11-02,TERÇA-FEIRA,,MG,BR-040,194.9,JOAO PINHEIRO,DEIXAR DE ACIONAR O FAROL DA MOTOCICLETA (OU S...,COLISÃO TRASEIRA,...,2021.0,194.0,11.0,November/2021,202111,20,30,2,0,1


In [11]:
dftc.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 63312 entries, 790 to 64498
Data columns (total 40 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   id                      63312 non-null  object        
 1   data_inversa            63312 non-null  datetime64[ns]
 2   dia_semana              63312 non-null  object        
 3   horario                 0 non-null      object        
 4   uf                      63312 non-null  object        
 5   br                      63312 non-null  object        
 6   km                      63312 non-null  float64       
 7   municipio               63312 non-null  object        
 8   causa_acidente          63312 non-null  object        
 9   tipo_acidente           63311 non-null  object        
 10  classificacao_acidente  63312 non-null  object        
 11  fase_dia                63312 non-null  object        
 12  sentido_via             63312 non-null  obje

In [12]:

# Atualizar campo dia_semana
dftc.loc[dftc['dia_semana'] == 'SEGUNDA', 'dia_semana'] = 'SEGUNDA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'TERÇA', 'dia_semana'] = 'TERÇA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'QUARTA', 'dia_semana'] = 'QUARTA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'QUINTA', 'dia_semana'] = 'QUINTA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'SEXTA', 'dia_semana'] = 'SEXTA-FEIRA'


dftc['kmint'] = dftc['kmint'].astype('int')
dftc['ano'] = dftc['ano'].astype('int')
dftc['mes'] = dftc['mes'].astype('int')

#dftc['ilesos'] = dftc['ilesos'].astype('int')
#dftc['mortos'] = dftc['mortos'].astype('int')
#dftc['mortos'] = dftc['mortos'].astype('int')

dftc['automovel'] = 0
dftc['bicicleta'] = 0
dftc['caminhao'] = 0
dftc['utilitario'] = 0
dftc['tracao_animal'] = 0
dftc['onibus'] = 0
dftc['moto'] = 0
dftc['sem_informacao'] = 0
dftc['outros'] = 0
dftc['reboque'] = 0
dftc['trator'] = 0

dftc['target'] = 0


In [13]:
# Dados de Veículos

## 3. CARREGAR EM SCHEMA DE BANCO

In [14]:
dbtrans = connection.begin()
#connection.execute('truncate table MPCA_MD.acidentesmd')
dftc.to_sql('acidentesmd', connection, schema='MPCA_MD', if_exists='replace', index=False, index_label=None, chunksize=None, dtype=None, method=None)
dbtrans.commit()



2023-08-28 07:53:38,611 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-08-28 07:53:38,631 INFO sqlalchemy.engine.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where n.nspname=%(schema)s and relname=%(name)s
2023-08-28 07:53:38,632 INFO sqlalchemy.engine.Engine [generated in 0.00066s] {'schema': 'MPCA_MD', 'name': 'acidentesmd'}
2023-08-28 07:53:38,665 INFO sqlalchemy.engine.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where n.nspname=%(schema)s and relname=%(name)s
2023-08-28 07:53:38,665 INFO sqlalchemy.engine.Engine [cached since 0.03417s ago] {'schema': 'MPCA_MD', 'name': 'acidentesmd'}
2023-08-28 07:53:38,666 INFO sqlalchemy.engine.Engine SELECT c.relname FROM pg_class c JOIN pg_namespace n ON n.oid = c.relnamespace WHERE n.nspname = %(schema)s AND c.relkind in ('r', 'p')
2023-08-28 07:53:38,667 INFO sqlalchemy.engine.Engine [generated in 0.00023s] {'schema': 'MPCA_MD'}
2023-08-28 07:53:38,670 INFO sqlalc

In [15]:
# Criar a tabela de Acidentes no Banco de Dados
connection = conn_bd()
v_sql = ''' DROP table if EXISTS "MPCA_MD".acidentes;

            create table "MPCA_MD".acidentes
            AS
            SELECT id, 
                   data_inversa, 
                   dia_semana, 
                   uf, 
                   br, 
                   km, 
                   municipio, 
                   causa_acidente, 
                   tipo_acidente, 
                   classificacao_acidente, 
                   fase_dia, 
                   sentido_via, 
                   condicao_metereologica, 
                   tipo_pista, 
                   tracado_via, 
                   uso_solo, 
                   latitude, 
                   longitude, 
                   kmint, 
                   ano, 
                   mes, 
                   ano_mes, 
                   anomes_nr, 
                   hora, 
                   minuto, 
                   secao, 
                   pos_concessao,
                   trecho_duplicado,
                   ilesos, 
                   feridos_leves, 
                   feridos_graves, 
                   mortos as mortos,
                   target
            FROM "MPCA_MD".acidentesmd; '''

dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2023-08-28 07:53:48,458 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2023-08-28 07:53:48,459 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:48,461 INFO sqlalchemy.engine.Engine select current_schema()
2023-08-28 07:53:48,461 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:48,463 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2023-08-28 07:53:48,463 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:48,464 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-08-28 07:53:48,465 INFO sqlalchemy.engine.Engine  DROP table if EXISTS "MPCA_MD".acidentes;

            create table "MPCA_MD".acidentes
            AS
            SELECT id, 
                   data_inversa, 
                   dia_semana, 
                   uf, 
                   br, 
                   km, 
                   municipio, 
                   causa_acidente, 
                   tipo_acidente, 
                   classificacao_acidente, 
               

In [16]:
v_sql = 'CREATE INDEX acidentes_uf_km_idx ON "MPCA_MD".acidentes USING btree (uf, km);'
connection = conn_bd()
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

v_sql = 'CREATE INDEX acidentes_uf_kmint_idx ON "MPCA_MD".acidentes USING btree (uf, kmint);'
connection = conn_bd()
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2023-08-28 07:53:50,357 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2023-08-28 07:53:50,358 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:50,360 INFO sqlalchemy.engine.Engine select current_schema()
2023-08-28 07:53:50,360 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:50,363 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2023-08-28 07:53:50,363 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:50,364 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-08-28 07:53:50,365 INFO sqlalchemy.engine.Engine CREATE INDEX acidentes_uf_km_idx ON "MPCA_MD".acidentes USING btree (uf, km);
2023-08-28 07:53:50,366 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:50,567 INFO sqlalchemy.engine.Engine COMMIT
2023-08-28 07:53:50,595 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2023-08-28 07:53:50,596 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:50,598 INFO sqlalchemy.engine.Engine select current_sch

In [17]:
dftc.isna().sum()

id                            0
data_inversa                  0
dia_semana                    0
horario                   63312
uf                            0
br                            0
km                            0
municipio                     0
causa_acidente                0
tipo_acidente                 1
classificacao_acidente        0
fase_dia                      0
sentido_via                   0
condicao_metereologica        0
tipo_pista                    0
tracado_via                   0
uso_solo                      0
pessoas                       0
mortos                        0
feridos_leves                 0
feridos_graves                0
ilesos                        0
ignorados                     0
feridos                       0
veiculos                      0
latitude                  51151
longitude                 51151
regional                  51151
delegacia                 51151
uop                       51151
ano                           0
kmint   

In [18]:
#Ler Banco para Dataframe
connection = conn_bd()
#v_sql = 'select "MPCA_MD".atualiza_lat_long();'
#msg = pd.read_sql_query(v_sql, connection)

v_sql = ''' update  "MPCA_MD".acidentes UP
            set LATITUDE = (select AVG(CAST(LATITUDE AS FLOAT8)) from "MPCA_MD".acidentes LA where latitude is not null and   LA.UF = UP.UF and LA.KM = UP.KM group by LA.UF, LA.KM)
            ,   LONGITUDE = (select AVG(CAST(LONGITUDE AS FLOAT8)) from "MPCA_MD".acidentes LO where LONGITUDE is not null and   LO.UF = UP.UF and LO.KM = UP.KM group by LO.UF, LO.KM)
            where UP.latitude is null
            and   exists (select 1
                          from "MPCA_MD".acidentes
                          where latitude is not null
                          and   uf = UP.uf
                          and   km = UP.km);
'''

#for index, row in dftc.iterrows():
#    v_sql = '''UPDATE "MPCA_MD".acidentes SET latitude = %f, longitude = %f WHERE latitude is null AND uf = '%s' AND  br = '%s' AND  (km >= (%f - 3) AND km <= (%f + 3) ); ''' % (row['latitude'],row['longitude'],row['uf'],row['br'],row['km'], row['km'])

#    print(v_sql)
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()
        

2023-08-28 07:53:50,944 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2023-08-28 07:53:50,945 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:50,946 INFO sqlalchemy.engine.Engine select current_schema()
2023-08-28 07:53:50,946 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:50,947 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2023-08-28 07:53:50,947 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:50,948 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-08-28 07:53:50,948 INFO sqlalchemy.engine.Engine  update  "MPCA_MD".acidentes UP
            set LATITUDE = (select AVG(CAST(LATITUDE AS FLOAT8)) from "MPCA_MD".acidentes LA where latitude is not null and   LA.UF = UP.UF and LA.KM = UP.KM group by LA.UF, LA.KM)
            ,   LONGITUDE = (select AVG(CAST(LONGITUDE AS FLOAT8)) from "MPCA_MD".acidentes LO where LONGITUDE is not null and   LO.UF = UP.UF and LO.KM = UP.KM group by LO.UF, LO.KM)
            where UP.latitude 

In [19]:
dftc.isna().sum()

id                            0
data_inversa                  0
dia_semana                    0
horario                   63312
uf                            0
br                            0
km                            0
municipio                     0
causa_acidente                0
tipo_acidente                 1
classificacao_acidente        0
fase_dia                      0
sentido_via                   0
condicao_metereologica        0
tipo_pista                    0
tracado_via                   0
uso_solo                      0
pessoas                       0
mortos                        0
feridos_leves                 0
feridos_graves                0
ilesos                        0
ignorados                     0
feridos                       0
veiculos                      0
latitude                  51151
longitude                 51151
regional                  51151
delegacia                 51151
uop                       51151
ano                           0
kmint   

In [20]:
#Ler Banco para Dataframe
connection = conn_bd()
#v_sql = 'select "MPCA_MD".atualiza_lat_long();'
#msg = pd.read_sql_query(v_sql, connection)

v_sql = ''' update  "MPCA_MD".acidentes UP
            set LATITUDE = (select AVG(CAST(LATITUDE AS FLOAT8)) from "MPCA_MD".acidentes LA where latitude is not null and   LA.UF = UP.UF and LA.KMINT = UP.KMINT group by LA.UF, LA.KMINT)
            ,   LONGITUDE = (select AVG(CAST(LONGITUDE AS FLOAT8)) from "MPCA_MD".acidentes LO where LONGITUDE is not null and   LO.UF = UP.UF and LO.KMINT = UP.KMINT group by LO.UF, LO.KMINT)
            where UP.latitude is null
            and   exists (select 1
                          from "MPCA_MD".acidentes
                          where latitude is not null
                          and   uf = UP.uf
                          and   kmint = UP.kmint);
'''

#for index, row in dftc.iterrows():
#    v_sql = '''UPDATE "MPCA_MD".acidentes SET latitude = %f, longitude = %f WHERE latitude is null AND uf = '%s' AND  br = '%s' AND  (km >= (%f - 3) AND km <= (%f + 3) ); ''' % (row['latitude'],row['longitude'],row['uf'],row['br'],row['km'], row['km'])

#    print(v_sql)
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()
        

2023-08-28 07:53:58,959 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2023-08-28 07:53:58,960 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:58,961 INFO sqlalchemy.engine.Engine select current_schema()
2023-08-28 07:53:58,961 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:58,962 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2023-08-28 07:53:58,963 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:53:58,965 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-08-28 07:53:58,965 INFO sqlalchemy.engine.Engine  update  "MPCA_MD".acidentes UP
            set LATITUDE = (select AVG(CAST(LATITUDE AS FLOAT8)) from "MPCA_MD".acidentes LA where latitude is not null and   LA.UF = UP.UF and LA.KMINT = UP.KMINT group by LA.UF, LA.KMINT)
            ,   LONGITUDE = (select AVG(CAST(LONGITUDE AS FLOAT8)) from "MPCA_MD".acidentes LO where LONGITUDE is not null and   LO.UF = UP.UF and LO.KMINT = UP.KMINT group by LO.UF, LO.KMINT)
            

In [21]:
dftc.isna().sum()

id                            0
data_inversa                  0
dia_semana                    0
horario                   63312
uf                            0
br                            0
km                            0
municipio                     0
causa_acidente                0
tipo_acidente                 1
classificacao_acidente        0
fase_dia                      0
sentido_via                   0
condicao_metereologica        0
tipo_pista                    0
tracado_via                   0
uso_solo                      0
pessoas                       0
mortos                        0
feridos_leves                 0
feridos_graves                0
ilesos                        0
ignorados                     0
feridos                       0
veiculos                      0
latitude                  51151
longitude                 51151
regional                  51151
delegacia                 51151
uop                       51151
ano                           0
kmint   

In [22]:

connection = conn_bd()
v_sql = '''
        update  "MPCA_MD".acidentes UP
        set ilesos = 0
        where UP.ilesos is null;

        update  "MPCA_MD".acidentes UP
        set mortos = 0
        where UP.mortos is null;

        update  "MPCA_MD".acidentes UP
        set feridos_leves  = 0
        where UP.feridos_leves is null;

        update  "MPCA_MD".acidentes UP
        set feridos_graves  = 0
        where UP.feridos_graves is null;
        
        update  "MPCA_MD".acidentes UP
        set target  = 1
        where UP.feridos_graves > 0 or UP.mortos > 0;
        
        '''
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2023-08-28 07:54:00,533 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2023-08-28 07:54:00,533 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:54:00,534 INFO sqlalchemy.engine.Engine select current_schema()
2023-08-28 07:54:00,535 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:54:00,536 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2023-08-28 07:54:00,536 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:54:00,537 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-08-28 07:54:00,537 INFO sqlalchemy.engine.Engine 
        update  "MPCA_MD".acidentes UP
        set ilesos = 0
        where UP.ilesos is null;

        update  "MPCA_MD".acidentes UP
        set mortos = 0
        where UP.mortos is null;

        update  "MPCA_MD".acidentes UP
        set feridos_leves  = 0
        where UP.feridos_leves is null;

        update  "MPCA_MD".acidentes UP
        set feridos_graves  = 0
        where UP.feridos_graves is null;
        
  

In [23]:
#Ler Banco para Dataframe
connection = conn_bd()
v_sql = ''' SELECT * 
            FROM "MPCA_MD".acidentes;'''
dftc = pd.read_sql_query(v_sql, connection)

2023-08-28 07:54:00,954 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2023-08-28 07:54:00,955 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:54:00,958 INFO sqlalchemy.engine.Engine select current_schema()
2023-08-28 07:54:00,958 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:54:00,960 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2023-08-28 07:54:00,960 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-08-28 07:54:00,962 INFO sqlalchemy.engine.Engine  SELECT * 
            FROM "MPCA_MD".acidentes;
2023-08-28 07:54:00,963 INFO sqlalchemy.engine.Engine [raw sql] {}


In [24]:
dftc

Unnamed: 0,id,data_inversa,dia_semana,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,...,hora,minuto,secao,pos_concessao,trecho_duplicado,ilesos,feridos_leves,feridos_graves,mortos,target
0,364155,2008-10-04,QUINTA-FEIRA,DF,BR-040,1.1,BRASILIA,OUTRAS,COLISÃO LATERAL,COM VÍTIMAS FERIDAS,...,07,50,1,0,0,1,2,0,0,0
1,380607,2008-05-21,QUARTA-FEIRA,DF,BR-040,1.1,BRASILIA,FALTA DE ATENÇÃO,COLISÃO TRASEIRA,SEM VÍTIMAS,...,08,20,1,0,0,2,0,0,0,0
2,1151193,2012-08-03,SEXTA-FEIRA,DF,BR-040,1.1,BRASILIA,NÃO GUARDAR DISTÂNCIA DE SEGURANÇA,COLISÃO TRASEIRA,SEM VÍTIMAS,...,16,45,1,0,0,2,0,0,0,0
3,1229094,2013-01-01,TERÇA-FEIRA,DF,BR-040,1.1,BRASILIA,FALTA DE ATENÇÃO,CAPOTAMENTO,SEM VÍTIMAS,...,15,30,1,0,0,3,0,0,0,0
4,1232947,2013-01-09,QUARTA-FEIRA,DF,BR-040,1.1,BRASILIA,FALTA DE ATENÇÃO,COLISÃO LATERAL,COM VÍTIMAS FERIDAS,...,17,30,1,0,0,1,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63307,83529775,2016-12-30,SEXTA-FEIRA,MG,BR-040,695.1,ALFREDO VASCONCELOS,OUTRAS,COLISÃO LATERAL,COM VÍTIMAS FATAIS,...,14,00,3,1,0,1,0,0,1,1
63308,83529840,2016-12-22,QUINTA-FEIRA,MG,BR-040,522.0,CONTAGEM,OUTRAS,COLISÃO TRASEIRA,COM VÍTIMAS FERIDAS,...,17,20,3,1,0,1,0,1,0,1
63309,83529865,2016-08-26,SEXTA-FEIRA,MG,BR-040,573.0,ITABIRITO,OUTRAS,COLISÃO FRONTAL,COM VÍTIMAS FATAIS,...,02,05,3,1,0,1,9,1,3,1
63310,174443,2007-02-01,TERÇA-FEIRA,MG,BR-040,719.4,BARBACENA,VELOCIDADE INCOMPATÍVEL,SAÍDA DE PISTA,COM VÍTIMAS FERIDAS,...,13,30,3,0,0,0,0,1,0,1


In [25]:
connection.close()

In [26]:
dftc.columns

Index(['id', 'data_inversa', 'dia_semana', 'uf', 'br', 'km', 'municipio',
       'causa_acidente', 'tipo_acidente', 'classificacao_acidente', 'fase_dia',
       'sentido_via', 'condicao_metereologica', 'tipo_pista', 'tracado_via',
       'uso_solo', 'latitude', 'longitude', 'kmint', 'ano', 'mes', 'ano_mes',
       'anomes_nr', 'hora', 'minuto', 'secao', 'pos_concessao',
       'trecho_duplicado', 'ilesos', 'feridos_leves', 'feridos_graves',
       'mortos', 'target'],
      dtype='object')

In [27]:
dftc.isna().sum()

id                          0
data_inversa                0
dia_semana                  0
uf                          0
br                          0
km                          0
municipio                   0
causa_acidente              0
tipo_acidente               1
classificacao_acidente      0
fase_dia                    0
sentido_via                 0
condicao_metereologica      0
tipo_pista                  0
tracado_via                 0
uso_solo                    0
latitude                  472
longitude                 472
kmint                       0
ano                         0
mes                         0
ano_mes                     0
anomes_nr                   0
hora                        0
minuto                      0
secao                       0
pos_concessao               0
trecho_duplicado            0
ilesos                      0
feridos_leves               0
feridos_graves              0
mortos                      0
target                      0
dtype: int

In [28]:
dftc.dropna(inplace=True)

### 2.2.5. Atualização de Informações no Dataframe carregado

Trata-se de seção para correção / ajustes nos dados para que o processamento possa ser realizado com sucesso.


#### 2.2.5.1. Atualizar Latitude e longitude

Os dados de Latitude e Longitude só aparecem nos dados abertos a partir do ano de 2017.

Para "corrigir" e poder plotar os acidentes no mapa, os dados de latitude e longitude serão atualizados considerando a média da localização da KM da rodovia.

#### 2.2.5.4. Correção dos tipos de dados

In [29]:
dftc

Unnamed: 0,id,data_inversa,dia_semana,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,...,hora,minuto,secao,pos_concessao,trecho_duplicado,ilesos,feridos_leves,feridos_graves,mortos,target
0,364155,2008-10-04,QUINTA-FEIRA,DF,BR-040,1.1,BRASILIA,OUTRAS,COLISÃO LATERAL,COM VÍTIMAS FERIDAS,...,07,50,1,0,0,1,2,0,0,0
1,380607,2008-05-21,QUARTA-FEIRA,DF,BR-040,1.1,BRASILIA,FALTA DE ATENÇÃO,COLISÃO TRASEIRA,SEM VÍTIMAS,...,08,20,1,0,0,2,0,0,0,0
2,1151193,2012-08-03,SEXTA-FEIRA,DF,BR-040,1.1,BRASILIA,NÃO GUARDAR DISTÂNCIA DE SEGURANÇA,COLISÃO TRASEIRA,SEM VÍTIMAS,...,16,45,1,0,0,2,0,0,0,0
3,1229094,2013-01-01,TERÇA-FEIRA,DF,BR-040,1.1,BRASILIA,FALTA DE ATENÇÃO,CAPOTAMENTO,SEM VÍTIMAS,...,15,30,1,0,0,3,0,0,0,0
4,1232947,2013-01-09,QUARTA-FEIRA,DF,BR-040,1.1,BRASILIA,FALTA DE ATENÇÃO,COLISÃO LATERAL,COM VÍTIMAS FERIDAS,...,17,30,1,0,0,1,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63307,83529775,2016-12-30,SEXTA-FEIRA,MG,BR-040,695.1,ALFREDO VASCONCELOS,OUTRAS,COLISÃO LATERAL,COM VÍTIMAS FATAIS,...,14,00,3,1,0,1,0,0,1,1
63308,83529840,2016-12-22,QUINTA-FEIRA,MG,BR-040,522.0,CONTAGEM,OUTRAS,COLISÃO TRASEIRA,COM VÍTIMAS FERIDAS,...,17,20,3,1,0,1,0,1,0,1
63309,83529865,2016-08-26,SEXTA-FEIRA,MG,BR-040,573.0,ITABIRITO,OUTRAS,COLISÃO FRONTAL,COM VÍTIMAS FATAIS,...,02,05,3,1,0,1,9,1,3,1
63310,174443,2007-02-01,TERÇA-FEIRA,MG,BR-040,719.4,BARBACENA,VELOCIDADE INCOMPATÍVEL,SAÍDA DE PISTA,COM VÍTIMAS FERIDAS,...,13,30,3,0,0,0,0,1,0,1


In [30]:
dftc['kmint'] = dftc['kmint'].astype('int')
dftc['ano'] = dftc['ano'].astype('int')
dftc['mes'] = dftc['mes'].astype('int')

dftc['ilesos'] = dftc['ilesos'].astype('int')
dftc['feridos_leves'] = dftc['feridos_leves'].astype('int')
dftc['feridos_graves'] = dftc['feridos_graves'].astype('int')
dftc['mortos'] = dftc['mortos'].astype('int')
dftc['target'] = dftc['target'].astype('int')

In [31]:
# Exportar dataframe para arquivo 
csv_acidentes = dftc.to_csv(r'./dados/csv_acidentes.csv', sep=',', na_rep='', header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', chunksize=None, date_format='%Y%m%d', doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None)


In [32]:
# 