# Universidade de Brasília
## Programa de Pós-Graduação em Computação Aplicada
## Mestrato Profissional em Computação Aplicada
### Mineração de Dados
#### Professor: Marcelo Ladeira
#### Alunos: 
##### 22000xxxx - Alisson Melo Rios
##### 220005401 - Filipe Oliveira da Silva
##### 220005559 - Luís Eduardo Barreiro de Jesus


## 1. PREPARAÇÃO DO AMBIENTE DE PROCESSAMENTO

In [2]:
# Preparação do Ambiente
## Seção de bibliotecas
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
from mlxtend.frequent_patterns import apriori, association_rules

import datetime 

import folium
from folium.plugins import HeatMap, HeatMapWithTime, MarkerCluster

from apyori import apriori

ModuleNotFoundError: No module named 'mlxtend'

In [3]:
import sqlalchemy
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy_utils import database_exists, create_database
from local_settings import postgresql as settings

ModuleNotFoundError: No module named 'sqlalchemy_utils'

In [4]:
def conn_bd():
    #url com dados de conexão com o SGBD
    url = 'postgresql://postgres:curso@localhost:15432'
    #conexão com o banco de dados
    engine = create_engine(url, echo=True)
    connection = engine.connect()
    return connection

In [5]:
connection = conn_bd()

2024-06-04 21:44:14,015 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2024-06-04 21:44:14,017 INFO sqlalchemy.engine.Engine [raw sql] {}
2024-06-04 21:44:14,020 INFO sqlalchemy.engine.Engine select current_schema()
2024-06-04 21:44:14,020 INFO sqlalchemy.engine.Engine [raw sql] {}
2024-06-04 21:44:14,022 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2024-06-04 21:44:14,023 INFO sqlalchemy.engine.Engine [raw sql] {}


## 2. MANIPULAÇÃO DE DADOS

Nesta seção, faz-se a manipulação dos dados de forma a se gerar as informações de acordo com a necessidade da análise dos dados.

### 2.1. Colunas do Dataframe

Nesta subseção, trabalha-se a identificação de subgrupos de dados carregados de registros de Acidentes da PRF.

In [6]:
## Criar um dataframe vazio para concatenação a partir da carga de um dos arquivos
df1 = pd.read_csv("./dados/acidentes2021.csv", sep=";", dtype={'br': 'str', 'id': 'int64'}, decimal=",", encoding="latin1", nrows=1)

# Extract column names into a list
column_names = [x for x in df1.columns]

# Create empty DataFrame with those column names
dft = pd.DataFrame(columns=column_names)    

# Apagar o DataFrame 
del df1


FileNotFoundError: [Errno 2] No such file or directory: './dados/acidentes2021.csv'

In [None]:
# Constantes
## Colunas do Dataframe e operações tipo 1
## sumarização da quantidade de pessoas e estado em consequência do acidente
col_oper1 = {'id':'count', 'pessoas':'sum', 'mortos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'veiculos':'sum'}

## Colunas do Dataframe e operações tipo 2
col_oper2 = {'id':'count', 'mortos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'veiculos':'sum'}

#------------------------------------------------------------
# Para a geração de subdatasets
#------------------------------------------------------------
## colunas dos registros de acidentes 
col_acidentes = ['id',  
                'data_inversa',
                'hora',
                'minuto',
                'dia_semana',  
                'br',
                'km',
                'kmint',
                'uf',
                'municipio', 
                'causa_acidente', 
                'tipo_acidente',
                'classificacao_acidente', 
                'fase_dia', 
                'sentido_via',
                'condicao_metereologica', 
                'tipo_pista',
                'tracado_via', 
                'ilesos',
                'feridos_leves', 
                'feridos_graves', 
                'mortos',
                'uso_solo',
                'latitude', 
                'longitude',
                'ano_mes',
                'anomes_nr',
                'ano',
                'mes',
                'secao',
                'pos_concessao']

## colunas dos registros de veículos
col_veiculos = ['id',  
                'data_inversa',
                'ano_mes',
                'anomes_nr',
                'ano',
                'mes',
                'hora',
                'minuto',
                'id_veiculo', 
                'tipo_veiculo', 
                'marca', 
                'ano_fabricacao_veiculo',
                'ilesos',
                'feridos_leves', 
                'feridos_graves',
                'mortos',
                'latitude',
                'longitude',
                'classificacao_acidente',
                'secao',
                'pos_concessao']

## colunas dos registros de pessoas
col_pessoas =  ['id',  
                'data_inversa',
                'hora',
                'minuto',
                'id_veiculo',
                'pesid',
                'tipo_envolvido', 
                'estado_fisico', 
                'idade', 
                'sexo',
                'latitude',
                'longitude',
                'secao',
                'pos_concessao']

### 2.2. Carga do(s) arquivo(s) de registro de acidentes

A fonte de dados está disponível no sítio eletrônico de Dados Abertos da Polícia Rodoviária Federal, Órgão responsável, dentro outras, do patrulhamento das rodovias (CF 1988, art. 144, § 2º).

Link: https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-acidentes

### 2.2.1. Procedimentos e funções para carga dos arquivos

In [7]:
# função para carregar os arquivos de acidentes de trânsito
def _carrega_arquivos(_ano, df, _separador, _enconding):
    print(f"Início da carga do arquivo de acidentes de {_ano}....", datetime.datetime.today())
    
    # Carregar o arquivo
    dftmp = pd.read_csv(f"./dados/acidentes{_ano}.csv", dtype={'br': 'str', 'id': 'int64'}, encoding=_enconding, decimal=",", sep=_separador, parse_dates=True)
    print(dftmp['id'].min(), dftmp['id'].max())
    
    
    # Filtrar somente a a BR-040
    dftmp = dftmp.loc[(dftmp['br']=='40')]
    
    # Upper em campos string
    dftmp['causa_acidente'] = dftmp['causa_acidente'].str.upper()
    dftmp['tipo_acidente'] = dftmp['tipo_acidente'].str.upper()
    dftmp["classificacao_acidente"] = dftmp["classificacao_acidente"].str.upper()
    dftmp["fase_dia"] = dftmp["fase_dia"].str.upper()
    dftmp["sentido_via"] = dftmp["sentido_via"].str.upper()
    dftmp["condicao_metereologica"] = dftmp["condicao_metereologica"].str.upper()
    dftmp["tipo_pista"] = dftmp["tipo_pista"].str.upper()
    dftmp["tracado_via"] = dftmp["tracado_via"].str.upper()
    dftmp["uso_solo"] = dftmp["uso_solo"].str.upper()
    dftmp['estado_fisico'] = dftmp['estado_fisico'].str.upper()
    dftmp['dia_semana'] = dftmp['dia_semana'].str.upper()
    dftmp['tipo_veiculo'] = dftmp['tipo_veiculo'].str.upper()
    
    # retirar espaços em branco
    dftmp["classificacao_acidente"] = dftmp["classificacao_acidente"].str.strip()
    dftmp["causa_acidente"] = dftmp["causa_acidente"].str.strip()
    dftmp["tipo_acidente"] = dftmp["tipo_acidente"].str.strip()
    dftmp["fase_dia"] = dftmp["fase_dia"].str.strip()
    dftmp["sentido_via"] = dftmp["sentido_via"].str.strip()
    dftmp["condicao_metereologica"] = dftmp["condicao_metereologica"].str.strip()
    dftmp["tipo_pista"] = dftmp["tipo_pista"].str.strip()
    dftmp["tracado_via"] = dftmp["tracado_via"].str.strip()
    dftmp["uso_solo"] = dftmp["uso_solo"].str.strip()
    dftmp['estado_fisico'] = dftmp['estado_fisico'].str.strip()
    dftmp['dia_semana'] = dftmp['dia_semana'].str.strip()
    #dftmp["ano_fabricacao_veiculo"] = dftmp["ano_fabricacao_veiculo"].str.strip()
   
    # Transformar km em numérico
    dftmp["km"] = pd.to_numeric(dftmp["km"])
    # Manipulando o campo KM para criar um campo KM de valor inteiro para posteriormente incluir
    dftmp["kmint"] = dftmp["km"].astype(int)
    
    # Transformar o campo no tipo Datetime
    dftmp["data_inversa"] = pd.to_datetime(dftmp["data_inversa"])
    # Criar campo ano
    dftmp["ano"] = dftmp["data_inversa"].dt.year
    # Criar campo mês
    dftmp["mes"] = dftmp["data_inversa"].dt.month
    # Campo com ano e mês
    dftmp["ano_mes"] = dftmp['data_inversa'].dt.strftime('%B/%Y')
    dftmp["anomes_nr"] = dftmp['data_inversa'].dt.strftime('%Y%m')
    # Campo Hora e minuto
    dftmp["horario"] = pd.to_datetime(dftmp["horario"])
    dftmp["hora"] = dftmp['horario'].dt.strftime('%H')
    dftmp["minuto"] = dftmp['horario'].dt.strftime('%M') 
    dftmp.drop(columns=['horario'], inplace=True)
    
    # Manipulando o campo br
    dftmp["br"] = "BR-" + dftmp["br"].str.zfill(3)
    
    
    # Idade do Veículo
    #dftmp["idade_veiculo"] = dftmp["ano"] - pd.to_numeric(dftmp["ano_fabricacao_veiculo"].str.strip())
    
    df = pd.concat([df, dftmp], axis=0)
    print(f"Fim da carga do arquivo de acidentes de {_ano}....", datetime.datetime.today())
    print("Total de registros carregadas da BR-040...", len(dftmp))
    del dftmp
    return df

# Definir função para atualização do lat e long vazio
def _find_mean_lat_long(_uf, _km, df):
    xlat = df.loc[(df['uf']==_uf)&(df['km']==_km)].groupby(['uf','km']).agg({'latitude':'mean'})
    #xlat.reset_index()
    xlong = df.loc[(df['uf']==_uf)&(df['km']==_km)].groupby(['uf','km']).agg({'longitude':'mean'})
    #xlong.reset_index()
    return xlat, xlong
    
## ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
## -- funções para agrupadores 
## ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

dictio = {'id':'count', 'ilesos':'sum','feridos_leves':'sum','feridos_graves':'sum', 'mortos':'sum'}

# Análise estatística dos dados de acidentes
def _acidentes(df, aggr_field, dicio ):
    ## Acidentes por ano_mes
    #dfagg_acid = dfacid.groupby(['causa_acidente']).agg({'id':'count', 'ilesos':'sum','feridos_leves':'sum','feridos_graves':'sum', 'mortos':'sum'})
    df = df.groupby(aggr_field).agg(dicio)
    # Altera o nome da coluna id para qtd - count(id)
    df.rename(columns={'id':'qtd'}, inplace=True)
    df['percentual_mortalidade'] = df['mortos'] / df['qtd'] * 100
    df.reset_index(inplace=True)
    df = df.sort_values(by=['percentual_mortalidade'],ascending=False)
    return df

def _acidente_pessoas(df, aggr_field, dict_pess):
    print(aggr_field)
    df = df.groupby(aggr_field).agg(dict_pess)
    return df
    

### 2.2.2. Carregar os arquivos

In [8]:
# Realização da carga do arquivos para dataframe
# parâmetros: ano dos regitros, dataframe, separador, encoding

# dft -- Todos os registros de acidentes da BR-040 desde 2007 até 2021

dft = _carrega_arquivos("2007", dft, ",","latin1")
dft = _carrega_arquivos("2008", dft, ",","latin1")
dft = _carrega_arquivos("2009", dft, ",","latin1")
dft = _carrega_arquivos("2010", dft, ",","latin1")
dft = _carrega_arquivos("2011", dft, ",","latin1")
dft = _carrega_arquivos("2012", dft, ",","latin1")
dft = _carrega_arquivos("2013", dft, ",","latin1")
dft = _carrega_arquivos("2014", dft, ",","latin1")
dft = _carrega_arquivos("2015", dft, ",","latin1")
dft = _carrega_arquivos("2016", dft, ";","latin1")
dft = _carrega_arquivos("2017", dft, ";","latin1")
dft = _carrega_arquivos("2018", dft, ";","latin1")
dft = _carrega_arquivos("2019", dft, ";","latin1")
dft = _carrega_arquivos("2020", dft, ";","utf-8")
dft = _carrega_arquivos("2021", dft, ";","latin1")


Início da carga do arquivo de acidentes de 2007.... 2022-10-06 13:28:21.958550
10 83384908
Fim da carga do arquivo de acidentes de 2007.... 2022-10-06 13:28:25.824572
Total de registros carregadas da BR-040... 14024
Início da carga do arquivo de acidentes de 2008.... 2022-10-06 13:28:25.827207
323803 83412416
Fim da carga do arquivo de acidentes de 2008.... 2022-10-06 13:28:30.557585
Total de registros carregadas da BR-040... 15176
Início da carga do arquivo de acidentes de 2009.... 2022-10-06 13:28:30.577813
471611 83441662
Fim da carga do arquivo de acidentes de 2009.... 2022-10-06 13:28:35.790730
Total de registros carregadas da BR-040... 16377
Início da carga do arquivo de acidentes de 2010.... 2022-10-06 13:28:35.802068
635999 83444179
Fim da carga do arquivo de acidentes de 2010.... 2022-10-06 13:28:41.846963
Total de registros carregadas da BR-040... 20056
Início da carga do arquivo de acidentes de 2011.... 2022-10-06 13:28:41.873711
26946 83448543
Fim da carga do arquivo de aci

### 2.2.3. Selecionar os trecho da rodovia objeto do estudo (D+ seleções)

In [9]:
# Criar dataframe com o trecho da BR-040 concedido à via 040

# - Condições:
# -- DF: KM 000 até km 8,400 
# -- GO: Todo o trecho
# -- MG: KM 000 até KM 773

# dftc = Dataframe Trecho da Concessão
dftc = pd.concat([dft[(dft.uf == 'DF')&(dft.km > 0)&(dft.km < 8.1)], dft[(dft.uf == 'GO')], dft[(dft.uf == 'MG')&(dft.km > 0)&(dft.km < 774)]], axis=0)

# -----------------------------------------------------------------------------------------------
# Incluir marcador de Seção da Rodovia, de acordo com o quantitativo de acidentes observador 
# -----------------------------------------------------------------------------------------------
dftc['secao'] = 0
# Trecho de índice de acidente alto - Região Metropolitana de Brasília
dftc.loc[dftc['uf'] == 'DF', 'secao'] = 1                           # parte do trecho 1 - Dentro do DF
dftc.loc[((dftc['uf'] == 'GO')&(dftc['km'] <= 96)) , 'secao'] = 1   # parte do trecho 1 - DF até o município de Criatalina/GO, km 96 - próximo ao trevo com a BR-060

# Trecho de índice de acidentes baixo - De Cristalina até DF
dftc.loc[((dftc['uf'] == 'GO')&(dftc['km'] > 96))  , 'secao'] = 2   # parte do trecho 2 - Cristalina/GO
dftc.loc[((dftc['uf'] == 'MG')&(dftc['km'] <= 422)), 'secao'] = 2   # parte do trecho 2 - Paracatu/MG até o KM 422

# Trecho de índice de acidente alto - Trecho que vai de Sete Lagoas até Juiz de Fora
dftc.loc[((dftc['uf'] == 'MG')&(dftc['km'] > 422)) , 'secao'] = 3   # parte do trecho 2 - Paracatu/MG até o KM 422


dftc['trecho_duplicado'] = 0
dftc.loc[((dftc['uf'] == 'GO')&((dftc['km'] >= 33.5)&(dftc['km'] <= 40.5))) , 'trecho_duplicado'] = 1   # Trecho Duplicado
dftc.loc[((dftc['uf'] == 'GO')&((dftc['km'] >= 51.5)&(dftc['km'] <= 58.2))) , 'trecho_duplicado'] = 1   # Trecho Duplicado
dftc.loc[((dftc['uf'] == 'GO')&((dftc['km'] >= 69.5)&(dftc['km'] <= 74.5))) , 'trecho_duplicado'] = 1   # Trecho Duplicado
dftc.loc[((dftc['uf'] == 'GO')&((dftc['km'] >= 79.0)&(dftc['km'] <= 88.8))) , 'trecho_duplicado'] = 1   # Trecho Duplicado
dftc.loc[((dftc['uf'] == 'GO')&((dftc['km'] >= 105.3)&(dftc['km'] <= 130.3))) , 'trecho_duplicado'] = 1   # Trecho Duplicado
dftc.loc[((dftc['uf'] == 'MG')&((dftc['km'] >= 167.5)&(dftc['km'] <= 172.6))) , 'trecho_duplicado'] = 1   # Trecho Duplicado

# -----------------------------------------------------------------------------------------------
# Incluir marcador de registro pré ou pós concessão da Rodovia 
# -----------------------------------------------------------------------------------------------
dftc['pos_concessao'] = 0
dftc.loc[dftc['anomes_nr'] >= '201501', 'pos_concessao'] = 1   # Marcar como pós concessão a partir do mês de julho de 2014

dftc

Unnamed: 0,id,pesid,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,...,kmint,ano,mes,ano_mes,anomes_nr,hora,minuto,secao,trecho_duplicado,pos_concessao
1749,175013,450607,2007-03-01 00:00:00,QUARTA,,DF,BR-040,5.8,BRASILIA,OUTRAS,...,5.0,2007.0,3.0,March/2007,200703,19,10,1,0,0
1750,175013,450610,2007-03-01 00:00:00,QUARTA,,DF,BR-040,5.8,BRASILIA,OUTRAS,...,5.0,2007.0,3.0,March/2007,200703,19,10,1,0,0
1751,175013,450618,2007-03-01 00:00:00,QUARTA,,DF,BR-040,5.8,BRASILIA,OUTRAS,...,5.0,2007.0,3.0,March/2007,200703,19,10,1,0,0
4017,176396,454898,2007-01-01 00:00:00,SEGUNDA,,DF,BR-040,4.4,BRASILIA,DEFEITO NA VIA,...,4.0,2007.0,1.0,January/2007,200701,23,00,1,0,0
4018,176396,454902,2007-01-01 00:00:00,SEGUNDA,,DF,BR-040,4.4,BRASILIA,DEFEITO NA VIA,...,4.0,2007.0,1.0,January/2007,200701,23,00,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
150681,455947,983811.0,2021-11-02 00:00:00,TERÇA-FEIRA,,MG,BR-040,194.9,JOAO PINHEIRO,DEIXAR DE ACIONAR O FAROL DA MOTOCICLETA (OU S...,...,194.0,2021.0,11.0,November/2021,202111,20,30,2,0,1
150715,457815,988123.0,2021-12-25 00:00:00,SÁBADO,,MG,BR-040,530.2,BELO HORIZONTE,AUSÊNCIA DE REAÇÃO DO CONDUTOR,...,530.0,2021.0,12.0,December/2021,202112,06,00,3,0,1
150753,460189,994116.0,2021-05-14 00:00:00,SEXTA-FEIRA,,MG,BR-040,510.0,RIBEIRAO DAS NEVES,CONDUTOR DEIXOU DE MANTER DISTÂNCIA DO VEÍCULO...,...,510.0,2021.0,5.0,May/2021,202105,18,30,3,0,1
150754,460189,994115.0,2021-05-14 00:00:00,SEXTA-FEIRA,,MG,BR-040,510.0,RIBEIRAO DAS NEVES,CONDUTOR DEIXOU DE MANTER DISTÂNCIA DO VEÍCULO...,...,510.0,2021.0,5.0,May/2021,202105,18,30,3,0,1


In [10]:
dftc.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 140370 entries, 1749 to 150755
Data columns (total 47 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   id                      140370 non-null  object 
 1   pesid                   140370 non-null  object 
 2   data_inversa            140370 non-null  object 
 3   dia_semana              140370 non-null  object 
 4   horario                 0 non-null       object 
 5   uf                      140370 non-null  object 
 6   br                      140370 non-null  object 
 7   km                      140370 non-null  object 
 8   municipio               140370 non-null  object 
 9   causa_acidente          140370 non-null  object 
 10  tipo_acidente           140369 non-null  object 
 11  classificacao_acidente  140370 non-null  object 
 12  fase_dia                140370 non-null  object 
 13  sentido_via             140370 non-null  object 
 14  condicao_metereol

In [11]:

# Atualizar campo dia_semana
dftc.loc[dftc['dia_semana'] == 'SEGUNDA', 'dia_semana'] = 'SEGUNDA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'TERÇA', 'dia_semana'] = 'TERÇA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'QUARTA', 'dia_semana'] = 'QUARTA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'QUINTA', 'dia_semana'] = 'QUINTA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'SEXTA', 'dia_semana'] = 'SEXTA-FEIRA'


dftc['kmint'] = dftc['kmint'].astype('int')
dftc['ano'] = dftc['ano'].astype('int')
dftc['mes'] = dftc['mes'].astype('int')

#dftc['ilesos'] = dftc['ilesos'].astype('int')
#dftc['mortos'] = dftc['mortos'].astype('int')
#dftc['mortos'] = dftc['mortos'].astype('int')

dftc['automovel'] = 0
dftc['bicicleta'] = 0
dftc['caminhao'] = 0
dftc['utilitario'] = 0
dftc['tracao_animal'] = 0
dftc['onibus'] = 0
dftc['moto'] = 0
dftc['sem_informacao'] = 0
dftc['outros'] = 0
dftc['reboque'] = 0
dftc['trator'] = 0

dftc['target'] = 0


In [12]:
# Dados de Veículos

## 3. CARREGAR EM SCHEMA DE BANCO

In [13]:
dbtrans = connection.begin()
#connection.execute('truncate table MPCA_MD.acidentesmd')
dftc.to_sql('acidentesmd', connection, schema='MPCA_MD', if_exists='replace', index=False, index_label=None, chunksize=None, dtype=None, method=None)
dbtrans.commit()



2022-10-06 13:29:36,603 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:29:38,561 INFO sqlalchemy.engine.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where n.nspname=%(schema)s and relname=%(name)s
2022-10-06 13:29:38,574 INFO sqlalchemy.engine.Engine [generated in 0.01639s] {'schema': 'MPCA_MD', 'name': 'acidentesmd'}
2022-10-06 13:29:38,719 INFO sqlalchemy.engine.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where n.nspname=%(schema)s and relname=%(name)s
2022-10-06 13:29:38,721 INFO sqlalchemy.engine.Engine [cached since 0.1631s ago] {'schema': 'MPCA_MD', 'name': 'acidentesmd'}
2022-10-06 13:29:38,729 INFO sqlalchemy.engine.Engine SELECT c.relname FROM pg_class c JOIN pg_namespace n ON n.oid = c.relnamespace WHERE n.nspname = %(schema)s AND c.relkind in ('r', 'p')
2022-10-06 13:29:38,731 INFO sqlalchemy.engine.Engine [generated in 0.00199s] {'schema': 'MPCA_MD'}
2022-10-06 13:29:38,761 INFO sqlalch

In [14]:
connection = conn_bd()
v_sql = ''' update "MPCA_MD".acidentesmd
            set mortoS = 1
            where   estado_fisico in ('MORTO', 'ÓBITO'); ''' 

dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2022-10-06 13:31:46,088 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:31:46,089 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:31:46,095 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:31:46,096 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:31:46,100 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:31:46,101 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:31:46,107 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:31:46,109 INFO sqlalchemy.engine.Engine  update "MPCA_MD".acidentesmd
            set mortoS = 1
            where   estado_fisico in ('MORTO', 'ÓBITO'); 
2022-10-06 13:31:46,110 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:31:47,550 INFO sqlalchemy.engine.Engine COMMIT


In [15]:
v_sql = ''' update "MPCA_MD".acidentesmd
            set feridos_graves = 1
            where   estado_fisico in ('FERIDO GRAVE', 'LESÕES GRAVES'); '''

dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2022-10-06 13:31:47,565 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:31:47,567 INFO sqlalchemy.engine.Engine  update "MPCA_MD".acidentesmd
            set feridos_graves = 1
            where   estado_fisico in ('FERIDO GRAVE', 'LESÕES GRAVES'); 
2022-10-06 13:31:47,568 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:31:50,838 INFO sqlalchemy.engine.Engine COMMIT


In [16]:
v_sql = ''' update "MPCA_MD".acidentesmd
            set feridos_leves = 1
            where   estado_fisico in ('FERIDO LEVE', 'LESÕES LEVES'); ''' 
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()


2022-10-06 13:31:50,884 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:31:50,893 INFO sqlalchemy.engine.Engine  update "MPCA_MD".acidentesmd
            set feridos_leves = 1
            where   estado_fisico in ('FERIDO LEVE', 'LESÕES LEVES'); 
2022-10-06 13:31:50,894 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:31:58,834 INFO sqlalchemy.engine.Engine COMMIT


In [17]:

v_sql = ''' update "MPCA_MD".acidentesmd
            set ilesos = 1
            where   estado_fisico in ('IGNORADO', '(NULL)', 'NÃO INFORMADO', 'ILESO'); '''
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2022-10-06 13:31:58,852 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:31:58,854 INFO sqlalchemy.engine.Engine  update "MPCA_MD".acidentesmd
            set ilesos = 1
            where   estado_fisico in ('IGNORADO', '(NULL)', 'NÃO INFORMADO', 'ILESO'); 
2022-10-06 13:31:58,856 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:32:14,422 INFO sqlalchemy.engine.Engine COMMIT


In [18]:

connection = conn_bd()
dbtrans = connection.begin()
connection.execute('drop table "MPCA_MD".acidentes;')
dbtrans.commit()

2022-10-06 13:32:14,571 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:32:14,572 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:32:14,576 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:32:14,577 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:32:14,582 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:32:14,583 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:32:14,589 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:32:14,590 INFO sqlalchemy.engine.Engine drop table "MPCA_MD".acidentes;
2022-10-06 13:32:14,591 INFO sqlalchemy.engine.Engine [raw sql] {}


ProgrammingError: (psycopg2.errors.UndefinedTable) table "acidentes" does not exist

[SQL: drop table "MPCA_MD".acidentes;]
(Background on this error at: https://sqlalche.me/e/14/f405)

In [19]:
# Criar a tabela de Acidentes no Banco de Dados
connection = conn_bd()
v_sql = ''' create table "MPCA_MD".acidentes
            AS
            SELECT id, 
                   data_inversa, 
                   dia_semana, 
                   uf, 
                   br, 
                   km, 
                   municipio, 
                   causa_acidente, 
                   tipo_acidente, 
                   classificacao_acidente, 
                   fase_dia, 
                   sentido_via, 
                   condicao_metereologica, 
                   tipo_pista, 
                   tracado_via, 
                   uso_solo, 
                   latitude, 
                   longitude, 
                   kmint, 
                   ano, 
                   mes, 
                   ano_mes, 
                   anomes_nr, 
                   hora, 
                   minuto, 
                   secao, 
                   pos_concessao,
                   trecho_duplicado,
                   sum(ilesos) as ilesos, 
                   sum(feridos_leves) as feridos_leves, 
                   sum(feridos_graves) as feridos_graves, 
                   sum(mortos) as mortos 
            FROM "MPCA_MD".acidentesmd
            group by id, 
                   data_inversa, 
                   dia_semana, 
                   uf, 
                   br, 
                   km, 
                   municipio, 
                   causa_acidente, 
                   tipo_acidente, 
                   classificacao_acidente, 
                   fase_dia, 
                   sentido_via, 
                   condicao_metereologica, 
                   tipo_pista, 
                   tracado_via, 
                   uso_solo, 
                   latitude, 
                   longitude, 
                   kmint, 
                   ano, 
                   mes, 
                   ano_mes, 
                   anomes_nr, 
                   hora, 
                   minuto, 
                   secao, 
                   pos_concessao,
                   trecho_duplicado; '''

dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2022-10-06 13:34:35,267 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:34:35,269 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:34:35,278 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:34:35,279 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:34:35,287 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:34:35,288 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:34:35,297 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:34:35,299 INFO sqlalchemy.engine.Engine  create table "MPCA_MD".acidentes
            AS
            SELECT id, 
                   data_inversa, 
                   dia_semana, 
                   uf, 
                   br, 
                   km, 
                   municipio, 
                   causa_acidente, 
                   tipo_acidente, 
                   classificacao_acidente, 
                   fase_dia, 
                   sentido_via, 
       

In [20]:
v_sql = 'CREATE INDEX acidentes_uf_idx ON "MPCA_MD".acidentes USING btree (uf, km);'
connection = conn_bd()
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2022-10-06 13:34:59,506 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:34:59,507 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:34:59,512 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:34:59,513 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:34:59,519 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:34:59,520 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:34:59,526 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:34:59,528 INFO sqlalchemy.engine.Engine CREATE INDEX acidentes_uf_idx ON "MPCA_MD".acidentes USING btree (uf, km);
2022-10-06 13:34:59,529 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:35:01,396 INFO sqlalchemy.engine.Engine COMMIT


In [21]:
#Ler Banco para Dataframe
connection = conn_bd()
#v_sql = 'select "MPCA_MD".atualiza_lat_long();'
#msg = pd.read_sql_query(v_sql, connection)

v_sql = ''' update  "MPCA_MD".acidentes UP
            set LATITUDE = (select AVG(LATITUDE) from "MPCA_MD".acidentes LA where latitude is not null and   LA.UF = UP.UF and LA.KM = UP.KM group by LA.UF, LA.KM)
            ,   LONGITUDE = (select AVG(LONGITUDE) from "MPCA_MD".acidentes LO where LONGITUDE is not null and   LO.UF = UP.UF and LO.KM = UP.KM group by LO.UF, LO.KM)
            where UP.latitude is null
            and   exists (select 1
                          from "MPCA_MD".acidentes
                          where latitude is not null
                          and   uf = UP.uf
                          and   km = UP.km);
'''

#for index, row in dftc.iterrows():
#    v_sql = '''UPDATE "MPCA_MD".acidentes SET latitude = %f, longitude = %f WHERE latitude is null AND uf = '%s' AND  br = '%s' AND  (km >= (%f - 3) AND km <= (%f + 3) ); ''' % (row['latitude'],row['longitude'],row['uf'],row['br'],row['km'], row['km'])

#    print(v_sql)
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()
        

2022-10-06 13:35:01,529 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:35:01,531 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:35:01,534 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:35:01,535 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:35:01,540 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:35:01,541 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:35:01,545 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:35:01,546 INFO sqlalchemy.engine.Engine  update  "MPCA_MD".acidentes UP
            set LATITUDE = (select AVG(LATITUDE) from "MPCA_MD".acidentes LA where latitude is not null and   LA.UF = UP.UF and LA.KM = UP.KM group by LA.UF, LA.KM)
            ,   LONGITUDE = (select AVG(LONGITUDE) from "MPCA_MD".acidentes LO where LONGITUDE is not null and   LO.UF = UP.UF and LO.KM = UP.KM group by LO.UF, LO.KM)
            where UP.latitude is null
            and   exists

In [23]:

connection = conn_bd()
v_sql = '''
        update  "MPCA_MD".acidentes UP
        set ilesos = 0
        where UP.ilesos is null;

        update  "MPCA_MD".acidentes UP
        set mortos = 0
        where UP.mortos is null;

        update  "MPCA_MD".acidentes UP
        set feridos_leves  = 0
        where UP.feridos_leves is null;

        update  "MPCA_MD".acidentes UP
        set feridos_graves  = 0
        where UP.feridos_graves is null;
        
        --update  "MPCA_MD".acidentes UP
        --set target  = 1
        --where UP.feridos_graves > 0 or UP.mortos > 0;
        
        '''
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2022-10-06 13:36:59,843 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:36:59,847 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:36:59,867 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:36:59,869 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:36:59,881 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:36:59,883 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:36:59,898 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:36:59,900 INFO sqlalchemy.engine.Engine 
        update  "MPCA_MD".acidentes UP
        set ilesos = 0
        where UP.ilesos is null;

        update  "MPCA_MD".acidentes UP
        set mortos = 0
        where UP.mortos is null;

        update  "MPCA_MD".acidentes UP
        set feridos_leves  = 0
        where UP.feridos_leves is null;

        update  "MPCA_MD".acidentes UP
        set feridos_graves  = 0
        where UP.feridos_graves is null;
        
  

In [24]:
#Ler Banco para Dataframe
connection = conn_bd()
v_sql = ''' SELECT * 
            FROM "MPCA_MD".acidentes;'''
dftc = pd.read_sql_query(v_sql, connection)

2022-10-06 13:37:24,823 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:37:24,824 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:24,831 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:37:24,832 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:24,850 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:37:24,852 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:24,877 INFO sqlalchemy.engine.Engine  SELECT * 
            FROM "MPCA_MD".acidentes;
2022-10-06 13:37:24,879 INFO sqlalchemy.engine.Engine [raw sql] {}


In [25]:
dftc

Unnamed: 0,id,data_inversa,dia_semana,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,...,anomes_nr,hora,minuto,secao,pos_concessao,trecho_duplicado,ilesos,feridos_leves,feridos_graves,mortos
0,62,2017-01-01,DOMINGO,GO,BR-040,2.8,VALPARAISO DE GOIAS,FALTA DE ATENÇÃO À CONDUÇÃO,COLISÃO TRASEIRA,COM VÍTIMAS FERIDAS,...,201701,06,20,1,1,0,1.0,1.0,0.0,0.0
1,103,2017-01-01,DOMINGO,MG,BR-040,550.0,NOVA LIMA,VELOCIDADE INCOMPATÍVEL,CAPOTAMENTO,COM VÍTIMAS FERIDAS,...,201701,07,20,3,1,0,0.0,1.0,1.0,0.0
2,137,2017-01-01,DOMINGO,MG,BR-040,613.0,CONGONHAS,FALTA DE ATENÇÃO À CONDUÇÃO,QUEDA DE OCUPANTE DE VEÍCULO,COM VÍTIMAS FERIDAS,...,201701,12,50,3,1,0,0.0,1.0,0.0,0.0
3,179,2017-01-01,DOMINGO,MG,BR-040,435.9,PARAOPEBA,CONDUTOR DORMINDO,SAÍDA DE LEITO CARROÇÁVEL,COM VÍTIMAS FERIDAS,...,201701,16,00,3,1,0,0.0,1.0,0.0,0.0
4,219,2017-01-01,DOMINGO,MG,BR-040,530.6,CONTAGEM,NÃO GUARDAR DISTÂNCIA DE SEGURANÇA,QUEDA DE OCUPANTE DE VEÍCULO,COM VÍTIMAS FERIDAS,...,201701,17,20,3,1,0,1.0,1.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63568,83529127,2016-12-30,SEXTA-FEIRA,MG,BR-040,745.0,SANTOS DUMONT,VELOCIDADE INCOMPATÍVEL,SAÍDA DE PISTA,SEM VÍTIMAS,...,201612,17,30,3,1,0,1.0,0.0,0.0,0.0
63569,83529232,2016-12-29,QUINTA-FEIRA,MG,BR-040,49.2,PARACATU,VELOCIDADE INCOMPATÍVEL,SAÍDA DE PISTA,SEM VÍTIMAS,...,201612,19,00,2,1,0,1.0,0.0,0.0,0.0
63570,83529407,2016-12-31,SÁBADO,GO,BR-040,27.0,LUZIANIA,DESOBEDIÊNCIA À SINALIZAÇÃO,COLISÃO TRANSVERSAL,SEM VÍTIMAS,...,201612,16,00,1,1,0,2.0,0.0,0.0,0.0
63571,83529439,2016-12-30,SEXTA-FEIRA,MG,BR-040,566.0,NOVA LIMA,VELOCIDADE INCOMPATÍVEL,CAPOTAMENTO,SEM VÍTIMAS,...,201612,19,10,3,1,0,1.0,0.0,0.0,0.0


In [26]:
# veiculos

In [27]:
connection = conn_bd()
v_sql = '''
        drop table "MPCA_MD".veiculos;
        '''
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2022-10-06 13:37:28,776 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:37:28,777 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:28,782 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:37:28,784 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:28,789 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:37:28,790 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:28,802 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:37:28,803 INFO sqlalchemy.engine.Engine 
        drop table "MPCA_MD".veiculos;
        
2022-10-06 13:37:28,804 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:28,988 INFO sqlalchemy.engine.Engine COMMIT


In [28]:
connection = conn_bd()
v_sql = '''
create table "MPCA_MD".veiculos as 
select   id
		, data_inversa
		, dia_semana
		, uf
		, br
		, km
		, ano
		, mes
		, ano_mes
		, anomes_nr
		, hora
		, minuto
		, secao
		, pos_concessao
		, sum(automovel) as automovel
		, sum(bicicleta) as bicicleta
		, sum(caminhao) as caminhao
		, sum(utilitario) as utilitario
		, sum(tracao_animal) as tracao_animal
		, sum(onibus) as onibus
		, sum(moto) as moto
		, sum(sem_informacao) as sem_informacao
		, sum(outros) as outros
		, sum(reboque) as reboque
		, sum(trator) as trator
from (
		SELECT distinct
		  id
		, data_inversa
		, dia_semana
		, uf
		, br
		, km
		, ano
		, mes
		, ano_mes
		, anomes_nr
		, hora
		, minuto
		, secao
		, pos_concessao
		, id_veiculo
		, tipo_veiculo
		, 	case when tipo_veiculo in ('TRATOR DE ESTEIRA', 'TRATOR DE RODAS', 'TRATOR MISTO') then 1 else 0 end as trator
		,	case when tipo_veiculo in ('REBOQUE','SEMI-REBOQUE','SEMIREBOQUE') then 1 else 0 end as reboque
		,	case when tipo_veiculo in ('OUTROS','MOTOR-CASA') then 1 else 0 end as outros
		,	case when tipo_veiculo in ('NÃO IDENTIFICADO','NÃO INFORMADO','(NULL)') then 1 else 0 end as sem_informacao
		,	case when tipo_veiculo in ('CICLOMOTOR','MOTOCICLETA','MOTOCICLETAS','TRICICLO') then 1 else 0 end as moto
		, 	case when tipo_veiculo in ('MICRO-ÔNIBUS','MICROÔNIBUS','ÔNIBUS') then 1 else 0 end as onibus
		, 	case when tipo_veiculo in ('CARROÇA','CARROÇA-CHARRETE','CHARRETE') then 1 else 0 end as tracao_animal
		,	case when tipo_veiculo in ('CAMINHONETE','UTILITÁRIO','UTILITARIO') then 1 else 0 end as utilitario
		,	case when tipo_veiculo in ('CAMINHÃO','CAMINHÃO-TANQUE','CAMINHÃO-TRATOR') then 1 else 0 end as caminhao
		, 	case when tipo_veiculo in ('BICICLETA') then 1 else 0 end as bicicleta
		, 	case when tipo_veiculo in ('AUTOMÓVEL','CAMIONETA') then 1 else 0 end	as automovel
		FROM "MPCA_MD".acidentesmd
	) as TAB
	group by id
		, data_inversa
		, dia_semana
		, uf
		, br
		, km
		, ano
		, mes
		, ano_mes
		, anomes_nr
		, hora
		, minuto
		, secao
		, pos_concessao;
'''
dbtrans = connection.begin()
connection.execute(v_sql)
dbtrans.commit()

2022-10-06 13:37:29,134 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:37:29,135 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:29,138 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:37:29,139 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:29,144 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:37:29,145 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:29,157 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-10-06 13:37:29,159 INFO sqlalchemy.engine.Engine 
create table "MPCA_MD".veiculos as 
select   id
		, data_inversa
		, dia_semana
		, uf
		, br
		, km
		, ano
		, mes
		, ano_mes
		, anomes_nr
		, hora
		, minuto
		, secao
		, pos_concessao
		, sum(automovel) as automovel
		, sum(bicicleta) as bicicleta
		, sum(caminhao) as caminhao
		, sum(utilitario) as utilitario
		, sum(tracao_animal) as tracao_animal
		, sum(onibus) as onibus
		, sum(moto) as moto
		, sum(sem_informa

In [29]:
#Ler Banco para Dataframe
connection = conn_bd()
v_sql = ''' SELECT * 
            FROM "MPCA_MD".veiculos;'''
dfvei = pd.read_sql_query(v_sql, connection)

2022-10-06 13:37:52,860 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:37:52,861 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:52,865 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:37:52,865 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:52,870 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:37:52,871 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:52,879 INFO sqlalchemy.engine.Engine  SELECT * 
            FROM "MPCA_MD".veiculos;
2022-10-06 13:37:52,880 INFO sqlalchemy.engine.Engine [raw sql] {}


In [30]:
dfvei

Unnamed: 0,id,data_inversa,dia_semana,uf,br,km,ano,mes,ano_mes,anomes_nr,...,bicicleta,caminhao,utilitario,tracao_animal,onibus,moto,sem_informacao,outros,reboque,trator
0,62,2017-01-01,DOMINGO,GO,BR-040,2.8,2017,1,January/2017,201701,...,0,0,0,0,0,1,0,0,0,0
1,103,2017-01-01,DOMINGO,MG,BR-040,550.0,2017,1,January/2017,201701,...,0,0,0,0,0,0,0,0,0,0
2,137,2017-01-01,DOMINGO,MG,BR-040,613.0,2017,1,January/2017,201701,...,0,0,0,0,0,1,0,0,0,0
3,179,2017-01-01,DOMINGO,MG,BR-040,435.9,2017,1,January/2017,201701,...,0,0,0,0,0,0,0,0,0,0
4,219,2017-01-01,DOMINGO,MG,BR-040,530.6,2017,1,January/2017,201701,...,0,0,0,0,0,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63330,83529795,2016-12-25,DOMINGO,MG,BR-040,517.0,2016,12,December/2016,201612,...,0,0,1,0,0,0,0,0,0,0
63331,83529840,2016-12-22,QUINTA-FEIRA,MG,BR-040,522.0,2016,12,December/2016,201612,...,0,0,0,0,0,1,0,0,0,0
63332,83529859,2016-12-16,SEXTA-FEIRA,MG,BR-040,187.6,2016,12,December/2016,201612,...,0,1,0,0,0,0,0,0,0,0
63333,83529865,2016-08-26,SEXTA-FEIRA,MG,BR-040,573.0,2016,8,August/2016,201608,...,0,2,0,0,1,0,0,0,0,0


In [31]:

connection = conn_bd()
v_sql = ''' 
        select a.*
        , b.automovel
        , b.bicicleta
        , b.caminhao
        , b.utilitario
        , b.tracao_animal
        , b.onibus
        , b.moto
        , b.sem_informacao
        , b.outros
        , b.reboque
        , b.trator
        from "MPCA_MD".acidentes a,
             "MPCA_MD".veiculos b
        where a.id = b.id
        and   a.uf = b.uf
        and   a.km = b.km
        and   a.ano = b.ano
        and   a.mes = b.mes
        and   a.ano_mes = b.ano_mes
        and   a.anomes_nr = b.anomes_nr
        and   a.hora = b.hora
        and   a.minuto = b.minuto
        and   a.classificacao_acidente not in ('SEM VÍTIMAS','IGNORADO');
        
'''

dftd = pd.read_sql_query(v_sql, connection)

2022-10-06 13:37:55,213 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:37:55,216 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:55,222 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:37:55,223 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:55,231 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:37:55,232 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:37:55,254 INFO sqlalchemy.engine.Engine  
        select a.*
        , b.automovel
        , b.bicicleta
        , b.caminhao
        , b.utilitario
        , b.tracao_animal
        , b.onibus
        , b.moto
        , b.sem_informacao
        , b.outros
        , b.reboque
        , b.trator
        from "MPCA_MD".acidentes a,
             "MPCA_MD".veiculos b
        where a.id = b.id
        and   a.uf = b.uf
        and   a.km = b.km
        and   a.ano = b.ano
        and   a.mes = b.mes
        and   a.ano_mes = b.ano_mes
  

In [32]:

connection = conn_bd()
v_sql = ''' 
SELECT distinct
		  id
		, data_inversa
		, dia_semana
		, uf
		, br
		, km
		, ano
		, mes
		, ano_mes
		, anomes_nr
		, hora
		, minuto
		, secao
		, pos_concessao
		, id_veiculo
		, tipo_veiculo
FROM "MPCA_MD".acidentesmd
'''
df_veiculos = pd.read_sql_query(v_sql, connection)


2022-10-06 13:38:02,172 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-10-06 13:38:02,173 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:38:02,178 INFO sqlalchemy.engine.Engine select current_schema()
2022-10-06 13:38:02,180 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:38:02,187 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-10-06 13:38:02,188 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-10-06 13:38:02,199 INFO sqlalchemy.engine.Engine  
SELECT distinct
		  id
		, data_inversa
		, dia_semana
		, uf
		, br
		, km
		, ano
		, mes
		, ano_mes
		, anomes_nr
		, hora
		, minuto
		, secao
		, pos_concessao
		, id_veiculo
		, tipo_veiculo
FROM "MPCA_MD".acidentesmd

2022-10-06 13:38:02,200 INFO sqlalchemy.engine.Engine [raw sql] {}


In [33]:
df_veiculos

Unnamed: 0,id,data_inversa,dia_semana,uf,br,km,ano,mes,ano_mes,anomes_nr,hora,minuto,secao,pos_concessao,id_veiculo,tipo_veiculo
0,62,2017-01-01,DOMINGO,GO,BR-040,2.8,2017,1,January/2017,201701,06,20,1,1,58.0,MOTOCICLETA
1,62,2017-01-01,DOMINGO,GO,BR-040,2.8,2017,1,January/2017,201701,06,20,1,1,59.0,AUTOMÓVEL
2,103,2017-01-01,DOMINGO,MG,BR-040,550.0,2017,1,January/2017,201701,07,20,3,1,1744.0,AUTOMÓVEL
3,137,2017-01-01,DOMINGO,MG,BR-040,613.0,2017,1,January/2017,201701,12,50,3,1,102.0,MOTOCICLETA
4,179,2017-01-01,DOMINGO,MG,BR-040,435.9,2017,1,January/2017,201701,16,00,3,1,177.0,AUTOMÓVEL
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
108553,83529865,2016-08-26,SEXTA-FEIRA,MG,BR-040,573.0,2016,8,August/2016,201608,02,05,3,1,19186342.0,ÔNIBUS
108554,83529865,2016-08-26,SEXTA-FEIRA,MG,BR-040,573.0,2016,8,August/2016,201608,02,05,3,1,19186343.0,CAMINHÃO-TRATOR
108555,83529867,2016-12-24,SÁBADO,GO,BR-040,4.0,2016,12,December/2016,201612,16,30,1,1,19186346.0,AUTOMÓVEL
108556,83529867,2016-12-24,SÁBADO,GO,BR-040,4.0,2016,12,December/2016,201612,16,30,1,1,19186347.0,CAMIONETA


In [34]:
connection.close()

In [35]:
dftc

Unnamed: 0,id,data_inversa,dia_semana,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,...,anomes_nr,hora,minuto,secao,pos_concessao,trecho_duplicado,ilesos,feridos_leves,feridos_graves,mortos
0,62,2017-01-01,DOMINGO,GO,BR-040,2.8,VALPARAISO DE GOIAS,FALTA DE ATENÇÃO À CONDUÇÃO,COLISÃO TRASEIRA,COM VÍTIMAS FERIDAS,...,201701,06,20,1,1,0,1.0,1.0,0.0,0.0
1,103,2017-01-01,DOMINGO,MG,BR-040,550.0,NOVA LIMA,VELOCIDADE INCOMPATÍVEL,CAPOTAMENTO,COM VÍTIMAS FERIDAS,...,201701,07,20,3,1,0,0.0,1.0,1.0,0.0
2,137,2017-01-01,DOMINGO,MG,BR-040,613.0,CONGONHAS,FALTA DE ATENÇÃO À CONDUÇÃO,QUEDA DE OCUPANTE DE VEÍCULO,COM VÍTIMAS FERIDAS,...,201701,12,50,3,1,0,0.0,1.0,0.0,0.0
3,179,2017-01-01,DOMINGO,MG,BR-040,435.9,PARAOPEBA,CONDUTOR DORMINDO,SAÍDA DE LEITO CARROÇÁVEL,COM VÍTIMAS FERIDAS,...,201701,16,00,3,1,0,0.0,1.0,0.0,0.0
4,219,2017-01-01,DOMINGO,MG,BR-040,530.6,CONTAGEM,NÃO GUARDAR DISTÂNCIA DE SEGURANÇA,QUEDA DE OCUPANTE DE VEÍCULO,COM VÍTIMAS FERIDAS,...,201701,17,20,3,1,0,1.0,1.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63568,83529127,2016-12-30,SEXTA-FEIRA,MG,BR-040,745.0,SANTOS DUMONT,VELOCIDADE INCOMPATÍVEL,SAÍDA DE PISTA,SEM VÍTIMAS,...,201612,17,30,3,1,0,1.0,0.0,0.0,0.0
63569,83529232,2016-12-29,QUINTA-FEIRA,MG,BR-040,49.2,PARACATU,VELOCIDADE INCOMPATÍVEL,SAÍDA DE PISTA,SEM VÍTIMAS,...,201612,19,00,2,1,0,1.0,0.0,0.0,0.0
63570,83529407,2016-12-31,SÁBADO,GO,BR-040,27.0,LUZIANIA,DESOBEDIÊNCIA À SINALIZAÇÃO,COLISÃO TRANSVERSAL,SEM VÍTIMAS,...,201612,16,00,1,1,0,2.0,0.0,0.0,0.0
63571,83529439,2016-12-30,SEXTA-FEIRA,MG,BR-040,566.0,NOVA LIMA,VELOCIDADE INCOMPATÍVEL,CAPOTAMENTO,SEM VÍTIMAS,...,201612,19,10,3,1,0,1.0,0.0,0.0,0.0


In [36]:
dftc.isna().sum()

id                           0
data_inversa                 0
dia_semana                   0
uf                           0
br                           0
km                           0
municipio                    0
causa_acidente               0
tipo_acidente                1
classificacao_acidente       0
fase_dia                     0
sentido_via                  0
condicao_metereologica       0
tipo_pista                   0
tracado_via                  0
uso_solo                     0
latitude                  8935
longitude                 8935
kmint                        0
ano                          0
mes                          0
ano_mes                      0
anomes_nr                    0
hora                         0
minuto                       0
secao                        0
pos_concessao                0
trecho_duplicado             0
ilesos                       0
feridos_leves                0
feridos_graves               0
mortos                       0
dtype: i

In [37]:
#dftc.fillna(0,inplace=True)

### 2.2.5. Atualização de Informações no Dataframe carregado

Trata-se de seção para correção / ajustes nos dados para que o processamento possa ser realizado com sucesso.


#### 2.2.5.1. Atualizar Latitude e longitude

Os dados de Latitude e Longitude só aparecem nos dados abertos a partir do ano de 2017.

Para "corrigir" e poder plotar os acidentes no mapa, os dados de latitude e longitude serão atualizados considerando a média da localização da KM da rodovia.

#### 2.2.5.4. Correção dos tipos de dados

In [38]:
dftc

Unnamed: 0,id,data_inversa,dia_semana,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,...,anomes_nr,hora,minuto,secao,pos_concessao,trecho_duplicado,ilesos,feridos_leves,feridos_graves,mortos
0,62,2017-01-01,DOMINGO,GO,BR-040,2.8,VALPARAISO DE GOIAS,FALTA DE ATENÇÃO À CONDUÇÃO,COLISÃO TRASEIRA,COM VÍTIMAS FERIDAS,...,201701,06,20,1,1,0,1.0,1.0,0.0,0.0
1,103,2017-01-01,DOMINGO,MG,BR-040,550.0,NOVA LIMA,VELOCIDADE INCOMPATÍVEL,CAPOTAMENTO,COM VÍTIMAS FERIDAS,...,201701,07,20,3,1,0,0.0,1.0,1.0,0.0
2,137,2017-01-01,DOMINGO,MG,BR-040,613.0,CONGONHAS,FALTA DE ATENÇÃO À CONDUÇÃO,QUEDA DE OCUPANTE DE VEÍCULO,COM VÍTIMAS FERIDAS,...,201701,12,50,3,1,0,0.0,1.0,0.0,0.0
3,179,2017-01-01,DOMINGO,MG,BR-040,435.9,PARAOPEBA,CONDUTOR DORMINDO,SAÍDA DE LEITO CARROÇÁVEL,COM VÍTIMAS FERIDAS,...,201701,16,00,3,1,0,0.0,1.0,0.0,0.0
4,219,2017-01-01,DOMINGO,MG,BR-040,530.6,CONTAGEM,NÃO GUARDAR DISTÂNCIA DE SEGURANÇA,QUEDA DE OCUPANTE DE VEÍCULO,COM VÍTIMAS FERIDAS,...,201701,17,20,3,1,0,1.0,1.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63568,83529127,2016-12-30,SEXTA-FEIRA,MG,BR-040,745.0,SANTOS DUMONT,VELOCIDADE INCOMPATÍVEL,SAÍDA DE PISTA,SEM VÍTIMAS,...,201612,17,30,3,1,0,1.0,0.0,0.0,0.0
63569,83529232,2016-12-29,QUINTA-FEIRA,MG,BR-040,49.2,PARACATU,VELOCIDADE INCOMPATÍVEL,SAÍDA DE PISTA,SEM VÍTIMAS,...,201612,19,00,2,1,0,1.0,0.0,0.0,0.0
63570,83529407,2016-12-31,SÁBADO,GO,BR-040,27.0,LUZIANIA,DESOBEDIÊNCIA À SINALIZAÇÃO,COLISÃO TRANSVERSAL,SEM VÍTIMAS,...,201612,16,00,1,1,0,2.0,0.0,0.0,0.0
63571,83529439,2016-12-30,SEXTA-FEIRA,MG,BR-040,566.0,NOVA LIMA,VELOCIDADE INCOMPATÍVEL,CAPOTAMENTO,SEM VÍTIMAS,...,201612,19,10,3,1,0,1.0,0.0,0.0,0.0


In [39]:
dftc['kmint'] = dftc['kmint'].astype('int')
dftc['ano'] = dftc['ano'].astype('int')
dftc['mes'] = dftc['mes'].astype('int')

dftc['ilesos'] = dftc['ilesos'].astype('int')
dftc['feridos_leves'] = dftc['feridos_leves'].astype('int')
dftc['feridos_graves'] = dftc['feridos_graves'].astype('int')
dftc['mortos'] = dftc['mortos'].astype('int')


In [40]:
# Exportar dataframe para arquivo 
csv_acidentes = dftc.to_csv(r'/Users/luisjesus/desenv/MPCA/MPCA_MD/csv_acidentes.csv', sep=',', na_rep='', header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', chunksize=None, date_format='%Y%m%d', doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None)

csv_veiculos = dfvei.to_csv(r'/Users/luisjesus/desenv/MPCA/MPCA_MD/csv_veiculos.csv', sep=',', na_rep='', header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', chunksize=None, date_format='%Y%m%d', doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None)

csv_tudo = dftd.to_csv(r'/Users/luisjesus/desenv/MPCA/MPCA_MD/csv_tudo.csv', sep=',', na_rep='', header=True, index=True, index_label=None, mode='w', encoding='latin1', compression='infer', quoting=None, quotechar='"', chunksize=None, date_format='%Y%m%d', doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None)

#csv_tudo = dftd.to_csv(r'/Users/luisjesus/desenv/MPCA/MPCA_MD/csv_tudo.csv', encoding='latin1')


csv_veiculos_rows = dftd.to_csv(r'/Users/luisjesus/desenv/MPCA/MPCA_MD/csv_veiculos_row.csv', sep=',', na_rep='', header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', chunksize=None, date_format='%Y%m%d', doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None)



In [41]:
dftd.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32304 entries, 0 to 32303
Data columns (total 43 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   id                      32304 non-null  int64         
 1   data_inversa            32304 non-null  datetime64[ns]
 2   dia_semana              32304 non-null  object        
 3   uf                      32304 non-null  object        
 4   br                      32304 non-null  object        
 5   km                      32304 non-null  float64       
 6   municipio               32304 non-null  object        
 7   causa_acidente          32304 non-null  object        
 8   tipo_acidente           32303 non-null  object        
 9   classificacao_acidente  32304 non-null  object        
 10  fase_dia                32304 non-null  object        
 11  sentido_via             32304 non-null  object        
 12  condicao_metereologica  32304 non-null  object

# 4. ESTATÍSTICA DESCRITIVA - Veículos

In [None]:
# montagem do Dataframe
dfvei = dftc[col_veiculos]
print('Tamanho do Datafrema original ', len(dfvei))


In [None]:
# sobre os campos AN0
dfvei.loc[dfvei['ano_fabricacao_veiculo'] == '(null)', 'ano_fabricacao_veiculo'] = -1
dfvei.ano.fillna(-1) #[dfvei['ano_fabricacao_veiculo'] == '(null)', 'ano_fabricacao_veiculo'] = -1
dfvei["ano_fabricacao_veiculo"] = dfvei["ano_fabricacao_veiculo"].str.strip()
dfvei["ano_fabricacao_veiculo"] = pd.to_numeric(dfvei["ano_fabricacao_veiculo"])
dfvei["idade_veiculo"] = dfvei["ano"] - dfvei["ano_fabricacao_veiculo"]
# Campo id_veiculo
dfvei['id_veiculo'].fillna('-1', inplace = True)
# Campo tipo_veiculo
dfvei['tipo_veiculo'].fillna('Não Discriminado', inplace = True)
dfvei['tipo_veiculo'] = dfvei['tipo_veiculo'].str.upper()
dfvei.loc[dfvei['tipo_veiculo'] == '(NULL)', 'tipo_veiculo'] = 'NÃO DISCRIMINADO'
dfvei.loc[dfvei['tipo_veiculo'] == 'SEXTA', 'dia_semana'] = 'SEXTA-FEIRA'
dfvei.loc[dfvei['tipo_veiculo'] == 'MICROÔNIBUS', 'tipo_veiculo'] = 'MICRO-ÔNIBUS'
dfvei.loc[dfvei['tipo_veiculo'] == 'SEMIREBOQUE', 'tipo_veiculo'] = 'SEMI-REBOQUE'


dfvei

In [None]:
# agregação dos quantitativos de vítimas 
dictio = {'id_veiculo':'count', 'ilesos':'sum','feridos_leves':'sum','feridos_graves':'sum', 'mortos':'sum'}

dfagg = dfvei.groupby(['id_veiculo', 'tipo_veiculo', 'ano', 'mes', 'hora', 'minuto']).agg(dictio)
dfagg.rename(columns={'id_veiculo':'qtd'}, inplace=True)
dfagg.reset_index(inplace=True)
dfagg

In [None]:

# retirar as duplicações do acidentes
dfvei = dfvei.drop_duplicates(subset=['id_veiculo', 'tipo_veiculo', 'ano', 'mes', 'hora', 'minuto'], keep='last')
# Total de registros únicos
print('Tamanho do Datafrema sem duplicações ', len(dfvei))

In [None]:
#dfvei.loc[dfvei['id_veiculo'] == 175013]
dfvei.loc[dfvei['id'] == 175013]

In [None]:
##
dfvei = pd.merge(dfvei, dfagg, how = 'inner', on = ['id_veiculo', 'tipo_veiculo', 'ano', 'mes', 'hora', 'minuto'])
#dfacid = pd.concat([dfacid, dfagg], axis=1)
dfvei = dfvei.drop(['ilesos_x', 'feridos_leves_x', 'feridos_graves_x', 'mortos_x'], axis=1)
dfvei.rename(columns={'ilesos_y':'ilesos', 'feridos_leves_y':'feridos_leves', 'feridos_graves_y':'feridos_graves', 'mortos_y':'mortos'}, inplace=True)
#dfacid.loc[:, ['ilesos_x', 'feridos_leves_x', 'feridos_graves_x', 'mortos_x', 'ilesos_y', 'feridos_leves_y', 'feridos_graves_y', 'mortos_y']]


In [None]:
dfvei.loc[(dfvei['classificacao_acidente'] != 'SEM VÍTIMAS') & (dfvei['classificacao_acidente'] != 'IGNORADOS')].groupby(['anomes_nr', 'tipo_veiculo', 'classificacao_acidente']).agg({'id':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})

In [None]:
dfvei.loc[(dfvei['anomes_nr'] == '200701')&(dfvei['tipo_veiculo'] == 'BICICLETA')]

In [None]:
dfv = dfvei[(dfvei['secao']==1)&(dfvei['pos_concessao']==0)&((dfvei['classificacao_acidente']!='SEM VÍTIMAS') & (dfvei['classificacao_acidente']!='IGNORADO'))].groupby(['anomes_nr','tipo_veiculo']).agg({'id_veiculo':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})

#dfv = dfvei[(dfvei['secao']==secao)&(dfvei['pos_concessao']==pos_concessao)].groupby(['ano','tipo_veiculo']).agg({'id_veiculo':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})
dfv = pd.pivot_table(dfv, values='id_veiculo', index=['anomes_nr'],
                         columns=['tipo_veiculo'], aggfunc=np.sum)
dfv.reset_index(inplace=True)
dfv.fillna(0)


In [None]:
dfv
#dfv.reset_index(inplace=True)