## 1. PREPARAÇÃO DO AMBIENTE DE PROCESSAMENTO

In [24]:
# Preparação do Ambiente
## Seção de bibliotecas
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
from mlxtend.frequent_patterns import apriori, association_rules

import datetime 

import folium
from folium.plugins import HeatMap, HeatMapWithTime, MarkerCluster

from apyori import apriori

In [25]:
import sqlalchemy
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy_utils import database_exists, create_database
from local_settings import postgresql as settings

In [26]:
#url com dados de conexão com o SGBD
url = 'postgresql://postgres:curso@localhost:15432'
#conexão com o banco de dados
engine = create_engine(url, echo=True)
connection = engine.connect()

2022-09-25 16:45:12,179 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2022-09-25 16:45:12,182 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-09-25 16:45:12,202 INFO sqlalchemy.engine.Engine select current_schema()
2022-09-25 16:45:12,203 INFO sqlalchemy.engine.Engine [raw sql] {}
2022-09-25 16:45:12,210 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2022-09-25 16:45:12,211 INFO sqlalchemy.engine.Engine [raw sql] {}


## 2. MANIPULAÇÃO DE DADOS

Nesta seção, faz-se a manipulação dos dados de forma a se gerar as informações de acordo com a necessidade da análise dos dados.

### 2.1. Colunas do Dataframe

Nesta subseção, trabalha-se a identificação de subgrupos de dados carregados de registros de Acidentes da PRF.

In [27]:
## Criar um dataframe vazio para concatenação a partir da carga de um dos arquivos
df1 = pd.read_csv("./dados/acidentes2021.csv", sep=";", dtype={'br': 'str', 'id': 'int64'}, decimal=",", encoding="latin1", nrows=1)

# Extract column names into a list
column_names = [x for x in df1.columns]

# Create empty DataFrame with those column names
dft = pd.DataFrame(columns=column_names)    

# Apagar o DataFrame 
del df1


In [5]:
# Constantes
## Colunas do Dataframe e operações tipo 1
## sumarização da quantidade de pessoas e estado em consequência do acidente
col_oper1 = {'id':'count', 'pessoas':'sum', 'mortos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'veiculos':'sum'}

## Colunas do Dataframe e operações tipo 2
col_oper2 = {'id':'count', 'mortos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'veiculos':'sum'}

#------------------------------------------------------------
# Para a geração de subdatasets
#------------------------------------------------------------
## colunas dos registros de acidentes 
col_acidentes = ['id',  
                'data_inversa',
                'hora',
                'minuto',
                'dia_semana',  
                'br',
                'km',
                'kmint',
                'uf',
                'municipio', 
                'causa_acidente', 
                'tipo_acidente',
                'classificacao_acidente', 
                'fase_dia', 
                'sentido_via',
                'condicao_metereologica', 
                'tipo_pista',
                'tracado_via', 
                'ilesos',
                'feridos_leves', 
                'feridos_graves', 
                'mortos',
                'uso_solo',
                'latitude', 
                'longitude',
                'ano_mes',
                'anomes_nr',
                'ano',
                'mes',
                'secao',
                'pos_concessao']

## colunas dos registros de veículos
col_veiculos = ['id',  
                'data_inversa',
                'ano_mes',
                'anomes_nr',
                'ano',
                'mes',
                'hora',
                'minuto',
                'id_veiculo', 
                'tipo_veiculo', 
                'marca', 
                'ano_fabricacao_veiculo',
                'ilesos',
                'feridos_leves', 
                'feridos_graves',
                'mortos',
                'latitude',
                'longitude',
                'classificacao_acidente',
                'secao',
                'pos_concessao']

## colunas dos registros de pessoas
col_pessoas =  ['id',  
                'data_inversa',
                'hora',
                'minuto',
                'id_veiculo',
                'pesid',
                'tipo_envolvido', 
                'estado_fisico', 
                'idade', 
                'sexo',
                'latitude',
                'longitude',
                'secao',
                'pos_concessao']

### 2.2. Carga do(s) arquivo(s) de registro de acidentes

A fonte de dados está disponível no sítio eletrônico de Dados Abertos da Polícia Rodoviária Federal, Órgão responsável, dentro outras, do patrulhamento das rodovias (CF 1988, art. 144, § 2º).

Link: https://www.gov.br/prf/pt-br/acesso-a-informacao/dados-abertos/dados-abertos-acidentes

### 2.2.1. Procedimentos e funções para carga dos arquivos

In [6]:
# função para carregar os arquivos de acidentes de trânsito
def _carrega_arquivos(_ano, df, _separador, _enconding):
    print(f"Início da carga do arquivo de acidentes de {_ano}....", datetime.datetime.today())
    
    # Carregar o arquivo
    dftmp = pd.read_csv(f"./dados/acidentes{_ano}.csv", dtype={'br': 'str', 'id': 'int64'}, encoding=_enconding, decimal=",", sep=_separador, parse_dates=True)
    print(dftmp['id'].min(), dftmp['id'].max())
    
    
    # Filtrar somente a a BR-040
    dftmp = dftmp.loc[(dftmp['br']=='40')]
    
    # Upper em campos string
    dftmp['causa_acidente'] = dftmp['causa_acidente'].str.upper()
    dftmp['tipo_acidente'] = dftmp['tipo_acidente'].str.upper()
    dftmp["classificacao_acidente"] = dftmp["classificacao_acidente"].str.upper()
    dftmp["fase_dia"] = dftmp["fase_dia"].str.upper()
    dftmp["sentido_via"] = dftmp["sentido_via"].str.upper()
    dftmp["condicao_metereologica"] = dftmp["condicao_metereologica"].str.upper()
    dftmp["tipo_pista"] = dftmp["tipo_pista"].str.upper()
    dftmp["tracado_via"] = dftmp["tracado_via"].str.upper()
    dftmp["uso_solo"] = dftmp["uso_solo"].str.upper()
    dftmp['estado_fisico'] = dftmp['estado_fisico'].str.upper()
    dftmp['dia_semana'] = dftmp['dia_semana'].str.upper()

    # retirar espaços em branco
    dftmp["classificacao_acidente"] = dftmp["classificacao_acidente"].str.strip()
    dftmp["causa_acidente"] = dftmp["causa_acidente"].str.strip()
    dftmp["tipo_acidente"] = dftmp["tipo_acidente"].str.strip()
    dftmp["fase_dia"] = dftmp["fase_dia"].str.strip()
    dftmp["sentido_via"] = dftmp["sentido_via"].str.strip()
    dftmp["condicao_metereologica"] = dftmp["condicao_metereologica"].str.strip()
    dftmp["tipo_pista"] = dftmp["tipo_pista"].str.strip()
    dftmp["tracado_via"] = dftmp["tracado_via"].str.strip()
    dftmp["uso_solo"] = dftmp["uso_solo"].str.strip()
    dftmp['estado_fisico'] = dftmp['estado_fisico'].str.strip()
    dftmp['dia_semana'] = dftmp['dia_semana'].str.strip()
    #dftmp["ano_fabricacao_veiculo"] = dftmp["ano_fabricacao_veiculo"].str.strip()
   
    # Transformar km em numérico
    dftmp["km"] = pd.to_numeric(dftmp["km"])
    # Manipulando o campo KM para criar um campo KM de valor inteiro para posteriormente incluir
    dftmp["kmint"] = dftmp["km"].astype(int)
    
    # Transformar o campo no tipo Datetime
    dftmp["data_inversa"] = pd.to_datetime(dftmp["data_inversa"])
    # Criar campo ano
    dftmp["ano"] = dftmp["data_inversa"].dt.year
    # Criar campo mês
    dftmp["mes"] = dftmp["data_inversa"].dt.month
    # Campo com ano e mês
    dftmp["ano_mes"] = dftmp['data_inversa'].dt.strftime('%B/%Y')
    dftmp["anomes_nr"] = dftmp['data_inversa'].dt.strftime('%Y%m')
    # Campo Hora e minuto
    dftmp["horario"] = pd.to_datetime(dftmp["horario"])
    dftmp["hora"] = dftmp['horario'].dt.strftime('%H')
    dftmp["minuto"] = dftmp['horario'].dt.strftime('%M') 
    dftmp.drop(columns=['horario'], inplace=True)
    
    # Manipulando o campo br
    dftmp["br"] = "BR-" + dftmp["br"].str.zfill(3)
    
    
    # Idade do Veículo
    #dftmp["idade_veiculo"] = dftmp["ano"] - pd.to_numeric(dftmp["ano_fabricacao_veiculo"].str.strip())
    
    df = pd.concat([df, dftmp], axis=0)
    print(f"Fim da carga do arquivo de acidentes de {_ano}....", datetime.datetime.today())
    print("Total de registros carregadas da BR-040...", len(dftmp))
    del dftmp
    return df

# Definir função para atualização do lat e long vazio
def _find_mean_lat_long(_uf, _km, df):
    xlat = df.loc[(df['uf']==_uf)&(df['km']==_km)].groupby(['uf','km']).agg({'latitude':'mean'})
    #xlat.reset_index()
    xlong = df.loc[(df['uf']==_uf)&(df['km']==_km)].groupby(['uf','km']).agg({'longitude':'mean'})
    #xlong.reset_index()
    return xlat, xlong
    
## ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
## -- funções para agrupadores 
## ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

dictio = {'id':'count', 'ilesos':'sum','feridos_leves':'sum','feridos_graves':'sum', 'mortos':'sum'}

# Análise estatística dos dados de acidentes
def _acidentes(df, aggr_field, dicio ):
    ## Acidentes por ano_mes
    #dfagg_acid = dfacid.groupby(['causa_acidente']).agg({'id':'count', 'ilesos':'sum','feridos_leves':'sum','feridos_graves':'sum', 'mortos':'sum'})
    df = df.groupby(aggr_field).agg(dicio)
    # Altera o nome da coluna id para qtd - count(id)
    df.rename(columns={'id':'qtd'}, inplace=True)
    df['percentual_mortalidade'] = df['mortos'] / df['qtd'] * 100
    df.reset_index(inplace=True)
    df = df.sort_values(by=['percentual_mortalidade'],ascending=False)
    return df

def _acidente_pessoas(df, aggr_field, dict_pess):
    print(aggr_field)
    df = df.groupby(aggr_field).agg(dict_pess)
    return df
    

### 2.2.2. Carregar os arquivos

In [7]:
# Realização da carga do arquivos para dataframe
# parâmetros: ano dos regitros, dataframe, separador, encoding

# dft -- Todos os registros de acidentes da BR-040 desde 2007 até 2021

dft = _carrega_arquivos("2007", dft, ",","latin1")
dft = _carrega_arquivos("2008", dft, ",","latin1")
dft = _carrega_arquivos("2009", dft, ",","latin1")
dft = _carrega_arquivos("2010", dft, ",","latin1")
dft = _carrega_arquivos("2011", dft, ",","latin1")
dft = _carrega_arquivos("2012", dft, ",","latin1")
dft = _carrega_arquivos("2013", dft, ",","latin1")
dft = _carrega_arquivos("2014", dft, ",","latin1")
dft = _carrega_arquivos("2015", dft, ",","latin1")
dft = _carrega_arquivos("2016", dft, ";","latin1")
dft = _carrega_arquivos("2017", dft, ";","latin1")
dft = _carrega_arquivos("2018", dft, ";","latin1")
dft = _carrega_arquivos("2019", dft, ";","latin1")
dft = _carrega_arquivos("2020", dft, ";","utf-8")
dft = _carrega_arquivos("2021", dft, ";","latin1")


Início da carga do arquivo de acidentes de 2007.... 2022-09-24 22:11:36.055532
10 83384908
Fim da carga do arquivo de acidentes de 2007.... 2022-09-24 22:11:38.199131
Total de registros carregadas da BR-040... 14024
Início da carga do arquivo de acidentes de 2008.... 2022-09-24 22:11:38.201231
323803 83412416
Fim da carga do arquivo de acidentes de 2008.... 2022-09-24 22:11:40.624949
Total de registros carregadas da BR-040... 15176
Início da carga do arquivo de acidentes de 2009.... 2022-09-24 22:11:40.629590
471611 83441662
Fim da carga do arquivo de acidentes de 2009.... 2022-09-24 22:11:43.305187
Total de registros carregadas da BR-040... 16377
Início da carga do arquivo de acidentes de 2010.... 2022-09-24 22:11:43.311626
635999 83444179
Fim da carga do arquivo de acidentes de 2010.... 2022-09-24 22:11:46.285633
Total de registros carregadas da BR-040... 20056
Início da carga do arquivo de acidentes de 2011.... 2022-09-24 22:11:46.295294
26946 83448543
Fim da carga do arquivo de aci

### 2.2.3. Selecionar os trecho da rodovia objeto do estudo (D+ seleções)

In [8]:
# Criar dataframe com o trecho da BR-040 concedido à via 040

# - Condições:
# -- DF: KM 000 até km 8,400 
# -- GO: Todo o trecho
# -- MG: KM 000 até KM 773

# dftc = Dataframe Trecho da Concessão
dftc = pd.concat([dft[(dft.uf == 'DF')&(dft.km > 0)&(dft.km < 8.1)], dft[(dft.uf == 'GO')], dft[(dft.uf == 'MG')&(dft.km > 0)&(dft.km < 774)]], axis=0)

# -----------------------------------------------------------------------------------------------
# Incluir marcador de Seção da Rodovia, de acordo com o quantitativo de acidentes observador 
# -----------------------------------------------------------------------------------------------
dftc['secao'] = 0
# Trecho de índice de acidente alto - Região Metropolitana de Brasília
dftc.loc[dftc['uf'] == 'DF', 'secao'] = 1                           # parte do trecho 1 - Dentro do DF
dftc.loc[((dftc['uf'] == 'GO')&(dftc['km'] <= 96)) , 'secao'] = 1   # parte do trecho 1 - DF até o município de Criatalina/GO, km 96 - próximo ao trevo com a BR-060

# Trecho de índice de acidentes baixo - De Cristalina até DF
dftc.loc[((dftc['uf'] == 'GO')&(dftc['km'] > 96))  , 'secao'] = 2   # parte do trecho 2 - Cristalina/GO
dftc.loc[((dftc['uf'] == 'MG')&(dftc['km'] <= 422)), 'secao'] = 2   # parte do trecho 2 - Paracatu/MG até o KM 422

# Trecho de índice de acidente alto - Trecho que vai de Sete Lagoas até Juiz de Fora
dftc.loc[((dftc['uf'] == 'MG')&(dftc['km'] > 422)) , 'secao'] = 3   # parte do trecho 2 - Paracatu/MG até o KM 422

# -----------------------------------------------------------------------------------------------
# Incluir marcador de registro pré ou pós concessão da Rodovia 
# -----------------------------------------------------------------------------------------------
dftc['pos_concessao'] = 0
dftc.loc[dftc['anomes_nr'] >= '201501', 'pos_concessao'] = 1   # Marcar como pós concessão a partir do mês de julho de 2014


dftc

Unnamed: 0,id,pesid,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,...,naturalidade,kmint,ano,mes,ano_mes,anomes_nr,hora,minuto,secao,pos_concessao
1749,175013,450607,2007-03-01 00:00:00,QUARTA,,DF,BR-040,5.8,BRASILIA,OUTRAS,...,Não Informado,5.0,2007.0,3.0,March/2007,200703,19,10,1,0
1750,175013,450610,2007-03-01 00:00:00,QUARTA,,DF,BR-040,5.8,BRASILIA,OUTRAS,...,Brasilia,5.0,2007.0,3.0,March/2007,200703,19,10,1,0
1751,175013,450618,2007-03-01 00:00:00,QUARTA,,DF,BR-040,5.8,BRASILIA,OUTRAS,...,Brasilia,5.0,2007.0,3.0,March/2007,200703,19,10,1,0
4017,176396,454898,2007-01-01 00:00:00,SEGUNDA,,DF,BR-040,4.4,BRASILIA,DEFEITO NA VIA,...,Brasileira,4.0,2007.0,1.0,January/2007,200701,23,00,1,0
4018,176396,454902,2007-01-01 00:00:00,SEGUNDA,,DF,BR-040,4.4,BRASILIA,DEFEITO NA VIA,...,Brasileira,4.0,2007.0,1.0,January/2007,200701,23,00,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
150681,455947,983811.0,2021-11-02 00:00:00,TERÇA-FEIRA,,MG,BR-040,194.9,JOAO PINHEIRO,DEIXAR DE ACIONAR O FAROL DA MOTOCICLETA (OU S...,...,,194.0,2021.0,11.0,November/2021,202111,20,30,2,1
150715,457815,988123.0,2021-12-25 00:00:00,SÁBADO,,MG,BR-040,530.2,BELO HORIZONTE,AUSÊNCIA DE REAÇÃO DO CONDUTOR,...,,530.0,2021.0,12.0,December/2021,202112,06,00,3,1
150753,460189,994116.0,2021-05-14 00:00:00,SEXTA-FEIRA,,MG,BR-040,510.0,RIBEIRAO DAS NEVES,CONDUTOR DEIXOU DE MANTER DISTÂNCIA DO VEÍCULO...,...,,510.0,2021.0,5.0,May/2021,202105,18,30,3,1
150754,460189,994115.0,2021-05-14 00:00:00,SEXTA-FEIRA,,MG,BR-040,510.0,RIBEIRAO DAS NEVES,CONDUTOR DEIXOU DE MANTER DISTÂNCIA DO VEÍCULO...,...,,510.0,2021.0,5.0,May/2021,202105,18,30,3,1


## CARREGAR EM SCHEMA DE BANCO

In [9]:
dbtrans = connection.begin()
dftc.to_sql('acidentesmd', connection, schema='MPCA_MD', if_exists='append', index=False, index_label=None, chunksize=None, dtype=None, method=None)
dbtrans.commit()

2022-09-24 22:12:39,498 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-09-24 22:12:40,033 INFO sqlalchemy.engine.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where n.nspname=%(schema)s and relname=%(name)s
2022-09-24 22:12:40,034 INFO sqlalchemy.engine.Engine [generated in 0.00237s] {'schema': 'MPCA_MD', 'name': 'acidentesmd'}
2022-09-24 22:12:40,064 INFO sqlalchemy.engine.Engine 
CREATE TABLE "MPCA_MD".acidentesmd (
	id BIGINT, 
	pesid TEXT, 
	data_inversa TIMESTAMP WITHOUT TIME ZONE, 
	dia_semana TEXT, 
	horario TEXT, 
	uf TEXT, 
	br TEXT, 
	km FLOAT(53), 
	municipio TEXT, 
	causa_acidente TEXT, 
	tipo_acidente TEXT, 
	classificacao_acidente TEXT, 
	fase_dia TEXT, 
	sentido_via TEXT, 
	condicao_metereologica TEXT, 
	tipo_pista TEXT, 
	tracado_via TEXT, 
	uso_solo TEXT, 
	id_veiculo TEXT, 
	tipo_veiculo TEXT, 
	marca TEXT, 
	ano_fabricacao_veiculo TEXT, 
	tipo_envolvido TEXT, 
	estado_fisico TEXT, 
	idade FLOAT(53), 
	sexo TEXT, 
	ilesos BIGIN

In [22]:
#XX.fillna(0,inplace=True)

In [17]:
v_sql = 'SELECT id, data_inversa, dia_semana, uf, br, km, municipio, causa_acidente, tipo_acidente, classificacao_acidente, fase_dia, sentido_via, condicao_metereologica, tipo_pista, tracado_via, uso_solo, latitude, longitude, kmint, ano, mes, ano_mes, anomes_nr, hora, minuto, secao, pos_concessao, ilesos, feridos_leves, feridos_graves, mortos FROM "MPCA_MD".acidentes;'

XX = pd.read_sql_query(v_sql, connection)

2022-09-25 00:42:05,085 INFO sqlalchemy.engine.Engine SELECT id, data_inversa, dia_semana, uf, br, km, municipio, causa_acidente, tipo_acidente, classificacao_acidente, fase_dia, sentido_via, condicao_metereologica, tipo_pista, tracado_via, uso_solo, latitude, longitude, kmint, ano, mes, ano_mes, anomes_nr, hora, minuto, secao, pos_concessao, ilesos, feridos_leves, feridos_graves, mortos FROM "MPCA_MD".acidentes;
2022-09-25 00:42:05,088 INFO sqlalchemy.engine.Engine [raw sql] {}


In [23]:
XX.isna().sum()

id                        0
data_inversa              0
dia_semana                0
uf                        0
br                        0
km                        0
municipio                 0
causa_acidente            0
tipo_acidente             0
classificacao_acidente    0
fase_dia                  0
sentido_via               0
condicao_metereologica    0
tipo_pista                0
tracado_via               0
uso_solo                  0
latitude                  0
longitude                 0
kmint                     0
ano                       0
mes                       0
ano_mes                   0
anomes_nr                 0
hora                      0
minuto                    0
secao                     0
pos_concessao             0
ilesos                    0
feridos_leves             0
feridos_graves            0
mortos                    0
dtype: int64

### 2.2.4. Drop nos campos que não fazem parte do objeto do estudo

In [10]:
# -----------------------------------------------------------------------------------------------
# Apagar campos 
# -----------------------------------------------------------------------------------------------

dftc = dftc.drop(['horario', 'naturalidade', 'regional', 'delegacia','uop', 'nacionalidade'], axis=1)


### 2.2.5. Atualização de Informações no Dataframe carregado

Trata-se de seção para correção / ajustes nos dados para que o processamento possa ser realizado com sucesso.


#### 2.2.5.1. Atualizar Latitude e longitude

Os dados de Latitude e Longitude só aparecem nos dados abertos a partir do ano de 2017.

Para "corrigir" e poder plotar os acidentes no mapa, os dados de latitude e longitude serão atualizados considerando a média da localização da KM da rodovia.

In [None]:
# ver se há latitude e longitude NaN - Esses passaram a ser preenchidos a partir do ano de 2017
print(dftc['latitude'].isna().sum(), dftc['longitude'].isna().sum())

In [None]:
#lat, long = _find_mean_lat_long('DF', 5.8, dftc)

In [None]:
#print(dftc['latitude'].isna().sum(), dftc['longitude'].isna().sum())

In [None]:
# Busca os registros com latitude e longitude não vazios
dfnotnulls = dftc.loc[(dftc['latitude'].notnull() & dftc['longitude'].notnull())].groupby(['uf', 'km']).agg({'latitude':'mean', 'longitude':'mean'}) 
dfnotnulls.reset_index()

# Busca os registros com latitude ou longitude vazios 
dfnulls = dftc.loc[(dftc['latitude'].isna() | dftc['longitude'].isna()), ['id', 'uf', 'km']]
dfnulls.reset_index()

# Merge de ambos os dataframes para atualizar o campo por UF e KM
dfmerge = pd.merge(dfnotnulls, dfnulls, how = 'inner', on = ['uf','km'], sort=True)
#dfmerge.reset_index(inplace=True)
dfmerge.drop_duplicates(inplace=True)

## - Retornar o resultado final do Merge
dftc = pd.merge(dftc, dfmerge, how = 'left', on = ['id', 'uf','km'], sort=True)
# Tratar das colunas atualizadas
dftc = dftc.drop(['latitude_x', 'longitude_x'], axis=1)
dftc.rename(columns={'latitude_y':'latitude', 'longitude_y':'longitude'}, inplace=True)

del dfnotnulls
del dfnulls
del dfmerge

In [None]:
'''
# Gerar Dataframe com UF, KM e médias de latitude e longitude
dfz = dftc.groupby(['uf','km']).agg({'latitude':'mean', 'longitude':'mean'})
dfz = dfz.reset_index()
df'
'''

In [None]:
'''
# merge para atualização dos campos latitude e longitude
dftc = pd.merge(dftc, dfz, how = 'inner', on = ['uf','km'])
dftc = dftc.drop(['latitude_x', 'longitude_x'], axis=1)
dftc.rename(columns={'latitude_y':'latitude', 'longitude_y':'longitude'}, inplace=True)
dftc.info()
'''

In [None]:
'''
# Deletar Dataframes temporários
del dfz
'''

In [None]:
# listar linhas do dataframe com campo NaN
print(dftc['latitude'].isna().sum(), dftc['longitude'].isna().sum())
#dftc

#### 2.2.5.2. Atualizar Dia da Semana

Os dados de dia da semana precisam ser unificados

In [None]:
dftc.loc[dftc['dia_semana'] == 'SEGUNDA', 'dia_semana'] = 'SEGUNDA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'TERÇA', 'dia_semana'] = 'TERÇA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'QUARTA', 'dia_semana'] = 'QUARTA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'QUINTA', 'dia_semana'] = 'QUINTA-FEIRA'
dftc.loc[dftc['dia_semana'] == 'SEXTA', 'dia_semana'] = 'SEXTA-FEIRA'


#### 2.2.5.3. Dados de pessoas Ilesas, Feridas, etc

Os dados de quantitativo de estado físico dos envolvidos do acidente precisam atualizados 

In [None]:
#dftc['latitude'].isna().sum()
#dftc['ilesos'].isna().sum()
dftc['estado_fisico'].unique()

In [None]:
# ilesos
print('Pré atualização - Campo ilesos nulos = ', dftc['ilesos'].isna().sum())
dftc.loc[dftc['estado_fisico'] == 'ILESO', 'ilesos'] = 1
dftc.loc[dftc['ilesos'].isna(), 'ilesos'] = 0
print('Campo ilesos nulos = ', dftc['ilesos'].isna().sum())
# feridos_leves
print('Pré atualização - Campo feridos_leves nulos = ', dftc['feridos_leves'].isna().sum())
dftc.loc[dftc['estado_fisico'] == 'FERIDO LEVE', 'feridos_leves'] = 1
dftc.loc[dftc['estado_fisico'] == 'LESÕES LEVES', 'feridos_leves'] = 1
dftc.loc[dftc['feridos_leves'].isna(), 'feridos_leves'] = 0
print('Campo feridos_leves nulos = ', dftc['feridos_leves'].isna().sum())
# feridos_graves
print('Pré atualização - Campo feridos_graves nulos = ', dftc['feridos_graves'].isna().sum())
dftc.loc[dftc['estado_fisico'] == 'FERIDO GRAVE', 'feridos_graves'] = 1
dftc.loc[dftc['estado_fisico'] == 'LESÕES GRAVES', 'feridos_graves'] = 1
dftc.loc[dftc['feridos_graves'].isna(), 'feridos_graves'] = 0
print('Campo feridos_graves nulos = ', dftc['feridos_graves'].isna().sum())
# mortos
print('Pré atualização - Campo mortos nulos (parcial 1) = ', dftc['mortos'].isna().sum())
dftc.loc[dftc['estado_fisico'] == 'ÓBITO', 'mortos'] = 1
dftc.loc[dftc['mortos'].isna(), 'mortos'] = 0
print('Campo mortos nulos (parcial 1) = ', dftc['mortos'].isna().sum())
dftc.loc[dftc['estado_fisico'] == 'MORTO', 'mortos'] = 1
dftc.loc[dftc['mortos'].isna(), 'mortos'] = 0
print('Campo mortos nulos = ', dftc['mortos'].isna().sum())


#### 2.2.5.4. Correção dos tipos de dados

In [None]:
dftc.info()

In [None]:
dftc['kmint'] = dftc['kmint'].astype('int')
dftc['ano'] = dftc['ano'].astype('int')
dftc['mes'] = dftc['mes'].astype('int')


## 3. ESTATÍSTICA DESCRITIVA - Acidentes

### 3.1. Acidentes - Criar Dataframe

Criar o Dataframe com os dados de acidentes

In [None]:
# Criar Dataframe com os registros de acidentes (a estrutura do arquivo tem repetição nesses campos)
dfacid = dftc[col_acidentes]
# Total de registros antes de retirada das duplicações
len(dfacid)

OBS:
- O total de registros do período é 140.402

In [None]:
# somar campos das pessoas envolvidas nos acidentes
dfagg = dfacid.groupby(['id','data_inversa', 'dia_semana', 'hora', 'minuto', 'uf', 'br', 'km']).agg({'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})
len(dfagg)

In [None]:
dfagg.reset_index()

In [None]:
# retirar as duplicações do acidentes
dfacid = dfacid.drop_duplicates(subset=['id', 'dia_semana', 'hora', 'minuto', 'uf', 'br', 'km'], keep='last')

# Total de registros únicos
len(dfacid)

In [None]:
##
dfacid = pd.merge(dfacid, dfagg, how = 'inner', on = ['id', 'dia_semana', 'hora', 'minuto', 'uf', 'br','km'])
#dfacid = pd.concat([dfacid, dfagg], axis=1)
dfacid = dfacid.drop(['ilesos_x', 'feridos_leves_x', 'feridos_graves_x', 'mortos_x'], axis=1)
dfacid.rename(columns={'ilesos_y':'ilesos', 'feridos_leves_y':'feridos_leves', 'feridos_graves_y':'feridos_graves', 'mortos_y':'mortos'}, inplace=True)
#dfacid.loc[:, ['ilesos_x', 'feridos_leves_x', 'feridos_graves_x', 'mortos_x', 'ilesos_y', 'feridos_leves_y', 'feridos_graves_y', 'mortos_y']]


In [None]:
dfacid

### 3.2. Quantitativo de Acidentes

#### 3.2.1 Acidentes x Classificação do Acidente


In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
def _get_acidentes(dfacid, secao, pos_concessao):
    # ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
    # Quantitativo de acidentes por classificação de acidente
    # ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

    dfa = dfacid[(dfacid['secao']==secao)&(dfacid['pos_concessao']==pos_concessao)&((dfacid['classificacao_acidente']!='SEM VÍTIMAS') & (dfacid['classificacao_acidente']!='IGNORADO'))].groupby(['anomes_nr','classificacao_acidente']).agg({'id':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})
    #dfa = dfacid.groupby(['anomes_nr','classificacao_acidente']).agg({'id':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})
    dfa = pd.pivot_table(dfa, values='id', index=['anomes_nr'],
                         columns=['classificacao_acidente'], aggfunc=np.sum)
    #dfa.reset_index(inplace=True)
    dfa.reset_index(inplace=True)
    dfa.fillna(0)
    return dfa


def _plot_line_graf(dfa, secao, pos_concessao):
    # ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
    # Quantitativo de acidentes por classificação de acidente
    # ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
    if pos_concessao == 0:
        tit = 'Pré concessão'
    else:
        tit = 'Pós concessão'
    
    titulo = f'Acidentes na Seção {secao} - {tit}'
    
    figura = px.line(title = titulo, width=1100, height=400)
    for i in dfa.columns[1:]:
        figura.add_scatter(x = dfa["anomes_nr"] ,y = dfa[i], name = i)
        #figura.add_scatter(x = table["anomes_nr"] ,y = table[i], name = i)
    figura.show()
    return dfa

def _plot_heatmap(dfacid, secao, pos_concessao, tipo_mapa):
   
    ### 
    # Filtro para plot
    dfa = dfacid[(dfacid['secao']==secao)&(dfacid['pos_concessao']==pos_concessao)&((dfacid['classificacao_acidente']!='SEM VÍTIMAS') & (dfacid['classificacao_acidente']!='IGNORADO'))]
    ###
    # criar lista de ano_mes únicos
    lista_index = dfa.ano_mes.unique()

    #print(lista_index)

    lista_idx = []
    for i in lista_index:
        lista_idx.append(i)

    #print(lista_idx)
    # -------------------------------------------

    # criar a weight list
    weight_list = []
    dfa['conta'] = 1
    for x in dfa['ano_mes'].sort_values().unique():
        weight_list.append(dfa.loc[dfa['ano_mes'] == x, ["latitude", "longitude", "conta"]].groupby(["latitude", "longitude"]).sum().reset_index().values.tolist()) 

    # -------------------------------------------

    # criar o mapa base
    my_map = folium.Map(
                    location=(
                                (dfa.latitude.mean()),
                                (dfa.longitude.mean())
                            ),
                    zoom_start=6
                )

    #folium.LayerControl().add_to(my_map)
    folium.TileLayer('stamentoner').add_to(my_map)

    # criar o mapa de calor de acidentes
    HeatMapWithTime(weight_list, radius=10, index=lista_idx,
                    gradient={0.1: 'blue', 0.25: 'yellow', 0.75:'orange', 1:'red'},
                    auto_play=True, min_opacity=0.5, max_opacity=1, use_local_extrema=True).add_to(my_map)

    return my_map
    
def _plot_cluster_map(dfacid, secao, pos_concessao, tipo_mapa):
    import folium
    from folium.plugins import MarkerCluster

    dfa = dfacid[(dfacid['secao']==secao)&(dfacid['pos_concessao']==pos_concessao)&((dfacid['classificacao_acidente']!='COM VÍTIMAS FATAIS'))]
    dfa = dfa.dropna()
    
    m = folium.Map(
                    location=(
                                (dfa.latitude.mean()),
                                (dfa.longitude.mean())
                            ),
                    zoom_start=6
                )
    
    marker_cluster = MarkerCluster().add_to(m)

    for index, row in dfa.iterrows():
            #print(row['c1'], row['c2']):
        
        folium.Marker(
            location=[row['latitude'], row['longitude']],
            popup= f"Acidente fatal: Ano_mes=%s, id=%s, latitude=%s, longitude=%s, UF=%s, KM=%s" % (row['ano_mes'],row['id'],row['latitude'], row['longitude'], row['uf'], row['km']),
            icon=folium.Icon(color="green", icon="ok-sign"),
            ).add_to(marker_cluster)
        '''
        folium.Marker(
            location=[44.67, -73.94],
            popup="Add popup text here.",
            icon=folium.Icon(color="red", icon="remove-sign"),
        ).add_to(marker_cluster)

        folium.Marker(
            location=[44.67, -71.94],
            popup="Add popup text here.",
            icon=None,
        ).add_to(marker_cluster)
        '''
    return m


##### 3.2.1.1. Acidentes na Seção 1 - Antes da Concessão


In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)

secao = 1
pos_concessao = 0
dfa = _plot_line_graf(_get_acidentes(dfacid,secao,pos_concessao), secao,pos_concessao)
dfa.describe()


In [None]:
dfa

In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)

secao = 1
pos_concessao = 1
dfa = _plot_line_graf(_get_acidentes(dfacid,secao,pos_concessao), secao,pos_concessao)
dfa.describe()

In [None]:
dfa

In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)

secao = 2
pos_concessao = 0
dfa = _plot_line_graf(_get_acidentes(dfacid,secao,pos_concessao), secao,pos_concessao)
dfa.describe()

##### 3.2.1.2. Acidentes na Seção 1 - Pós da Concessão

In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)

secao = 2
pos_concessao = 1
dfa = _plot_line_graf(_get_acidentes(dfacid,secao,pos_concessao), secao,pos_concessao)
dfa.describe()

In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)

secao = 3
pos_concessao = 0
dfa = _plot_line_graf(_get_acidentes(dfacid,secao,pos_concessao), secao,pos_concessao)
dfa.describe()

In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)

secao = 3
pos_concessao = 1
dfa = _plot_line_graf(_get_acidentes(dfacid,secao,pos_concessao), secao,pos_concessao)
dfa.describe()

# ACIDENTES - SHAP - Scikit-Learn

a partir do exemplo 
https://www.rasgoml.com/feature-engineering-tutorials/scikit-learn-gradient-boosted-tree-feature-selection-with-shapley-importance

In [None]:
import statsmodels.api as sm
import pandas as pd
import numpy as np
from sklearn.metrics import mean_squared_error, classification_report
from sklearn.model_selection import train_test_split
import shap
import category_encoders as ce

import xgboost

from sklearn.ensemble import GradientBoostingRegressor, RandomForestClassifier

%matplotlib inline

# load JS visualization code to notebook
shap.initjs()


In [None]:
def _prepare_data(dfacid, secao, pos_concessao):
    # preparação do dataframe
    df = dfacid[(dfacid['secao']==secao)&(dfacid['pos_concessao']==pos_concessao)&(dfacid['classificacao_acidente']!='SEM VÍTIMAS')] #.groupby(['anomes_nr','classificacao_acidente']).agg({'id':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})
    # target para acidentes com Vítimas graves e fatais = 1, e Vítimas leves = 0
    df['target'] = 0
    df.loc[df['mortos'] > 0, 'target'] = 1
    df.loc[df['feridos_graves'] > 0, 'target'] = 1
    df.dropna(inplace=True)
    return df
    
def _exec_shap(df, tipo):
    shap.initjs()
    
    # Separa o campo target - objetivo a ser predito
    target = 'target'
    # Separa o Target
    y = df[target]
    # Retira colunas que não fazem parte da avaliação do modelo
    X = df.drop(columns=[target, 
                         'id', 
                         'data_inversa', 
                         'br', 
                         'kmint', 
                         'classificacao_acidente', 
                         'sentido_via', 
                         'uso_solo', 
                         'ano_mes', 
                         'anomes_nr', 
                         'mortos',
                         'feridos_leves',
                         'feridos_graves', 
                         'ilesos', 
                         'secao', 
                         'pos_concessao', 
                         'uf', 
                         'minuto',
                         'ano'])

    # Split para o modelo
    X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.5)
    
    # Encoder para colunas categóricas
    encoder = ce.LeaveOneOutEncoder(return_df=True)
    X_train_loo = encoder.fit_transform(X_train, y_train)
    X_test_loo = encoder.transform(X_test)
    
    if tipo == 'GBR':
        # Cria o modelo com GradientBoostingRegressorf 
        model = GradientBoostingRegressor(learning_rate=0.05, max_depth=5, n_estimators=500, min_samples_split=5, n_iter_no_change=10)
        model.fit(X_train_loo, y_train)
    
        # Resultados do modelo
        rmse = np.sqrt(mean_squared_error(y_test, model.predict(X_test_loo)))
        explainer = shap.Explainer(model)
        shap_values = explainer(X_test_loo)
        shap_importance = shap_values.abs.mean(0).values
        importance_df = pd.DataFrame({'features': X_train_loo.columns,
                                      'importance': shap_importance})
        importance_df.sort_values(by='importance', ascending=False, inplace=True)


        shap_values = shap.TreeExplainer(model).shap_values(X_test_loo)
        
        #shap.plots.waterfall(shap_values[0])

        shap.summary_plot(shap_values, X_test_loo, plot_type="dot")
        
    elif tipo == 'RFC':    
        model = RandomForestClassifier(n_estimators=1000, n_jobs=-1, random_state=0)
        model.fit(X_train_loo, y_train)
                
        # Classification report
        p = model.predict(X_test_loo)
        print(classification_report(y_test, p))
        
        # para imprimir Shapley
        explainer = shap.TreeExplainer(model)
        shap_values = explainer.shap_values(X_test_loo)

        shap.force_plot(explainer.expected_value[1], shap_values[1][0,:], X_test_loo.iloc[0,:])
        shap.summary_plot(shap_values[1], X_test_loo, plot_type='violin')
        shap.force_plot(explainer.expected_value[0], shap_values[0][0,:], X_test_loo.iloc[0,:])
        #shap.dependence_plot(8, shap_values[0], X_test_loo)
        #shap.plots.waterfall(shap_values[0], y_test, X_test_loo[0])
        rmse = 0
        importance_df = 0
   
    elif tipo == 'XGB':
        
        
        # train XGBoost model
        model = xgboost.XGBClassifier().fit(X_train_loo, y_train)

        # compute SHAP values
        explainer = shap.Explainer(model, X_train_loo)
        shap_values = explainer(X_train_loo)
        
        shap.plots.waterfall(shap_values[0])
        rmse = 0
        importance_df = 0
        

    
        
    #model = RandomForestClassifier(n_estimators=1000, n_jobs=-1, random_state=0)
    #model.fit(X_train_loo, y_train)
    
    #p = model.predict(X_test_loo)
    #print(classification_report(y_test, model.predict(X_test_loo)))
    #print(p)

    return rmse, importance_df


In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)
secao = 1
pos_concessao = 0
rmse, importance_df = _exec_shap(_prepare_data(dfacid, secao, pos_concessao), 'RFC')
#rmse, importance_df = _exec_shap(xx, 'XGB')

print('Shap dos Acidentes da Seção 1 do trecho, do período pré concessão!!!')
print('RMSE = ', rmse)
importance_df

In [None]:
# plotar mapa de calor
m = _plot_heatmap(dfacid, secao, pos_concessao, 0)
m

In [None]:
m2 = _plot_cluster_map(dfacid, secao, pos_concessao, 0)
m2

In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)
secao = 1
pos_concessao = 1
rmse, importance_df = _exec_shap(_prepare_data(dfacid, secao, pos_concessao), 'XGB')
print('Shap dos Acidentes da Seção 1 do trecho, do período pós concessão!!!')
print('RMSE = ', rmse)
importance_df

In [None]:
# plotar mapa de calor
m = _plot_heatmap(dfacid, secao, pos_concessao, 0)
m

In [None]:
m2 = _plot_cluster_map(dfacid, secao, pos_concessao, 0)
m2


In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)
secao = 2
pos_concessao = 0
rmse, importance_df = _exec_shap(_prepare_data(dfacid, secao, pos_concessao), 'XGB')
print('Shap dos Acidentes da Seção 2 do trecho, do período pré concessão!!!')
print('RMSE = ', rmse)
importance_df

In [None]:
# plotar mapa de calor
m = _plot_heatmap(dfacid, secao, pos_concessao, 0)
m

In [None]:
m2 = _plot_cluster_map(dfacid, secao, pos_concessao, 0)
m2

In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)
secao = 2
pos_concessao = 1
rmse, importance_df = _exec_shap(_prepare_data(dfacid, secao, pos_concessao), 'XGB')
print('Shap dos Acidentes da Seção 2 do trecho, do período pós concessão!!!')
print('RMSE = ', rmse)
importance_df

In [None]:
# plotar mapa de calor
m = _plot_heatmap(dfacid, secao, pos_concessao, 0)
m

In [None]:
m2 = _plot_cluster_map(dfacid, secao, pos_concessao, 0)
m2

In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)
secao = 3
pos_concessao = 0
rmse, importance_df = _exec_shap(_prepare_data(dfacid, secao, pos_concessao), 'XGB')
print('Shap dos Acidentes da Seção 3 do trecho, do período pré concessão!!!')
print('RMSE = ', rmse)
importance_df

In [None]:
# plotar mapa de calor
m = _plot_heatmap(dfacid, secao, pos_concessao, 0)
m

In [None]:
m2 = _plot_cluster_map(dfacid, secao, pos_concessao, 0)
m2

In [None]:
# Seções - 1 (DF até Cristalina) | 2 (Cristalina até Curvelo) | 3 (Curvelo até Juiz de Fora)
# Pos Concessão - 0 (antes da concessão -> até junho de 2014) | 1 (a partir de julho de 2014)
secao = 3
pos_concessao = 1
rmse, importance_df = _exec_shap(_prepare_data(dfacid, secao, pos_concessao), 'XGB')
print('Shap dos Acidentes da Seção 3 do trecho, do período pós concessão!!!')
print('RMSE = ', rmse)
importance_df

In [None]:
# plotar mapa de calor
m = _plot_heatmap(dfacid, secao, pos_concessao, 0)
m

In [None]:
m2 = _plot_cluster_map(dfacid, secao, pos_concessao, 0)
m2

# 4. ESTATÍSTICA DESCRITIVA - Veículos

In [None]:
# montagem do Dataframe
dfvei = dftc[col_veiculos]
print('Tamanho do Datafrema original ', len(dfvei))


In [None]:
# sobre os campos AN0
dfvei.loc[dfvei['ano_fabricacao_veiculo'] == '(null)', 'ano_fabricacao_veiculo'] = -1
dfvei.ano.fillna(-1) #[dfvei['ano_fabricacao_veiculo'] == '(null)', 'ano_fabricacao_veiculo'] = -1
dfvei["ano_fabricacao_veiculo"] = dfvei["ano_fabricacao_veiculo"].str.strip()
dfvei["ano_fabricacao_veiculo"] = pd.to_numeric(dfvei["ano_fabricacao_veiculo"])
dfvei["idade_veiculo"] = dfvei["ano"] - dfvei["ano_fabricacao_veiculo"]
# Campo id_veiculo
dfvei['id_veiculo'].fillna('-1', inplace = True)
# Campo tipo_veiculo
dfvei['tipo_veiculo'].fillna('Não Discriminado', inplace = True)
dfvei['tipo_veiculo'] = dfvei['tipo_veiculo'].str.upper()
dfvei.loc[dfvei['tipo_veiculo'] == '(NULL)', 'tipo_veiculo'] = 'NÃO DISCRIMINADO'
dfvei.loc[dfvei['tipo_veiculo'] == 'SEXTA', 'dia_semana'] = 'SEXTA-FEIRA'
dfvei.loc[dfvei['tipo_veiculo'] == 'MICROÔNIBUS', 'tipo_veiculo'] = 'MICRO-ÔNIBUS'
dfvei.loc[dfvei['tipo_veiculo'] == 'SEMIREBOQUE', 'tipo_veiculo'] = 'SEMI-REBOQUE'


dfvei

In [None]:
# agregação dos quantitativos de vítimas 
dictio = {'id_veiculo':'count', 'ilesos':'sum','feridos_leves':'sum','feridos_graves':'sum', 'mortos':'sum'}

dfagg = dfvei.groupby(['id_veiculo', 'tipo_veiculo', 'ano', 'mes', 'hora', 'minuto']).agg(dictio)
dfagg.rename(columns={'id_veiculo':'qtd'}, inplace=True)
dfagg.reset_index(inplace=True)
dfagg

In [None]:

# retirar as duplicações do acidentes
dfvei = dfvei.drop_duplicates(subset=['id_veiculo', 'tipo_veiculo', 'ano', 'mes', 'hora', 'minuto'], keep='last')
# Total de registros únicos
print('Tamanho do Datafrema sem duplicações ', len(dfvei))

In [None]:
#dfvei.loc[dfvei['id_veiculo'] == 175013]
dfvei.loc[dfvei['id'] == 175013]

In [None]:
##
dfvei = pd.merge(dfvei, dfagg, how = 'inner', on = ['id_veiculo', 'tipo_veiculo', 'ano', 'mes', 'hora', 'minuto'])
#dfacid = pd.concat([dfacid, dfagg], axis=1)
dfvei = dfvei.drop(['ilesos_x', 'feridos_leves_x', 'feridos_graves_x', 'mortos_x'], axis=1)
dfvei.rename(columns={'ilesos_y':'ilesos', 'feridos_leves_y':'feridos_leves', 'feridos_graves_y':'feridos_graves', 'mortos_y':'mortos'}, inplace=True)
#dfacid.loc[:, ['ilesos_x', 'feridos_leves_x', 'feridos_graves_x', 'mortos_x', 'ilesos_y', 'feridos_leves_y', 'feridos_graves_y', 'mortos_y']]


In [None]:
dfvei.loc[(dfvei['classificacao_acidente'] != 'SEM VÍTIMAS') & (dfvei['classificacao_acidente'] != 'IGNORADOS')].groupby(['anomes_nr', 'tipo_veiculo', 'classificacao_acidente']).agg({'id':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})

In [None]:
dfvei.loc[(dfvei['anomes_nr'] == '200701')&(dfvei['tipo_veiculo'] == 'BICICLETA')]

In [None]:
dfv = dfvei[(dfvei['secao']==1)&(dfvei['pos_concessao']==0)&((dfvei['classificacao_acidente']!='SEM VÍTIMAS') & (dfvei['classificacao_acidente']!='IGNORADO'))].groupby(['anomes_nr','tipo_veiculo']).agg({'id_veiculo':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})

#dfv = dfvei[(dfvei['secao']==secao)&(dfvei['pos_concessao']==pos_concessao)].groupby(['ano','tipo_veiculo']).agg({'id_veiculo':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})
dfv = pd.pivot_table(dfv, values='id_veiculo', index=['anomes_nr'],
                         columns=['tipo_veiculo'], aggfunc=np.sum)
dfv.reset_index(inplace=True)
dfv.fillna(0)


In [None]:
dfv
#dfv.reset_index(inplace=True)

## 4.1 - Estatísticas

### 4.1.1. 

In [None]:
def _get_veiculos_acid(dfvei, secao, pos_concessao):
    # ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
    # Quantitativo de acidentes por classificação de acidente
    # ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

    dfv = dfvei[(dfvei['secao']==secao)&(dfvei['pos_concessao']==pos_concessao)&((dfvei['classificacao_acidente']!='SEM VÍTIMAS') & (dfvei['classificacao_acidente']!='IGNORADO'))].groupby(['anomes_nr','classificacao_acidente']).agg({'id':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})

    #dfv = dfvei[(dfvei['secao']==secao)&(dfvei['pos_concessao']==pos_concessao)].groupby(['ano','tipo_veiculo']).agg({'id_veiculo':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})
    #dfa = dfacid.groupby(['anomes_nr','classificacao_acidente']).agg({'id':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})
    dfv = pd.pivot_table(dfv, values='id_veiculo', index=['anomes_nr'],
                         columns=['tipo_veiculo'], aggfunc=np.sum)
    #dfa.reset_index(inplace=True)
    dfv.reset_index(inplace=True)
    dfv.fillna(0)
    return dfv


def _plot_line_graf(dfa, secao, pos_concessao):
    # ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
    # Quantitativo de acidentes por classificação de acidente
    # ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
    if pos_concessao == 0:
        tit = 'Pré concessão'
    else:
        tit = 'Pós concessão'
    
    titulo = f'Acidentes na Seção {secao} - {tit}'
    
    figura = px.line(title = titulo, width=1100, height=400)
    for i in dfa.columns[1:]:
        figura.add_scatter(x = dfa["anomes_nr"] ,y = dfa[i], name = i)
        #figura.add_scatter(x = table["anomes_nr"] ,y = table[i], name = i)
    figura.show()
    return dfa

In [None]:
xx = _get_veiculos_acid(dfvei,1,0)

In [None]:
xx

In [None]:
x1 = _get_veiculos_acid(dfvei,1,1)

In [None]:
x1

# VEICULOS - SHAP - Scikit-Learn


In [None]:
def _executa_shap_veiculos(dfacid, secao, pos_concessao):
    df = dfacid[(dfacid['secao']==secao)&(dfacid['pos_concessao']==pos_concessao)&(dfacid['classificacao_acidente']!='SEM VÍTIMAS')] #.groupby(['anomes_nr','classificacao_acidente']).agg({'id':'count', 'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})
    df['target'] = False
    df.loc[df['mortos'] > 0, 'target'] = True
    df.loc[df['feridos_graves'] > 0, 'target'] = True
    df.dropna(inplace=True)
    target = 'target'
    y = df[target]
    X = df.drop(columns=[target, 
                         'id', 
                         'data_inversa', 
                         'br', 
                         'kmint', 
                         'classificacao_acidente', 
                         'sentido_via', 
                         'uso_solo', 
                         'ano_mes', 
                         'anomes_nr', 
                         'mortos',
                         'feridos_leves',
                         'feridos_graves', 
                         'ilesos', 
                         'secao', 
                         'pos_concessao', 
                         'uf', 
                         'minuto',
                         'ano'])
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=1066)
    encoder = ce.LeaveOneOutEncoder(return_df=True)
    X_train_loo = encoder.fit_transform(X_train, y_train)
    X_test_loo = encoder.transform(X_test)
    model = GradientBoostingRegressor(learning_rate=0.05, max_depth=5, n_estimators=500, min_samples_split=5, n_iter_no_change=10)
    model.fit(X_train_loo, y_train)
    rmse = np.sqrt(mean_squared_error(y_test, model.predict(X_test_loo)))
    explainer = shap.Explainer(model)
    shap_values = explainer(X_test_loo)
    shap_importance = shap_values.abs.mean(0).values
    importance_df = pd.DataFrame({'features': X_train_loo.columns,
                                  'importance': shap_importance})
    importance_df.sort_values(by='importance', ascending=False, inplace=True)

    return rmse, importance_df


In [None]:
# Deletar nulos
df.dropna(inplace=True)

In [None]:
df

In [None]:
target = 'target'
y = df[target]
X = df.drop(columns=[target, 'id', 'data_inversa', 'br', 'kmint', 'classificacao_acidente', 
                     'sentido_via', 'uso_solo', 'ano_mes', 'anomes_nr', 'mortos',
                    'feridos_leves','feridos_graves', 'ilesos', 'secao', 'pos_concessao', 'uf', 'minuto','ano'])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2, random_state=1066)


In [None]:
X

In [None]:

encoder = ce.LeaveOneOutEncoder(return_df=True)
X_train_loo = encoder.fit_transform(X_train, y_train)
X_test_loo = encoder.transform(X_test)


In [None]:

model = GradientBoostingRegressor(learning_rate=0.05, max_depth=5, n_estimators=500, min_samples_split=5, n_iter_no_change=10)
model.fit(X_train_loo, y_train)

rmse = np.sqrt(mean_squared_error(y_test, model.predict(X_test_loo)))
rmse


In [None]:

explainer = shap.Explainer(model)
shap_values = explainer(X_test_loo)
shap_importance = shap_values.abs.mean(0).values
importance_df = pd.DataFrame({'features': X_train_loo.columns,
                              'importance': shap_importance})
importance_df.sort_values(by='importance', ascending=False, inplace=True)
importance_df


In [None]:

feature_list = importance_df[importance_df.importance > 0.15]['features'].tolist()
feature_list


In [None]:
feature_list = importance_df['features'].head(5).tolist()
feature_list

In [None]:

X_train_loo_new = X_train_loo[feature_list]
X_test_loo_new = X_test_loo[feature_list]


In [None]:

reduced_model = GradientBoostingRegressor(learning_rate=0.05, max_depth=5, n_estimators=500, min_samples_split=5, n_iter_no_change=10)
reduced_model.fit(X_train_loo_new, y_train)

rmse = np.sqrt(mean_squared_error(y_test, reduced_model.predict(X_test_loo_new)))
rmse


## SHapley

https://shap.readthedocs.io/en/latest/example_notebooks/api_examples/plots/bar.html

In [None]:
def _sep_dataset(df, target):
    target=df.loc[:,[target]]
    #target.to_numpy()
    dfsource = df.drop(columns=target)
    return dfsource, target
    
#X.dropna(subset=['latitude', 'longitude'], inplace=True)

#del df2shap

In [None]:
aggr_fld = ['tracado_via']
df1 = _acidentes(dfacid, aggr_fld, dictio)
df1

In [None]:
aggr_fld = ['uso_solo']
df1 = _acidentes(dfacid, aggr_fld, dictio)
df1

In [None]:
aggr_fld = ['classificacao_acidente']
df1 = _acidentes(dfacid, aggr_fld, dictio)
df1

In [None]:
aggr_fld = ['fase_dia']
df1 = _acidentes(dfacid, aggr_fld, dictio)
df1

In [None]:
aggr_fld = ['tipo_pista']
df1 = _acidentes(dfacid, aggr_fld, dictio)
df1

SUGESTÕES DE PERGUNTAS:
- Relação de causa do acidente x tipo do acidente x horario do acidente x condição meteorologica x tipo de pista x traçado da via x uso do solo x dia da semana com a mortalidade dos acidentes?
- Relação de tipos de veículos x mortalidade dos acidentes?
- Escolher um trecho de rodovia concedida para analisar. Exemplo: BR-040 DF até Juiz de Fora; 

#### Domínios do acidente

Exemplo   | Valor do exemplo
--------- | ------
causa_acidente | Reação tardia ou ineficiente do condutor ,Velocidade Incompatível ,Demais falhas mecânicas ou elétricas ,Entrada inopinada do pedestre ,Condutor Dormindo ,Frear bruscamente ,Acessar a via sem observar a presença dos outros veículos ,Chuva ,Ausência de reação do condutor ,Pedestre andava na pista ,Problema com o freio ,Carga excessiva e/ou mal acondicionada ,Ingestão de álcool pelo condutor ,Acostamento em desnível ,Ultrapassagem Indevida ,Mal súbito do condutor ,Curva acentuada ,Avarias e/ou desgaste excessivo no pneu ,Acumulo de água sobre o pavimento ,Condutor deixou de manter distância do veículo da frente ,Pedestre cruzava a pista fora da faixa ,Falta de elemento de contenção que evite a saída do leito carroçável ,Manobra de mudança de faixa ,Demais falhas na via ,Condutor usando celular ,Pista Escorregadia ,Ingestão de álcool ou de substâncias psicoativas pelo pedestre ,Obstrução na via ,Ingestão de álcool e/ou substâncias psicoativas pelo pedestre ,Acumulo de óleo sobre o pavimento ,Ingestão de substâncias psicoativas pelo condutor ,Transitar na contramão ,Iluminação deficiente ,Pista esburacada ,Conversão proibida ,Afundamento ou ondulação no pavimento ,Animais na Pista ,Demais Fenômenos da natureza ,Transitar no acostamento ,Desrespeitar a preferência no cruzamento ,Falta de acostamento ,Objeto estático sobre o leito carroçável ,Pista em desnível ,Estacionar ou parar em local proibido ,Área urbana sem a presença de local apropriado para a travessia de pedestres ,Desvio temporário ,Declive acentuado ,Obras na pista ,Ausência de sinalização ,Acumulo de areia ou detritos sobre o pavimento ,Problema na suspensão ,Acesso irregular ,Retorno proibido ,Sinalização mal posicionada ,Deficiência do Sistema de Iluminação/Sinalização ,Faixas de trânsito com largura insuficiente ,Restrição de visibilidade em curvas horizontais ,Neblina ,Fumaça ,Faróis desregulados ,Sistema de drenagem ineficiente ,Restrição de visibilidade em curvas verticais ,Condutor desrespeitou a iluminação vermelha do semáforo ,Trafegar com motocicleta (ou similar) entre as faixas ,Redutor de velocidade em desacordo ,Deixar de acionar o farol da motocicleta (ou similar) ,Transitar na calçada ,Semáforo com defeito ,Participar de racha ,Sinalização encoberta ,Modificação proibida
tipo_acidente | Tombamento ,Incêndio ,Atropelamento de Pedestre ,Saída de leito carroçável ,Capotamento ,Colisão com objeto ,Colisão traseira ,Derramamento de carga ,Colisão lateral ,Eventos atípicos ,Colisão frontal ,Colisão lateral sentido oposto ,Colisão lateral mesmo sentido ,Atropelamento de Animal ,Colisão transversal ,Engavetamento ,Queda de ocupante de veículo
classificacao_acidente | Com Vítimas Feridas, Sem Vítimas, Com Vítimas Fatais
fase_dia | Amanhecer, Pleno dia, Plena Noite, Anoitecer
sentido_via | Crescente, Decrescente, Não Informado
condicao_metereologica | Nublado, Céu Claro, Chuva, Ignorado, Sol, Garoa/Chuvisco, Nevoeiro/Neblina, Vento, Neve, Granizo
tipo_pista | Dupla, Simples, Múltipla
tracado_via | Curva, Reta, Não Informado, Desvio Temporário, Retorno Regulamentado, Ponte, Interseção de vias, Rotatória, Túnel, Viaduto
uso_solo | Não, Sim




## Dados abertos antt

https://dados.antt.gov.br/dataset/trecho-concedido/resource/2de5d294-13fc-4ff1-aa6d-60306e3eb492

concessionaria;ano_do_pnv_snv;tipo_de_rodovia;rodovia;uf;km_m_inicial;km_m_final;direcao;sentido

VIA 040;2010;Federal;BR-40;DF;0,000;8,400;Sul;Crescente

VIA 040;2010;Federal;BR-40;DF;8,400;0,000;Norte;Decrescente

VIA 040;2010;Federal;BR-40;GO;0,000;157,300;Sul;Crescente

VIA 040;2010;Federal;BR-40;GO;157,300;0,000;Norte;Decrescente

VIA 040;2010;Federal;BR-40;MG;0,000;773,500;Sul;Crescente

VIA 040;2010;Federal;BR-40;MG;773,500;0,000;Norte;Decrescente


In [None]:
aggr_fld = ['causa_acidente']

df1 = _acidentes(dfacid, aggr_fld, dictio)
df1

In [None]:
aggr_fld = ['tipo_acidente']
df1 = _acidentes(dfacid, aggr_fld, dictio)
df1

In [None]:
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# Quantitativo pessoas envolvidas por classificação de acidente - Pós-cencessão
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

figura = px.line(title = 'Histórico de vitimas acidentes - Pré concessão', width=1100, height=400)
for i in dfa1pre.columns[1:]:
    figura.add_scatter(x = dfa1pre["anomes_nr"] ,y = dfa1pre[i], name = i)
figura.show()

In [None]:
# plotar o gráfico
figura = px.line(title = 'Histórico de vitimas acidentes - Pós concessão', width=1100, height=400)
for i in dfa1pos.columns[1:]:
    figura.add_scatter(x = dfa1pos["anomes_nr"] ,y = dfa1pos[i], name = i)
figura.show()

### Estatística Descritiva dos dados de Acidentes

In [None]:
# imprimir os dados para verificação visual
dfacid

In [None]:
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# Quantitativo pessoas envolvidas por classificação de acidente - Pós-cencessão
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

figura = px.line(title = 'Histórico de acidentes - Pré concessão', width=1100, height=400)
for i in dfapre.columns[1:]:
    figura.add_scatter(x = dfapre["anomes_nr"] ,y = dfapre[i], name = i)
figura.show()

In [None]:
# plotar o gráfico
figura = px.line(title = 'Histórico de acidentes - Pós concessão', width=1100, height=400)
for i in dfapos.columns[1:]:
    figura.add_scatter(x = dfapos["anomes_nr"] ,y = dfapos[i], name = i)
figura.show()

In [None]:
# separar Dataframe pré e pós concessão - qtd_acidentes
dfapre = dfa_toda_serie.query("anomes_nr < '201407'")
dfapos = dfa_toda_serie.query("anomes_nr >= '201407'")
# separar Dataframe pré e pós concessão - qtd_vitimas
dfa1pre = dfa1.query("anomes_nr < '201407'")
dfa1pos = dfa1.query("anomes_nr >= '201407'")


In [None]:
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# Quantitativo de acidentes por vítimas
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

#figura = px.line(title = 'Histórico de acidentes - Vítimas', width=1100, height=400)
figura = px.bar(title = 'Histórico de acidentes - Vítimas', width=1100, height=400)

for i in dfa_toda_serie.columns[1:]:
    figura.add_scatter(x = dfa_toda_serie["anomes_nr"] ,y = dfa_toda_serie[i], name = i)
figura.show()

In [None]:
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# Quantitativo de acidentes por classificação de acidente
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

# Toda a série histórica
dfa_toda_serie = dfacid.groupby(['anomes_nr']).agg({'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})

#dfa1 = dfacid.loc[:,['anomes_nr', 'ilesos', 'feridos_leves', 'feridos_graves', 'mortos']]
#dfa1 = dfa1.groupby(['anomes_nr']).agg({'ilesos':'sum', 'feridos_leves':'sum', 'feridos_graves':'sum', 'mortos':'sum'})
dfa_toda_serie.reset_index(inplace=True)                            


#dfacid.loc[:,['id','latitude','longitude']]                  
                  
                  
#dfa1 = pd.pivot_table(dfa1, values='id', index=['anomes_nr'],
#                       columns=['classificacao_acidente'], aggfunc=np.sum)
#dfa1.reset_index(inplace=True)
#dfa1.reset_index(inplace=True)
#dfa1.fillna(0)
dfa_toda_serie

# Shap

# CATEGORY

In [None]:
# adicionar coluna booleana 
df2shap = dfacid[:]
df2shap["target"] = False

df2shap.drop(columns=['id',
                      #'pesid', 
                      'data_inversa',
                      #'horario',
                      'br',
                      #'uf',
                      #'sexo',
                      'classificacao_acidente',
                      #'causa_acidente',
                      #'tipo_veiculo',
                      #'tipo_envolvido',
                      'uso_solo',
                      #'tipo_acidente',                 
                      #'fase_dia',                      
                      #'sentido_via',                   
                      #'condicao_metereologica',        
                      #'tipo_pista',                    
                      #'tracado_via',
                      #'dia_semana',
                      'km', 
                      #'marca',
                      'ano_mes', 
                      'municipio',
                      #'id_veiculo', 
                      #'marca', 
                      #'estado_fisico',
                      #'mortos',
                      #'ilesos',
                      #'anomes_nr',
                      'ano',
                      'mes',
                      'latitude',
                      'longitude'], inplace=True)

df2shap['anomes_nr'] = df2shap['anomes_nr'].astype('int')
'''
df2shap['ano_fabricacao_veiculo'] = df2shap['ano_fabricacao_veiculo'].str.strip()
df2shap.loc[df2shap['ano_fabricacao_veiculo'].isna(), 'ano_fabricacao_veiculo'] = 0
df2shap.loc[df2shap['ano_fabricacao_veiculo'] == '', 'ano_fabricacao_veiculo'] = 0
df2shap.loc[df2shap['ano_fabricacao_veiculo'] == '(null)', 'ano_fabricacao_veiculo'] = 0
df2shap['ano_fabricacao_veiculo'] = df2shap['ano_fabricacao_veiculo'].astype('int')'
df2shap.loc[df2shap['idade'].isna(), 'idade'] = 0
df2shap.loc[df2shap['idade'] == '', 'idade'] = 0
df2shap['idade'] = df2shap['idade'].astype('int')
df2shap['ilesos'] = df2shap['ilesos'].astype('int') 
'''
df2shap['feridos_leves'] = df2shap['feridos_leves'].astype('int') 
df2shap['feridos_graves'] = df2shap['feridos_graves'].astype('int') 
df2shap['mortos'] = df2shap['mortos'].astype('int') 


df2shap.loc[df2shap['mortos'] > 0, 'target'] = True
df2shap["horario"] = df2shap["horario"].astype('category')
df2shap["uf"] = df2shap["uf"].astype('category')
#df2shap["tipo_veiculo"] = df2shap["tipo_veiculo"].astype('category')
df2shap["horario"] = df2shap["horario"].astype('category')

df2shap["causa_acidente"] = df2shap["causa_acidente"].astype('category')
df2shap["tipo_acidente"] = df2shap["tipo_acidente"].astype('category')
df2shap["fase_dia"] = df2shap["fase_dia"].astype('category')
df2shap["sentido_via"] = df2shap["sentido_via"].astype('category')
df2shap["condicao_metereologica"] = df2shap["condicao_metereologica"].astype('category')
df2shap["tipo_pista"] = df2shap["tipo_pista"].astype('category')
df2shap["tracado_via"] = df2shap["tracado_via"].astype('category')
#df2shap["uso_solo"] = df2shap["uso_solo"].astype('category')

df2shap['dia_semana'] = df2shap['dia_semana'].astype('category')

#df2shap['tipo_veiculo'] = df2shap['tipo_veiculo'].astype('category')
#df2shap['ano_fabricacao_veiculo'] = df2shap['ano_fabricacao_veiculo'].astype('category')
#df2shap['tipo_envolvido'] = df2shap['tipo_envolvido'].astype('category')
#df2shap['idade'] = df2shap['idade'].astype('category')
#df2shap['sexo'] = df2shap['sexo'].astype('category')
df2shap['ilesos'] = df2shap['ilesos'].astype('category')
df2shap['feridos_leves'] = df2shap['feridos_leves'].astype('category')
df2shap['feridos_graves'] = df2shap['feridos_graves'].astype('category')
df2shap['mortos'] = df2shap['mortos'].astype('category')

df2shap['anomes_nr'] = df2shap['anomes_nr'].astype('category')

df2shap.info()

# Values

In [None]:
import xgboost
import shap

# adicionar coluna booleana 
df2shap = dfacid[:]
df2shap["target"] = False

df_dia_semana = pd.DataFrame(df2shap.dia_semana.unique())
df_dia_semana.reset_index(inplace=True)
df_dia_semana.rename(columns={df_dia_semana.columns[0]: 'id_dia_semana', df_dia_semana.columns[1]: 'dia_semana'}, inplace=True)
df2shap = pd.merge(df2shap, df_dia_semana, how = 'inner', on = ['dia_semana'])

df_causa_acidente = pd.DataFrame(df2shap.causa_acidente.unique())
df_causa_acidente.reset_index(inplace=True)
df_causa_acidente.rename(columns={df_causa_acidente.columns[0]: 'id_causa_acidente', df_causa_acidente.columns[1]: 'causa_acidente'}, inplace=True)
df2shap = pd.merge(df2shap, df_causa_acidente, how = 'inner', on = ['causa_acidente'])

df_tipo_acidente = pd.DataFrame(df2shap.tipo_acidente.unique())
df_tipo_acidente.reset_index(inplace=True)
df_tipo_acidente.rename(columns={df_tipo_acidente.columns[0]: 'id_tipo_acidente', df_tipo_acidente.columns[1]: 'tipo_acidente'}, inplace=True)
df2shap = pd.merge(df2shap, df_tipo_acidente, how = 'inner', on = ['tipo_acidente'])

df_fase_dia = pd.DataFrame(df2shap.fase_dia.unique())
df_fase_dia.reset_index(inplace=True)
df_fase_dia.rename(columns={df_fase_dia.columns[0]: 'id_fase_dia', df_fase_dia.columns[1]: 'fase_dia'}, inplace=True)
df2shap = pd.merge(df2shap, df_fase_dia, how = 'inner', on = ['fase_dia'])

df_sentido_via = pd.DataFrame(df2shap.sentido_via.unique())
df_sentido_via.reset_index(inplace=True)
df_sentido_via.rename(columns={df_sentido_via.columns[0]: 'id_sentido_via', df_sentido_via.columns[1]: 'sentido_via'}, inplace=True)
df2shap = pd.merge(df2shap, df_sentido_via, how = 'inner', on = ['sentido_via'])

df_condicao_metereologica = pd.DataFrame(df2shap.condicao_metereologica.unique())
df_condicao_metereologica.reset_index(inplace=True)
df_condicao_metereologica.rename(columns={df_condicao_metereologica.columns[0]: 'id_condicao_metereologica', df_condicao_metereologica.columns[1]: 'condicao_metereologica'}, inplace=True)
df2shap = pd.merge(df2shap, df_condicao_metereologica, how = 'inner', on = ['condicao_metereologica'])

df_tipo_pista = pd.DataFrame(df2shap.tipo_pista.unique())
df_tipo_pista.reset_index(inplace=True)
df_tipo_pista.rename(columns={df_tipo_pista.columns[0]: 'id_tipo_pista', df_tipo_pista.columns[1]: 'tipo_pista'}, inplace=True)
df2shap = pd.merge(df2shap, df_tipo_pista, how = 'inner', on = ['tipo_pista'])

df_tracado_via = pd.DataFrame(df2shap.tracado_via.unique())
df_tracado_via.reset_index(inplace=True)
df_tracado_via.rename(columns={df_tracado_via.columns[0]: 'id_tracado_via', df_tracado_via.columns[1]: 'tracado_via'}, inplace=True)
df2shap = pd.merge(df2shap, df_tracado_via, how = 'inner', on = ['tracado_via'])

df_uso_solo = pd.DataFrame(df2shap.uso_solo.unique())
df_uso_solo.reset_index(inplace=True)
df_uso_solo.rename(columns={df_uso_solo.columns[0]: 'id_uso_solo', df_uso_solo.columns[1]: 'uso_solo'}, inplace=True)
df2shap = pd.merge(df2shap, df_uso_solo, how = 'inner', on = ['uso_solo'])
'''
df_tipo_veiculo = pd.DataFrame(df2shap.tipo_veiculo.unique())
df_tipo_veiculo.reset_index(inplace=True)
df_tipo_veiculo.rename(columns={df_tipo_veiculo.columns[0]: 'id_tipo_veiculo', df_tipo_veiculo.columns[1]: 'tipo_veiculo'}, inplace=True)
df2shap = pd.merge(df2shap, df_tipo_veiculo, how = 'inner', on = ['tipo_veiculo'])

df_tipo_envolvido = pd.DataFrame(df2shap.tipo_envolvido.unique())
df_tipo_envolvido.reset_index(inplace=True)
df_tipo_envolvido.rename(columns={df_tipo_envolvido.columns[0]: 'id_tipo_envolvido', df_tipo_envolvido.columns[1]: 'tipo_envolvido'}, inplace=True)
df2shap = pd.merge(df2shap, df_tipo_envolvido, how = 'inner', on = ['tipo_envolvido'])

df_sexo = pd.DataFrame(df2shap.sexo.unique())
df_sexo.reset_index(inplace=True)
df_sexo.rename(columns={df_sexo.columns[0]: 'id_sexo', df_sexo.columns[1]: 'sexo'}, inplace=True)
df2shap = pd.merge(df2shap, df_sexo, how = 'inner', on = ['sexo'])
'''
df_uf = pd.DataFrame(df2shap.uf.unique())
df_uf.reset_index(inplace=True)
df_uf.rename(columns={df_uf.columns[0]: 'id_uf', df_uf.columns[1]: 'uf'}, inplace=True)
df2shap = pd.merge(df2shap, df_uf, how = 'inner', on = ['uf'])

#df2shap['anomes_nr'] = df2shap['anomes_nr'].astype('int')
#df2shap['ano_fabricacao_veiculo'] = df2shap['ano_fabricacao_veiculo'].str.strip()
#df2shap.loc[df2shap['ano_fabricacao_veiculo'].isna(), 'ano_fabricacao_veiculo'] = 0
#df2shap.loc[df2shap['ano_fabricacao_veiculo'] == '', 'ano_fabricacao_veiculo'] = 0
#df2shap.loc[df2shap['ano_fabricacao_veiculo'] == '(null)', 'ano_fabricacao_veiculo'] = 0
#df2shap['ano_fabricacao_veiculo'] = df2shap['ano_fabricacao_veiculo'].astype('int') 
#df2shap.loc[df2shap['idade'].isna(), 'idade'] = 0
#df2shap.loc[df2shap['idade'] == '', 'idade'] = 0
#df2shap['idade'] = df2shap['idade'].astype('int')
#df2shap['ilesos'] = df2shap['ilesos'].astype('int') 
df2shap['feridos_leves'] = df2shap['feridos_leves'].astype('int') 
df2shap['feridos_graves'] = df2shap['feridos_graves'].astype('int') 
df2shap['mortos'] = df2shap['mortos'].astype('int') 

df2shap.drop(columns=['id',
                      #'pesid', 
                      'data_inversa',
                      'horario',
                      'br',
                      'uf',
                      #'sexo',
                      'classificacao_acidente',
                      'causa_acidente',
                      #'tipo_veiculo',
                      #'tipo_envolvido',
                      'uso_solo',
                      'tipo_acidente',                 
                      'fase_dia',                      
                      'sentido_via',                   
                      'condicao_metereologica',        
                      'tipo_pista',                    
                      'tracado_via',
                      'dia_semana',
                      'km', 
                      #'marca',
                      'ano_mes', 
                      'municipio',
                      #'id_veiculo', 
                      #'marca', 
                      #'estado_fisico',
                      'mortos',
                      'feridos_leves',
                      'feridos_graves',
                      'ilesos',
                      'anomes_nr',
                      'ano',
                      'mes',
                      'latitude',
                      'longitude',
                      'id_sentido_via'], inplace=True)

#['sexo', 'tipo_veiculo', 'tipo_envolvido', 'marca', 'id_veiculo', 'marca', 'estado_fisico'

'''
df2shap.loc[df2shap['mortos'] > 0, 'target'] = True
df2shap["horario"] = df2shap["horario"].astype('category')
df2shap["uf"] = df2shap["uf"].astype('category')
df2shap["tipo_veiculo"] = df2shap["tipo_veiculo"].astype('category')
df2shap["horario"] = df2shap["horario"].astype('category')

df2shap["causa_acidente"] = df2shap["causa_acidente"].astype('category')
df2shap["tipo_acidente"] = df2shap["tipo_acidente"].astype('category')
df2shap["fase_dia"] = df2shap["fase_dia"].astype('category')
df2shap["sentido_via"] = df2shap["sentido_via"].astype('category')
df2shap["condicao_metereologica"] = df2shap["condicao_metereologica"].astype('category')
df2shap["tipo_pista"] = df2shap["tipo_pista"].astype('category')
df2shap["tracado_via"] = df2shap["tracado_via"].astype('category')
df2shap["uso_solo"] = df2shap["uso_solo"].astype('category')

df2shap['dia_semana'] = df2shap['dia_semana'].astype('category')


df2shap['tipo_veiculo'] = df2shap['tipo_veiculo'].astype('category')
df2shap['ano_fabricacao_veiculo'] = df2shap['ano_fabricacao_veiculo'].astype('category')
df2shap['tipo_envolvido'] = df2shap['tipo_envolvido'].astype('category')
df2shap['idade'] = df2shap['idade'].astype('category')
df2shap['sexo'] = df2shap['sexo'].astype('category')
df2shap['ilesos'] = df2shap['ilesos'].astype('category')
df2shap['feridos_leves'] = df2shap['feridos_leves'].astype('category')
df2shap['feridos_graves'] = df2shap['feridos_graves'].astype('category')
df2shap['mortos'] = df2shap['mortos'].astype('category')

df2shap['anomes_nr'] = df2shap['anomes_nr'].astype('category')
'''
df2shap



In [None]:
X, y = _sep_dataset(df2shap, 'target')
#y = y.to_numpy()
myy = []
for i in range(0, len(y)):
    myy.append(y.iloc[i, 0])

y = np.array(myy)
# train XGBoost model
#X,y = shap.datasets.adult()
#"gpu_hist", "approx", "hist"
#clf = xgboost.XGBClassifier(enable_categorical=True, use_label_encoder=False)

#model = xgboost.XGBClassifier(tree_method="approx", enable_categorical=True).fit(X, y)
model = xgboost.XGBClassifier().fit(X, y)


# compute SHAP values
explainer = shap.Explainer(model, X)
shap_values = explainer(X)

#df2shap.info()
#df2shap.ano_fabricacao_veiculo.unique('


In [None]:
model

In [None]:
model

In [None]:
shap_values

### Plotar Mapa de Calor com tempo dos acidentes

In [None]:
###
# criar lista de ano_mes únicos
lista_index = dfacid.ano_mes.unique()

#print(lista_index)

lista_idx = []
for i in lista_index:
    lista_idx.append(i)

#print(lista_idx)
# -------------------------------------------

# criar a weight list
weight_list = []
dfacid['conta'] = 1
for x in dfacid['ano_mes'].sort_values().unique():
    weight_list.append(dfacid.loc[dfacid['ano_mes'] == x, ["latitude", "longitude", "conta"]].groupby(["latitude", "longitude"]).sum().reset_index().values.tolist()) 

# -------------------------------------------

# criar o mapa base
my_map = folium.Map(
                location=(
                            (dfacid.latitude.mean()),
                            (dfacid.longitude.mean())
                        ),
                zoom_start=6
            )

#folium.LayerControl().add_to(my_map)
folium.TileLayer('stamentoner').add_to(my_map)

# criar o mapa de calor de acidentes
HeatMapWithTime(weight_list, radius=10, index=lista_idx,
                gradient={0.1: 'blue', 0.25: 'yellow', 0.75:'orange', 1:'red'},
                auto_play=True, min_opacity=0.5, max_opacity=1, use_local_extrema=True).add_to(my_map)

my_map

In [None]:

# criar o mapa base
m = folium.Map(
                location=(
                            (dfacid.latitude.mean()),
                            (dfacid.longitude.mean())
                        ),
                zoom_start=6
            )

mCluster = MarkerCluster(name="Markers Demo").add_to(m)

m
'''
for x in range(0, len(dfacid)):
    folium.Marker(location=[dfacid[x,:,dfacid.columns.get_loc('latitude')], dfacid[x,:,dfacid.columns.get_loc('longitude')]], 
                  popup="pnt - {0} e {1}".format(dfacid[x,:,dfacid.columns.get_loc('latitude')], dfacid[x,:,dfacid.columns.get_loc('longitude')])).add_to(mCluster)
'''

In [None]:
'''
# criar o mapa base
m = folium.Map(
                location=(
                            (dfacid.latitude.mean()),
                            (dfacid.longitude.mean())
                        ),
                zoom_start=6
            )

#tooltip = "Click me!"
for idx, row in dfacid.iterrows():
    if pd.notnull(row["latitude"]): 
        folium.Marker([row["latitude"], row["longitude"]], popup="<i>acidente</i>").add_to(m)

m
'''

### Dataframe dos Veículos

In [None]:
# Criar Dataframe com os veículos
dfveic = df[col_veiculos]
len(dfveic)

In [None]:
dfveic

In [None]:
# retirar as duplicações do veículos
dfveic = dfveic.drop_duplicates(subset=['id_veiculo'], keep='last')
# Total de registros únicos
len(dfveic)

In [None]:
dfveic

In [None]:
aggr_fld = ['tipo_veiculo']
df1 = _acidentes(dfveic, aggr_fld, dictio)
df1

### Dataframe das pessoas

In [None]:
# Criar Dataframe com os veículos
dfpess = df[col_pessoas]
dfpess

In [None]:
dfpess.describe()

In [None]:
aggr_fld = ['tipo_envolvido', 'estado_fisico']
dict_pess={'tipo_envolvido':'count', 'idade':'mean'}
df = _acidente_pessoas(dfpess, aggr_fld, dict_pess)
df

## Regras de Associação - Apriori

Nesta seção vamos avaliar as regras de associação dos acidentes com o algoritmo Apriori.

### Preparação dos dados

Para execução do algoritmo, os dados devem ser transformados de DataFrame para Lista.

In [None]:
# Fase 1... 
# Jogar os dados de acidentes em lista... somente campos a serem avaliados

# Vamos trabalhar com os seguintes campos: 
# 2   dia_semana
# 7   municipio
# 8   causa_acidente       
# 9   tipo_acidente      
# 10  classificacao_acidente       
# 11  fase_dia        
# 12  sentido_via      
# 13  condicao_metereologica       
# 14  tipo_pista       
# 15  tracado_via      
# 16  uso_solo     

col_apriori =  ['causa_acidente', 
                'tipo_acidente', 
                'fase_dia', 
                'condicao_metereologica', 
                'tipo_pista',
                'tracado_via',
                'classificacao_acidente']


df2apriori = dfacid[col_apriori]
df2apriori = df2apriori.query("classificacao_acidente != 'Sem Vítimas'")
acidentes = []
for i in range(0, len(df2apriori)):
#    print(i)
    acidentes.append([str(df2apriori.values[i,j]) for j in range(0,7)])
                     
#print(acidentes)

regras = apriori(acidentes, min_support = 0.4, min_confidence = 0.4, min_lift = 1.0, min_length=4)
#regras = apriori(acidentes)
resultados = list(regras)

resultados2 = [list(x) for x in resultados]
resultados2
print(len(resultados2))

resultadoFormatado = []
for j in range(0, len(resultados2)):
    resultadoFormatado.append([list(x) for x in resultados2[j][2]])
    
resultadoFormatado


# TESTE CLUSTERING MAPA



In [None]:
# IMPORTS
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import seaborn as sns; sns.set()
import csv

In [None]:
# CRIAR DATAFRAME
# Variable with the Longitude and Latitude
X=dfacid.loc[:,['id','latitude','longitude']]
X.dropna(subset=['latitude', 'longitude'], inplace=True)
X = X[(X.longitude >= -90)&(X.longitude <= 0)]
X

In [None]:
K_clusters = range(1,10)
kmeans = [KMeans(n_clusters=i) for i in K_clusters]
Y_axis = X[['latitude']]
X_axis = X[['longitude']]
score = [kmeans[i].fit(Y_axis).score(Y_axis) for i in range(len(kmeans))]
# Visualize
plt.figure(figsize=(10,8))
plt.plot(K_clusters, score)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()

In [None]:
kmeans = KMeans(n_clusters = 10, init ='k-means++')
kmeans.fit(X[X.columns[1:3]]) # Compute k-means clustering.loc
X['cluster_label'] = kmeans.fit_predict(X[X.columns[1:3]])
centers = kmeans.cluster_centers_ # Coordinates of cluster centers.
labels = kmeans.predict(X[X.columns[1:3]]) # Labels of each point
X.head(10)

In [None]:
#plt.figure(figsize =(20, 8))
plt.figure(figsize=(12,8))
X.plot.scatter(x = 'latitude', y = 'longitude', c=labels, s=50, cmap='plasma')
plt.scatter(centers[:, 0], centers[:, 1])

In [None]:
X = X[['id','cluster_label']]

In [None]:
clustered_data = X.merge(X, left_on='id', right_on='id')

In [None]:
clustered_data

In [None]:
#kkk = dfacid.query("(longitude <= float(-100))")
#dfb = dfacid.query("not (longitude >= 0 or longitude <0)")
#kkk = dfacid.drop[dfacid[(dfacid.longitude <= -90.0)]]

In [None]:
Rodar até aqui

## Machine Learning - Classificação

In [None]:
# Formato de matriz
previsores = df2apriori.iloc[:,0:6].values
classe = df2apriori.iloc[:,6].values
classe2 = df2apriori.iloc[:,6].values

In [None]:
classe

In [None]:
previsores

In [None]:
# Transformação dos atributos categóricos em atributos numéricos, passando o índice de cada coluna categórica
# Precisamos criar um objeto para cada atributo categórico, pois na sequência vamos executar o processo de encoding novamente para o registro de teste
# Se forem utilizados objetos diferentes, o número atribuído a cada valor poderá ser diferente, o que deixará o teste inconsistente
labelencoder1 = LabelEncoder()
previsores[:,0] = labelencoder1.fit_transform(previsores[:,0])

labelencoder2 = LabelEncoder()
previsores[:,1] = labelencoder2.fit_transform(previsores[:,1])

labelencoder3 = LabelEncoder()
previsores[:, 2] = labelencoder3.fit_transform(previsores[:, 2])

labelencoder4 = LabelEncoder()
previsores[:, 3] = labelencoder4.fit_transform(previsores[:, 3])

labelencoder5 = LabelEncoder()
previsores[:, 4] = labelencoder5.fit_transform(previsores[:, 4])

labelencoder6 = LabelEncoder()
previsores[:, 5] = labelencoder6.fit_transform(previsores[:, 5])

#labelencoder7 = LabelEncoder()
#previsores[:, 6] = labelencoder7.fit_transform(previsores[:, 6])

#labelencoder8 = LabelEncoder()
#previsores[:, 7] = labelencoder8.fit_transform(previsores[:, 7])
labelencoder8 = LabelEncoder()
classe[:] = labelencoder8.fit_transform(classe[:])

In [None]:
classe2

In [None]:
# Divisão da base de dados entre treinamento e teste (30% para testar e 70% para treinar)
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 0)
X_teste

In [None]:
y_treinamento

In [None]:
X_treinamento

In [None]:
# Criação e treinamento do modelo (geração da tabela de probabilidades)
#naive_bayes = GaussianNB()
#naive_bayes.fit(X_treinamento, y_treinamento)

In [None]:
# Previsões utilizando os registros de teste
#previsoes = naive_bayes.predict(X_teste)
#previsoes

In [None]:
#geração da matriz de confusão e cálculo da taxa de acerto e erro
#confusao = confusion_matrix(y_teste, previsoes)
#confusao

In [None]:
#taxa_acerto = accuracy_score(y_teste, previsoes)
#taxa_erro = 1 - taxa_acerto
#taxa_acerto

In [None]:
# Visualização da matriz de confusão
# Warning interno da biblioteca yellowbrick, já esta na última versão (sem solução para o warning no momento)
v = ConfusionMatrix(GaussianNB())
v.fit(X_treinamento, y_treinamento)
v.score(X_teste, y_teste)
v.poof()

## k-means

In [None]:
# Importação das bibliotecas
from sklearn import datasets
import numpy as np
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

In [None]:
# Carregamento da base de dados 
#iris = datasets.load_iris()
# visualização de quantos registros existem por classe
xx = df2apriori.to_numpy()

#iris
unicos, quantidade = np.unique(classe, return_counts = True)
unicos
#quantidade
#iris

In [None]:
quantidade

In [None]:
previsores

In [None]:
cluster = KMeans(n_clusters = 3)
cluster.fit(previsores)

In [None]:
# Visualização dos três centroides
centroides = cluster.cluster_centers_
centroides

In [None]:
# Visualização dos grupos que cada registro foi associado
previsoes = cluster.labels_
previsoes

In [None]:
# Contagem dos registros por classe
unicos2, quantidade2 = np.unique(previsoes, return_counts = True)
unicos2

In [None]:
quantidade2

In [None]:
classe

In [None]:
previsoes

In [None]:
# Geração da matriz de contingência para comparar os grupos com a base de dados
resultados = confusion_matrix(classe, previsoes)
#resultados

In [None]:
# Geração do gráfico com os clusters gerados, considerando para um (previsoes 0, 1 ou 2)
# Usamos somente as colunas 0 e 1 da base de dados original para termos 2 dimensões
plt.scatter(previsores[previsoes == 0, 0], previsores[previsoes == 0, 1], 
            c = 'green', label = 'Com Vítimas Fatais')
plt.scatter(previsores[previsoes == 1, 0], previsores[previsoes == 1, 1], 
            c = 'red', label = 'Com Vítimas Feridas')
plt.scatter(previsores[previsoes == 2, 0], previsores[previsoes == 2, 1], 
            c = 'blue', label = 'Sem Vítimas')
plt.legend()

## Random Forest

In [None]:
# Importação das bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.ensemble import RandomForestClassifier

In [None]:
# Formato de matriz
previsores = df2apriori.iloc[:,0:6].values
classe = df2apriori.iloc[:,6].values
#classe2 = df2apriori.iloc[:,6].values


In [None]:
previsores

In [None]:
# Formato de matriz
previsores = df2apriori.iloc[:,0:6].values
classe = df2apriori.iloc[:,6].values
classe2 = df2apriori.iloc[:,6].values

In [None]:
# Transformação dos atributos categóricos em atributos numéricos, passando o índice de cada atributo categórico
labelencoder = LabelEncoder()
previsores[:,0] = labelencoder.fit_transform(previsores[:,0])
previsores[:,1] = labelencoder.fit_transform(previsores[:,1])
previsores[:,2] = labelencoder.fit_transform(previsores[:,2])
previsores[:,3] = labelencoder.fit_transform(previsores[:,3])
previsores[:,4] = labelencoder.fit_transform(previsores[:,4])
previsores[:,5] = labelencoder.fit_transform(previsores[:,5])
#previsores[:,6] = labelencoder.fit_transform(previsores[:,6])
#previsores[:, 11] = labelencoder.fit_transform(previsores[:, 11])
#previsores[:, 13] = labelencoder.fit_transform(previsores[:, 13])
#previsores[:, 14] = labelencoder.fit_transform(previsores[:, 14])
#previsores[:, 16] = labelencoder.fit_transform(previsores[:, 16])
#previsores[:, 18] = labelencoder.fit_transform(previsores[:, 18])
#previsores[:, 19] = labelencoder.fit_transform(previsores[:, 19])

In [None]:
# Divisão da base de dados entre treinamento e teste (30% para testar e 70% para treinar)
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 0)

In [None]:
X_treinamento

In [None]:
y_treinamento

In [None]:
# Criação do modelo, treinamento, obtenção das previsões e da taxa de acerto
floresta = RandomForestClassifier(n_estimators = 100)
floresta.fit(X_treinamento, y_treinamento)

In [None]:
# Visualização dos atributos principais
floresta.estimators_
#floresta.estimators_[1]

In [None]:
previsoes = floresta.predict(X_teste)
confusao = confusion_matrix(y_teste, previsoes)
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto