## Limpeza dos dados de Acidentes

In [2]:
# Carregando as bibliotecas
import pandas as pd
import chardet as chd
import requests

In [3]:
# Lendo os arquivos
acidentes_2017 = pd.read_csv('si-bol-2017.csv', sep=";", header=0, encoding='ISO-8859-1')
acidentes_2018 = pd.read_csv('si-bol-2018.csv', sep=";", header=0, encoding='ISO-8859-1')
acidentes_2019 = pd.read_csv('si-bol-2019.csv', sep=";", header=0, encoding='ISO-8859-1')

In [4]:
# Concatenando todos os arquivos em um único data frame
acidentes_df = pd.concat([acidentes_2017,acidentes_2018,acidentes_2019])
print(acidentes_df)

           NUMERO_BOLETIM  DATA HORA_BOLETIM     DATA_INCLUSAO  TIPO_ACIDENTE  \
0      2017-034368071-001   11/11/2017 00:46  11/11/2017 02:05         H09002   
1      2017-034377690-001   10/11/2017 23:16  11/11/2017 05:08         H01002   
2      2017-034384319-001   11/11/2017 05:43  11/11/2017 07:59         H02002   
3      2017-034385790-001   11/11/2017 06:48  11/11/2017 08:33         H08002   
4      2017-034387460-001   09/11/2017 07:15  11/11/2017 09:08         H02002   
...                   ...                ...               ...            ...   
13337  2019-038759034-001   12/08/2019 19:07  12/08/2019 19:33         H01002   
13338  2019-038762536-001   12/08/2019 18:39  12/08/2019 19:55         H01002   
13339  2019-038763333-001   12/08/2019 18:46  12/08/2019 19:59         H01002   
13340  2019-038765163-001   12/08/2019 19:38  12/08/2019 20:10         H01002   
13341  2019-038769070-001   12/08/2019 18:25  12/08/2019 20:35         H09002   

                           

In [5]:
acidentes_df.columns

Index([' NUMERO_BOLETIM', ' DATA HORA_BOLETIM', ' DATA_INCLUSAO',
       ' TIPO_ACIDENTE', ' DESC_TIPO_ACIDENTE', ' COD_TEMPO', ' DESC_TEMPO',
       ' COD_PAVIMENTO', ' PAVIMENTO', ' COD_REGIONAL', ' DESC_REGIONAL',
       ' ORIGEM_BOLETIM', ' LOCAL_SINALIZADO', ' VELOCIDADE_PERMITIDA',
       ' COORDENADA_X', ' COORDENADA_Y', ' HORA_INFORMADA',
       ' INDICADOR_FATALIDADE', ' VALOR_UPS', ' DESCRIÇÃO_UPS',
       ' DATA_ALTERACAO_SMSA', ' VALOR_UPS_ANTIGA', ' DESCRIÇÃO_UPS_ANTIGA'],
      dtype='object')

In [6]:
# Selecionando apenas as colunas necessárias
Colunas_desejadas = [' NUMERO_BOLETIM',' DATA HORA_BOLETIM',' DESC_REGIONAL',' COORDENADA_X', ' COORDENADA_Y']
acidentes_df =acidentes_df.drop(columns = acidentes_df.columns.difference(Colunas_desejadas))
print(acidentes_df)

           NUMERO_BOLETIM  DATA HORA_BOLETIM    DESC_REGIONAL   COORDENADA_X  \
0      2017-034368071-001   11/11/2017 00:46  BARREIRO             603468.30   
1      2017-034377690-001   10/11/2017 23:16  PAMPULHA             609063.07   
2      2017-034384319-001   11/11/2017 05:43  PAMPULHA                  0.00   
3      2017-034385790-001   11/11/2017 06:48  NORDESTE             612240.60   
4      2017-034387460-001   09/11/2017 07:15  OESTE                602946.29   
...                   ...                ...              ...            ...   
13337  2019-038759034-001   12/08/2019 19:07  LESTE                614743.06   
13338  2019-038762536-001   12/08/2019 18:39  NORTE                609049.09   
13339  2019-038763333-001   12/08/2019 18:46  CENTRO-SUL           610700.22   
13340  2019-038765163-001   12/08/2019 19:38  NOROESTE             606476.01   
13341  2019-038769070-001   12/08/2019 18:25  NORDESTE             612413.33   

        COORDENADA_Y  
0         779049

In [7]:
# Identificando o valor buscado
centrosul = acidentes_df.iloc[13338,2]

# Selecionando apenas a regional "CENTRO-SUL"
acidentes_df_filtrado = acidentes_df.loc[(acidentes_df[' DESC_REGIONAL'] == centrosul)]
print (acidentes_df_filtrado)

           NUMERO_BOLETIM  DATA HORA_BOLETIM    DESC_REGIONAL   COORDENADA_X  \
16     2017-034438990-001   11/11/2017 17:38  CENTRO-SUL           610915.45   
23     2017-034462371-001   11/11/2017 19:59  CENTRO-SUL           611593.70   
25     2017-034481430-001   11/11/2017 23:08  CENTRO-SUL           610421.22   
26     2017-034484488-001   12/11/2017 00:23  CENTRO-SUL           611185.27   
30     2017-034508281-001   12/11/2017 06:10  CENTRO-SUL           612466.15   
...                   ...                ...              ...            ...   
13306  2019-038569968-001   11/08/2019 21:25  CENTRO-SUL           612122.57   
13307  2019-038575229-001   11/08/2019 21:38  CENTRO-SUL           613172.33   
13316  2019-038662530-001   12/08/2019 11:26  CENTRO-SUL           609478.56   
13331  2019-038730963-001   12/08/2019 16:04  CENTRO-SUL           612206.31   
13339  2019-038763333-001   12/08/2019 18:46  CENTRO-SUL           610700.22   

        COORDENADA_Y  
16        779702

In [8]:
# Excluindo as coordenadas que estão zeradas
acidentes_ajustado = acidentes_df_filtrado.loc[(acidentes_df_filtrado[' COORDENADA_X'] != 0.0) & (acidentes_df_filtrado[' COORDENADA_Y'] != 0.0)] 
print(acidentes_ajustado)

           NUMERO_BOLETIM  DATA HORA_BOLETIM    DESC_REGIONAL   COORDENADA_X  \
16     2017-034438990-001   11/11/2017 17:38  CENTRO-SUL           610915.45   
23     2017-034462371-001   11/11/2017 19:59  CENTRO-SUL           611593.70   
25     2017-034481430-001   11/11/2017 23:08  CENTRO-SUL           610421.22   
26     2017-034484488-001   12/11/2017 00:23  CENTRO-SUL           611185.27   
30     2017-034508281-001   12/11/2017 06:10  CENTRO-SUL           612466.15   
...                   ...                ...              ...            ...   
13306  2019-038569968-001   11/08/2019 21:25  CENTRO-SUL           612122.57   
13307  2019-038575229-001   11/08/2019 21:38  CENTRO-SUL           613172.33   
13316  2019-038662530-001   12/08/2019 11:26  CENTRO-SUL           609478.56   
13331  2019-038730963-001   12/08/2019 16:04  CENTRO-SUL           612206.31   
13339  2019-038763333-001   12/08/2019 18:46  CENTRO-SUL           610700.22   

        COORDENADA_Y  
16        779702

### Convertendo as coordenadas
###### De:                Sirgas 2000 >> UTM E,N 
###### Para:              Sirgas 2000 >> Latitude, Longitude (graus decimais) 

In [10]:
# Criando um arquivo de texto
coordenadas_ibge = open('coordenadas_ibge.txt', 'w')
for i, row in acidentes_ajustado.iterrows():
        coordenada_x = row[' COORDENADA_X']
        coordenada_y = row[' COORDENADA_Y']
        numero_boletim = row[' NUMERO_BOLETIM']
        linha = f"{numero_boletim} {coordenada_x:.4f} {coordenada_y:.4f} 23\n"
        coordenadas_ibge.write(linha)

O arquivo 'coordenadas_ibge.txt' foi processado no site :https://www.ibge.gov.br/geociencias/informacoes-sobre-posicionamento-geodesico/servicos-para-posicionamento-geodesico/16312-progrid.html?=&t=processar-os-dados


In [11]:
# Lendo o arquivo de saída do processamento das coordenadas pelo site do IBGE
Coordenadas_ajustadas = pd.read_csv('saida.csv', sep=';', header=5, encoding='ISO-8859-1')
print(Coordenadas_ajustadas)

                      id    origem_e     origem_n  origem_fuso  \
0     2017-034438990-001  610915,450  7797020,800           23   
1     2017-034462371-001  611593,700  7793620,350           23   
2     2017-034481430-001  610421,220  7795702,510           23   
3     2017-034484488-001  611185,270  7794773,500           23   
4     2017-034508281-001  612466,150  7796317,550           23   
...                  ...         ...          ...          ...   
6021  2019-038569968-001  612122,570  7796118,000           23   
6022  2019-038575229-001  613172,330  7794521,410           23   
6023  2019-038662530-001  609478,560  7794933,290           23   
6024  2019-038730963-001  612206,310  7794875,730           23   
6025  2019-038763333-001  610700,220  7797749,970           23   

     resultado_lat_gd resultado_long_gd  
0       -19,920010348     -43,940256854  
1       -19,950695289     -43,933571159  
2       -19,931949474     -43,944899333  
3       -19,940299765     -43,937543465

In [12]:
Coordenadas_ajustadas.columns

Index(['id', 'origem_e', 'origem_n', 'origem_fuso', 'resultado_lat_gd',
       'resultado_long_gd'],
      dtype='object')

In [13]:
# Ajustando o data frame das coordenadas
Coordenadas_reduzidas = Coordenadas_ajustadas.drop(columns=['origem_e', 'origem_n', 'origem_fuso'])
Coordenadas_reduzidas.rename(columns={'id': ' NUMERO_BOLETIM'}, inplace=True)
print(Coordenadas_reduzidas)

          NUMERO_BOLETIM resultado_lat_gd resultado_long_gd
0     2017-034438990-001    -19,920010348     -43,940256854
1     2017-034462371-001    -19,950695289     -43,933571159
2     2017-034481430-001    -19,931949474     -43,944899333
3     2017-034484488-001    -19,940299765     -43,937543465
4     2017-034508281-001    -19,926275411     -43,925399662
...                  ...              ...               ...
6021  2019-038569968-001    -19,928098195     -43,928669947
6022  2019-038575229-001    -19,942462865     -43,918542654
6023  2019-038662530-001    -19,938952808     -43,953859786
6024  2019-038730963-001    -19,939317485     -43,927794187
6025  2019-038763333-001    -19,913434377     -43,942356819

[6026 rows x 3 columns]


In [14]:
# Juntando os data frames das coordenadas e dos acidentes
acidentes_df_mesclado = pd.merge(acidentes_ajustado, Coordenadas_reduzidas, on =' NUMERO_BOLETIM', how='inner')
print(acidentes_df_mesclado)

          NUMERO_BOLETIM  DATA HORA_BOLETIM    DESC_REGIONAL   COORDENADA_X  \
0     2017-034438990-001   11/11/2017 17:38  CENTRO-SUL           610915.45   
1     2017-034462371-001   11/11/2017 19:59  CENTRO-SUL           611593.70   
2     2017-034481430-001   11/11/2017 23:08  CENTRO-SUL           610421.22   
3     2017-034484488-001   12/11/2017 00:23  CENTRO-SUL           611185.27   
4     2017-034508281-001   12/11/2017 06:10  CENTRO-SUL           612466.15   
...                  ...                ...              ...            ...   
6021  2019-038569968-001   11/08/2019 21:25  CENTRO-SUL           612122.57   
6022  2019-038575229-001   11/08/2019 21:38  CENTRO-SUL           613172.33   
6023  2019-038662530-001   12/08/2019 11:26  CENTRO-SUL           609478.56   
6024  2019-038730963-001   12/08/2019 16:04  CENTRO-SUL           612206.31   
6025  2019-038763333-001   12/08/2019 18:46  CENTRO-SUL           610700.22   

       COORDENADA_Y resultado_lat_gd resultado_long

In [22]:
# Ajustando o data frame de acidentes
acidentes_df_mesclado['COORDENADA']= acidentes_df_mesclado['resultado_lat_gd']+'/'+acidentes_df_mesclado['resultado_long_gd']
acidentes_df_mesclado['COORDENADA'] = acidentes_df_mesclado['COORDENADA'].str.replace(',', '.')
acidentes_df_mesclado['COORDENADA'] = acidentes_df_mesclado['COORDENADA'].str.replace('/',',')
acidentes_final01 = acidentes_df_mesclado.drop(columns=[' COORDENADA_X', ' COORDENADA_Y','resultado_lat_gd','resultado_long_gd'])
print(acidentes_final01)

          NUMERO_BOLETIM  DATA HORA_BOLETIM    DESC_REGIONAL  \
0     2017-034438990-001   11/11/2017 17:38  CENTRO-SUL        
1     2017-034462371-001   11/11/2017 19:59  CENTRO-SUL        
2     2017-034481430-001   11/11/2017 23:08  CENTRO-SUL        
3     2017-034484488-001   12/11/2017 00:23  CENTRO-SUL        
4     2017-034508281-001   12/11/2017 06:10  CENTRO-SUL        
...                  ...                ...              ...   
6021  2019-038569968-001   11/08/2019 21:25  CENTRO-SUL        
6022  2019-038575229-001   11/08/2019 21:38  CENTRO-SUL        
6023  2019-038662530-001   12/08/2019 11:26  CENTRO-SUL        
6024  2019-038730963-001   12/08/2019 16:04  CENTRO-SUL        
6025  2019-038763333-001   12/08/2019 18:46  CENTRO-SUL        

                       COORDENADA  
0     -19.920010348,-43.940256854  
1     -19.950695289,-43.933571159  
2     -19.931949474,-43.944899333  
3     -19.940299765,-43.937543465  
4     -19.926275411,-43.925399662  
...            

### Encontrando os endereços


In [23]:
pip install geopy

Note: you may need to restart the kernel to use updated packages.


In [24]:
# Encontrando o endereço a partir das coordenadas
from geopy.geocoders import Nominatim
geolocator = Nominatim(user_agent="meu_endereço")

from geopy.extra.rate_limiter import RateLimiter
geocode = RateLimiter(geolocator.reverse, min_delay_seconds=1) #Adiciona um intervalo de tempo de 1 segundo entre as solicitações para evitar possíveis erros causados pelo grande volume de solicitações
acidentes_final01['ENDEREÇO'] = acidentes_final01['COORDENADA'].apply(geocode)


In [3]:
# Vizualizando o data frame 'acidentes_final01'
acidentes_final01=pd.read_excel('acidentes_final01.xlsx')
print(acidentes_final01)

          NUMERO_BOLETIM  DATA HORA_BOLETIM    DESC_REGIONAL  \
0     2017-034438990-001   11/11/2017 17:38  CENTRO-SUL        
1     2017-034462371-001   11/11/2017 19:59  CENTRO-SUL        
2     2017-034481430-001   11/11/2017 23:08  CENTRO-SUL        
3     2017-034484488-001   12/11/2017 00:23  CENTRO-SUL        
4     2017-034508281-001   12/11/2017 06:10  CENTRO-SUL        
...                  ...                ...              ...   
6021  2019-038569968-001   11/08/2019 21:25  CENTRO-SUL        
6022  2019-038575229-001   11/08/2019 21:38  CENTRO-SUL        
6023  2019-038662530-001   12/08/2019 11:26  CENTRO-SUL        
6024  2019-038730963-001   12/08/2019 16:04  CENTRO-SUL        
6025  2019-038763333-001   12/08/2019 18:46  CENTRO-SUL        

                       COORDENADA  \
0     -19.920010348,-43.940256854   
1     -19.950695289,-43.933571159   
2     -19.931949474,-43.944899333   
3     -19.940299765,-43.937543465   
4     -19.926275411,-43.925399662   
...      

### Selecionando apenas os acidentes que ocorreram no Bairro Centro

In [4]:
# Dividindo os valores da coluna "ENDEREÇO"
acidentes_final02 = acidentes_final01
acidentes_final02[['E01','E02','E03','E04','E05','E06','E07','E08','E09','E10','E11','E12','E13','E14']]=acidentes_final02['ENDEREÇO'].str.split(',',n=14, expand=True)
print(acidentes_final02)

          NUMERO_BOLETIM  DATA HORA_BOLETIM    DESC_REGIONAL  \
0     2017-034438990-001   11/11/2017 17:38  CENTRO-SUL        
1     2017-034462371-001   11/11/2017 19:59  CENTRO-SUL        
2     2017-034481430-001   11/11/2017 23:08  CENTRO-SUL        
3     2017-034484488-001   12/11/2017 00:23  CENTRO-SUL        
4     2017-034508281-001   12/11/2017 06:10  CENTRO-SUL        
...                  ...                ...              ...   
6021  2019-038569968-001   11/08/2019 21:25  CENTRO-SUL        
6022  2019-038575229-001   11/08/2019 21:38  CENTRO-SUL        
6023  2019-038662530-001   12/08/2019 11:26  CENTRO-SUL        
6024  2019-038730963-001   12/08/2019 16:04  CENTRO-SUL        
6025  2019-038763333-001   12/08/2019 18:46  CENTRO-SUL        

                       COORDENADA  \
0     -19.920010348,-43.940256854   
1     -19.950695289,-43.933571159   
2     -19.931949474,-43.944899333   
3     -19.940299765,-43.937543465   
4     -19.926275411,-43.925399662   
...      

In [5]:
# Procurando pelo termo 'Centro'
filtro01 = acidentes_final02['E01'].str.strip()=='Centro'# Desconsiderando os espaços em branco
filtro02 = acidentes_final02['E02'].str.strip()=='Centro'
filtro03 = acidentes_final02['E03'].str.strip()=='Centro'
filtro04 = acidentes_final02['E04'].str.strip()=='Centro'
filtro05 = acidentes_final02['E05'].str.strip()=='Centro'
filtro06 = acidentes_final02['E06'].str.strip()=='Centro'
filtro07 = acidentes_final02['E07'].str.strip()=='Centro'
filtro08 = acidentes_final02['E08'].str.strip()=='Centro'
filtro09 = acidentes_final02['E09'].str.strip()=='Centro'
filtro10 = acidentes_final02['E10'].str.strip()=='Centro'
filtro11 = acidentes_final02['E11'].str.strip()=='Centro'
filtro12 = acidentes_final02['E12'].str.strip()=='Centro'
filtro13 = acidentes_final02['E13'].str.strip()=='Centro'
filtro14 = acidentes_final02['E14'].str.strip()=='Centro'

# Verificando o número de valores positivos em cada filtro

valores = {
    'FILTRO': ['E01', 'E02', 'E03', 'E04', 'E05', 'E06', 'E07', 'E08', 'E09', 'E10', 'E11', 'E12', 'E13', 'E14'],
    'NUM. VALORES POSITIVOS': [sum(filtro01), sum(filtro02), sum(filtro03), sum(filtro04), sum(filtro05), sum(filtro06), sum(filtro07), sum(filtro08), sum(filtro09), sum(filtro10), sum(filtro11), sum(filtro12), sum(filtro13), sum(filtro14)]
}

valores_positivos = pd.DataFrame(valores)
print(valores_positivos)

   FILTRO  NUM. VALORES POSITIVOS
0     E01                       9
1     E02                     668
2     E03                     824
3     E04                     133
4     E05                       0
5     E06                       0
6     E07                       0
7     E08                       0
8     E09                       0
9     E10                       0
10    E11                       0
11    E12                       0
12    E13                       0
13    E14                       0


In [6]:
print('Número total de valores positivos: {}'.format(sum(valores_positivos['NUM. VALORES POSITIVOS'])))


Número total de valores positivos: 1634


In [7]:
# Eliminando as colunas desnecessárias
acidentes_final03 = acidentes_final02.drop(columns=['E05', 'E06', 'E07', 'E08', 'E09', 'E10', 'E11', 'E12', 'E13', 'E14'])
print(acidentes_final03)

          NUMERO_BOLETIM  DATA HORA_BOLETIM    DESC_REGIONAL  \
0     2017-034438990-001   11/11/2017 17:38  CENTRO-SUL        
1     2017-034462371-001   11/11/2017 19:59  CENTRO-SUL        
2     2017-034481430-001   11/11/2017 23:08  CENTRO-SUL        
3     2017-034484488-001   12/11/2017 00:23  CENTRO-SUL        
4     2017-034508281-001   12/11/2017 06:10  CENTRO-SUL        
...                  ...                ...              ...   
6021  2019-038569968-001   11/08/2019 21:25  CENTRO-SUL        
6022  2019-038575229-001   11/08/2019 21:38  CENTRO-SUL        
6023  2019-038662530-001   12/08/2019 11:26  CENTRO-SUL        
6024  2019-038730963-001   12/08/2019 16:04  CENTRO-SUL        
6025  2019-038763333-001   12/08/2019 18:46  CENTRO-SUL        

                       COORDENADA  \
0     -19.920010348,-43.940256854   
1     -19.950695289,-43.933571159   
2     -19.931949474,-43.944899333   
3     -19.940299765,-43.937543465   
4     -19.926275411,-43.925399662   
...      

In [8]:
# Filtrando as linhas que contém o termo 'Centro'
acidentes_final04 = acidentes_final03[(acidentes_final03['E01'].str.strip() == 'Centro') |
                                      (acidentes_final03['E02'].str.strip() == 'Centro') |
                                      (acidentes_final03['E03'].str.strip() == 'Centro') | 
                                      (acidentes_final03['E04'].str.strip() == 'Centro')]
print(acidentes_final04)


          NUMERO_BOLETIM  DATA HORA_BOLETIM    DESC_REGIONAL  \
0     2017-034438990-001   11/11/2017 17:38  CENTRO-SUL        
5     2017-034512721-001   12/11/2017 09:29  CENTRO-SUL        
9     2017-035699720-001   20/11/2017 09:43  CENTRO-SUL        
15    2017-035769564-001   20/11/2017 17:31  CENTRO-SUL        
16    2017-035778537-001   20/11/2017 17:07  CENTRO-SUL        
...                  ...                ...              ...   
6009  2019-055674489-001   12/11/2019 17:03  CENTRO-SUL        
6012  2019-055802785-001   13/11/2019 10:39  CENTRO-SUL        
6016  2019-055876803-001   13/11/2019 17:35  CENTRO-SUL        
6020  2019-038564310-001   11/08/2019 20:47  CENTRO-SUL        
6025  2019-038763333-001   12/08/2019 18:46  CENTRO-SUL        

                       COORDENADA  \
0     -19.920010348,-43.940256854   
5     -19.917797895,-43.930673168   
9     -19.917583385,-43.934223834   
15    -19.921013321,-43.944665907   
16    -19.917302950,-43.935374903   
...      

### Organização da Base de Acidentes que será utilizada na pesquisa

In [9]:
# Eliminando colunas desnecessárias
acidentes_final05 = acidentes_final04.drop(columns=[' DESC_REGIONAL','ENDEREÇO','E01','E02','E03','E04'])
# Organizando os dados
acidentes_final05[' DATA HORA_BOLETIM'] = pd.to_datetime(acidentes_final05[' DATA HORA_BOLETIM'], format='%d/%m/%Y %H:%M')
# Criando as colunas "Hora" e "Mês"
acidentes_final05['MÊS'] = acidentes_final05[' DATA HORA_BOLETIM'].dt.month
acidentes_final05['HORA'] = acidentes_final05[' DATA HORA_BOLETIM'].dt.hour
print(acidentes_final05)

          NUMERO_BOLETIM   DATA HORA_BOLETIM                   COORDENADA  \
0     2017-034438990-001 2017-11-11 17:38:00  -19.920010348,-43.940256854   
5     2017-034512721-001 2017-11-12 09:29:00  -19.917797895,-43.930673168   
9     2017-035699720-001 2017-11-20 09:43:00  -19.917583385,-43.934223834   
15    2017-035769564-001 2017-11-20 17:31:00  -19.921013321,-43.944665907   
16    2017-035778537-001 2017-11-20 17:07:00  -19.917302950,-43.935374903   
...                  ...                 ...                          ...   
6009  2019-055674489-001 2019-11-12 17:03:00  -19.916618722,-43.943470312   
6012  2019-055802785-001 2019-11-13 10:39:00  -19.914757805,-43.934664832   
6016  2019-055876803-001 2019-11-13 17:35:00  -19.914836098,-43.941116930   
6020  2019-038564310-001 2019-08-11 20:47:00  -19.916010873,-43.940565520   
6025  2019-038763333-001 2019-08-12 18:46:00  -19.913434377,-43.942356819   

      MÊS  HORA  
0      11    17  
5      11     9  
9      11     9  
15 

In [10]:
# Fazendo os ajustes finais e exportando o data frame de acidentes finalizado
acidentes_final05.to_excel('Base_Acidentes.xlsx', index=False)