# Análise descritiva e de qualidade dos dados do Infosiga-SP de Óbitos

## Análise descritiva das colunas

In [91]:
## importação das bibliotecas
import pandas as pd
import numpy as np
import pathlib
import os


In [92]:
## Caminho do arquivo
nome_arquivo = 'obitos_publico.csv'
path_dir = DATA_DIR = pathlib.Path.cwd().parent / 'dados' / nome_arquivo
print(path_dir) ## print para conferir se o caminho corresponde a pasta e arquivo desejado

/home/esdrasgc/Documents/Insper/2023-2_faixa_azul/dados/obitos_publico.csv


In [93]:
df = pd.read_csv(path_dir, sep=';', encoding='latin-1') ## leitura do arquivo csv
df.head().T ## visualização do dataframe transposto

Unnamed: 0,0,1,2,3,4
Id da Delegacia (RDO),70805,70010,70214,30622,40203
Número do Bo (RDO),1006931151,1006949264,1006934191,1006934645,1006948967
Ano do BO (RDO),2023,2023,2023,2023,2023
Data do Óbito,2023-08-31,2023-08-31,2023-08-31,2023-08-31,2023-08-31
Data do Acidente,2023-08-30,2023-08-31,2023-08-31,2023-08-31,2023-08-31
Tipo de via,Vias Municipais,Rodovias,Rodovias,Rodovias,Rodovias
Dia do óbito,31,31,31,31,31
Mês do Óbito,8,8,8,8,8
Mês Óbito Descrição,AGOSTO,AGOSTO,AGOSTO,AGOSTO,AGOSTO
Ano do Óbito,2023,2023,2023,2023,2023


Dentre as colunas presentes, as colunas de interesse para a análise são:  
Data do Óbito, Data do Acidente, Tipo de via, Hora do Acidente, Município, Logradouro, Númeral / KM, LAT_(GEO), LONG_(GEO), Tipo do veículo da vítima, Tipo de vítima, Outro Veículo Envolvido

In [94]:

colunas_relevantes = [
    'Data do Óbito', 'Data do Acidente', 'Tipo de via', 'Hora do Acidente',
    'Município', 'Logradouro', 'Númeral / KM', 'LAT_(GEO)', 'LONG_(GEO)',
    'Tipo do veículo da vítima', 'Tipo de vítima', 'Outro Veículo Envolvido'
]

df = df[colunas_relevantes]

In [95]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48067 entries, 0 to 48066
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Data do Óbito              48067 non-null  object
 1   Data do Acidente           48067 non-null  object
 2   Tipo de via                48067 non-null  object
 3   Hora do Acidente           48067 non-null  object
 4   Município                  48067 non-null  object
 5   Logradouro                 48067 non-null  object
 6   Númeral / KM               48067 non-null  object
 7   LAT_(GEO)                  48067 non-null  object
 8   LONG_(GEO)                 48067 non-null  object
 9   Tipo do veículo da vítima  48067 non-null  object
 10  Tipo de vítima             48067 non-null  object
 11  Outro Veículo Envolvido    36635 non-null  object
dtypes: object(12)
memory usage: 4.4+ MB


como pode ser visto aqui, os valores faltantes estão como "NAO DISPONIVEL"

In [96]:
df["Hora do Acidente"].value_counts()

Hora do Acidente
NAO DISPONIVEL    3760
19:00:00           658
18:30:00           557
20:00:00           512
19:30:00           475
                  ... 
23:01:32             1
21:32:32             1
21:09:32             1
22:45:32             1
21:17:32             1
Name: count, Length: 1608, dtype: int64

para os valores de hora do acidente indisponiveis, será inserido o valor de 00:00:01, para que não haja perda de dados ao agrupar com o dado de data


In [97]:
df["Hora do Acidente"] = df["Hora do Acidente"].replace("NAO DISPONIVEL", "00:00:01")


substituindo os demais valores "NAO DISPONIVEL" por NaN


In [98]:
df = df.replace('NAO DISPONIVEL', np.nan)


In [99]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48067 entries, 0 to 48066
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Data do Óbito              48067 non-null  object
 1   Data do Acidente           48067 non-null  object
 2   Tipo de via                45651 non-null  object
 3   Hora do Acidente           48067 non-null  object
 4   Município                  48067 non-null  object
 5   Logradouro                 45651 non-null  object
 6   Númeral / KM               38996 non-null  object
 7   LAT_(GEO)                  43011 non-null  object
 8   LONG_(GEO)                 43012 non-null  object
 9   Tipo do veículo da vítima  46140 non-null  object
 10  Tipo de vítima             44978 non-null  object
 11  Outro Veículo Envolvido    31601 non-null  object
dtypes: object(12)
memory usage: 4.4+ MB


In [100]:
df.head().T

Unnamed: 0,0,1,2,3,4
Data do Óbito,2023-08-31,2023-08-31,2023-08-31,2023-08-31,2023-08-31
Data do Acidente,2023-08-30,2023-08-31,2023-08-31,2023-08-31,2023-08-31
Tipo de via,Vias Municipais,Rodovias,Rodovias,Rodovias,Rodovias
Hora do Acidente,16:40:00,21:50:00,18:30:00,00:10:00,20:00:00
Município,ARARAS,CAMPINAS,SAO JOSE DO RIO PARDO,JAGUARIUNA,GUARUJA
Logradouro,AVENIDA DONA RENATA,SP 065,SP 211,SP 340,SPA 248/055
Númeral / KM,48740,1390,20,1389,00
LAT_(GEO),-22358007376495493,-228453780256336,-2164757455794892,-22632721644313307,-23955847803405725
LONG_(GEO),-4739980240674642,-47079791530700675,-4685434690782769,-4700451899263561,-462752924024744
Tipo do veículo da vítima,PEDESTRE,MOTOCICLETA,AUTOMOVEL,AUTOMOVEL,PEDESTRE


In [101]:
import datetime as dt

## convert to datetime format, if fails it becames NaN
df['Data do Óbito'] = pd.to_datetime(df['Data do Óbito'], format='%Y-%m-%d')
df['Data do Acidente'] = pd.to_datetime(df['Data do Acidente'], format='%Y-%m-%d', errors='coerce')


In [102]:
## converter Hora do acidente para datetime e criar uma coluna data e hora do acidente
df['Hora do Acidente'] = pd.to_timedelta(pd.to_datetime(df['Hora do Acidente'], format='%H:%M:%S', errors='coerce').dt.time.astype(str))
df['Data e Hora do Acidente'] = df['Data do Acidente'] + df['Hora do Acidente']

In [103]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48067 entries, 0 to 48066
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype          
---  ------                     --------------  -----          
 0   Data do Óbito              48067 non-null  datetime64[ns] 
 1   Data do Acidente           48066 non-null  datetime64[ns] 
 2   Tipo de via                45651 non-null  object         
 3   Hora do Acidente           48067 non-null  timedelta64[ns]
 4   Município                  48067 non-null  object         
 5   Logradouro                 45651 non-null  object         
 6   Númeral / KM               38996 non-null  object         
 7   LAT_(GEO)                  43011 non-null  object         
 8   LONG_(GEO)                 43012 non-null  object         
 9   Tipo do veículo da vítima  46140 non-null  object         
 10  Tipo de vítima             44978 non-null  object         
 11  Outro Veículo Envolvido    31601 non-null  object     

In [104]:
df.head().T

Unnamed: 0,0,1,2,3,4
Data do Óbito,2023-08-31 00:00:00,2023-08-31 00:00:00,2023-08-31 00:00:00,2023-08-31 00:00:00,2023-08-31 00:00:00
Data do Acidente,2023-08-30 00:00:00,2023-08-31 00:00:00,2023-08-31 00:00:00,2023-08-31 00:00:00,2023-08-31 00:00:00
Tipo de via,Vias Municipais,Rodovias,Rodovias,Rodovias,Rodovias
Hora do Acidente,0 days 16:40:00,0 days 21:50:00,0 days 18:30:00,0 days 00:10:00,0 days 20:00:00
Município,ARARAS,CAMPINAS,SAO JOSE DO RIO PARDO,JAGUARIUNA,GUARUJA
Logradouro,AVENIDA DONA RENATA,SP 065,SP 211,SP 340,SPA 248/055
Númeral / KM,48740,1390,20,1389,00
LAT_(GEO),-22358007376495493,-228453780256336,-2164757455794892,-22632721644313307,-23955847803405725
LONG_(GEO),-4739980240674642,-47079791530700675,-4685434690782769,-4700451899263561,-462752924024744
Tipo do veículo da vítima,PEDESTRE,MOTOCICLETA,AUTOMOVEL,AUTOMOVEL,PEDESTRE


com isso as colunas de data e hora do acidente podem ser removidas


In [105]:
df = df.drop(columns=['Data do Acidente', 'Hora do Acidente'])

In [106]:
df.head().T

Unnamed: 0,0,1,2,3,4
Data do Óbito,2023-08-31 00:00:00,2023-08-31 00:00:00,2023-08-31 00:00:00,2023-08-31 00:00:00,2023-08-31 00:00:00
Tipo de via,Vias Municipais,Rodovias,Rodovias,Rodovias,Rodovias
Município,ARARAS,CAMPINAS,SAO JOSE DO RIO PARDO,JAGUARIUNA,GUARUJA
Logradouro,AVENIDA DONA RENATA,SP 065,SP 211,SP 340,SPA 248/055
Númeral / KM,48740,1390,20,1389,00
LAT_(GEO),-22358007376495493,-228453780256336,-2164757455794892,-22632721644313307,-23955847803405725
LONG_(GEO),-4739980240674642,-47079791530700675,-4685434690782769,-4700451899263561,-462752924024744
Tipo do veículo da vítima,PEDESTRE,MOTOCICLETA,AUTOMOVEL,AUTOMOVEL,PEDESTRE
Tipo de vítima,PEDESTRE,CONDUTOR,CONDUTOR,CONDUTOR,PEDESTRE
Outro Veículo Envolvido,MOTOCICLETA,NÃO HÁ,NÃO HÁ,CAMINHAO,AUTOMOVEL


Em seguida, podemos realizar um filtro nos dados a partir da coluna "Tipo de via" e "Municipio" dado que só analisaremos vias urbanas do municipio de São Paulo

In [109]:
df = df[(df['Tipo de via'] == 'Vias Municipais') & (df['Município'] == 'SAO PAULO')]

In [110]:
df.head().T

Unnamed: 0,23,28,31,47,53
Data do Óbito,2023-08-29 00:00:00,2023-08-29 00:00:00,2023-08-28 00:00:00,2023-08-27 00:00:00,2023-08-26 00:00:00
Tipo de via,Vias Municipais,Vias Municipais,Vias Municipais,Vias Municipais,Vias Municipais
Município,SAO PAULO,SAO PAULO,SAO PAULO,SAO PAULO,SAO PAULO
Logradouro,AVENIDA TIRADENTES,AVENIDA ARICANDUVA,AVENIDA NICOLAU JACINTO,RUA TREZE DE MAIO,RUA SERGIO TOMAS
Númeral / KM,6150,5910,960,8850,6300
LAT_(GEO),-23529827305402623,-23535779328501896,-23525837336934135,-2356097404337377,-23522211653591356
LONG_(GEO),-46632090987972376,-465518080440087,-46487739438027944,-46645859135438684,-4664917394907499
Tipo do veículo da vítima,AUTOMOVEL,MOTOCICLETA,PEDESTRE,MOTOCICLETA,MOTOCICLETA
Tipo de vítima,PASSAGEIRO,CONDUTOR,PEDESTRE,CONDUTOR,CONDUTOR
Outro Veículo Envolvido,AUTOMOVEL,NÃO HÁ,AUTOMOVEL,NÃO HÁ,MOTOCICLETA


Com isso, podemos também dropar as colunas de "Tipo de via" e "Municipio"

In [111]:
df.drop(columns=['Tipo de via', 'Município'], inplace=True)

In [112]:
df.head().T

Unnamed: 0,23,28,31,47,53
Data do Óbito,2023-08-29 00:00:00,2023-08-29 00:00:00,2023-08-28 00:00:00,2023-08-27 00:00:00,2023-08-26 00:00:00
Logradouro,AVENIDA TIRADENTES,AVENIDA ARICANDUVA,AVENIDA NICOLAU JACINTO,RUA TREZE DE MAIO,RUA SERGIO TOMAS
Númeral / KM,6150,5910,960,8850,6300
LAT_(GEO),-23529827305402623,-23535779328501896,-23525837336934135,-2356097404337377,-23522211653591356
LONG_(GEO),-46632090987972376,-465518080440087,-46487739438027944,-46645859135438684,-4664917394907499
Tipo do veículo da vítima,AUTOMOVEL,MOTOCICLETA,PEDESTRE,MOTOCICLETA,MOTOCICLETA
Tipo de vítima,PASSAGEIRO,CONDUTOR,PEDESTRE,CONDUTOR,CONDUTOR
Outro Veículo Envolvido,AUTOMOVEL,NÃO HÁ,AUTOMOVEL,NÃO HÁ,MOTOCICLETA
Data e Hora do Acidente,2023-08-04 23:50:00,2023-08-28 21:47:00,2023-08-23 18:40:00,2023-08-27 03:31:00,2023-08-24 16:00:00


In [113]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6363 entries, 23 to 48060
Data columns (total 9 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   Data do Óbito              6363 non-null   datetime64[ns]
 1   Logradouro                 6363 non-null   object        
 2   Númeral / KM               5858 non-null   object        
 3   LAT_(GEO)                  6181 non-null   object        
 4   LONG_(GEO)                 6181 non-null   object        
 5   Tipo do veículo da vítima  6210 non-null   object        
 6   Tipo de vítima             6083 non-null   object        
 7   Outro Veículo Envolvido    4138 non-null   object        
 8   Data e Hora do Acidente    6363 non-null   datetime64[ns]
dtypes: datetime64[ns](2), object(7)
memory usage: 497.1+ KB


Por fim podemos converter as colunas LAT e LONG para o tipo float64

In [115]:

df['LAT_(GEO)'] = pd.to_numeric(df['LAT_(GEO)'].str.replace(',', '.'))
df['LONG_(GEO)'] = pd.to_numeric(df['LONG_(GEO)'].str.replace(',', '.'))


In [116]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6363 entries, 23 to 48060
Data columns (total 9 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   Data do Óbito              6363 non-null   datetime64[ns]
 1   Logradouro                 6363 non-null   object        
 2   Númeral / KM               5858 non-null   object        
 3   LAT_(GEO)                  6181 non-null   float64       
 4   LONG_(GEO)                 6181 non-null   float64       
 5   Tipo do veículo da vítima  6210 non-null   object        
 6   Tipo de vítima             6083 non-null   object        
 7   Outro Veículo Envolvido    4138 non-null   object        
 8   Data e Hora do Acidente    6363 non-null   datetime64[ns]
dtypes: datetime64[ns](2), float64(2), object(5)
memory usage: 497.1+ KB


Agora podemos analisar a qualidade dos dados e verificar se há colunas com muitos valores faltantes

In [121]:
# Agora podemos analisar a qualidade dos dados e verificar se há colunas com muitos valores faltantes

# print a summary of the missing values in each column in percentage
df.isnull().sum()/df.shape[0]*100

Data do Óbito                 0.000000
Logradouro                    0.000000
Númeral / KM                  7.936508
LAT_(GEO)                     2.860286
LONG_(GEO)                    2.860286
Tipo do veículo da vítima     2.404526
Tipo de vítima                4.400440
Outro Veículo Envolvido      34.967782
Data e Hora do Acidente       0.000000
dtype: float64