## Extração, tratamento e limpeza dos dados!

In [1]:
# Instalando as bibliotecas que não são instaladas (por padrão) no Jupyter Notebook:
!pip install plotly



In [2]:
# Importando as bibliotecas necessárias:
import pandas as pd
import numpy as np

In [3]:
# Lendo o arquivo CSV:
data = pd.read_csv("AccidentsPortugues.csv")
data.head()

Unnamed: 0,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,...,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia
0,2017-01-01,domingo,01:45:00,RS,116.0,349,VACARIA,Defeito Mecânico no Veículo,Colisão traseira,Com Vítimas Feridas,...,4,0,2,0,4,2,-28.50712,-50.94118,SPRF-RS,DEL05-RS
1,2017-01-01,domingo,01:00:00,PR,376.0,636,TIJUCAS DO SUL,Velocidade Incompatível,Saída de leito carroçável,Com Vítimas Fatais,...,0,0,1,0,0,2,-25.754,-49.1266,SPRF-PR,DEL01-PR
2,2017-01-01,domingo,04:40:00,BA,101.0,65,ENTRE RIOS,Condutor Dormindo,Colisão frontal,Com Vítimas Fatais,...,1,1,2,0,2,2,-11.9618,-38.0953,SPRF-BA,DEL01-BA
3,2017-01-01,domingo,06:30:00,PA,316.0,725,CASTANHAL,Falta de Atenção à Condução,Colisão lateral,Com Vítimas Fatais,...,0,0,3,0,0,3,-1.28998,-47.83483,SPRF-PA,DEL01-PA
4,2017-01-01,domingo,09:00:00,GO,20.0,2205,POSSE,Defeito na Via,Colisão com objeto estático,Com Vítimas Feridas,...,2,1,0,0,3,1,-14.14221,-46.32259,SPRF-DF,DEL02-DF


In [4]:
# Visualizando as informações sobre as colunas do dataset:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 463152 entries, 0 to 463151
Data columns (total 27 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   data_inversa            463152 non-null  object 
 1   dia_semana              463152 non-null  object 
 2   horario                 463152 non-null  object 
 3   uf                      463152 non-null  object 
 4   br                      462162 non-null  float64
 5   km                      462162 non-null  object 
 6   municipio               463152 non-null  object 
 7   causa_acidente          463152 non-null  object 
 8   tipo_acidente           463112 non-null  object 
 9   classificacao_acidente  463152 non-null  object 
 10  fase_dia                463152 non-null  object 
 11  sentido_via             463152 non-null  object 
 12  condicao_metereologica  463152 non-null  object 
 13  tipo_pista              463152 non-null  object 
 14  tracado_via         

In [5]:
# Visualizando os valores nulos do dataset:
print(data.isnull().sum())

data_inversa                 0
dia_semana                   0
horario                      0
uf                           0
br                         990
km                         990
municipio                    0
causa_acidente               0
tipo_acidente               40
classificacao_acidente       0
fase_dia                     0
sentido_via                  0
condicao_metereologica       0
tipo_pista                   0
tracado_via                  0
pessoas                      0
mortos                       0
feridos_leves                0
feridos_graves               0
ilesos                       0
ignorados                    0
feridos                      0
veiculos                     0
latitude                     0
longitude                    0
regional                    10
delegacia                 1310
dtype: int64


#### Há valores nulos nas colunas "br", "km", "tipo_acidente", "regional" e "delegacia". Esses valores precisam ser tratados entendendo a causa da invalidez de cada um!

In [6]:
# A coluna "br" deve ser lida como string, porém, foi interpretada automaticamente como float (pois os nomes das BRs são números).
# Antes de alterar o dataset, deve-se fazer uma cópia dos dados:
data_backup = data.copy()

# Com o backup feito, pode-se alterar a coluna "br" de "float" para "string" (no jupyter notebook as strings são identificadas como "object"):
data['br'] = data['br'].astype(str).str.split('.').str[0]

In [7]:
# Visualizando os dados nulos após a alteração:
print(data.isnull().sum())

data_inversa                 0
dia_semana                   0
horario                      0
uf                           0
br                           0
km                         990
municipio                    0
causa_acidente               0
tipo_acidente               40
classificacao_acidente       0
fase_dia                     0
sentido_via                  0
condicao_metereologica       0
tipo_pista                   0
tracado_via                  0
pessoas                      0
mortos                       0
feridos_leves                0
feridos_graves               0
ilesos                       0
ignorados                    0
feridos                      0
veiculos                     0
latitude                     0
longitude                    0
regional                    10
delegacia                 1310
dtype: int64


In [8]:
# Restam 2350 nulos, porém, as causas desses nulos não são relevantes.
# Então, se o total de nulos não afetar a estatística (<1%), essas linhas podem ser removidas.

print(data.shape)

(463152, 27)


In [9]:
# Como existem 463.152 linhas e apenas 2.350 são nulos, todos os nulos restantes serão removidos, pois representam 0,5% dos dados.
data = data.dropna()

# Visualizando a informação de nulos:
print(data.isnull().sum())

#visualizando o total de linhas no dataset, estes serão os dados analisados:
print(data.shape)

data_inversa              0
dia_semana                0
horario                   0
uf                        0
br                        0
km                        0
municipio                 0
causa_acidente            0
tipo_acidente             0
classificacao_acidente    0
fase_dia                  0
sentido_via               0
condicao_metereologica    0
tipo_pista                0
tracado_via               0
pessoas                   0
mortos                    0
feridos_leves             0
feridos_graves            0
ilesos                    0
ignorados                 0
feridos                   0
veiculos                  0
latitude                  0
longitude                 0
regional                  0
delegacia                 0
dtype: int64
(460889, 27)


In [10]:
# Novamente, visualizando os dados da tabela para iniciar a análise a respeito dos acidentes:
data.head()

Unnamed: 0,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,...,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia
0,2017-01-01,domingo,01:45:00,RS,116,349,VACARIA,Defeito Mecânico no Veículo,Colisão traseira,Com Vítimas Feridas,...,4,0,2,0,4,2,-28.50712,-50.94118,SPRF-RS,DEL05-RS
1,2017-01-01,domingo,01:00:00,PR,376,636,TIJUCAS DO SUL,Velocidade Incompatível,Saída de leito carroçável,Com Vítimas Fatais,...,0,0,1,0,0,2,-25.754,-49.1266,SPRF-PR,DEL01-PR
2,2017-01-01,domingo,04:40:00,BA,101,65,ENTRE RIOS,Condutor Dormindo,Colisão frontal,Com Vítimas Fatais,...,1,1,2,0,2,2,-11.9618,-38.0953,SPRF-BA,DEL01-BA
3,2017-01-01,domingo,06:30:00,PA,316,725,CASTANHAL,Falta de Atenção à Condução,Colisão lateral,Com Vítimas Fatais,...,0,0,3,0,0,3,-1.28998,-47.83483,SPRF-PA,DEL01-PA
4,2017-01-01,domingo,09:00:00,GO,20,2205,POSSE,Defeito na Via,Colisão com objeto estático,Com Vítimas Feridas,...,2,1,0,0,3,1,-14.14221,-46.32259,SPRF-DF,DEL02-DF


In [11]:
# Muitas perguntas são feitas, incluindo: Quantos acidentes acontecem em cada ano/mês/dia? 
data["data_inversa"].value_counts()

data_inversa
2017-12-23    449
2017-02-25    409
2017-12-22    397
2017-05-19    390
2017-09-30    366
             ... 
2018-05-26     83
2020-03-26     77
2018-05-29     74
2020-03-25     72
2020-03-23     69
Name: count, Length: 2434, dtype: int64

In [12]:
# Cada valor único (data única) foi contado como objeto (string), pois o formato atual da coluna "data_inversa" não é numérico.
data["data_inversa"].info

<bound method Series.info of 0         2017-01-01
1         2017-01-01
2         2017-01-01
3         2017-01-01
4         2017-01-01
             ...    
463147    2023-02-09
463148    2023-06-28
463149    2023-07-27
463150    2023-05-13
463151    2023-08-20
Name: data_inversa, Length: 460889, dtype: object>

In [13]:
# Para obter o resultado que eu desejo, o formato dessa coluna deve ser alterado de "object" para "datetime".
# Antes, o backup:
data_backup2 = data.copy()

# Agora, a alteração:
data['data_inversa'] = pd.to_datetime(data['data_inversa'])

# Visualizando o tipo de dado na coluna data_inversa:
data['data_inversa'].info()

<class 'pandas.core.series.Series'>
Index: 460889 entries, 0 to 463151
Series name: data_inversa
Non-Null Count   Dtype         
--------------   -----         
460889 non-null  datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 7.0 MB
