# **0. Importação das Bibliotecas**

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

#plt.rc('figure', figsize=(5, 5))

# **1.0 Análise exploratória**

### **1.1 Carregamento dos Arquivos:**

**OBS:** 
A partir do ano de 2017 até 2020 teve acréscimo de geolocalização das tabelas

- **Base de dados por ocorrência:**

In [None]:
cols = ['id','data_inversa','dia_semana','horario','uf','br','causa_acidente','tipo_acidente','fase_dia',
          'condicao_metereologica','tracado_via','uso_solo','pessoas','mortos','feridos_leves',
          'feridos_graves','ilesos','feridos','veiculos']

filepath = '../input/brazil-highway-traffic-accidents/por_ocorrencias/'

df_ocorrencia_2007 = pd.read_csv(filepath + 'datatran2007.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_ocorrencia_2008 = pd.read_csv(filepath +'datatran2008.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_ocorrencia_2009 = pd.read_csv(filepath +'datatran2009.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_ocorrencia_2010 = pd.read_csv(filepath +'datatran2010.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_ocorrencia_2011 = pd.read_csv(filepath +'datatran2011.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_ocorrencia_2012 = pd.read_csv(filepath +'datatran2012.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_ocorrencia_2013 = pd.read_csv(filepath +'datatran2013.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_ocorrencia_2014 = pd.read_csv(filepath +'datatran2014.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_ocorrencia_2015 = pd.read_csv(filepath +'datatran2015.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_ocorrencia_2016 = pd.read_csv(filepath +'datatran2016.csv', sep=';', engine='python', encoding='latin-1', usecols=cols)
df_ocorrencia_2017 = pd.read_csv(filepath +'datatran2017.csv', sep=';', engine='python', encoding='latin-1', usecols=cols + ['latitude','longitude'])
df_ocorrencia_2018 = pd.read_csv(filepath +'datatran2018.csv', sep=';', engine='python', encoding='latin-1', usecols=cols + ['latitude','longitude'])
df_ocorrencia_2019 = pd.read_csv(filepath +'datatran2019.csv', sep=';', engine='python', encoding='latin-1', usecols=cols + ['latitude','longitude'])
df_ocorrencia_2020 = pd.read_csv(filepath +'datatran2020.csv', sep=';', engine='python', encoding='latin-1', usecols=cols + ['latitude','longitude'])

- **Cabeçalho**

Visualizar os 10 primeiros registros do conjunto de dados

In [None]:
df_ocorrencia_2007.head(10).T

In [None]:
df_ocorrencia_2017.head(10).T

- **Adicionar coluna ```ano``` em todos os dataframes:**

In [None]:
df_ocorrencia_2007['ano'] = 2007
df_ocorrencia_2008['ano'] = 2008
df_ocorrencia_2009['ano'] = 2009
df_ocorrencia_2010['ano'] = 2010
df_ocorrencia_2011['ano'] = 2011
df_ocorrencia_2012['ano'] = 2012
df_ocorrencia_2013['ano'] = 2013
df_ocorrencia_2014['ano'] = 2014
df_ocorrencia_2015['ano'] = 2015
df_ocorrencia_2016['ano'] = 2016
df_ocorrencia_2017['ano'] = 2017
df_ocorrencia_2018['ano'] = 2018
df_ocorrencia_2019['ano'] = 2019
df_ocorrencia_2020['ano'] = 2020

- **Concatenar todos os DataFrames**

In [None]:
df = pd.concat([df_ocorrencia_2007,df_ocorrencia_2008,df_ocorrencia_2009,df_ocorrencia_2010,
                                 df_ocorrencia_2011,df_ocorrencia_2012,df_ocorrencia_2013,df_ocorrencia_2014,
                                 df_ocorrencia_2015,df_ocorrencia_2016,df_ocorrencia_2017,df_ocorrencia_2018,
                                 df_ocorrencia_2019,df_ocorrencia_2020], sort = False)

- **Filtragem pelo escopo do Rio Grande do Sul, uf(RS)**

In [None]:
df= df[df['uf'] == 'RS']

### **1.2 Descrição dos dados:**

Visualizar as colunas e os respectivos tipos de dados que elas estão classificadas

In [None]:
df.info()

**Alguns pontos observaveis:**

- data inversa deveria ser `date`

- Latitude e Longitude deveriam ser `float` e estão como object (string)

- Horario deveria ser `time`

- **Quantidade de linhas e colunas**

In [None]:
print(f"{df.shape[0]} linhas e {df.shape[1]} colunas.")

#### **1.2.1 breve limpeza dos dados**

- **Eliminar linhas duplicadas do dataframe:**

In [None]:
df.drop_duplicates(subset='id', keep= 'first', inplace=True)

In [None]:
print(f"Após a remoção dos registros duplicados: {df.shape[0]} linhas e {df.shape[1]} colunas.")

- **_missing_ values**

In [None]:
# Porcentagem de valores faltantes
(df.isnull().sum()/df.shape[0]).sort_values()

- #### **Eliminar linhas com todos os valores incompletos ou nulos:**

In [None]:
df.dropna(how='all', inplace=True)
print(f"Após a remoção dos registros nulos: {df.shape[0]} linhas e {df.shape[1]} colunas.")

- **Reindexar os registros, por conta da remoção das duplicatas**

In [None]:
df.reset_index(drop=True, inplace=True)

### **1.2.2 Visualização dos valores possíveis**

Vamos verificar os valores das variáveis categóricas:

- **`dia_semana`**
- **`uf`**
- **`br`**
- **`causa_acidente`**
- **`tipo_acidente`**
- **`fase_dia`**
- **`condicao_metereologica`**
- **`tracado_via`**

e algumas visualizações sobre tendências nas variáveis numéricas como:
- **`veiculos`**
- **`mortos`**

In [None]:
df['dia_semana'].unique()

In [None]:
df['uf'].unique()

In [None]:
df['br'].unique()

In [None]:
df['causa_acidente'].unique()

In [None]:
df['tipo_acidente'].unique()

In [None]:
df['fase_dia'].unique()

In [None]:
df['condicao_metereologica'].unique()

In [None]:
df['tracado_via'].unique()

In [None]:
df['veiculos'].describe()

In [None]:
df['mortos'].describe()

- **Análise dos valores**

---
**`dia_semana`** temos os valores: 
    
    'Segunda', 'Terça', 'Domingo', 'Quinta', 'Quarta', 'Sexta',
       'Sábado', 'domingo', 'segunda-feira', 'terça-feira', 'sexta-feira',
       'quarta-feira', 'quinta-feira', 'sábado'. Como tem alguns duplicados, os valores estão distintos, os reais são: 

* "Segunda-feira", 
* "Terça-feira", 
* "Quarta-feira" 
* "Quinta-feira" 
* "Sexta-feira" 
* "Sábado" 
* "Domingo". 
___
**`uf`**:
Na uf temos as siglas dos estados do Brasil, há apenas a string '(null)' que deve ser removida;
___
**`br`**:

'158', '386', '473', '290', '101', '116', '392', '287', '472',
       '293', '153', '471', '285', '468', '480', '377', '604', 116, 290,
       392, 285, 287, 386, 472, 377, 158, 293, 101, 471, 153, 468, 480,
       473, 470, '470', '0', '178', '453', '183', 453, 448, nan
       
Nela temos os números da br onde ocorreram os acidentes. Há o valor '0', que pode significar nomenclatura antiga.

As rodovias sequenciais compreendem a nomenclatura antiga, e portanto deve-se normalizá-las. 
Há uma [tabela para conversão dos valores](https://pt.wikipedia.org/wiki/Sistema_antigo_de_numera%C3%A7%C3%A3o_de_rodovias_federais_do_Brasil). Embora os valores até 105 tenham alguma tradução para a nomenclatura atual, a br '0' parece ser um _outlier_.
___
**`causa_acidente`**:

'Falta de atenção', 'Outras', 'Animais na Pista',
       'Defeito mecânico em veículo',
       'Não guardar distância de segurança', 'Velocidade incompatível',
       'Desobediência à sinalização', 'Ingestão de álcool',
       'Defeito na via', 'Dormindo', 'Ultrapassagem indevida', '(null)',
       'Desobediência às normas de trânsito pelo condutor',
       'Velocidade Incompatível', 'Ingestão de Álcool',
       'Restrição de Visibilidade', 'Falta de Atenção à Condução',
       'Defeito Mecânico no Veículo', 'Falta de Atenção do Pedestre',
       'Condutor Dormindo', 'Pista Escorregadia',
       'Ultrapassagem Indevida', 'Defeito na Via',
       'Avarias e/ou desgaste excessivo no pneu',
       'Sinalização da via insuficiente ou inadequada',
       'Fenômenos da Natureza', 'Mal Súbito',
       'Carga excessiva e/ou mal acondicionada',
       'Objeto estático sobre o leito carroçável',
       'Deficiência ou não Acionamento do Sistema de Iluminação/Sinalização do Veículo',
       'Ingestão de Substâncias Psicoativas', 'Agressão Externa',
       'Desobediência às normas de trânsito pelo pedestre',
       'Ingestão de álcool e/ou substâncias psicoativas pelo pedestre'.
       
Dentre esses valores, há alguns que divergem na escrita, porém são a mesma coisa, como 'Falta de atenção' e 'Falta de Atenção à Condução'. 'Defeito mecânico em veículo' e 'Defeito Mecânico no Veículo'.

___
**`tipo_acidente`**:
'Colisão frontal', 'Saída de Pista', 'Atropelamento de animal',
       'Capotamento', 'Colisão lateral', 'Atropelamento de pessoa',
       'Colisão traseira', 'Colisão Transversal', 'Tombamento',
       'Colisão com objeto fixo', 'Danos Eventuais',
       'Queda de motocicleta / bicicleta / veículo',
       'Derramamento de Carga', 'Colisão com bicicleta',
       'Colisão com objeto móvel', 'Incêndio', 'Atropelamento de Animal',
       'Saída de leito carroçável', 'Colisão com objeto estático',
       'Atropelamento de Pedestre', 'Queda de ocupante de veículo',
       'Colisão transversal', 'Colisão com objeto em movimento',
       'Derramamento de carga', 'Engavetamento', 'Danos eventuais'.

Há apenas algumas distinções por conta da sensibilidade a maiúsculas e minúsculas. E um sinônimo entre 'Colisão com objeto estático' e 'Colisão com objeto fixo'
___
**`fase_dia`**:
'Pleno dia', 'Plena noite', 'Amanhecer', 'Anoitecer', '(null)',
       nan, 'Plena Noite'.
       
Além da string '(null)' que deve ser tratada, há a divergência na distinção por conta da sensibilidade a maiúsculas e minúsculas.

___
**`condicao_metereologica`**
'Ceu Claro', 'Chuva', 'Nublado', 'Sol', 'Nevoeiro/neblina',
       'Ignorada', 'Vento', 'Granizo', '(null)', 'Neve', nan,
       'Garoa/Chuvisco', 'Céu Claro', 'Nevoeiro/Neblina', 'Ignorado'.

Há o problema na string '(null)'.

___
**`tracado_via`**
'Reta', 'Curva', 'Cruzamento', '(null)', 'Não Informado',
       'Interseção de vias', 'Rotatória', 'Desvio Temporário', 'Viaduto',
       'Ponte', 'Retorno Regulamentado', 'Túnel'
       
Há o problema na string '(null)'.


# **2.0 Limpeza dos dados**

---
**- `data_inversa`**

Esse campo possui 2 tipos de datas: ANO - mes - dia; e dia/mes/ANO. Vamos convertela para inversa, mas em `datetime`, deixando-a como %Y-%m-%d;

In [None]:
df['data_inversa']

In [None]:
### Correção da vírgula para ponto
df['data_inversa'] = pd.to_datetime(df['data_inversa'])

In [None]:
df['data_inversa']

---
**- `latitude` e `longitude`**

Esses campos estão como string, e devem ser normalizados para float, a fim de utilizá-los em eventuais plots geográficos.

Como esses dois dados são vigente a partir do ano de 2017, vários valores faltantes aparecerão, devido a concatenação das bases.

In [None]:
### Correção da vírgula para ponto
df['latitude']  = df['latitude'].str.replace(',','.')
df['longitude']  = df['longitude'].str.replace(',','.')

#setei os NaN como 0, se der problema nos plot daí tiramos os fillna
#df['latitude'].fillna(0, inplace=True)
#df['longitude'].fillna(0, inplace=True)

In [None]:
df.filter(['latitude', 'longitude']).dtypes

In [None]:
df['latitude'] = df['latitude'].astype(float)
df['longitude'] = df['longitude'].astype(float)

In [None]:
df.filter(['latitude', 'longitude']).dtypes

----
**- `dia_semana`**

Para padronizar, vamos deixar tudo em title (primeira letra maiuscula). E depois deixar os dias sem hífem mesmo

In [None]:
df['dia_semana'].value_counts()

In [None]:
df['dia_semana'] = df['dia_semana'].apply(lambda x: str(x).title().split('-')[0])

In [None]:
df['dia_semana'].unique()

----
**- `uf`**

Não precisa limpar nem normalizar pois já está marcada apenas para o RS

In [None]:
df["uf"].value_counts()

---
**- `br`**

Não precisa limpar nem normalizar(dá pra retirar daqui), está em str

In [None]:
df['br'].unique()

---
**- `causa_acidente`**

In [None]:
#retirar espaços em branco no inicio e final das palavras
seri = pd.Series(df['causa_acidente'])
seri = seri.str.strip()
df['causa_acidente'] = seri

df['causa_acidente'] = df['causa_acidente'].str.title()
df['causa_acidente'] = df['causa_acidente'].str.replace('Falta De Atenção À Condução', 'Falta De Atenção')
df['causa_acidente'] = df['causa_acidente'].str.replace('Defeito Mecânico Em Veículo', 'Defeito Mecânico No Veículo')
df['causa_acidente'] = df['causa_acidente'].str.replace('Ingestão De Álcool E/Ou Substâncias Psicoativas Pelo Pedestre', 'Ingestão De Álcool')

df['causa_acidente'].value_counts()

---
**- `tipo_acidente`**

In [None]:
df['tipo_acidente'] = df['tipo_acidente'].str.title()
df['tipo_acidente'] = df['tipo_acidente'].str.replace('Colisão Com Objeto Estático', 'Colisão Com Objeto Fixo')
df['tipo_acidente'].value_counts()

---
**- `fase_dia`**

In [None]:
df["fase_dia"] = df["fase_dia"].replace('(null)', np.nan)
df["fase_dia"].fillna("Não Informado", inplace=True)

df['fase_dia'] = df['fase_dia'].str.title()
df['fase_dia'].value_counts()

---
**- tracado_via**

In [None]:
df["tracado_via"] = df["tracado_via"].replace('(null)', np.nan)

___
**- `condicao_metereologica`**

In [None]:
df["condicao_metereologica"].unique()

In [None]:
from unidecode import unidecode

In [None]:
df["condicao_metereologica"] = df["condicao_metereologica"].replace('(null)', np.nan)
df["condicao_metereologica"].fillna("Não Informado", inplace=True)

df['condicao_metereologica'] = df['condicao_metereologica']\
.str.lower().replace('ignorada', 'nao informado').replace('ignorado', 'nao informado').replace('sol', 'ceu claro').map(unidecode)

df['condicao_metereologica'].value_counts()

- **Salvar DataFrame normalizado**

In [None]:
#df.to_csv('archive/csv_ocorrencia_normalizado.csv', encoding='latin-1', index=False)