# Maio Amarelo: Análise dos acidentes em rodovias federais com Data Science

No ano de 2018, conforme dados do Observatório Nacional de Segurança Viária (ONSV) - https://bit.ly/2KW0n05, ocorreram mais de 32 mil mortes decorrentes de acidentes de trânsito no território brasileiro. Número este bem expressivo e que nos leva a perceber a necessidade de ações voltadas para a conscientização e acima de tudo educação no trânsito.

Tendo isso em mente, foi criado o **Maio Amarelo**.

<p align=center>
  <img src="https://www.isocertificateonline.in/wp-content/uploads/2018/10/ISO-e1538996534469.png" height="100px">
</p>

É um movimento internacional de conscientização para redução de acidentes de trânsito.

Em 11 de maio de 2011, a ONU decretou a Década de Ação para Segurança no Trânsito. Com isso, o mês de maio se tornou referência mundial para balanço das ações que o mundo inteiro realiza.

O que trago neste artigo é muito mais que apenas um artigo de Ciência de Dados. É uma pequena contribuição que visa ajudar a entender a extensão desse problema no Brasil, além de incentivar o Maio Amarelo dentro da comunidade Python e Data Science.

## Descrição dos dados

Nesta análise vamos trabalhar com os dados referentes a acidentes em rodovias federais ocorridos no ano de 2018. 

Na página do Kaggle (https://bit.ly/3n9GO1w), estão disponibilizados os dados de acidentes em rodovias federais do período de Jan/2007 a Jul/2019, dados estes abertos ao público e retirados do portal da Polícia Rodoviária Federal.

In [26]:
# Importando os pacotes necessários
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [27]:
# Importando a base de dados para um DataFrame
df = pd.read_excel('datatran2018.xlsx')

In [39]:
# Visualizando as primeiras 5 linhas do DataFrame
df.head(5)

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,99973,2018-01-01,segunda-feira,00:20:00,RJ,116.0,303.5,RESENDE,Condutor Dormindo,Saída de leito carroçável,...,4,1,0,4,1,-2246937.0,-4444705.0,SR-RJ,DEL5/7,UOP03/RJ
1,99976,2018-01-01,segunda-feira,00:40:00,SC,282.0,0.4,FLORIANOPOLIS,Não guardar distância de segurança,Colisão traseira,...,2,1,0,2,2,-2759972000.0,-4857566000.0,SR-SC,DEL8/1,UOP01/SC
2,99977,2018-01-01,segunda-feira,00:30:00,RJ,493.0,1.0,ITABORAI,Ultrapassagem Indevida,Colisão frontal,...,0,3,1,1,3,-22763900.0,-42927530.0,SR-RJ,DEL5/4,UOP02/RJ
3,99981,2018-01-01,segunda-feira,01:15:00,RS,386.0,134.0,SARANDI,Ingestão de Álcool,Colisão transversal,...,0,2,0,0,2,-27953640.0,-52916370.0,SR-RS,DEL9/14,UOP01/RS
4,99982,2018-01-01,segunda-feira,00:20:00,RS,293.0,151.7,CANDIOTA,Falta de Atenção à Condução,Saída de leito carroçável,...,1,0,0,1,1,-31395210.0,-5378391000.0,SR-RS,DEL9/11,UOP03/RS


In [29]:
# Verificando as variáveis (Colunas) presentes no DataFrame
df.columns

Index(['id', 'data_inversa', 'dia_semana', 'horario', 'uf', 'br', 'km',
       'municipio', 'causa_acidente', 'tipo_acidente',
       'classificacao_acidente', 'fase_dia', 'sentido_via',
       'condicao_metereologica', 'tipo_pista', 'tracado_via', 'uso_solo',
       'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos',
       'ignorados', 'feridos', 'veiculos', 'latitude', 'longitude', 'regional',
       'delegacia', 'uop'],
      dtype='object')

In [30]:
# Verificando o tamanho (Linhas e colunas) do DataFrame
df.shape

(69206, 30)

## Dicionário de Variáveis

Esse arquivo .xlsx possui 30 colunas (variáveis), sendo elas:

* **id:** Número da ocorrência.


* **data_inversa:** Data da ocorrência (ano-mês-dia).


* **dia_semana:** Dia da semana da ocorrência.


* **horario:** Horário da ocorrência.


* **uf:** Estado (Unidade da Federação) da ocorrência.


* **br:** Rodovia da ocorrência.


* **km:** Altura da rodovia onde foi a ocorrência.


* **municipio:** Município da ocorrência.


* **causa_acidente:** Causa da ocorrência.


* **tipo_acidente:** Tipo da ocorrência.


* **classificacao_acidente:** Classificação da ocorrência (Com ou sem vítimas).


* **fase_dia:** Fase do dia na qual se deu a ocorrência (Pleno dia, Plena noite, Amanhecer, Anoitecer).


* **sentido_via:** Sentido da via no qual se deu a ocorrência (Decrescente, crescente).


* **condicao_metereologica:** Condição meteorológica no momento da ocorrência.


* **tipo_pista:** Tipo de pista na qual se deu a ocorrência (Simples, Dupla, Múltipla).