## 1 Introducão

O Brasil e o mundo possuem um serio problema com os acidentes de transito [1] (https://www.paho.org/bra/index.php?option=com_content&view=article&id=5147:acidentes-de-transito-folha-informativa&Itemid=779), sengundo a OPAS (Organização Pan-Americana da Saúde)

- Cerca de 1,35 milhão de pessoas morrem a cada ano em decorrência de acidentes no trânsito;
- Os acidentes de trânsito custam à maioria dos países 3% de seu produto interno bruto (PIB);
- Mais da metade de todas as mortes no trânsito ocorre entre usuários vulneráveis das vias: pedestres, ciclistas e motociclistas;
- 93% das mortes no trânsito ocorrem em países de baixa e média renda, embora estes concentrem aproximadamente 60% dos veículos do mundo;

Nesse artigo eu utilizei o banco de dados de acidente da policia rodoviaria federal em [2] https://portal.prf.gov.br/dados-abetos-dicionario-acidentes, para buscar correlaćoes entre as causas de acidentes e o numero de mortes e assim fazer uma comparacao quais são os tipos de acidentes mais letais no transito brasileiro. Para a analise utilizar o metodo estatistico de MCA (multiple correspondence analysis).


## 2 Objetivos


- Correlacionar as causas de acidente com a tabela de classificacao utilizando MCA(multiple correspondence analysis)



## 3 Methodologies

A classificaćão do nivel de perigo de cada tipo de acidente sera feita analisando a frequencia de ocorrencias de vitimas feridas e mortas de cada acidente, para assim calcular a probabilidade de que tal acidente gere vitimas feridas ou mortas e de acordo com essa probabilidade sera atribuido um atibuto com o level de perigosidade desse tipo de acidente.

Depois sera feito a correlacão entre as causas dos acidentes, que é diferente do atributo tipo com esses dados calculados utilizando MCA(multiple correspondence analysis)

### 3.1 Correlation analysis

A análise de correlação é um método de avaliação estatística usado para estudar a força de um relacionamento entre duas variáveis contínuas medidas numericamente.[​1] https://www.djsresearch.co.uk/glossary/item/correlation-analysis-market-research

A correlação é medida por um número entre -1 e 1, se o número for de 0 a 1, significa que essas duas variáveis que medimos são correlacionadas positivas e quanto maior o número, maior a correlação. Se o número for menor que 0, isso significa que duas variáveis estão correlacionadas negativamente e quanto menor o número, mais forte será a correlação.

Esse método pode ser muito útil para medirmos a correlação entre os acidentes e as pessoas feridas.

### 3.2 MCA(multiple correspondence analysis)

A análise de correspondência múltipla (MCA) é um método estatístico. É aplicado a tabelas geralmente grandes que apresentam um conjunto de características "qualitativas" para uma população de indivíduos estatísticos (ou seja, indivíduos "biológicos", mas também em certos casos, instituições, países, grupos etc.). Extrai o que é considerado a informação estruturante mais importante dessas tabelas. [3​] https://www.politika.io/en/notice/multiple-correspondence-analysis

## 4 Dataset



| **Dados** | **Significado** |
|-----|-------------|
 id |  Variável com valores numéricos, representando o identificador do acidente.|
data_inversa | Data da ocorrência no formato dd/mm/aaaa.
dia_semana | Dia da semana da ocorrência. Ex.: Segunda, Terça, etc.
horario | Horário da ocorrência no formato hh:mm:ss.
uf | Unidade da Federação. Ex.: MG, PE, DF, etc.
br | Variável com valores numéricos, representando o identificador da BR do acidente.
km | Identificação do quilômetro onde ocorreu o acidente, com valor mínimo de 0,1 km e com a casa decimal separada por ponto.
municipio | Nome do município de ocorrência do acidente
causa_acidente | Identificação da causa principal do acidente. Neste conjunto de dados são excluídos os acidentes com a variável causa principal igual a “Não”.
tipo_acidente | Identificação do tipo de acidente. Ex.: Colisão frontal, Saída de pista, etc. Neste conjunto de dados são excluídos os tipos de acidentes com ordem maior ou igual a dois. A ordem do acidente demonstra a sequência cronológica dos tipos presentes na mesma ocorrência.
classificação_acidente | Classificação quanto à gravidade do acidente: Sem Vítimas, Com Vítimas Feridas, Com Vítimas Fatais e Ignorado.
fase_dia | Fase do dia no momento do acidente. Ex. Amanhecer, Pleno dia, etc.
sentido_via | Sentido da via considerando o ponto de colisão: Crescente e decrescente. 
condição_meteorologica | Condição meteorológica no momento do acidente: Céu claro, chuva, vento, etc.
tipo_pista |  Tipo da pista considerando a quantidade de faixas: Dupla, simples ou múltipla.
tracado_via | Descrição do traçado da via.
uso_solo | Descrição sobre as características do local do acidente: Urbano=Sim;Rural=Não.
latitude | Latitude do local do acidente em formato geodésico decimal.
longitude | Longitude do local do acidente em formato geodésico decimal.









In [1]:
import pandas as pd


df = pd.read_csv("datatran2019.csv",sep=';',encoding='latin1')

df.info()
df.describe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67446 entries, 0 to 67445
Data columns (total 30 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      67446 non-null  float64
 1   data_inversa            67446 non-null  object 
 2   dia_semana              67446 non-null  object 
 3   horario                 67446 non-null  object 
 4   uf                      67446 non-null  object 
 5   br                      67351 non-null  float64
 6   km                      67351 non-null  object 
 7   municipio               67446 non-null  object 
 8   causa_acidente          67446 non-null  object 
 9   tipo_acidente           67446 non-null  object 
 10  classificacao_acidente  67446 non-null  object 
 11  fase_dia                67446 non-null  object 
 12  sentido_via             67446 non-null  object 
 13  condicao_metereologica  67446 non-null  object 
 14  tipo_pista              67446 non-null

<bound method NDFrame.describe of              id data_inversa     dia_semana   horario  uf     br     km  \
0      182210.0   2019-01-01    terça-feira  01:30:00  SP  116.0    218   
1      182211.0   2019-01-01    terça-feira  01:30:00  PR  373.0  177,3   
2      182212.0   2019-01-01    terça-feira  00:45:00  SC  101.0     16   
3      182214.0   2019-01-01    terça-feira  00:00:00  CE   20.0  429,5   
4      182215.0   2019-01-01    terça-feira  01:00:00  MG  381.0    327   
...         ...          ...            ...       ...  ..    ...    ...   
67441  266255.0   2019-10-07  segunda-feira  09:10:00  ES  101.0  270,5   
67442  266406.0   2019-11-25  segunda-feira  07:20:00  PR  116.0    125   
67443  266434.0   2019-06-03  segunda-feira  19:00:00  CE  222.0    1,4   
67444  266573.0   2019-07-13         sábado  19:35:00  PR  373.0    425   
67445  266627.0   2019-10-22    terça-feira  20:20:00  BA  324.0    608   

                municipio                       causa_acidente  \

In [19]:
a = df[df.municipio == 'UBERABA']

pd.crosstab(df.tipo_acidente,df.classificacao_acidente,margins=True)

# ?pd.crosstab


classificacao_acidente,Com Vítimas Fatais,Com Vítimas Feridas,Sem Vítimas,All
tipo_acidente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Atropelamento de Animal,83,870,284,1237
Atropelamento de Pedestre,937,2400,43,3380
Capotamento,102,1816,356,2274
Colisão com objeto em movimento,20,237,56,313
Colisão com objeto estático,243,2889,1323,4455
Colisão frontal,1201,2918,288,4407
Colisão lateral,257,6602,1482,8341
Colisão transversal,397,7514,869,8780
Colisão traseira,562,10161,2398,13121
Danos eventuais,6,87,88,181


## Analise de 2 way tables

- 76% dos acidentes em uberaba possuem vitimas feridas, 7% possuem vitimas fatais e 17,3% não possuem vitimas
- **Colisão frontal** e **atropelamente de pedestres** não seguem essa proporcão, sendo que 28% possuem vitimas fatais, 1,27% não posuem vitimas e 71% de vitimas feridas
- **Queda de ocupante de veículo** cerca de 96% dos casos geram vitimas feridas
- **incendio** 95% sem vitimas
- **danos eventuais**  **colisão transversal** melhor retirar muito ambiguo (por pouco) WTF IS TRANSVERSAL???
- **Derramamento de carga** não segue a proporcao, tende a não ter vitimas
- **incendio** tende a não ter vitimas

- **atropelamenteo de animal**, **Capotamento**, **Colisão com objeto em movimento**, **Colisão com objeto estático**, **colisão lateral**, **engavetamento** **Saída de leito carroçável**, **Tombamento** segue a proporćão


#### Analisando os dados é possivel fazer uma Escala de perigo de acordo com o numero de ferido e pessoas mortas de cata tipo de acidentes de 1 a 5 sendo:

1. **incendio**
2. **derramamento de carga**
3. **atropelamenteo de animal**, **Capotamento**, **Colisão com objeto em movimento**, **Colisão com objeto estático**, **colisão lateral**, **engavetamento** **Saída de leito carroçável**, **Tombamento**
4. **Queda de ocupante de veículo**
5. **Colisão frontal** e **atropelamente de pedestres**

In [15]:
nivel_de_risco = []

for i in range(len(df)):
    if (df.classificacao_acidente.iloc[i] == "Incêndio"):
        nivel_de_risco.append(0)
    elif (df.classificacao_acidente.iloc[i] == "Derramamento de carga"):
        nivel_de_risco.append(1)
    elif (df.classificacao_acidente.iloc[i] == "Queda de ocupante de veículo"):
        nivel_de_risco.append(3)
    elif (df.classificacao_acidente.iloc[i] == "Colisão frontal" or df.classificacao_acidente.iloc[i] == "Atropelamento de Pedestre"):
        nivel_de_risco.append(4)
    else:
        nivel_de_risco.append(2)


In [16]:
df["risco"] = nivel_de_risco

Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,...,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop,risco
0,182210.0,2019-01-01,terça-feira,01:30:00,SP,116.0,218,GUARULHOS,Falta de Atenção à Condução,Colisão com objeto estático,...,0,0,4,1,-2346052014,-4648772478,SR-SP,DEL6/1,UOP01/SP,2
1,182211.0,2019-01-01,terça-feira,01:30:00,PR,373.0,1773,PONTA GROSSA,Falta de Atenção à Condução,Colisão traseira,...,0,0,1,1,-2505533957,-5022776753,SR-PR,DEL7/3,UOP01/PR,2
2,182212.0,2019-01-01,terça-feira,00:45:00,SC,101.0,16,GARUVA,Animais na Pista,Colisão com objeto estático,...,0,0,1,1,-261216,-488826,SR-SC,DEL8/3,UOP01/SC,2
3,182214.0,2019-01-01,terça-feira,00:00:00,CE,20.0,4295,FORTALEZA,Ingestão de Substâncias Psicoativas,Colisão com objeto estático,...,0,0,1,1,-376999,-38670063,SR-CE,DEL16/1,UOP02/CE,2
4,182215.0,2019-01-01,terça-feira,01:00:00,MG,381.0,327,NOVA ERA,Falta de Atenção à Condução,Colisão transversal,...,1,0,1,2,-197609,-430306,SR-MG,DEL4/3,UOP01/MG,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67441,266255.0,2019-10-07,segunda-feira,09:10:00,ES,101.0,2705,SERRA,Falta de Atenção à Condução,Tombamento,...,1,0,1,2,-2023107,-4027387,SR-ES,DEL12/2,UOP01/ES,2
67442,266406.0,2019-11-25,segunda-feira,07:20:00,PR,116.0,125,FAZENDA RIO GRANDE,Falta de Atenção à Condução,Colisão lateral,...,1,1,1,2,-2559505,-4931631,SR-PR,DEL7/1,UOP03/PR,2
67443,266434.0,2019-06-03,segunda-feira,19:00:00,CE,222.0,14,CAUCAIA,Não guardar distância de segurança,Colisão traseira,...,1,0,1,2,-3736507,-3865337,SR-CE,DEL16/1,UOP01/CE,2
67444,266573.0,2019-07-13,sábado,19:35:00,PR,373.0,425,CANDOI,Defeito Mecânico no Veículo,Saída de leito carroçável,...,0,0,1,1,-257118,-5218374,SR-PR,DEL7/3,UOP02/PR,2
