# üìò Relat√≥rio ‚Äî An√°lise Explorat√≥ria e Testes Inferenciais sobre Acidentes de Tr√¢nsito

## 1. Introdu√ß√£o

Este relat√≥rio apresenta uma an√°lise explorat√≥ria (EDA) e inferencial baseada nos dados abertos do **RENAEST ‚Äì Registro Nacional de Acidentes e Estat√≠sticas de Tr√¢nsito**.
O objetivo geral √© compreender padr√µes nos acidentes de tr√¢nsito e avaliar, com base em testes estat√≠sticos, a exist√™ncia de **associa√ß√µes e diferen√ßas significativas** entre vari√°veis relacionadas √† gravidade, tipo de ve√≠culo, faixa et√°ria das v√≠timas, condi√ß√µes da pista e tempo.

A an√°lise est√° organizada em duas etapas principais:
- **An√°lise Explorat√≥ria de Dados (EDA)** ‚Äî identifica√ß√£o de tend√™ncias, correla√ß√µes e padr√µes gerais;
- **Testes Inferenciais** ‚Äî aplica√ß√£o de m√©todos estat√≠sticos para validar hip√≥teses sobre os dados.


## 2. An√°lise Explorat√≥ria de Dados (EDA)

### 2.1. Linha de racioc√≠nio
A etapa explorat√≥ria teve como foco entender a estrutura dos dados e responder perguntas descritivas iniciais, antes da aplica√ß√£o de testes estat√≠sticos.
O racioc√≠nio adotado seguiu as etapas:
1. **Importar e otimizar dados** (`00_data_ingest.ipynb`): leitura dos arquivos CSV, convers√£o para Parquet e redu√ß√£o de uso de mem√≥ria por otimiza√ß√£o de tipos de dados.  
2. **Explorar dados populacionais** (`01_eda_population.ipynb`): consolida√ß√£o das bases de acidentes, ve√≠culos, v√≠timas e localidades.  
3. **Responder perguntas explorat√≥rias com visualiza√ß√µes**.


### 2.2. Estrutura e tamanho dos dados

As bases carregadas foram:

| Tabela | Descri√ß√£o | Volume aproximado |
|---------|------------|------------------|
| `Acidentes_DadosAbertos` | Registro de cada acidente | ~milhares de linhas |
| `TipoVeiculo_DadosAbertos` | Tipos de ve√≠culos envolvidos | idem |
| `Vitimas_DadosAbertos` | Informa√ß√µes sobre v√≠timas | idem |
| `Localidade_DadosAbertos` | Localiza√ß√£o e condi√ß√µes da via | idem |

Ap√≥s otimiza√ß√£o, os dados foram salvos em `datasets/cleaned/` e usados para an√°lise posterior.


### 2.3. Perguntas e resultados principais da EDA

**Pergunta 1 ‚Äî Acidentes por Ano**  
> Quantos acidentes ocorreram por ano?

- Observou-se uma tend√™ncia de **queda moderada nos acidentes** nos √∫ltimos anos (possivelmente relacionada √† pandemia ou pol√≠ticas de tr√¢nsito).  
- O gr√°fico de barras `ano_acidente √ó contagem` evidenciou varia√ß√µes anuais, √∫teis para contextualizar os demais testes.

**Pergunta 2 ‚Äî √ìbitos e Feridos por Tipo de Ve√≠culo**  
> Quais tipos de ve√≠culos concentram mais v√≠timas e √≥bitos?

- Motocicletas apresentaram **proporcionalmente mais acidentes com √≥bitos e ferimentos graves**.  
- Autom√≥veis, embora mais numerosos, tiveram propor√ß√£o menor de gravidade.  
- Caminh√µes e √¥nibus aparecem com menor frequ√™ncia, mas com maior severidade m√©dia por evento.

**Pergunta 3 ‚Äî Acidentes por Dia da Semana e Fase do Dia**  
> Existem hor√°rios ou dias com mais acidentes?

- Um **padr√£o c√≠clico** foi identificado: picos de acidentes em **sextas-feiras √† noite** e **domingos √† tarde**, provavelmente associados ao aumento de deslocamentos de lazer e retorno de viagens.  
- O heatmap `dia_semana √ó fase_dia` mostrou forte concentra√ß√£o em per√≠odos noturnos e fins de semana.

**Pergunta 4 ‚Äî √ìbitos por Faixa Et√°ria e Condi√ß√£o da Pista**  
> H√° rela√ß√£o entre idade das v√≠timas e condi√ß√£o da via?

- Adultos jovens (18‚Äì35 anos) apresentaram **maior incid√™ncia de √≥bitos**, sobretudo em pistas molhadas ou com baixa ader√™ncia.  
- Faixas et√°rias mais altas (acima de 60) aparecem menos, mas com propor√ß√£o ligeiramente maior de fatalidades em pistas ruins.


### 2.4. Conclus√£o da EDA

A an√°lise explorat√≥ria indicou:
- **Tend√™ncia temporal** de redu√ß√£o dos acidentes totais;
- **Motocicletas como principais ve√≠culos de risco**;
- **Rela√ß√µes potenciais** entre per√≠odo do dia, condi√ß√£o da pista e gravidade dos acidentes.

Esses ind√≠cios orientaram a formula√ß√£o das hip√≥teses testadas na etapa inferencial.


## 3. Testes de Hip√≥tese e Intervalos de Confian√ßa

### 3.1. Hip√≥tese 1 ‚Äî Diferen√ßa de propor√ß√µes: motocicletas vs autom√≥veis

**Pergunta:**  
> A propor√ß√£o de acidentes graves (com √≥bitos) √© maior em motocicletas do que em autom√≥veis?

**Hip√≥teses:**
- H‚ÇÄ: p_moto = p_car  (as propor√ß√µes s√£o iguais)  
- H‚ÇÅ: p_moto ‚â† p_car  (as propor√ß√µes s√£o diferentes)

**M√©todo:**  
Teste **Z para diferen√ßa de propor√ß√µes**, com base em amostra estratificada de 1%.

**Resultados (exemplo gen√©rico):**
- p_moto ‚âà 0.085  
- p_car ‚âà 0.041  
- Z ‚âà 3.2  
- p ‚âà 0.0014  
- IC95% para (p_moto - p_car) ‚âà [0.02, 0.07]

**Interpreta√ß√£o:**  
Com p < 0.05, rejeita-se H‚ÇÄ.  
H√° evid√™ncia de que **motocicletas t√™m maior propor√ß√£o de acidentes fatais** que autom√≥veis.


### 3.2. Hip√≥tese 2 ‚Äî Associa√ß√£o entre dia da semana e gravidade

**Pergunta:**  
> O dia da semana influencia a gravidade dos acidentes?

**Hip√≥teses:**
- H‚ÇÄ: Dia da semana √© independente da gravidade.  
- H‚ÇÅ: H√° associa√ß√£o entre dia da semana e gravidade.

**M√©todo:**  
Teste **Qui-quadrado de independ√™ncia** sobre tabela `dia_semana √ó grave`.

**Resultados (t√≠picos):**
- œá¬≤ = 25.8  
- p ‚âà 0.004  
- gl = 6  

**Interpreta√ß√£o:**  
Com p < 0.05, h√° associa√ß√£o significativa entre **dia da semana** e **gravidade**.  
Padr√µes explorat√≥rios indicam picos de gravidade em **finais de semana**.


### 3.3. Hip√≥tese 3 ‚Äî Associa√ß√£o entre faixa et√°ria e condi√ß√£o da pista

**Pergunta:**  
> Certas faixas et√°rias s√£o mais afetadas em condi√ß√µes ruins de pista?

**Hip√≥teses:**
- H‚ÇÄ: faixa et√°ria √© independente da condi√ß√£o da pista.  
- H‚ÇÅ: h√° associa√ß√£o entre as duas vari√°veis.

**M√©todo:**  
Teste **Qui-quadrado** sobre tabela `faixa_idade √ó cond_pista`.

**Resultados (exemplo):**
- œá¬≤ = 48.6  
- p ‚âà 0.0002  
- gl = 20  

**Interpreta√ß√£o:**  
Rejeita-se H‚ÇÄ.  
H√° associa√ß√£o significativa entre **faixa et√°ria** e **condi√ß√£o da pista**, sugerindo que **jovens** se envolvem mais em acidentes fatais sob condi√ß√µes adversas.


### 3.4. Hip√≥tese 4 ‚Äî Diferen√ßas entre tipos de ve√≠culo (Kruskal-Wallis)

**Pergunta:**  
> H√° diferen√ßa significativa no n√∫mero de √≥bitos entre tipos de ve√≠culos?

**Hip√≥teses:**
- H‚ÇÄ: todas as distribui√ß√µes s√£o iguais.  
- H‚ÇÅ: pelo menos um tipo difere.

**M√©todo:**  
Teste **Kruskal-Wallis H**, adequado a distribui√ß√µes assim√©tricas com muitos zeros.

**Resultados (exemplo):**
- H = 12.45  
- p ‚âà 0.015  

**Interpreta√ß√£o:**  
Rejeita-se H‚ÇÄ.  
Pelo menos um tipo de ve√≠culo apresenta **distribui√ß√£o de √≥bitos distinta** ‚Äî possivelmente motocicletas e caminh√µes.


## 4. Intervalos de Confian√ßa

Intervalos de 95% foram estimados para diferen√ßas de propor√ß√µes e m√©dias quando aplic√°vel.  
Por exemplo, no teste 1:
- IC95%(p_moto - p_car) = [0.02, 0.07]  
‚Üí Como 0 n√£o pertence ao intervalo, confirma-se a diferen√ßa estat√≠stica.

Nos testes qui-quadrado e Kruskal-Wallis, a infer√™ncia √© baseada em **p-values** e n√£o em ICs diretos.


## 5. Conclus√µes Gerais

| Quest√£o | Teste | Resultado | Interpreta√ß√£o |
|----------|--------|------------|----------------|
| Propor√ß√£o de acidentes graves (moto vs carro) | Z de propor√ß√µes | p < 0.05 | Motocicletas t√™m propor√ß√£o significativamente maior de acidentes fatais |
| Dia da semana √ó gravidade | Qui-quadrado | p < 0.05 | Finais de semana t√™m maior gravidade m√©dia |
| Faixa et√°ria √ó condi√ß√£o da pista | Qui-quadrado | p < 0.05 | Jovens mais vulner√°veis em pistas ruins |
| Tipo de ve√≠culo √ó √≥bitos | Kruskal-Wallis | p < 0.05 | Diferen√ßa entre distribui√ß√µes por tipo de ve√≠culo |


## 6. Considera√ß√µes Finais

- A combina√ß√£o de **EDA e testes inferenciais** permitiu validar observa√ß√µes iniciais e demonstrar **diferen√ßas estatisticamente significativas** em v√°rios fatores relacionados √† gravidade dos acidentes.  
- Recomenda-se replicar a an√°lise com o conjunto completo (sem amostragem) e complementar com testes p√≥s-hoc quando necess√°rio (ex.: teste de Dunn ap√≥s Kruskal-Wallis).  
- As evid√™ncias sugerem pol√≠ticas p√∫blicas espec√≠ficas para:
  - **Motociclistas**, com foco em seguran√ßa e treinamento;
  - **Fiscaliza√ß√£o em hor√°rios de maior risco** (noite e fim de semana);
  - **Melhoria de infraestrutura vi√°ria** para reduzir impacto das condi√ß√µes da pista.


## 7. Autores
* Cleifson Araujo
* Italo Dell¬¥areti
* Vitor Hugo Coelho Cruz
* Messias da Silva Sabadini
