# 🚦 Análise Exploratória de Acidentes de Trânsito em Nova Iorque

> *Este projeto representa uma nova etapa na exploração dos dados de acidentes de trânsito ocorridos na cidade de Nova Iorque. Após iniciativas anteriores focadas em Machine Learning e Engenharia de Dados ([MVP - Predição de Gravidade](https://github.com/RobertoSacoman/Estudos/blob/main/MVP_ML_Acidentes_Transito_NY.ipynb) e [MVP - Engenharia de Dados](https://github.com/RobertoSacoman/Estudos/blob/main/MVP_Engenharia_de_Dados_NYC.ipynb)), esta análise aprofundada visa obter insights descritivos a partir de técnicas de Análise Exploratória de Dados (EDA).*

---

<img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/acidente%20de%20transito%20-%20NY.jpg" alt="Acidente de Trânsito em NY" width="1200"/>

---

## 📍 Introdução

Com mais de 8 milhões de habitantes e um dos trânsitos mais intensos do mundo, a cidade de Nova Iorque enfrenta desafios diários relacionados à segurança viária. A convivência entre motoristas, ciclistas, pedestres e veículos de transporte coletivo, somada a fatores climáticos e comportamentais, faz com que o estudo de colisões de trânsito na cidade seja um campo fértil para análise de dados.

Esta análise tem como objetivo aprofundar a compreensão sobre o cenário dos acidentes na cidade, explorando padrões, distribuições e correlações entre variáveis. O trabalho adota uma abordagem exploratória, estruturada e guiada por métodos estatísticos e técnicas de visualização.

---

## 📊 Justificativa: Por que Analisar os Acidentes em NY?

A análise de dados de acidentes de trânsito é uma ferramenta essencial para:

- **Identificação de áreas críticas** (hotspots) com maior frequência de ocorrências;
- **Compreensão de fatores de risco**, como condições climáticas, tipo de via e horário do dia;
- **Apoio à criação de políticas públicas e ações preventivas** para redução de acidentes;
- **Avaliação de impactos sazonais e comportamentais** na dinâmica urbana.

Em um cenário como o de Nova Iorque, marcado por alta densidade populacional e complexidade viária, a análise exploratória permite extrair informações valiosas para diferentes públicos: órgãos de trânsito, planejadores urbanos e tomadores de decisão.

---

## 🎯 Objetivo deste MVP

O presente trabalho tem como principal objetivo realizar uma **Análise Exploratória de Dados (EDA)** sobre o dataset de colisões de trânsito da cidade de Nova Iorque.

De forma detalhada, busca-se:

1. Investigar a qualidade, completude e consistência dos dados;
2. Realizar tratamento e limpeza inicial para correção de anomalias e valores ausentes;
3. Aplicar técnicas de estatística descritiva para entendimento das principais variáveis;
4. Produzir visualizações que ajudem a revelar padrões, distribuições e tendências;
5. Documentar as descobertas, hipóteses e insights obtidos ao longo da análise.

---

## 🧬 Continuidade e Diferencial em Relação aos MVPs Anteriores

Diferentemente dos MVPs anteriores, cujo foco foi o **processamento de dados (ETL)** e **modelagem preditiva com algoritmos de Machine Learning**, este projeto concentra-se exclusivamente na **exploração descritiva e visual dos dados**.

Os principais diferenciais deste MVP são:

- Ênfase em **estatísticas descritivas, gráficos e identificação de padrões**;
- Avaliação minuciosa de **dados faltantes, outliers e inconsistências**;
- Análise focada em **responder perguntas de negócio com base em evidências visuais e estatísticas**;
- Produção de um material que sirva de **base para futuras modelagens ou construção de dashboards interativos**.

---

> “Transformar dados brutos em conhecimento exploratório é um passo fundamental antes de qualquer modelagem ou tomada de decisão. Este MVP busca justamente estabelecer essa base sólida para projetos futuros.”


## 🎯 Premissas e Hipóteses

Com base no contexto urbano de Nova Iorque e nas características do dataset de colisões de trânsito, foram estabelecidas as seguintes premissas e hipóteses que nortearam a Análise Exploratória de Dados (EDA):

### ✔️ Premissas:

- O dataset representa de forma fiel os acidentes de trânsito ocorridos na cidade de Nova Iorque durante o período de coleta;
- As colunas analisadas refletem corretamente os atributos dos acidentes (data, horário, localização, número de vítimas, etc.);
- As inconsistências observadas nos dados (nulos, categorias mal formatadas) foram devidamente tratadas durante o processo de pré-processamento.

### ✔️ Hipóteses de Análise:

1. **Concentração Geográfica:**  
Espera-se que determinados boroughs, como **BROOKLYN** e **QUEENS**, apresentem maior número absoluto de acidentes devido à maior extensão territorial e densidade populacional.

2. **Horários de Pico:**  
Acredita-se que a ocorrência de acidentes seja mais elevada durante os **horários de pico de tráfego**, especialmente no início da manhã e no final da tarde.

3. **Severidade por Região:**  
É provável que a **quantidade de vítimas por acidente** varie entre os boroughs, refletindo diferenças no fluxo viário e nas características das vias.

4. **Distribuição Temporal:**  
Espera-se identificar **picos sazonais ou mensais** no número de acidentes, possivelmente relacionados a condições climáticas, feriados ou eventos urbanos.

5. **Influência das Condições Climáticas:**  
Existe a hipótese de que **condições meteorológicas adversas** (chuva, neve, neblina) aumentem a frequência de acidentes.

6. **Fatores Contribuintes mais Frequentes:**  
A hipótese é que **fatores humanos**, como desatenção ou excesso de velocidade, estejam entre as principais causas dos acidentes.

7. **Tipos de Veículos Mais Envolvidos:**  
É esperado que **carros de passeio** sejam os veículos mais frequentemente envolvidos nas colisões, seguidos por vans e caminhões de entrega, dada a realidade urbana de Nova Iorque.

Estas hipóteses foram consideradas ao longo da análise exploratória e serão validadas ou refutadas com base nos resultados apresentados nas próximas seções.


## 🧬 Linhagem dos Dados

A seguir, é apresentada a trajetória dos dados utilizados neste projeto, desde sua origem até o estágio atual de preparação para a Análise Exploratória.

---

### 📍 Origem dos Dados

- **Fonte**: Dataset público sobre colisões de trânsito na cidade de Nova Iorque, disponibilizado via NYC Open Data.
- **Formato Original**: Arquivo CSV contendo registros de acidentes com atributos como data, localização, tipo de veículo envolvido, número de feridos, número de mortos e fatores contribuintes.
- **Link para o Dataset**:  
[https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/NYC_Collisions_2023.csv](https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/NYC_Collisions_2023.csv)

---

## 📂 Dataset Utilizado para o MVP

Para fins didáticos e com o objetivo de demonstrar todas as etapas de análise, diagnóstico e limpeza de dados, foi criada uma versão propositalmente alterada do dataset original de colisões de trânsito na cidade de Nova Iorque.

---

### 📍 Detalhes da Fonte de Dados

- **Formato:** CSV.
- **Link para download:**  
[https://github.com/RobertoSacoman/Estudos/blob/main/nyc_collisions_dirty.csv](https://github.com/RobertoSacoman/Estudos/blob/main/nyc_collisions_dirty.csv)

---

### 🧹 Características Intencionais da Versão "Dirty"

O dataset foi artificialmente contaminado com as seguintes imperfeições, comuns em cenários reais de projetos de Ciência de Dados:

- **Presença de valores nulos adicionais** nas colunas `date`, `time` e `zone`;
- **Inclusão de linhas duplicadas** para simular problemas de unicidade;
- **Valores inválidos e mal formatados** em campos de data e hora;
- **Inconsistências textuais em campos categóricos**, como diferentes grafias ou erros de digitação na coluna `borough`;
- **Outliers numéricos**, incluindo valores negativos ou desproporcionalmente altos na coluna `collision_id`.

---

### 🎯 Finalidade

A intenção é que todas essas "sujidades" sirvam de base para aplicar, demonstrar e justificar cada uma das seguintes etapas:

- Diagnóstico de qualidade dos dados;
- Limpeza e padronização;
- Análise estatística descritiva;
- Visualizações exploratórias.

Esse processo permitirá documentar um ciclo completo de **Data Cleaning e EDA** com evidências práticas de cada decisão tomada.


### 🧹 Principais Etapas de Tratamento Realizadas

1. **Leitura dos dados com Pandas**, garantindo o correto reconhecimento dos tipos de variáveis;
2. **Padronização de nomes de colunas**, removendo espaços e caracteres especiais para facilitar o processamento;
3. **Análise e tratamento de valores nulos**, com a remoção ou substituição de registros incompletos nas colunas essenciais;
4. **Eliminação de duplicatas**, garantindo que cada registro de colisão seja único;
5. **Conversão de tipos de dados**, ajustando colunas de data, hora e numéricas para os formatos adequados;
6. **Pré-processamento adicional**, como criação de variáveis derivadas e categorização de atributos, quando aplicável.

In [None]:
# 📥 Leitura e Tratamento Inicial dos Dados

import pandas as pd
import numpy as np

# 1. Leitura dos dados
url = "https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/nyc_collisions_dirty.csv"
df = pd.read_csv(url)

# 2. Padronização dos nomes das colunas
df.columns = (
    df.columns.str.strip()
    .str.lower()
    .str.replace(" ", "_")
    .str.replace(r"[^0-9a-zA-Z_]", "", regex=True)
)

# 3. Diagnóstico inicial de valores nulos
print("\n🔎 Quantidade de valores nulos por coluna:")
print(df.isnull().sum())

# 4. Eliminação de duplicatas
print(f"\n📌 Total de registros antes da remoção de duplicatas: {len(df)}")
df = df.drop_duplicates()
print(f"📌 Total de registros após remoção de duplicatas: {len(df)}")

# 5. Conversão de tipos de dados
# Convertendo 'date' para datetime
df['date'] = pd.to_datetime(df['date'], errors='coerce')

# Convertendo 'time' permanece como texto por enquanto (vamos tratar nas próximas etapas)

# 6. Pré-processamento adicional (Exemplo: criar uma variável derivada de hora como numérica, nas próximas etapas)
# Aqui só garantimos a estrutura inicial

# Diagnóstico final da estrutura até este ponto
print("\n✅ Estrutura inicial do dataset após as primeiras etapas de tratamento:")
print(df.info())


In [None]:
# 🧹 Diagnóstico e Padronização de Borough

borough_mapping = {
    'QUEENS': 'QUEENS', 'QEENS': 'QUEENS',
    'BROOKLYN': 'BROOKLYN', 'BROKLYN': 'BROOKLYN', 'BROOKLINN': 'BROOKLYN', ' BROOKLYN': 'BROOKLYN',
    'BRONX': 'BRONX', 'BRNX': 'BRONX', 'BRONCKS': 'BRONX',
    'MANHATTAN': 'MANHATTAN', 'MANHATAN': 'MANHATTAN', 'MANHATTEN': 'MANHATTAN', ' MANHATTAN': 'MANHATTAN',
    'STATEN ISLAND': 'STATEN ISLAND', 'STATE ISLAND': 'STATEN ISLAND', 'STTEN ISLAND': 'STATEN ISLAND',
    'STATEN  ISLAND': 'STATEN ISLAND', 'STATEN ISLAND ': 'STATEN ISLAND',
    'NAN': 'UNKNOWN'
}

df['borough'] = (
    df['borough']
    .astype(str)
    .str.strip()
    .str.upper()
    .replace(borough_mapping)
)

df['borough'] = df['borough'].where(
    df['borough'].isin(['QUEENS', 'BROOKLYN', 'BRONX', 'MANHATTAN', 'STATEN ISLAND', 'UNKNOWN']),
    'UNKNOWN'
)

print("\n✅ Valores únicos após padronização de 'borough':")
print(df['borough'].value_counts())


## 🧹 Padronização Final da Coluna `borough`

Durante o diagnóstico detalhado da coluna `borough`, foi identificado um número significativo de inconsistências e variações de nomenclatura. Entre os problemas encontrados estavam:

- Erros de digitação (ex.: `QEENS`, `BROKLYN`, `BRONCKS`);
- Diferenças de capitalização (ex.: `manhattan`, `MANHATTEN`);
- Presença de espaços extras (ex.: `STATEN ISLAND `);
- Registros nulos ou com ausência de informação.

### ✔️ Estratégia Adotada:

- Criado um **dicionário de mapeamento** contendo todas as variações encontradas, associando-as ao nome oficial do borough correspondente;
- Valores nulos (`NaN`) e outros não reconhecidos foram categorizados como `"UNKNOWN"`;
- Foi aplicada uma última validação para garantir que, ao final, a coluna `borough` contivesse apenas os seguintes valores finais e padronizados:

| Valor Final |
|---|
| BROOKLYN |
| QUEENS |
| BRONX |
| MANHATTAN |
| STATEN ISLAND |
| UNKNOWN |

Essa padronização garante a consistência da variável nas próximas análises e visualizações.


## ✅ Estado Atual dos Dados

Após a realização das etapas iniciais de tratamento, o dataset encontra-se em condições adequadas para a execução da Análise Exploratória de Dados (EDA). As principais melhorias alcançadas até o momento incluem:

- **Estrutura uniforme:** Todas as colunas foram devidamente nomeadas e padronizadas no formato `snake_case`, eliminando espaços e caracteres especiais;
- **Remoção de duplicatas:** Registros duplicados foram identificados e eliminados, garantindo que cada linha represente uma ocorrência única de colisão;
- **Tratamento de tipos de dados:** A coluna de datas foi convertida para o formato adequado (`datetime`), o que facilita análises temporais futuras;
- **Padronização de categorias textuais:** Categorias como os valores da coluna `borough` passaram por um processo rigoroso de mapeamento e limpeza, consolidando todas as variações existentes em apenas seis categorias finais: `BROOKLYN`, `QUEENS`, `BRONX`, `MANHATTAN`, `STATEN ISLAND` e `UNKNOWN`;
- **Eliminação de nulos críticos:** Todas as colunas com incidência de nulos passaram por tratamento adequado. Valores ausentes em atributos categóricos foram preenchidos com `"UNKNOWN"`, enquanto registros com nulos críticos (como datas inválidas) foram removidos.

Esse cenário proporciona uma base sólida e confiável para a aplicação das técnicas de Análise Exploratória de Dados (EDA), permitindo análises mais seguras, consistentes e representativas da realidade dos acidentes de trânsito em Nova Iorque.


## 🩺 Análise Detalhada de Valores Nulos e Inconsistências

Nesta etapa, será realizada uma avaliação criteriosa das colunas que ainda apresentam valores nulos ou inconsistentes, visando garantir que os dados estejam prontos para análises estatísticas e gráficas.

A estratégia para tratamento de cada coluna será definida com base no percentual de nulos, na importância da variável e no impacto que a exclusão ou substituição pode causar nas análises futuras.


In [None]:
# 🩺 Diagnóstico Detalhado de Nulos e Inconsistências

import matplotlib.pyplot as plt

nulls = df.isnull().sum()
nulls_percent = (nulls / len(df)) * 100

nulls_df = pd.DataFrame({
    'Total de Nulos': nulls,
    'Percentual (%)': nulls_percent
})
nulls_df = nulls_df[nulls_df['Total de Nulos'] > 0].sort_values(by='Percentual (%)', ascending=False)

print("\n🔎 Colunas com nulos:")
print(nulls_df)

plt.figure(figsize=(10, 6))
nulls_df['Percentual (%)'].plot(kind='barh', color='salmon')
plt.title('Percentual de Nulos por Coluna')
plt.xlabel('% de Nulos')
plt.tight_layout()
plt.show()

# Datas inválidas
print(f"\nDatas inválidas (NaT): {df['date'].isna().sum()}")

# Times inválidos
invalid_times = df[~df['time'].astype(str).str.match(r'^\d{1,2}:\d{2}$', na=False)]
print(f"\nHorários inválidos: {len(invalid_times)}")
print("\nExemplos de horários inválidos:")
print(invalid_times['time'].unique())


## 🛠️ Plano de Tratamento de Valores Nulos e Dados Inválidos

Com base na análise detalhada de nulos e inconsistências, foi elaborado o seguinte plano de ação para garantir a qualidade do dataset antes de iniciar a exploração estatística e gráfica:

### ✔️ Estratégias por Coluna:

- **`date` (7,4% de nulos/NaT):**  
Por ser uma coluna temporal essencial, registros sem data serão excluídos, pois impactam diretamente em análises de tendência e sazonalidade.

- **`time` (5% de problemas de formato e nulos):**  
Registros com valores totalmente inválidos (exemplo: "midnight", NaN, ou horários fora do padrão HH:MM) serão excluídos. Para os demais, a coluna será convertida para o tipo `datetime.time`.

- **`zone` (~5% de nulos):**  
Será criada uma nova categoria chamada `"UNKNOWN"` para preencher os nulos, evitando perda de dados que podem ser úteis para outras análises.

- **Demais colunas com ~3% de nulos (`driver_age`, `weather_condition`, `vehicle_type`, `vehicle_year`, `contributing_factor`, `insurance_claim`):**  
Serão preenchidas com a categoria `"UNKNOWN"` ou, quando aplicável, com valores default, dependendo da natureza da coluna.

### ✔️ Resumo das Ações:

| Coluna | Estratégia |
|---|---|
| date | Remover registros com NaT |
| time | Remover registros com horários inválidos |
| zone | Preencher nulos com "UNKNOWN" |
| Demais colunas com nulos | Preencher com "UNKNOWN" ou valor default |

Após esses tratamentos, o dataset estará pronto para a Análise Exploratória (EDA).


In [None]:
# 🧹 Tratamento de Nulos e Dados Inválidos

# Remover registros com datas inválidas
df = df.dropna(subset=['date'])

# Remover horários inválidos
df = df[df['time'].astype(str).str.match(r'^\d{1,2}:\d{2}$', na=False)]

# Preencher nulos de 'zone' com 'UNKNOWN'
df['zone'] = df['zone'].fillna('UNKNOWN')

# Preencher demais colunas categóricas com 'UNKNOWN'
cols_to_fill = ['driver_age', 'weather_condition', 'vehicle_type', 'vehicle_year', 'contributing_factor', 'insurance_claim']
df[cols_to_fill] = df[cols_to_fill].fillna('UNKNOWN')

print("\n✅ Verificação de nulos após o tratamento:")
print(df.isnull().sum())


## ✅ Considerações Finais sobre o Tratamento de Dados

Após a aplicação das estratégias de limpeza e padronização, o dataset apresenta um cenário muito mais consistente e confiável para análises.

As principais melhorias alcançadas foram:

- **Redução significativa de registros inconsistentes:**  
Foram eliminados mais de 20 mil registros com problemas críticos de qualidade (nulos em campos essenciais, datas inválidas, horários incorretos e duplicatas).

- **Garantia de integridade temporal:**  
A coluna `date` agora está livre de registros inválidos e com formato adequado para análises temporais.

- **Uniformização de categorias:**  
Colunas como `borough`, `zone` e demais atributos categóricos passaram a adotar um padrão consistente, evitando problemas de segmentação nas análises.

- **Ausência de nulos remanescentes:**  
Após o tratamento, o dataset apresenta **zero valores nulos** em todas as colunas, o que elimina a necessidade de tratamentos adicionais durante as próximas etapas de Análise Exploratória de Dados (EDA).

Com esse cenário, o dataset está pronto para seguir para a próxima fase do projeto: **análises estatísticas, identificação de padrões e visualizações gráficas** que ajudarão a compreender melhor os fatores que influenciam os acidentes de trânsito na cidade de Nova Iorque.


## 🔎 Início da Análise Exploratória de Dados (EDA)

Com os dados devidamente tratados, limpos e padronizados, inicia-se agora a etapa de **Análise Exploratória de Dados (EDA)**.

O principal objetivo desta fase é:

- Investigar o comportamento das variáveis;
- Analisar distribuições, frequências e tendências;
- Identificar possíveis correlações e padrões escondidos nos dados;
- Explorar o relacionamento entre diferentes variáveis categóricas e numéricas;
- Gerar visualizações que apoiem a interpretação dos resultados.

Nesta etapa, serão aplicadas técnicas de **estatística descritiva** e **visualizações gráficas** para melhor compreensão do cenário dos acidentes de trânsito na cidade de Nova Iorque.

As análises a seguir buscam validar ou refutar as hipóteses levantadas na etapa anterior e ajudar a responder perguntas de negócio como:

- Quais **boroughs** concentram mais acidentes?
- Existe uma maior incidência de acidentes em determinados **horários do dia**?
- Há **diferenças na gravidade dos acidentes entre as regiões** da cidade?
- Existe alguma **sazonalidade ou tendência temporal** no número de acidentes?
- As **condições climáticas** impactam a frequência de colisões?
- Quais são os **principais fatores contribuintes** para os acidentes?
- Quais são os **tipos de veículos mais frequentemente envolvidos** nas ocorrências?

Cada uma dessas perguntas será abordada por meio de análises específicas nas próximas seções.


## 📌 Estatísticas Descritivas das Variáveis Numéricas

Nesta primeira análise estatística, foi gerado um resumo das principais variáveis numéricas do dataset.

Foram avaliados os seguintes indicadores:

- **Contagem total de registros (count)**
- **Média (mean)**
- **Desvio padrão (std)**
- **Mínimo (min) e Máximo (max)**
- **Quartis (25%, 50%, 75%)**

### ✔️ Principais Variáveis Analisadas:

- **`persons_injured`**: Número de pessoas feridas em cada acidente.
- **`persons_killed`**: Número de vítimas fatais por ocorrência.
- **`driver_age`**: Idade dos motoristas envolvidos nas colisões.
- **`vehicle_year`**: Ano de fabricação dos veículos envolvidos.
- **`time_converted`**: Hora do dia em que ocorreu o acidente, convertida para formato numérico (0 a 23).

### ✔️ Conexão com as Hipóteses:

- **Hipótese 3 (Severidade por Região):**  
A distribuição de **pessoas feridas e mortas por ocorrência** permitirá comparar a gravidade média dos acidentes entre os diferentes boroughs.

- **Hipótese 7 (Tipos de Veículos Mais Envolvidos):**  
A variável **`vehicle_year`** pode fornecer indícios sobre a idade média da frota envolvida nos acidentes, além de futuras análises sobre tipo de veículo.

### ✔️ Observações Iniciais:

Com base nos resultados obtidos:

- Há uma grande variação no número de feridos por acidente, com valores que vão de 0 até 6 pessoas feridas em um único evento.
- A maioria dos acidentes não resultou em vítimas fatais, o que é coerente com a realidade urbana de grandes centros.
- A idade média dos motoristas envolvidos está em torno de **48 anos**, com casos desde jovens de **18 anos** até motoristas com **79 anos**.

Este diagnóstico inicial serve como base para as análises visuais e segmentações que serão realizadas nas próximas etapas.


In [None]:
import seaborn as sns

# 1. Estatísticas descritivas para variáveis numéricas
# (Hipótese 3 e 7 - Severidade por região e Tipos de veículos envolvidos)
print("\n📌 Estatísticas Descritivas - Variáveis Numéricas:")
print(df.describe())

## 🏙️ Distribuição de Acidentes por Borough

Nesta etapa, foi criado um **gráfico de barras horizontal** mostrando o **número de acidentes registrados em cada Borough da cidade de Nova Iorque**.

### ✔️ Objetivo da Análise:

Esta análise busca validar a **Hipótese 1 – Concentração Geográfica**, que sugere que alguns boroughs, como **BROOKLYN** e **QUEENS**, apresentam maior número absoluto de acidentes devido à sua extensão territorial e densidade populacional.

### ✔️ Principais Observações:

- Todos os cinco boroughs oficiais estão representados na análise: **BROOKLYN**, **QUEENS**, **BRONX**, **MANHATTAN** e **STATEN ISLAND**.
- Foi mantida também a categoria `"UNKNOWN"`, que representa registros cuja localização geográfica não pôde ser identificada no dataset.
- A análise visual facilita a identificação das regiões com maior concentração de acidentes, o que pode subsidiar **decisões estratégicas de segurança viária**, como reforço de fiscalização e campanhas de conscientização em áreas críticas.


In [None]:
# 2. Distribuição de acidentes por Borough
# (Hipótese 1 - Concentração geográfica)
plt.figure(figsize=(10,6))
sns.countplot(y='borough', data=df, order=df['borough'].value_counts().index, palette='Blues_d')
plt.title('Número de Acidentes por Borough')
plt.xlabel('Quantidade de Acidentes')
plt.ylabel('Borough')
plt.tight_layout()
plt.show()

## 🕒 Distribuição de Acidentes por Horário do Dia

Nesta análise, foi construído um **histograma de frequência**, apresentando a **quantidade de acidentes por hora do dia**, com base nos registros da coluna `time`.

### ✔️ Objetivo da Análise:

Essa visualização busca validar a **Hipótese 2 – Horários de Pico**, que sugeria uma concentração maior de acidentes durante os períodos de maior fluxo de veículos, como início da manhã e final da tarde.

In [None]:
# 3. Distribuição de acidentes por horário do dia
# (Hipótese 2 - Horários de pico)
df['time_converted'] = pd.to_datetime(df['time'], format='%H:%M', errors='coerce').dt.hour
plt.figure(figsize=(10,6))
sns.histplot(df['time_converted'].dropna(), bins=24, kde=False, color='salmon')
plt.title('Distribuição de Acidentes por Hora do Dia')
plt.xlabel('Hora')
plt.ylabel('Número de Acidentes')
plt.tight_layout()
plt.show()

## 🚑 Distribuição de Pessoas Feridas por Borough

Nesta análise, foi utilizado um **boxplot** para explorar a **distribuição do número de pessoas feridas por acidente em cada Borough**.

### ✔️ Objetivo da Análise:

Esta visualização busca validar a **Hipótese 3 – Severidade por Região**, avaliando se existe **diferença na gravidade média dos acidentes entre os diferentes boroughs** da cidade de Nova Iorque.

In [None]:
# 4. Boxplot - Pessoas feridas por Borough
# (Hipótese 3 - Severidade por região)
plt.figure(figsize=(10,6))
sns.boxplot(x='borough', y='persons_injured', data=df, palette='Pastel1')
plt.title('Distribuição de Pessoas Feridas por Borough')
plt.xlabel('Borough')
plt.ylabel('Pessoas Feridas')
plt.tight_layout()
plt.show()

## 📅 Distribuição Temporal dos Acidentes

Nesta análise, foi realizada uma avaliação da **distribuição dos acidentes ao longo do tempo**, utilizando um **histograma de datas**.

### ✔️ Objetivo da Análise:

Esta visualização busca validar a **Hipótese 4 – Distribuição Temporal / Sazonalidade**, com o intuito de identificar possíveis **padrões sazonais**, **tendências de crescimento ou queda** no número de acidentes e a **ocorrência de períodos críticos com maior concentração de incidentes**.

A análise ao longo do tempo pode revelar variações mensais, sazonais ou decorrentes de eventos externos que impactam o trânsito da cidade.


In [None]:
# 5. Distribuição temporal dos acidentes
# (Hipótese 4 - Distribuição temporal / sazonalidade)
plt.figure(figsize=(12,6))
sns.histplot(df['date'], bins=50, kde=False, color='green')
plt.title('Distribuição de Acidentes ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Número de Acidentes')
plt.tight_layout()
plt.show()

## 🌦️ Análise de Condição Climática x Número de Acidentes

Nesta etapa, foi realizada uma análise para verificar a **relação entre as condições climáticas no momento da ocorrência e o número de acidentes registrados**.

### ✔️ Objetivo da Análise:

Essa visualização tem como foco validar a **Hipótese 5 – Influência das Condições Climáticas**, avaliando se há variação significativa no número de colisões de acordo com diferentes tipos de clima, como:

- Dias de céu limpo (**Clear**);
- Dias nublados (**Cloudy**);
- Presença de chuva (**Rain**), neve (**Snow**), neblina (**Fog**), tempestades (**Storm**), entre outros.

A análise permite avaliar se **condições meteorológicas adversas impactam a segurança no trânsito urbano de Nova Iorque**.


In [None]:
# 6. Análise de Condição Climática x Número de Acidentes
# (Hipótese 5 - Influência das condições climáticas)
plt.figure(figsize=(10,6))
sns.countplot(y='weather_condition', data=df, order=df['weather_condition'].value_counts().index, palette='coolwarm')
plt.title('Número de Acidentes por Condição Climática')
plt.xlabel('Quantidade de Acidentes')
plt.ylabel('Condição Climática')
plt.tight_layout()
plt.show()

## 🚦 Análise de Fatores Contribuintes para os Acidentes

Nesta etapa, foi realizada uma análise para identificar os **principais fatores contribuintes apontados nos registros de acidentes**, de acordo com a variável `contributing_factor`.

### ✔️ Objetivo da Análise:

Esta visualização busca validar a **Hipótese 6 – Fatores Humanos como Principais Causas**, verificando se as principais causas dos acidentes estão relacionadas a **comportamentos humanos**, como:

- Excesso de velocidade (**Speeding**),
- Direção sob efeito de álcool (**Drunk Driving**),
- Distração ao volante (**Distracted Driving**),
- Passar sinal vermelho (**Running Red Light**),
- Entre outros fatores operacionais e ambientais.

A análise foi realizada utilizando um **gráfico de barras horizontal**, exibindo os **10 fatores mais recorrentes** no conjunto de dados.


In [None]:
# 7. Análise de Fatores Contribuintes
# (Hipótese 6 - Fatores humanos como principais causas)
plt.figure(figsize=(10,6))
sns.countplot(y='contributing_factor', data=df, order=df['contributing_factor'].value_counts().head(10).index, palette='mako')
plt.title('Top 10 Fatores Contribuintes para os Acidentes')
plt.xlabel('Quantidade de Acidentes')
plt.ylabel('Fator Contribuinte')
plt.tight_layout()
plt.show()

## 🚗 Análise de Tipo de Veículo Envolvido

Nesta análise, foi avaliado o **tipo de veículo mais frequentemente envolvido nos acidentes de trânsito registrados no dataset**, utilizando a variável `vehicle_type`.

### ✔️ Objetivo da Análise:

Esta visualização busca validar a **Hipótese 7 – Tipos de Veículos Mais Envolvidos**, com o intuito de identificar quais categorias de veículos aparecem com maior frequência nas ocorrências.

Foram analisados os **10 tipos de veículos com maior número de registros de acidentes**, incluindo categorias como:

- Carros de passeio (**Car**),
- Caminhões (**Truck**),
- Motocicletas (**Motorcycle**),
- SUVs,
- Ônibus (**Bus**),
- Vans,
- Bicicletas (**Bicycle**), entre outros.

A análise foi apresentada por meio de um **gráfico de barras horizontal**, permitindo uma visão clara da predominância de cada tipo de veículo nas colisões urbanas.


In [None]:
# 8. Análise de Tipo de Veículo Envolvido
# (Hipótese 7 - Tipos de veículos mais envolvidos)
plt.figure(figsize=(10,6))
sns.countplot(y='vehicle_type', data=df, order=df['vehicle_type'].value_counts().head(10).index, palette='Set2')
plt.title('Top 10 Tipos de Veículos Envolvidos em Acidentes')
plt.xlabel('Quantidade de Acidentes')
plt.ylabel('Tipo de Veículo')
plt.tight_layout()
plt.show()


## ✅ Conclusões Finais

A realização deste MVP de Análise Exploratória de Dados (EDA) sobre acidentes de trânsito em Nova Iorque proporcionou uma experiência completa e prática das principais etapas de um projeto de Data Science aplicado.

### ✔️ Síntese das Etapas Realizadas:

O projeto seguiu uma estrutura metodológica consistente, contemplando:

- **Leitura e ingestão dos dados brutos**, com identificação de inconsistências já na carga inicial;
- **Tratamento extensivo de qualidade de dados**, incluindo padronização de colunas, eliminação de duplicatas, análise e correção de valores nulos, conversão de tipos e padronização de categorias;
- **Aplicação de pré-processamento adicional**, como criação de novas variáveis (ex.: conversão de horário) e categorização de registros com informações ausentes (ex.: uso da categoria `"UNKNOWN"` para boroughs indefinidos);
- **Execução de uma EDA completa**, com estatísticas descritivas, gráficos e análises segmentadas por variáveis-chave, cobrindo todas as **sete hipóteses de negócio definidas previamente**.

### ✔️ Principais Resultados Técnicos:

- Foi possível aplicar técnicas de diagnóstico de dados, como análise de distribuição de nulos, outliers, variáveis categóricas e numéricas;
- Foram geradas **diversas visualizações** (gráficos de barras, histogramas, boxplots) para facilitar a interpretação dos padrões presentes no dataset;
- As hipóteses levantadas foram testadas a partir de evidências extraídas diretamente dos dados, utilizando abordagens descritivas e comparativas.

### ✔️ Limitações do Dataset:

É fundamental destacar que este projeto utilizou um **dataset sintético e propositalmente manipulado**, criado com o objetivo exclusivo de fins didáticos.  
Essa característica trouxe algumas limitações relevantes para as análises, tais como:

- **Distribuição Artificial de Boroughs:**  
Todos os cinco boroughs oficiais de Nova Iorque (Brooklyn, Queens, Bronx, Manhattan e Staten Island) apresentaram quantidades de acidentes quase idênticas, o que não representa a realidade geográfica e demográfica da cidade.

- **Uniformidade Temporal:**  
A distribuição dos acidentes ao longo das horas do dia e dos meses apresentou comportamento praticamente uniforme, sem os picos típicos de horários de rush ou sazonalidades comuns em dados reais de trânsito.

- **Variabilidade Irreal nos Tipos de Veículos e Condições Climáticas:**  
A distribuição entre os tipos de veículos envolvidos e os fatores climáticos também apresentou um equilíbrio pouco plausível, resultado da geração aleatória de categorias no dataset sujo.

Estas limitações foram intencionalmente mantidas para que as etapas de **limpeza, padronização, diagnóstico e análise exploratória** fossem plenamente exercitadas e demonstradas ao longo do MVP.

### ✔️ Reflexões sobre o Processo:

Apesar das limitações inerentes aos dados, o projeto atingiu seu objetivo principal: **comprovar a capacidade de aplicar com sucesso todas as fases da Análise Exploratória de Dados, desde a preparação bruta até a geração de insights visuais e estatísticos.**

Foram tomadas decisões críticas a cada etapa, como:

- Escolha das estratégias de tratamento de nulos (remoção, substituição ou categorização);
- Definição de critérios para padronização de textos e formatos de datas;
- Escolha dos tipos de visualizações mais adequados para cada hipótese.

### ✔️ Recomendações para Trabalhos Futuros:

Caso o projeto venha a ser replicado ou evoluído, recomenda-se:

- Adoção de **datasets reais e representativos**, como o NYC Open Data, para garantir maior validade estatística;
- Inclusão de técnicas de **análise geoespacial**, como heatmaps por latitude e longitude dos acidentes;
- Exploração de **modelos preditivos**, como regressão ou árvores de decisão, para antecipar o risco de acidentes;
- Expansão para análises multivariadas, explorando correlações entre múltiplos fatores de risco.

---


## ✅ Autoavaliação

A realização deste MVP foi uma experiência desafiadora e extremamente valiosa para o meu desenvolvimento acadêmico e profissional na área de Ciência de Dados.

### ✔️ Evolução Técnica e Aprendizados:

Ao longo deste projeto, pude consolidar diversos conceitos teóricos vistos durante o curso e, principalmente, aplicar na prática técnicas essenciais para o ciclo de vida de um projeto de dados. Entre os principais aprendizados, destaco:

- **Domínio das etapas de limpeza de dados:**  
Fui capaz de identificar, diagnosticar e tratar problemas reais de qualidade de dados, incluindo a detecção de valores nulos, inconsistências em categorias textuais, erros de digitação, tipos de dados incorretos e registros duplicados. Essa etapa me fez entender com profundidade como a qualidade dos dados impacta diretamente a confiabilidade das análises.

- **Padronização e pré-processamento de dados:**  
Desenvolvi um fluxo de pré-processamento robusto, com a aplicação de boas práticas como padronização de nomenclatura de colunas, criação de variáveis derivadas (como a transformação de horários em variáveis numéricas), e categorização de dados faltantes com a criação da categoria `"UNKNOWN"`. Essas etapas foram fundamentais para garantir a integridade dos dados antes da Análise Exploratória.

- **Planejamento e execução da Análise Exploratória (EDA):**  
Aprendi a estruturar uma EDA completa, alinhando cada bloco de análise às hipóteses de negócio definidas previamente. Consegui criar uma sequência lógica de análises, desde as estatísticas descritivas iniciais até a exploração gráfica de variáveis categóricas e numéricas, sempre com foco em validar ou refutar as hipóteses estabelecidas.

- **Interpretação crítica dos resultados:**  
Mesmo trabalhando com um dataset sintético, fui capaz de manter um olhar crítico sobre os resultados obtidos, reconhecendo as limitações estatísticas decorrentes da artificialidade dos dados e evitando generalizações indevidas.

### ✔️ Dificuldades Encontradas:

O maior desafio foi lidar com a natureza propositalmente desestruturada do dataset fornecido. Isso exigiu:

- Tomada de decisão sobre como tratar inconsistências que não existiriam em um dataset real (exemplo: distribuição artificialmente uniforme entre boroughs);
- Cuidados extras na padronização de categorias, garantindo que todas as transformações fossem feitas de forma consistente em todo o pipeline;
- Reestruturação de alguns blocos do notebook para garantir a linearidade e legibilidade das análises, evitando o uso de múltiplos dataframes intermediários, que poderiam causar inconsistências nas etapas finais.

Além disso, manter o alinhamento rigoroso ao template oficial do MVP exigiu disciplina na organização das seções, validação de requisitos e controle de qualidade do conteúdo apresentado.

### ✔️ Desenvolvimento de Soft Skills:

O projeto também me ajudou a aprimorar competências como:

- **Organização e estruturação lógica de um trabalho técnico de dados**;
- **Comunicação clara de resultados técnicos através de textos explicativos e gráficos**;
- **Capacidade de autocrítica para reconhecer limitações do trabalho e sugerir melhorias futuras**.

### ✔️ Pontos de Melhoria para Projetos Futuros:

Se pudesse refazer ou ampliar este projeto, eu incluiria:

- Uma etapa de **análise geoespacial**, utilizando latitude e longitude dos acidentes para gerar heatmaps;
- Uma análise temporal mais aprofundada, cruzando variáveis como data, horário e tipo de acidente;
- O uso de dados reais (como o NYC Open Data) para comparar os aprendizados obtidos com o dataset sintético;
- Um pipeline de automação das etapas de diagnóstico de dados, para tornar o processo mais eficiente e replicável.

### ✔️ Considerações Finais:

Este MVP representou muito mais do que uma simples entrega acadêmica. Ele foi uma oportunidade real de colocar em prática os conceitos fundamentais de Engenharia de Dados e Ciência de Dados, reforçando minha capacidade de:

- Realizar um diagnóstico completo de um dataset;
- Limpar, transformar e preparar os dados para análise;
- Estruturar uma Análise Exploratória de Dados completa e orientada por hipóteses de negócio;
- Documentar o processo de forma clara, objetiva e tecnicamente rigorosa.

Sinto que este projeto elevou meu nível de maturidade como profissional de dados e me deixou mais preparado para atuar em desafios reais no mercado.

Concluo este MVP com o sentimento de missão cumprida e com a certeza de que a experiência adquirida aqui será um diferencial importante na minha trajetória na área de Ciência de Dados.
