# üö¶ Acidentes de Tr√¢nsito em Nova Iorque: Continua√ß√£o Explorat√≥ria

> *Este projeto d√° continuidade ao MVP anterior desenvolvido com foco em aprendizado de m√°quina, intitulado "Predi√ß√£o de Gravidade em Acidentes de Tr√¢nsito em NY" ([GitHub](https://github.com/RobertoSacoman/Estudos/blob/main/MVP_ML_Acidentes_Transito_NY.ipynb)). Agora, a abordagem se expande com um pipeline de dados robusto, estruturado segundo princ√≠pios de Data Engineering e Data Warehousing.*

---

<img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/acidente%20de%20transito%20-%20NY.jpg" alt="Acidente de Tr√¢nsito em NY" width="1200"/>

## üìç Introdu√ß√£o

Com mais de 8 milh√µes de habitantes e um fluxo di√°rio intenso de ve√≠culos, Nova Iorque √© palco de uma das malhas urbanas mais desafiadoras do mundo. O tr√¢nsito, al√©m de ser essencial para o funcionamento da cidade, representa um constante risco √† vida, √† infraestrutura e √† mobilidade urbana.

O objetivo deste estudo √© explorar, tratar e modelar dados de acidentes de tr√¢nsito em NY, utilizando tecnologias de Big Data e arquiteturas de Data Lake/Data Warehouse, em um processo completo de ETL, an√°lise da qualidade dos dados e constru√ß√£o de modelo dimensional.

---

## üìä Por que estudar os Acidentes em NY?

A seguran√ßa vi√°ria √© um tema cr√≠tico em √°reas metropolitanas, e em Nova Iorque os desafios se destacam por fatores como:

- **Alta densidade de tr√°fego**: congestionamentos frequentes, especialmente em cruzamentos movimentados;
- **Comportamentos arriscados**: uso de celular ao volante, dire√ß√£o sob efeito de √°lcool, excesso de velocidade;
- **Diversidade modal**: ciclistas, pedestres, motoristas e ve√≠culos de entrega disputam o mesmo espa√ßo urbano;
- **Influ√™ncia do clima**: chuva, gelo e neve impactam diretamente na ocorr√™ncia de colis√µes.

Esses fatores tornam Nova Iorque um **laborat√≥rio real para an√°lise de dados complexos e multivariados** no contexto urbano.

---

## üéØ Objetivo deste MVP

Este projeto busca:

1. Realizar a ingest√£o e o tratamento de um conjunto robusto de dados p√∫blicos sobre colis√µes;
2. Conduzir uma an√°lise explorat√≥ria com foco em qualidade, padroniza√ß√£o e enriquecimento dos dados;
3. Modelar os dados em estrutura estrela ou flat, facilitando visualiza√ß√µes e an√°lises futuras;
4. Identificar fatores-chave de risco e padr√µes de comportamento urbano relacionados a acidentes.

---

## üß¨ Diferenciais em rela√ß√£o ao MVP anterior

Enquanto o MVP anterior teve como foco **a modelagem preditiva com Machine Learning**, este trabalho se concentra em:

- Engenharia de dados e pipelines
- Qualidade e prepara√ß√£o de dados para relat√≥rios e dashboards
- Estrutura√ß√£o anal√≠tica com **cat√°logo de dados e modelo dimensional**
- Apoio a decis√µes estrat√©gicas com base em dados confi√°veis

---

> ‚ÄúDados mal estruturados geram decis√µes mal direcionadas. Com este projeto, busco transformar informa√ß√£o bruta em insights confi√°veis e aplic√°veis √† seguran√ßa urbana de NY.‚Äù


## üß¨ Linhagem dos Dados

A seguir, √© apresentada a linhagem dos dados deste projeto, descrevendo a trajet√≥ria desde a origem at√© a estrutura√ß√£o na camada Silver.

---

### üìç Origem dos Dados

- **Fonte**: Dataset p√∫blico sobre colis√µes de tr√¢nsito na cidade de Nova Iorque (NYC Open Data).
- **Formato**: Arquivo CSV contendo registros de acidentes com colunas como data, localiza√ß√£o, tipo de ve√≠culo, feridos, mortos e fator contribuinte.
- **Caminho de ingest√£o**:  
  `dbfs:/FileStore/tables/nyc_collisions_original.csv`

---

### üü´ Camada Bronze ‚Äì Dados Brutos

- **Objetivo**: Armazenar os dados exatamente como foram recebidos, preservando o conte√∫do original.
- **Transforma√ß√µes aplicadas**:
  - Leitura do CSV com `inferSchema = True`
  - Renomea√ß√£o de colunas para remover caracteres inv√°lidos (espa√ßos, s√≠mbolos)
- **Armazenamento**:  
  `dbfs:/FileStore/bronze/nyc_collisions`  
  (Formato: Delta Lake)

---

### ü™ô Camada Silver ‚Äì Dados Tratados

- **Objetivo**: Padronizar, limpar e preparar os dados para an√°lises e modelagens.
- **Transforma√ß√µes aplicadas**:
  - Remo√ß√£o de registros com valores nulos em colunas essenciais (`collision_id`, `date`, `time`, `vehicle_type`)
  - Elimina√ß√£o de duplicatas com base na coluna `collision_id`
  - Infer√™ncia de tipos e estrutura√ß√£o uniforme
- **Armazenamento**:  
  `dbfs:/FileStore/silver/nyc_collisions_clean`  
  (Formato: Delta Lake)


In [0]:
# üü´ Bronze: leitura e limpeza dos nomes de colunas
df_bronze = spark.read.option("header", True).option("inferSchema", True).csv("dbfs:/FileStore/tables/nyc_collisions_original.csv")

# Renomear colunas removendo caracteres inv√°lidos
for col_name in df_bronze.columns:
    new_col = col_name.strip().lower().replace(" ", "_").replace("/", "_")
    new_col = "".join(c for c in new_col if c.isalnum() or c == "_")
    df_bronze = df_bronze.withColumnRenamed(col_name, new_col)

# üîÑ Salvar como Delta no FileStore (camada Bronze)
df_bronze.write.format("delta").mode("overwrite").save("dbfs:/FileStore/bronze/nyc_collisions")

In [0]:
# Leitura da camada Bronze no FileStore
df_bronze = spark.read.format("delta").load("dbfs:/FileStore/bronze/nyc_collisions")

# Limpeza b√°sica: remover nulos e duplicatas
df_silver = df_bronze.dropna(subset=["collision_id", "date", "time", "vehicle_type"]) \
                     .dropDuplicates(["collision_id"])

# Salvar como Delta no FileStore (camada Silver)
df_silver.write.format("delta").mode("overwrite").save("dbfs:/FileStore/silver/nyc_collisions_clean")

In [0]:
from pyspark.sql.functions import col
import pandas as pd

# Leitura da camada Silver do FileStore
df_silver = spark.read.format("delta").load("dbfs:/FileStore/silver/nyc_collisions_clean")


# Obter tipos de dados
schema_info = [(field.name, str(field.dataType)) for field in df_silver.schema]

# Inicializar listas para o cat√°logo
catalog = []

# Coleta de estat√≠sticas
for col_name, dtype in schema_info:
    col_data = df_silver.select(col_name)
    entry = {
        "Column Name": col_name,
        "Data Type": dtype,
        "Nullable": col_data.filter(col(col_name).isNull()).count() > 0
    }

    if "StringType" in dtype:
        entry["Unique Values (sample)"] = col_data.distinct().limit(10).rdd.flatMap(lambda x: x).collect()
    elif "IntegerType" in dtype or "DoubleType" in dtype or "LongType" in dtype:
        stats = col_data.describe().filter(col("summary").isin("min", "max")).toPandas()
        entry["Min"] = stats[stats["summary"] == "min"][col_name].values[0]
        entry["Max"] = stats[stats["summary"] == "max"][col_name].values[0]
    else:
        entry["Note"] = "Non-standard or complex type"

    catalog.append(entry)

# Converter para DataFrame Pandas para exportar/visualizar
catalog_df = pd.DataFrame(catalog)

# Exibir no Databricks
display(spark.createDataFrame(catalog_df))


Column Name,Data Type,Nullable,Min,Max,Note,Unique Values (sample)
collision_id,IntegerType(),False,1.0,200000.0,,
date,DateType(),False,,,Non-standard or complex type,
time,TimestampType(),False,,,Non-standard or complex type,
borough,StringType(),True,,,,"List(Queens, null, Brooklyn, Staten Island, Manhattan, Bronx)"
zone,StringType(),False,,,,"List(South, Central, East, West, North)"
intersection,StringType(),False,,,,"List(No, Yes)"
vehicle_type,StringType(),False,,,,"List(Bicycle, Motorcycle, SUV, Car, Truck, Van, Bus)"
vehicle_brand,StringType(),False,,,,"List(Yamaha, Chevrolet, Hyundai, Honda, Mercedes, BMW, Toyota, Ford)"
vehicle_year,DoubleType(),True,1995.0,2023.0,,
driver_age,DoubleType(),True,18.0,79.0,,


In [0]:
from pyspark.sql.functions import monotonically_increasing_id, year, month, dayofmonth, col, sum as _sum, countDistinct

# Leitura da camada Silver do FileStore
df_silver = spark.read.format("delta").load("dbfs:/FileStore/silver/nyc_collisions_clean")

# ==========================
# üîπ DIMENS√ïES
# ==========================

dim_tempo = df_silver.select("date", "time").dropDuplicates() \
    .withColumn("tempo_id", monotonically_increasing_id()) \
    .withColumn("ano", year("date")) \
    .withColumn("mes", month("date")) \
    .withColumn("dia", dayofmonth("date"))

dim_local = df_silver.select("borough", "zone", "intersection").dropDuplicates() \
    .withColumn("local_id", monotonically_increasing_id())

dim_veiculo = df_silver.select("vehicle_type", "vehicle_brand", "vehicle_year").dropDuplicates() \
    .withColumn("veiculo_id", monotonically_increasing_id())

dim_motorista = df_silver.select("driver_age", "driver_gender", "license_status").dropDuplicates() \
    .withColumn("motorista_id", monotonically_increasing_id())

dim_clima = df_silver.select("weather_condition", "visibility", "road_surface").dropDuplicates() \
    .withColumn("clima_id", monotonically_increasing_id())

dim_fator = df_silver.select("contributing_factor").dropDuplicates() \
    .withColumn("fator_id", monotonically_increasing_id())

dim_seguro = df_silver.select("insurance_claim").dropDuplicates() \
    .withColumn("seguro_id", monotonically_increasing_id())

dim_alcool = df_silver.select("alcohol_involved").dropDuplicates() \
    .withColumn("alcool_id", monotonically_increasing_id())

dim_ocorrencia = df_silver.select("incident_status").dropDuplicates() \
    .withColumn("ocorrencia_id", monotonically_increasing_id())

dim_policial = df_silver.select("police_report_filed", "property_damage").dropDuplicates() \
    .withColumn("policial_id", monotonically_increasing_id())

# ==========================
# üü¶ FATOS
# ==========================

# üî∏ Fato 1: Tempo + Local
fato_tempo_local = df_silver \
    .join(dim_tempo, ["date", "time"], "left") \
    .join(dim_local, ["borough", "zone", "intersection"], "left") \
    .groupBy("tempo_id", "local_id") \
    .agg(
        countDistinct("collision_id").alias("total_colisoes"),
        _sum("persons_injured").alias("total_feridos"),
        _sum("persons_killed").alias("total_mortos")
    )

# üî∏ Fato 2: Ve√≠culo + Motorista
fato_veiculo_motorista = df_silver \
    .join(dim_veiculo, ["vehicle_type", "vehicle_brand", "vehicle_year"], "left") \
    .join(dim_motorista, ["driver_age", "driver_gender", "license_status"], "left") \
    .groupBy("veiculo_id", "motorista_id") \
    .agg(
        countDistinct("collision_id").alias("qtd_colisoes"),
        _sum(col("property_damage").cast("int")).alias("qtd_danos_materiais")
    )
    
# Caminho base da camada Gold no FileStore
gold_path = "dbfs:/FileStore/gold/"

# üü® Salvar dimens√µes
dim_tempo.write.format("delta").mode("overwrite").save(f"{gold_path}dim_tempo")
dim_local.write.format("delta").mode("overwrite").save(f"{gold_path}dim_local")
dim_veiculo.write.format("delta").mode("overwrite").save(f"{gold_path}dim_veiculo")
dim_motorista.write.format("delta").mode("overwrite").save(f"{gold_path}dim_motorista")
dim_clima.write.format("delta").mode("overwrite").save(f"{gold_path}dim_clima")
dim_fator.write.format("delta").mode("overwrite").save(f"{gold_path}dim_fator")
dim_seguro.write.format("delta").mode("overwrite").save(f"{gold_path}dim_seguro")
dim_alcool.write.format("delta").mode("overwrite").save(f"{gold_path}dim_alcool")
dim_ocorrencia.write.format("delta").mode("overwrite").save(f"{gold_path}dim_ocorrencia")
dim_policial.write.format("delta").mode("overwrite").save(f"{gold_path}dim_policial")

# üü¶ Salvar fatos
fato_tempo_local.write.format("delta").mode("overwrite").save(f"{gold_path}fato_tempo_local")
fato_veiculo_motorista.write.format("delta").mode("overwrite").save(f"{gold_path}fato_veiculo_motorista")


## ü•á Camada Gold: Modelagem Dimensional e Tabelas de Neg√≥cio

Ap√≥s o tratamento e a padroniza√ß√£o dos dados na camada Silver, iniciamos a constru√ß√£o da **camada Gold**. Esta camada representa o est√°gio mais maduro do pipeline de dados, onde os dados est√£o prontos para an√°lises explorat√≥rias, constru√ß√£o de dashboards e apoio √† tomada de decis√£o.

A camada Gold foi desenhada utilizando a t√©cnica de **modelagem dimensional em Esquema Estrela (Star Schema)**, que organiza os dados em **tabelas de fato** e **tabelas de dimens√£o**, otimizando tanto a performance das consultas quanto a clareza do modelo anal√≠tico.

---

### ‚úÖ Estrutura Criada

Foram definidas e constru√≠das:

- üîü **Tabelas de Dimens√£o**, que descrevem os atributos contextuais dos eventos
- ‚úåÔ∏è **Tabelas de Fato**, que consolidam os dados quantitativos dos acidentes

Essa modelagem foi inteiramente baseada nas colunas reais existentes no dataset da camada Silver, respeitando os crit√©rios de granularidade e normaliza√ß√£o.

- **Armazenamento**:  
  `dbfs:/FileStore/gold`  
  (Formato: Delta Lake)
---

### üîπ Tabelas de Dimens√£o

1. **dim_tempo** ‚Äì Data e hora com campos derivados de ano, m√™s e dia.
2. **dim_local** ‚Äì Localiza√ß√£o geogr√°fica (bairro, zona e interse√ß√£o).
3. **dim_veiculo** ‚Äì Tipo, marca e ano do ve√≠culo.
4. **dim_motorista** ‚Äì Faixa et√°ria, g√™nero e status da habilita√ß√£o.
5. **dim_clima** ‚Äì Condi√ß√µes meteorol√≥gicas e da via no momento da colis√£o.
6. **dim_fator** ‚Äì Fatores contribuintes para o acidente (ex.: distra√ß√£o).
7. **dim_seguro** ‚Äì Presen√ßa de registro de sinistro.
8. **dim_alcool** ‚Äì Presen√ßa ou n√£o de √°lcool no incidente.
9. **dim_ocorrencia** ‚Äì Situa√ß√£o do incidente (finalizado, em aberto, etc).
10. **dim_policial** ‚Äì Relato de boletim de ocorr√™ncia e danos materiais.

---

### üü¶ Tabelas de Fato

1. **fato_tempo_local** ‚Äì Agrega n√∫mero de colis√µes, feridos e mortos por tempo e local.
2. **fato_veiculo_motorista** ‚Äì Relaciona colis√µes e danos materiais ao tipo de ve√≠culo e motorista envolvido.

Cada dimens√£o recebeu uma **chave substituta (ID √∫nico)** gerada artificialmente para permitir os relacionamentos com as tabelas fato.

---

### üì¶ Pr√≥ximos Passos

Agora que a modelagem foi estabelecida logicamente, daremos sequ√™ncia √† **cria√ß√£o f√≠sica dessas tabelas**, salvando-as em **formato Delta Lake** no diret√≥rio `/mnt/datalake/gold/`. Em seguida, todas elas ser√£o registradas no cat√°logo do Databricks, tornando-se acess√≠veis via SQL e ferramentas de visualiza√ß√£o.



In [0]:
%sql

-- Tabelas de dimens√£o
CREATE TABLE default.dim_tempo
USING DELTA
LOCATION 'dbfs:/FileStore/gold/dim_tempo';

CREATE TABLE default.dim_local
USING DELTA
LOCATION 'dbfs:/FileStore/gold/dim_local';

CREATE TABLE default.dim_veiculo
USING DELTA
LOCATION 'dbfs:/FileStore/gold/dim_veiculo';

CREATE TABLE default.dim_motorista
USING DELTA
LOCATION 'dbfs:/FileStore/gold/dim_motorista';

CREATE TABLE default.dim_clima
USING DELTA
LOCATION 'dbfs:/FileStore/gold/dim_clima';

CREATE TABLE default.dim_fator
USING DELTA
LOCATION 'dbfs:/FileStore/gold/dim_fator';

CREATE TABLE default.dim_seguro
USING DELTA
LOCATION 'dbfs:/FileStore/gold/dim_seguro';

CREATE TABLE default.dim_alcool
USING DELTA
LOCATION 'dbfs:/FileStore/gold/dim_alcool';

CREATE TABLE default.dim_ocorrencia
USING DELTA
LOCATION 'dbfs:/FileStore/gold/dim_ocorrencia';

CREATE TABLE default.dim_policial
USING DELTA
LOCATION 'dbfs:/FileStore/gold/dim_policial';

-- Tabelas de fato
CREATE TABLE default.fato_tempo_local
USING DELTA
LOCATION 'dbfs:/FileStore/gold/fato_tempo_local';

CREATE TABLE default.fato_veiculo_motorista
USING DELTA
LOCATION 'dbfs:/FileStore/gold/fato_veiculo_motorista';


## ‚úÖ Registro no Cat√°logo do Databricks

Ap√≥s a estrutura√ß√£o da modelagem em estrela e a carga das tabelas em formato Delta na camada Gold, realizamos o **registro das tabelas no cat√°logo do Databricks**, tornando-as acess√≠veis via interface gr√°fica, SQL e ferramentas de BI.

Utilizamos o seguinte padr√£o de comando para registrar cada tabela:

```sql
CREATE TABLE IF NOT EXISTS default.nome_da_tabela
USING DELTA
LOCATION '/FileStore/gold/nome_da_tabela';

## üìÅ Resultado Final: Tabelas no Cat√°logo

As tabelas agora est√£o dispon√≠veis para consulta com SQL, an√°lises explorat√≥rias, constru√ß√£o de dashboards e integra√ß√£o com ferramentas como Power BI ou Tableau.

## üß© Organiza√ß√£o do Modelo Dimensional
A modelagem seguiu a abordagem de Esquema Estrela (Star Schema), conforme recomendado para ambientes anal√≠ticos. As tabelas foram divididas da seguinte forma:

üîπ Tabelas de Dimens√£o
dim_tempo: data, hora, ano, m√™s e dia.

dim_local: bairro, zona e interse√ß√£o.

dim_veiculo: tipo, marca e ano do ve√≠culo.

dim_motorista: idade, g√™nero e status da habilita√ß√£o.

dim_clima: condi√ß√µes do tempo, visibilidade e superf√≠cie.

dim_fator: fator contribuinte do acidente.

dim_seguro: status de solicita√ß√£o de seguro.

dim_alcool: envolvimento de √°lcool no acidente.

dim_ocorrencia: status da ocorr√™ncia.

dim_policial: ocorr√™ncia policial e danos materiais.

üü¶ Tabelas de Fato
fato_tempo_local: total de colis√µes, feridos e mortos por tempo e local.

fato_veiculo_motorista: n√∫mero de colis√µes e danos por tipo de ve√≠culo e motorista.

Cada dimens√£o possui um ID √∫nico (surrogate key) que permite o relacionamento com as tabelas de fato, compondo o modelo estrela e facilitando a an√°lise multidimensional.

In [0]:
from pyspark.sql.functions import col, when, count

# Verificar nulos por coluna (sem usar isnan)
df_silver.select([
    count(when(col(c).isNull(), c)).alias(c)
    for c in df_silver.columns
]).display()


collision_id,date,time,borough,zone,intersection,vehicle_type,vehicle_brand,vehicle_year,driver_age,driver_gender,license_status,weather_condition,visibility,road_surface,contributing_factor,persons_injured,persons_killed,property_damage,alcohol_involved,police_report_filed,insurance_claim,incident_status
0,0,0,3190,0,0,0,0,3185,3227,0,0,3194,0,0,3170,0,0,0,0,0,3269,0


## üîç Parte A ‚Äî An√°lise da Qualidade dos Dados

Realizamos uma varredura completa nas colunas do dataset tratado (`df_silver`) para verificar a presen√ßa de valores ausentes (nulos). A an√°lise de qualidade de dados √© essencial para garantir que as an√°lises futuras e os modelos constru√≠dos estejam baseados em informa√ß√µes confi√°veis e consistentes.

### üìä Resultados da An√°lise de Nulos

| Coluna                 | Valores Nulos |
|------------------------|----------------|
| borough                | 3190           |
| vehicle_year           | 3185           |
| driver_age             | 3227           |
| weather_condition      | 3194           |
| contributing_factor    | 3170           |
| insurance_claim        | 3269           |
| (Demais colunas)       | 0              |

> **Observa√ß√£o**: Todas as outras colunas relevantes para o projeto n√£o apresentaram nulos, incluindo `collision_id`, `date`, `time`, `vehicle_type`, `persons_injured`, `property_damage` e `incident_status`.

---

### ‚úÖ Conclus√µes

- As colunas com maior √≠ndice de aus√™ncia s√£o majoritariamente de **atributos complementares** (ex: clima, fator contribuinte, status de seguro).
- As colunas **chave para agrega√ß√µes e an√°lises principais** (ex: data, tipo de ve√≠culo, feridos, mortes) est√£o completas.
- Os dados foram filtrados na camada **Silver** com remo√ß√£o de nulos cr√≠ticos (`collision_id`, `date`, `vehicle_type`), como definido na etapa de ETL.

---

### üßº Medidas tomadas

- Dados incompletos em campos secund√°rios **n√£o foram removidos**, para preservar volume e granularidade.
- As an√°lises e agrega√ß√µes nas tabelas fato foram feitas com base apenas em colunas que apresentavam qualidade satisfat√≥ria.

---

Com isso, validamos que o conjunto est√° apto para avan√ßarmos √† **Parte B ‚Äî An√°lise das Perguntas-Chave do Projeto**.


In [0]:
%sql
-- Top bairros com maior n√∫mero de colis√µes
SELECT 
  l.borough,
  COUNT(f.total_colisoes) AS total_colisoes
FROM default.fato_tempo_local f
JOIN default.dim_local l ON f.local_id = l.local_id
WHERE l.borough IS NOT NULL
GROUP BY l.borough
ORDER BY total_colisoes DESC


borough,total_colisoes
Manhattan,39487
Brooklyn,39402
Queens,39379
Bronx,39271
Staten Island,39028


## üéØ Pergunta 1: Quais s√£o os bairros (boroughs) com maior n√∫mero de colis√µes registradas?

Esta an√°lise busca identificar os bairros de Nova Iorque com maior concentra√ß√£o de colis√µes de tr√¢nsito, com base nos dados da tabela `fato_tempo_local` conectada √† dimens√£o `dim_local`.

### üìå Resultado:
| Borough       | Total de Colis√µes |
|---------------|-------------------|
| Manhattan     | 39.487            |
| Brooklyn      | 39.402            |
| Queens        | 39.379            |
| Bronx         | 39.271            |
| Staten Island | 39.028            |

### üìà Interpreta√ß√£o:
Todos os 5 boroughs apresentaram quantidades de colis√µes muito pr√≥ximas entre si, indicando que os acidentes s√£o amplamente distribu√≠dos pela cidade. Manhattan lidera o ranking, o que pode ser explicado pelo tr√°fego intenso e maior densidade populacional.

---


In [0]:
%sql
-- Distribui√ß√£o de colis√µes por hora do dia
SELECT
  HOUR(t.time) AS hora_dia,
  COUNT(f.total_colisoes) AS total_colisoes
FROM default.fato_tempo_local f
JOIN default.dim_tempo t ON f.tempo_id = t.tempo_id
WHERE t.time IS NOT NULL
GROUP BY HOUR(t.time)
ORDER BY hora_dia ASC;


hora_dia,total_colisoes
0,8254
1,8219
2,8373
3,8449
4,8401
5,8321
6,8403
7,8296
8,8497
9,8376


## üéØ Pergunta 2: Qual a distribui√ß√£o de colis√µes por hora do dia?

Esta an√°lise tem como objetivo identificar os hor√°rios do dia com maior incid√™ncia de colis√µes de tr√¢nsito, com base na tabela `fato_tempo_local` conectada √† dimens√£o `dim_tempo`. A ideia √© entender em quais per√≠odos do dia os acidentes ocorrem com maior frequ√™ncia, o que pode estar relacionado ao fluxo de tr√°fego, hor√°rios de pico ou visibilidade.

### üìå Resultado:

A tabela abaixo mostra a quantidade total de colis√µes registradas por hora do dia (de 0h a 23h):

| Hora do Dia | Total de Colis√µes |
|-------------|-------------------|
| 00:00       | 8.254             |
| 01:00       | 8.219             |
| 02:00       | 8.373             |
| 03:00       | 8.449             |
| 04:00       | 8.401             |
| 05:00       | 8.321             |
| 06:00       | 8.403             |
| 07:00       | 8.296             |
| 08:00       | 8.497             |
| 09:00       | 8.376             |
| 10:00       | 8.201             |
| 11:00       | 8.316             |
| 12:00       | 8.180             |
| 13:00       | 8.206             |
| 14:00       | 8.335             |
| 15:00       | 8.431             |
| 16:00       | 8.393             |
| 17:00       | 8.271             |
| 18:00       | 8.436             |
| 19:00       | 8.210             |
| 20:00       | 8.286             |
| 21:00       | 8.246             |
| 22:00       | 8.194             |
| 23:00       | 8.461             |

### üìà Interpreta√ß√£o:

O hor√°rio com maior n√∫mero de colis√µes √© **23:00**, com **8.461** ocorr√™ncias. Em seguida, os hor√°rios entre **15h e 18h** tamb√©m apresentam alta concentra√ß√£o de acidentes, sugerindo maior risco durante o final da tarde e in√≠cio da noite ‚Äî per√≠odos comumente associados ao tr√°fego de sa√≠da do trabalho.

---


In [0]:
%sql
-- Top tipos de ve√≠culos mais envolvidos em colis√µes
SELECT 
  v.vehicle_type,
  COUNT(f.qtd_colisoes) AS total_colisoes
FROM default.fato_veiculo_motorista f
JOIN default.dim_veiculo v ON f.veiculo_id = v.veiculo_id
WHERE v.vehicle_type IS NOT NULL
GROUP BY v.vehicle_type
ORDER BY total_colisoes DESC


vehicle_type,total_colisoes
Van,24161
SUV,24069
Motorcycle,24055
Truck,23955
Bicycle,23837
Bus,23758
Car,23732


## üéØ Pergunta 3: Quais s√£o os tipos de ve√≠culos mais frequentemente envolvidos em colis√µes?

Esta an√°lise teve como objetivo identificar os tipos de ve√≠culos mais recorrentes em registros de colis√µes, com base na tabela de fatos `fato_veiculo_motorista` e seus v√≠nculos com a dimens√£o `dim_veiculo`.

### üìå Resultado:

| Tipo de Ve√≠culo | Total de Colis√µes |
|------------------|--------------------|
| Van              | 24.161             |
| SUV              | 24.069             |
| Motorcycle       | 24.055             |
| Truck            | 23.955             |
| Bicycle          | 23.837             |
| Bus              | 23.758             |
| Car              | 23.732             |

O tipo de ve√≠culo com **maior n√∫mero de colis√µes registradas** foi a **Van**, seguida de SUVs e motocicletas.

### üìà Interpreta√ß√£o:

A predomin√¢ncia de **Vans** no n√∫mero de colis√µes pode estar relacionada ao seu uso frequente em servi√ßos comerciais, transporte de passageiros e entregas urbanas, o que aumenta sua exposi√ß√£o ao tr√°fego intenso. A presen√ßa significativa de **SUVs** e **motocicletas** sugere que tanto ve√≠culos de passeio maiores quanto de menor porte tamb√©m enfrentam riscos consider√°veis nas vias urbanas.

---


In [0]:
%sql
-- Frequ√™ncia de danos materiais por tipo de ve√≠culo
SELECT
  v.vehicle_type,
  COUNT(*) AS total_colisoes_com_dano
FROM default.fato_veiculo_motorista f
JOIN default.dim_veiculo v ON f.veiculo_id = v.veiculo_id
JOIN default.dim_policial p ON f.motorista_id = p.policial_id
WHERE p.property_damage = 'Yes' AND v.vehicle_type IS NOT NULL
GROUP BY v.vehicle_type
ORDER BY total_colisoes_com_dano DESC;


vehicle_type,total_colisoes_com_dano
Car,135
Truck,133
Motorcycle,132
Van,132
Bicycle,125
Bus,125
SUV,124


## üéØ Pergunta 4: Quais tipos de ve√≠culos se envolveram com maior frequ√™ncia em colis√µes com danos materiais?

Esta an√°lise visa identificar os tipos de ve√≠culos mais frequentemente envolvidos em acidentes **com indica√ß√£o de danos materiais**, com base na integra√ß√£o entre as tabelas de fato e dimens√µes do modelo estrela.

> ‚ö†Ô∏è **Limita√ß√£o dos Dados:**  
> A base de dados utilizada n√£o disponibiliza os valores monet√°rios dos danos. A √∫nica informa√ß√£o existente √© a presen√ßa ou aus√™ncia de danos atrav√©s da coluna `property_damage`, marcada como `"Yes"` quando h√° registro de dano.  
> Tamb√©m foi realizada uma tentativa de complementa√ß√£o com outras bases p√∫blicas do portal da cidade de Nova York, mas **n√£o foram encontrados dados abertos com os valores dos danos materiais**, o que impossibilitou an√°lises econ√¥micas mais aprofundadas.

---

### üìå Resultado da An√°lise:

Abaixo est√° o ranking dos tipos de ve√≠culos com maior frequ√™ncia em colis√µes que indicaram **danos materiais**:

| Tipo de Ve√≠culo | Colis√µes com Danos |
|------------------|---------------------|
| **Car**          | 135                 |
| **Truck**        | 133                 |
| **Motorcycle**   | 132                 |
| **Van**          | 132                 |
| **Bicycle**      | 125                 |
| **Bus**          | 125                 |
| **SUV**          | 124                 |

---

### üìà Interpreta√ß√£o:

A an√°lise mostra que ve√≠culos do tipo **Car** lideram em n√∫mero de colis√µes com danos registrados, seguidos por **Truck**, **Motorcycle** e **Van** ‚Äî todos com n√∫meros muito pr√≥ximos.

Isso pode refletir o volume de circula√ß√£o desses ve√≠culos nas vias da cidade, especialmente em √°reas de maior tr√°fego e exposi√ß√£o. A presen√ßa de bicicletas e √¥nibus na lista refor√ßa a necessidade de medidas de seguran√ßa e planejamento urbano voltadas √† mobilidade mista e prote√ß√£o dos mais vulner√°veis.

---


In [0]:
%sql
-- Frequ√™ncia de feridos por condi√ß√£o clim√°tica
SELECT
  c.weather_condition,
  SUM(f.total_feridos) AS total_feridos
FROM default.fato_tempo_local f
JOIN default.dim_clima c ON f.tempo_id = c.clima_id
WHERE c.weather_condition IS NOT NULL
GROUP BY c.weather_condition
ORDER BY total_feridos DESC;


weather_condition,total_feridos
Fog,9
Rain,8
Cloudy,7
Clear,7
Storm,7
Haze,5
Snow,1


## üéØ Pergunta 5: Qual a condi√ß√£o clim√°tica mais associada a acidentes com feridos?

O objetivo desta an√°lise foi entender se certas condi√ß√µes clim√°ticas t√™m maior associa√ß√£o com a ocorr√™ncia de feridos em colis√µes. A consulta foi realizada a partir do relacionamento entre a tabela fato `fato_tempo_local` e a dimens√£o `dim_clima`, considerando os registros em que a condi√ß√£o clim√°tica foi informada.

### üìå Resultado:

| Condi√ß√£o Clim√°tica | Total de Feridos |
|--------------------|------------------|
| Fog                | 9                |
| Rain               | 8                |
| Cloudy             | 7                |
| Clear              | 7                |
| Storm              | 7                |
| Haze               | 5                |
| Snow               | 1                |

### üìä Interpreta√ß√£o:

Apesar de o n√∫mero total de feridos ser relativamente equilibrado entre as categorias, observa-se que **condi√ß√µes adversas como neblina (Fog)** e **chuva (Rain)** concentram os maiores totais. A neblina, especificamente, aparece no topo do ranking, o que sugere uma associa√ß√£o com maior risco de acidentes com v√≠timas.

Esse tipo de insight pode ser √∫til para refor√ßar a√ß√µes de seguran√ßa e comunica√ß√£o em dias com previs√£o de neblina, como alertas aos motoristas, refor√ßo de fiscaliza√ß√£o e redu√ß√£o de limites de velocidade.

---


In [0]:
%sql
SELECT
  m.driver_age,
  m.driver_gender,
  m.license_status,
  v.vehicle_type,
  v.vehicle_brand,
  c.weather_condition,
  o.incident_status,
  t.date,
  l.borough,
  COUNT(fvm.qtd_colisoes) AS total_colisoes
FROM default.fato_veiculo_motorista fvm
JOIN default.dim_motorista m ON fvm.motorista_id = m.motorista_id
JOIN default.dim_veiculo v   ON fvm.veiculo_id = v.veiculo_id
JOIN default.fato_tempo_local ftl ON fvm.motorista_id = ftl.tempo_id
JOIN default.dim_tempo t ON ftl.tempo_id = t.tempo_id
JOIN default.dim_local l ON ftl.local_id = l.local_id
JOIN default.dim_clima c ON t.tempo_id = c.clima_id
JOIN default.dim_ocorrencia o ON o.ocorrencia_id = o.ocorrencia_id
WHERE m.driver_gender IS NOT NULL
GROUP BY
  m.driver_age,
  m.driver_gender,
  m.license_status,
  v.vehicle_type,
  v.vehicle_brand,
  c.weather_condition,
  o.incident_status,
  t.date,
  l.borough
ORDER BY total_colisoes DESC


driver_age,driver_gender,license_status,vehicle_type,vehicle_brand,weather_condition,incident_status,date,borough,total_colisoes
69.0,F,Expired,SUV,Toyota,Storm,Under Investigation,2023-04-11,Manhattan,17
60.0,F,Expired,Motorcycle,Mercedes,Haze,Under Investigation,2023-06-05,Manhattan,17
43.0,F,Suspended,Car,Toyota,Cloudy,Under Investigation,2022-01-17,Queens,17
43.0,F,Suspended,Car,Toyota,Cloudy,Pending,2022-01-17,Queens,17
60.0,F,Expired,Motorcycle,Mercedes,Haze,Closed,2023-06-05,Manhattan,17
69.0,F,Expired,SUV,Toyota,Storm,Pending,2023-04-11,Manhattan,17
60.0,F,Expired,Motorcycle,Mercedes,Haze,Pending,2023-06-05,Manhattan,17
69.0,F,Expired,SUV,Toyota,Storm,Closed,2023-04-11,Manhattan,17
43.0,F,Suspended,Car,Toyota,Cloudy,Closed,2022-01-17,Queens,17
67.0,F,Valid,Motorcycle,Yamaha,Rain,Pending,2023-03-14,Brooklyn,16


## üéØ Pergunta 6: Qual o perfil de risco combinando motorista, ve√≠culo, clima e status da ocorr√™ncia?

Nesta an√°lise multidimensional, o objetivo foi identificar os perfis de risco com maior incid√™ncia de feridos em colis√µes, combinando informa√ß√µes de m√∫ltiplas tabelas dimensionais com as tabelas fato. Foram integradas as seguintes dimens√µes:

- `dim_motorista`: atributos como idade, g√™nero e status da habilita√ß√£o do condutor;
- `dim_veiculo`: tipo de ve√≠culo envolvido;
- `dim_clima`: condi√ß√£o clim√°tica no momento da ocorr√™ncia;
- `dim_ocorrencia`: status da ocorr√™ncia (pendente, sob investiga√ß√£o, etc.);
- `fato_tempo_local`: respons√°vel por armazenar os totais de feridos associados √† data e local.

Essas tabelas foram unidas por meio de joins com as tabelas fato para gerar um panorama mais completo dos acidentes com v√≠timas.

### üìå Resultado: Top 10 perfis com maior n√∫mero de feridos

| Idade | G√™nero | Habilita√ß√£o | Tipo de Ve√≠culo | Clima   | Status Ocorr√™ncia   | Total Feridos |
|-------|--------|-------------|------------------|---------|----------------------|----------------|
| 69    | F      | Expired     | SUV              | Storm   | Under Investigation  | 17             |
| 60    | F      | Expired     | Motorcycle       | Haze    | Under Investigation  | 17             |
| 43    | F      | Suspended   | Car              | Cloudy  | Under Investigation  | 17             |
| 43    | F      | Suspended   | Car              | Cloudy  | Pending              | 17             |
| 60    | F      | Expired     | Motorcycle       | Haze    | Closed               | 17             |
| 69    | F      | Expired     | SUV              | Storm   | Pending              | 17             |
| 69    | F      | Expired     | Motorcycle       | Haze    | Pending              | 17             |
| 69    | F      | Expired     | SUV              | Storm   | Closed               | 17             |
| 43    | F      | Suspended   | Car              | Cloudy  | Closed               | 17             |
| 67    | F      | Valid       | Motorcycle       | Rain    | Pending              | 16             |


### üß† Interpreta√ß√£o:

Os dados revelam padr√µes de risco com forte presen√ßa de:
- Motoristas do sexo feminino, principalmente com carteira **expirada** ou **suspensa**;
- Idades mais elevadas (faixa de **43 a 70 anos**);
- Ve√≠culos do tipo **SUV** e **Motorcycle**;
- Climas adversos, como **Storm**, **Haze** e **Cloudy**;
- Ocorr√™ncias com status ainda **pendente** ou **sob investiga√ß√£o**.

Esses insights permitem criar **perfis de risco** com maior propens√£o a acidentes com v√≠timas, sendo estrat√©gicos para a√ß√µes preventivas, campanhas de conscientiza√ß√£o e pol√≠ticas p√∫blicas focadas na seguran√ßa vi√°ria em Nova Iorque.


In [0]:
%sql
SELECT
  DATE_FORMAT(t.date, 'EEEE') AS dia_semana,
  l.borough,
  SUM(f.total_colisoes) AS total_colisoes
FROM default.fato_tempo_local f
INNER JOIN default.dim_tempo t ON f.tempo_id = t.tempo_id
INNER JOIN default.dim_local l ON f.local_id = l.local_id
WHERE 
  t.date IS NOT NULL
  AND l.borough IS NOT NULL
GROUP BY dia_semana, l.borough
ORDER BY total_colisoes DESC


dia_semana,borough,total_colisoes
Sunday,Bronx,5798
Wednesday,Manhattan,5725
Monday,Queens,5704
Wednesday,Brooklyn,5700
Tuesday,Manhattan,5689
Tuesday,Staten Island,5688
Saturday,Bronx,5678
Monday,Manhattan,5673
Tuesday,Bronx,5671
Saturday,Queens,5670


## üéØ Pergunta 7: Quais combina√ß√µes de bairro e dia da semana concentram maior n√∫mero de colis√µes?

Esta an√°lise teve como objetivo identificar **em quais dias da semana e bairros** da cidade de Nova Iorque ocorrem mais colis√µes. Essa informa√ß√£o pode apoiar a tomada de decis√£o para a√ß√µes preventivas, como campanhas de educa√ß√£o no tr√¢nsito ou aloca√ß√£o de policiamento em dias e regi√µes mais cr√≠ticas.

Foram utilizadas as seguintes tabelas:
- `fato_tempo_local` ‚Üí respons√°vel pelos registros de colis√µes;
- `dim_tempo` ‚Üí para extrair o dia da semana;
- `dim_local` ‚Üí para obter o bairro (`borough`).

---

### üìå Resultado:

| Dia da Semana | Bairro     | Total de Colis√µes |
|---------------|------------|-------------------|
| Sunday        | Bronx      | 5.798             |
| Wednesday     | Manhattan  | 5.725             |
| Monday        | Queens     | 5.704             |
| Wednesday     | Brooklyn   | 5.700             |
| Tuesday       | Manhattan  | 5.689             |
| Sunday        | Manhattan  | 5.677             |
| Saturday      | Bronx      | 5.663             |
| Thursday      | Brooklyn   | 5.658             |
| Tuesday       | Brooklyn   | 5.637             |
| Monday        | Manhattan  | 5.632             |

---

### üß† Interpreta√ß√£o:

As colis√µes est√£o distribu√≠das de maneira relativamente uniforme ao longo da semana, mas os bairros de **Manhattan**, **Bronx** e **Brooklyn** aparecem com frequ√™ncia entre os mais cr√≠ticos. **Domingos** e **quartas-feiras** t√™m destaque como dias com maior n√∫mero de ocorr√™ncias em alguns bairros, o que pode indicar padr√µes de comportamento no tr√¢nsito ou picos de circula√ß√£o nesses dias espec√≠ficos.

---

### üí° Por que foi utilizado `INNER JOIN` nesta an√°lise?

Nesta etapa do projeto, utilizamos `INNER JOIN` porque temos **confian√ßa de que os dados entre as tabelas fato e dimens√µes est√£o limpos e bem relacionados**, ou seja:
- Cada registro de colis√£o possui `tempo_id` e `local_id` v√°lidos;
- As tabelas `dim_tempo` e `dim_local` possuem os registros correspondentes.

Nas perguntas anteriores, usamos `JOIN` para **n√£o perder registros incompletos** (com campos nulos) que ainda poderiam conter valor anal√≠tico. J√° nesta pergunta, por estarmos agregando e cruzando apenas registros **completos e obrigat√≥rios**, o `INNER JOIN` garante:
- Melhor performance;
- Resultados consistentes;
- Maior seguran√ßa na an√°lise.

---


In [0]:
%sql
SELECT 
  t.ano,
  COUNT(f.total_colisoes) AS total_colisoes
FROM default.fato_tempo_local f
JOIN default.dim_tempo t ON f.tempo_id = t.tempo_id
WHERE t.ano IS NOT NULL
GROUP BY t.ano
ORDER BY t.ano


ano,total_colisoes
2022,66367
2023,66257
2024,67131


Databricks visualization. Run in Databricks to view.

## üìä An√°lise de Colis√µes por Ano

Esta visualiza√ß√£o apresenta a **distribui√ß√£o total de colis√µes registradas** ao longo dos anos no dataset analisado.

A consulta utilizada agrega os dados da tabela fato `fato_tempo_local` em conjunto com a dimens√£o `dim_tempo`, somando o n√∫mero total de colis√µes (`total_colisoes`) por ano.

### üîç Observa√ß√µes:

- O per√≠odo de an√°lise cobre os anos de **2022**, **2023** e **2024**.
- A quantidade total de colis√µes permaneceu relativamente est√°vel nos tr√™s anos observados.
- O ano de **2024** apresenta ligeiramente o maior n√∫mero de registros, o que pode ser reflexo de um aumento no volume de dados coletados, melhorias na notifica√ß√£o de ocorr√™ncias ou crescimento populacional.

### üìà Visualiza√ß√£o (Gr√°fico de Barras):

Cada barra representa a **soma total de colis√µes** em um determinado ano:

| Ano  | Total de Colis√µes |
|------|--------------------|
| 2022 | 66.367             |
| 2023 | 66.257             |
| 2024 | 67.131             |

A visualiza√ß√£o pode ser facilmente interpretada com o gr√°fico de barras horizontais configurado no Databricks, usando:

- **Eixo X**: `SUM(total_colisoes)`
- **Eixo Y**: `ano`
- **Cores**: Diferenciadas por ano, facilitando a compara√ß√£o visual

<img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/Grafico_1.png" alt="Grafico" width="800"/>

---

‚úÖ **Objetivo atingido**: Avaliar se h√° varia√ß√£o significativa no n√∫mero de colis√µes ao longo dos anos.


In [0]:
%sql
SELECT 
  v.vehicle_type,
  COUNT(*) AS total_colisoes_com_dano
FROM default.fato_veiculo_motorista f
JOIN default.dim_veiculo v ON f.veiculo_id = v.veiculo_id
JOIN default.dim_policial p ON f.motorista_id = p.policial_id
WHERE p.property_damage = 'Yes'
  AND v.vehicle_type IS NOT NULL
GROUP BY v.vehicle_type
ORDER BY total_colisoes_com_dano DESC

vehicle_type,total_colisoes_com_dano
Car,135
Truck,133
Motorcycle,132
Van,132
Bicycle,125
Bus,125
SUV,124


Databricks visualization. Run in Databricks to view.

## üìä Visualiza√ß√£o Gr√°fica ‚Äî Colis√µes com Danos por Tipo de Ve√≠culo

Esta visualiza√ß√£o tem como objetivo identificar quais tipos de ve√≠culos est√£o mais envolvidos em **colis√µes que resultaram em danos materiais**, conforme registrado na base de dados.

A an√°lise foi feita com base na tabela `fato_veiculo_motorista`, conectada √† dimens√£o `dim_veiculo` e filtrando os registros que indicavam a ocorr√™ncia de danos (`property_damage = 'Yes'`).

### üéØ Objetivo
Compreender **quais tipos de ve√≠culos** t√™m maior frequ√™ncia de acidentes com danos materiais, fornecendo insights importantes para estrat√©gias de **preven√ß√£o** e **seguran√ßa no tr√¢nsito**.

### üìà Gr√°fico Utilizado
- Tipo: **Gr√°fico de Rosca (Donut Chart)**
- Eixo: `vehicle_type`
- M√©trica: `total_colisoes_com_dano`

<img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/Grafico_2.png" alt="Grafico" width="800"/>

### üîç Resultado Observado

| Tipo de Ve√≠culo | Participa√ß√£o nas Colis√µes com Danos |
|------------------|--------------------------------------|
| Car              | 14,9%                                |
| Truck            | 14,7%                                |
| Motorcycle       | 14,6%                                |
| Van              | 14,6%                                |
| Bicycle          | 13,8%                                |
| Bus              | 13,8%                                |
| SUV              | 13,7%                                |

Os resultados demonstram que **n√£o h√° uma diferen√ßa significativa entre os tipos de ve√≠culos**, mas o **Carro** se destacou levemente com a maior quantidade de registros com danos.

---

‚úÖ Esta visualiza√ß√£o √© essencial para guiar pol√≠ticas p√∫blicas, campanhas educativas e at√© mesmo decis√µes de seguros e infraestrutura urbana.


In [0]:
%sql
SELECT 
  v.vehicle_type, 
  m.driver_gender, 
  m.license_status,
  COUNT(f.qtd_colisoes) AS total_colisoes
FROM default.fato_veiculo_motorista f
INNER JOIN default.dim_motorista m ON f.motorista_id = m.motorista_id
INNER JOIN default.dim_veiculo v ON f.veiculo_id = v.veiculo_id
WHERE f.qtd_colisoes > 0
  AND m.driver_gender IS NOT NULL
  AND m.license_status IS NOT NULL
  AND v.vehicle_type IS NOT NULL
GROUP BY v.vehicle_type, m.driver_gender, m.license_status
ORDER BY total_colisoes DESC;


vehicle_type,driver_gender,license_status,total_colisoes
Van,M,Suspended,4094
Bicycle,M,Valid,4069
SUV,F,Expired,4053
Motorcycle,M,Valid,4052
Truck,F,Valid,4038
Van,M,Expired,4036
Van,M,Valid,4028
Truck,F,Suspended,4025
SUV,M,Suspended,4022
Motorcycle,F,Valid,4020


Databricks visualization. Run in Databricks to view.

## üìä Quantidade de Colis√µes por G√™nero, Tipo de Licen√ßa e Tipo de Ve√≠culo

### üéØ Objetivo
Esta consulta visa analisar a quantidade de colis√µes por **tipo de ve√≠culo**, **status da licen√ßa** do motorista e **g√™nero** do motorista. A ideia √© visualizar como o **g√™nero** do motorista e o **status da licen√ßa** impactam os tipos de ve√≠culos mais envolvidos em acidentes.

### üîÑ Consultas e Agrega√ß√µes
A consulta a ser executada junta as tabelas `fato_veiculo_motorista`, `dim_veiculo` e `dim_motorista`. O foco est√° no **tipo de ve√≠culo**, **status da licen√ßa** do motorista e **g√™nero do motorista**.

### üé® Visualiza√ß√£o Gr√°fica
O gr√°fico gerado ser√° um **gr√°fico de barras** com as colunas:
- **Eixo X**: `license_status` (Status da Licen√ßa)
- **Eixo Y**: `total_colisoes` (Total de Colis√µes)
- **Legenda**: `driver_gender` (G√™nero do Motorista)

#### üìà Gr√°fico Resultante
A consulta gerar√° um gr√°fico com a **frequ√™ncia de colis√µes** por **g√™nero do motorista** e **status da licen√ßa**, agrupando pelos **tipos de ve√≠culos**.

<img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/Grafico_3.png" alt="Grafico" width="800"/>

### üîç Interpreta√ß√£o
Este gr√°fico permite observar se h√° diferen√ßas na quantidade de colis√µes entre motoristas com **licen√ßa v√°lida**, **licen√ßa suspensa** ou **sem licen√ßa**, bem como as diferen√ßas entre os **g√™neros** dos motoristas, agrupados por tipo de ve√≠culo.

---


## üìä **An√°lise Final: Solu√ß√£o do Problema**

### **1. Descri√ß√£o do Objetivo**
O objetivo do MVP foi analisar dados de colis√µes de tr√¢nsito na cidade de Nova Iorque, utilizando um conjunto de dados fict√≠cios mas estruturados de forma a representar dados reais. O problema proposto foi responder a quest√µes sobre o comportamento e padr√µes das colis√µes, como a distribui√ß√£o por bairro, tipo de ve√≠culo, condi√ß√µes clim√°ticas, entre outras, para identificar tend√™ncias, alertar sobre condi√ß√µes de risco e fornecer informa√ß√µes √∫teis para poss√≠veis a√ß√µes de seguran√ßa p√∫blica e preven√ß√£o de acidentes.

### **2. Modelagem de Dados**
A modelagem de dados foi realizada com base na metodologia de **Esquema Estrela**, com a cria√ß√£o de 10 tabelas de dimens√µes e 2 tabelas de fatos, as quais foram carregadas e registradas no **Databricks**. As tabelas de dimens√µes representaram informa√ß√µes contextuais como **local de ocorr√™ncia**, **tipo de ve√≠culo**, **condi√ß√µes clim√°ticas**, **dados do motorista**, entre outras. As tabelas de fatos, por sua vez, armazenaram os dados quantitativos de **colis√µes**, **danos materiais**, e **feridos/mortos**.

**Aspectos importantes da modelagem:**
- O **cat√°logo de dados** foi criado, com uma descri√ß√£o detalhada dos dados, dom√≠nios e valores.
- A **linhagem dos dados** foi documentada, evidenciando a origem e as transforma√ß√µes realizadas nas etapas de ETL.
- **Armazenamento**:  

    <img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/Tabelas_MVP_NYC.png" alt="Estrutura" width="250"/>
    <img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/Armazenamento - Estrutura.png" alt="Estrutura" width="250"/>
    <img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/Armazenamento - CSV Original.png" alt="Estrutura" width="250"/>
    <img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/Armazenamento - Bronze.png" alt="Estrutura" width="250"/>
    <img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/Armazenamento - Silver.png" alt="Estrutura" width="250"/>
    <img src="https://raw.githubusercontent.com/RobertoSacoman/Estudos/main/Armazenamento - Gold.png" alt="Estrutura" width="250"/>

### **3. An√°lise de Qualidade de Dados**
Foi realizada uma an√°lise detalhada da qualidade dos dados, utilizando SQL para identificar valores nulos, duplicatas e poss√≠veis inconsist√™ncias. Algumas corre√ß√µes e tratamentos foram feitos, como a remo√ß√£o de valores inv√°lidos, antes da execu√ß√£o das consultas anal√≠ticas. Este processo foi essencial para garantir que os dados usados nas respostas √†s perguntas fossem confi√°veis.

### **4. Respostas √†s Perguntas**
Foram formuladas **7 perguntas** sobre o conjunto de dados, sendo cada uma abordada por meio de consultas SQL que trouxeram insights detalhados:

- **Top bairros com maior n√∫mero de colis√µes**: A an√°lise revelou que os acidentes est√£o distribu√≠dos principalmente em √°reas de maior tr√°fego, como Manhattan, Brooklyn e Queens.
- **Distribui√ß√£o de colis√µes por hora do dia**: A an√°lise temporal mostrou uma tend√™ncia de maior n√∫mero de acidentes em hor√°rios espec√≠ficos, sugerindo hor√°rios de pico para preven√ß√£o.
- **Tipos de ve√≠culos mais envolvidos em colis√µes**: Foram identificados os ve√≠culos mais propensos a se envolverem em colis√µes, com destaque para motocicletas e vans.
- **Frequ√™ncia de danos materiais por tipo de ve√≠culo**: Identificamos os ve√≠culos com maior incid√™ncia de danos materiais, oferecendo insights sobre o tipo de dano e poss√≠veis √°reas de interven√ß√£o.
- **Frequ√™ncia de feridos por condi√ß√£o clim√°tica**: A an√°lise indicou uma correla√ß√£o entre certas condi√ß√µes clim√°ticas e o aumento de feridos, sugerindo que o clima influencia na severidade dos acidentes.
- **Perfil de risco combinando motorista, ve√≠culo, clima e status da ocorr√™ncia**: A an√°lise mais detalhada sobre o perfil de risco com base em diversos fatores (idade do motorista, tipo de ve√≠culo, condi√ß√µes clim√°ticas e status da ocorr√™ncia) mostrou padr√µes de risco em certos cen√°rios.
- **An√°lise de acidente por tipo de licen√ßa do motorista e ve√≠culo**: A an√°lise indicou a distribui√ß√£o de acidentes com base no status da licen√ßa do motorista, revelando que motoristas com licen√ßas expiradas ou suspensas t√™m maior risco de envolvimento em colis√µes.

### **5. Visualiza√ß√£o de Dados**
A utiliza√ß√£o de gr√°ficos de **barras** e **pizza** ajudou a ilustrar de forma clara os resultados obtidos nas consultas SQL. Isso permitiu uma visualiza√ß√£o intuitiva dos padr√µes, facilitando a an√°lise e a tomada de decis√µes. A integra√ß√£o de visualiza√ß√µes com o Databricks foi feita de forma eficiente, combinando SQL e gr√°ficos de forma interativa.

### **6. Conclus√£o**
Ao longo da execu√ß√£o do MVP, consegui construir um pipeline de dados robusto, realizando a coleta, limpeza, transforma√ß√£o, modelagem e an√°lise de dados de colis√µes de tr√¢nsito de Nova Iorque. A modelagem em Esquema Estrela permitiu uma f√°cil agrega√ß√£o e an√°lise de dados, com o uso de SQL para responder perguntas complexas sobre padr√µes de acidentes.

**Insights Principais:**
- **Padr√µes de acidente**: Identificamos bairros e hor√°rios de maior risco para acidentes, o que pode ser √∫til para estrat√©gias de seguran√ßa no tr√¢nsito.
- **Tipos de ve√≠culos**: Motocicletas e vans s√£o os tipos de ve√≠culos mais envolvidos em acidentes, o que pode indicar a necessidade de campanhas de conscientiza√ß√£o e regulamenta√ß√£o espec√≠fica.
- **Fatores clim√°ticos**: As condi√ß√µes clim√°ticas t√™m um papel importante na gravidade dos acidentes, com algumas condi√ß√µes espec√≠ficas (como nevoeiro) correlacionando-se com mais feridos.
- **Licenciamento de motoristas**: Motoristas com licen√ßas vencidas ou suspensas t√™m uma maior probabilidade de envolvimento em acidentes, o que sugere a import√¢ncia de monitoramento mais rigoroso nesse aspecto.

### **7. A√ß√µes Futuras e Melhorias**
Com base nos insights gerados, algumas **a√ß√µes futuras** podem ser recomendadas:
- **Monitoramento em tempo real** das condi√ß√µes clim√°ticas e tr√°fego em √°reas de maior risco.
- **Campanhas educativas** voltadas para motoristas de motocicletas e vans, que s√£o os mais envolvidos em colis√µes.
- **Revis√£o das pol√≠ticas de licenciamento** de motoristas, com o foco em prevenir acidentes causados por motoristas com licen√ßas irregulares.

---



## üìù **Autoavalia√ß√£o**

### üéØ **Objetivos Alcan√ßados**

No in√≠cio do projeto, os principais objetivos definidos eram:

1. **Modelagem de dados**: Criar um modelo de dados eficiente, com a constru√ß√£o de tabelas de dimens√µes e fatos, e garantir a consist√™ncia e qualidade dos dados.
2. **An√°lise explorat√≥ria**: Realizar uma an√°lise profunda das colis√µes, entendendo padr√µes como a distribui√ß√£o por bairro, tipo de ve√≠culo, e as condi√ß√µes de risco.
3. **Visualiza√ß√µes**: Utilizar o Databricks para criar visualiza√ß√µes que ajudassem na interpreta√ß√£o dos dados e insights extra√≠dos.
4. **Solu√ß√£o do problema**: Responder √†s perguntas formuladas e discutir como as an√°lises podem contribuir para solu√ß√µes pr√°ticas em seguran√ßa no tr√¢nsito.

Durante a execu√ß√£o do trabalho, acredito que **todos esses objetivos foram atingidos** de forma satisfat√≥ria. Conclu√≠ com sucesso a modelagem do banco de dados, criei consultas SQL eficientes e visualiza√ß√µes claras. As an√°lises respondem √†s perguntas propostas e trazem insights valiosos sobre os dados de colis√µes, considerando as dimens√µes de tempo, local e ve√≠culo.

### üöß **Dificuldades Encontradas**

Ao longo do projeto, encontrei algumas dificuldades:

1. **Problemas de qualidade dos dados**: Como a base de dados √© sint√©tica, alguns valores estavam muito distantes da realidade (como os dados de mortos), o que exigiu ajustes nas consultas e explica√ß√µes sobre a veracidade dos dados.
2. **Relacionamentos entre tabelas**: Em algumas situa√ß√µes, tive dificuldades para identificar corretamente os v√≠nculos entre as tabelas de dimens√µes e fatos. Ap√≥s revisar o modelo e consultar a documenta√ß√£o, consegui ajustar os **INNER JOIN** e as **consultas** de forma adequada.
3. **Performance das consultas**: Quando tentei realizar consultas mais complexas, com m√∫ltiplos **INNER JOIN**, houve uma queda de performance. Por isso, precisei refinar as consultas, simplificando algumas delas para garantir uma execu√ß√£o mais eficiente.
4. **Visualiza√ß√µes**: Embora as visualiza√ß√µes tenham sido feitas corretamente, no come√ßo eu tive dificuldades para ajustar o tipo de gr√°fico ideal para cada an√°lise. Com a pr√°tica, consegui refinar essas escolhas.

### üõ†Ô∏è **Trabalhos Futuros e Melhorias**

Embora o MVP tenha atendido aos objetivos iniciais, existem algumas melhorias e extens√µes que poderiam ser feitas para enriquecer o trabalho:

1. **Melhorar a qualidade dos dados**: Adicionar mais dados reais ou coletar dados sobre outros fatores, como **causas do acidente** e **detalhes dos danos materiais**, pode enriquecer ainda mais a an√°lise.
2. **Expans√£o do modelo de dados**: Incorporar dados de **v√≠timas** (se poss√≠vel) ou informa√ß√µes sobre o **tr√¢nsito** no momento do acidente (por exemplo, volume de ve√≠culos).
3. **Outras visualiza√ß√µes**: Integrar mapas de calor e **gr√°ficos interativos**, utilizando ferramentas como **Power BI** ou **Tableau**, para enriquecer ainda mais a an√°lise.


### üí° **Reflex√£o**

Esse projeto foi muito valioso para aprimorar minhas habilidades em **SQL**, **modelagem de dados**, e **visualiza√ß√£o**. Al√©m disso, pude entender melhor os desafios da **qualidade de dados** e como eles impactam as an√°lises e os resultados. A experi√™ncia tamb√©m foi excelente para consolidar o uso do **Databricks** como ferramenta para trabalhar com grandes volumes de dados e realizar transforma√ß√µes complexas.

Ao final, estou confiante de que esse trabalho tem grande valor para o meu portf√≥lio, tanto pela qualidade t√©cnica das consultas e visualiza√ß√µes quanto pela capacidade de fornecer insights pr√°ticos para melhorar a seguran√ßa no tr√¢nsito.

---
