**Contexto**

A Lei Seca brasileira (Lei 11.705/08), sancionada em junho de 2008, foi criada com o objetivo de combater a combinação de álcool e direção e, consequentemente, reduzir os acidentes e as mortes no trânsito.
Com essa legislação, estabeleceu-se a tolerância zero para o nível de álcool no sangue dos condutores de veículos, permitindo a aplicação de testes de alcoolemia, como o bafômetro. Além disso, foram impostas penalidades mais severas, incluindo multas, suspensão da habilitação e, em casos graves, a criminalização.

**Objetivo**

O objetivo deste trabalho é identificar padrões nos acidentes de trânsito em rodovias envolvendo álcool e analisar o possível impacto da implementação da Lei Seca. Para isso, foram formuladas as seguintes questões:
- A quantidade total de acidentes de trânsito nos estados brasileiros diminuiu ao longo do tempo?
- A Lei Seca contribuiu para a redução dos acidentes de trânsito relacionados ao consumo de álcool?
- Houve diminuição na fatalidade dos acidentes envolvendo álcool?
- Há alguma condição meteorológica associada a um maior número de acidentes envolvendo álcool?
- Existe algum dia da semana em que a incidência de acidentes relacionados ao consumo de álcool seja maior?
- Quais estados brasileiros tiveram redução dos acidentes envolvendo álcool ao longo do tempo?

**Descrição do Dataset**

Para a realização deste trabalho, foi utilizado um dataset disponível no Kaggle, denominado "Brazil Traffic Incidents", que fornece informações sobre acidentes de veículos em rodovias brasileiras entre os anos de 2007 à 2023. Este está organizado em 18 tabelas no formato CSV, sendo 17 delas dedicadas a dados sobre os acidentes e uma sobre dados dos radares.

Originalmente cada tabela contém entre 26 a 30 atributos, incluindo a localização das vias, detalhes dos acidentes, causas, vítimas, entre outros. No entanto, para este estudo, foram utilizadas apenas as informações das tabelas até o ano de 2022, visto que os dados de 2023 estavam incompletos, e os dados dos radares foram descartados.


**Catálogo de Dados**

**Tabela: bronze.acidentes_transito**

Descrição: Tabela com dados brutos com dados dos acidentes de trânsito.

| Coluna                   | Tipo de Dado | Descrição                                                   |
|--------------------------|--------------|--------------------------------------------------------------|
| id                       | double       | Identificador do acidente                              |
| data_inversa             | string       | Data do acidente                                              |
| dia_semana               | string       | Dia da semana do acidente (segunda-feira, terça-feira, etc.) |
| horario                  | string       | Horário do acidente no formato HH:MM:SS                      |
| uf                       | string       | Unidade Federativa onde ocorreu o acidente (SP, RJ, etc.)    |
| br                       | string       | Número da rodovia federal onde ocorreu o acidente            |
| km                       | string       | Quilômetro da rodovia onde ocorreu o acidente                |
| municipio                | string       | Município onde ocorreu o acidente                            |
| causa_acidente           | string       | Causa principal do acidente                                  |
| tipo_acidente            | string       | Tipo do acidente (Colisão frontal, Animais na Pista, etc.)   |
| classificacao_acidente   | string       | Classificação do acidente (Com Vítimas Feridas, Sem vítimas) |
| fase_dia                 | string       | Período do dia (Pleno dia, Amanhecer, Anoitecer, etc.)       |
| sentido_via              | string       | Sentido da via (Crescente, Decrescente)                      |
| condicao_metereologica   | string       | Condição climática no momento do acidente (Céu claro, Nublado, etc.)                   |
| tipo_pista               | string       | Tipo da pista (Simples, Dupla, etc.)                         |
| tracado_via              | string       | Tipo de traçado da via (Reta, Curva, etc.)                   |
| uso_solo                 | string       | Uso do solo ao redor da rodovia (Sim, Não)                   |
| ano                      | string       | Ano em que ocorreu o acidente (2007 até 2022)                |
| pessoas                  | bigint       | Número total de pessoas envolvidas no acidente               |
| mortos                   | bigint       | Número de vítimas fatais                                     |
| feridos_leves            | bigint       | Número de feridos leves                                      |
| feridos_graves           | bigint       | Número de feridos graves                                     |
| ilesos                   | bigint       | Número de pessoas ilesas                                     |
| ignorados                | bigint       | Número de pessoas sem informações registradas                |
| feridos                  | bigint       | Total de feridos (soma de leves e graves)                    |
| veiculos                 | bigint       | Número total de veículos envolvidos                          |
| latitude                 | string       | Latitude do local do acidente                                |
| longitude                | string       | Longitude do local do acidente                               |
| regional                 | string       | Nome da regional da PRF responsável pela área                |
| delegacia                | string       | Nome da delegacia da PRF responsável pela área               |
| uop                      | string       | Unidade Operacional da PRF responsável pela área             |

**Tabela: silver.acidentes_transito**

Descrição: Versão tratada da tabela bronze, com menos colunas e dados transformados.

| Coluna                   | Tipo de Dado | Descrição                                                   |
|--------------------------|--------------|--------------------------------------------------------------|
| id_acidente              | int          | Identificador único do acidente                              |
| dia_semana               | string       | Dia da semana do acidente (segunda-feira, terça-feira, etc.) |
| uf                       | string       | Unidade Federativa onde ocorreu o acidente (São Paulo, Rio de Janeiro etc.)    |
| causa_acidente           | string       | Causa principal do acidente                                  |
| condicao_metereologica   | string       | Condição climática no momento do acidente (céu claro, nublado, etc.)                   |
| pessoas                  | bigint       | Número total de pessoas envolvidas no acidente               |
| mortos                   | bigint       | Número de vítimas fatais                                     |
| ilesos                   | bigint       | Número de pessoas ilesas                                     |
| ignorados                | bigint       | Número de pessoas sem informações registradas                |
| feridos                  | bigint       | Total de feridos                                             |
| periodo_do_dia           | string       | Período do dia (manhã, tarde, noite e madrugada)                |
| ano                      | string       | Ano em que ocorreu o acidente (2007 até 2022)                |

**Tabela: dimensao_data**

Descrição: Tabela de dimensão com os dados qualitativos do dia do acidente de transito.

| Coluna                   | Tipo de Dado | Descrição                                                   |
|--------------------------|--------------|--------------------------------------------------------------|
| id_data                  | int          | Código único da data                                         |
| dia_semana               | string       | Dia da semana do acidente (segunda-feira, terça-feira, etc.)  |
| periodo_do_dia           | string       | Período do dia em que o acidente ocorreu (manhã, tarde, noite, madrugada) |
| ano                      | string       | Ano em que ocorreu o acidente               |

**Tabela: dimensao_meteorologia**

Descrição: Tabela de dimensão com os dados qualitativos das condições meteorológicas no momento do acidente de transito.

| Coluna                   | Tipo de Dado | Descrição                                                   |
|--------------------------|--------------|--------------------------------------------------------------|
| id_meteorologia          | int          | Código único para a condição meteorológica |
| condicao_meteorologica   | string       | Descrição da condição meteorológica (céu claro, nublado, etc.) |


**Tabela: dimensao_localidade**

Descrição: Tabela de dimensão com os dados qualitativos sobre a localidade onde o acidente de transito aconteceu.

| Coluna                   | Tipo de Dado | Descrição                                                   |
|--------------------------|--------------|--------------------------------------------------------------|
| id_localidade            | int          | Código único da localidade |
| uf                       | string       | Unidade Federativa onde ocorreu o acidente (São Paulo, Rio de Janeiro, etc.)  |

**Tabela: fato_acidentes**

Descrição: Tabela fato com os dados quantitativos de cada acidente de transito.

| Coluna                   | Tipo de Dado | Descrição                                                   |
|--------------------------|--------------|--------------------------------------------------------------|
| id_acidente              | int          | Identificador único do acidente                              |
| pessoas                  | bigint       | Número total de pessoas envolvidas no acidente |
| mortos                   | bigint       | Número de vítimas fatais |
| ilesos                   | bigint       | Número de pessoas que saíram ilesas |
| ignorados                | bigint       | Número de casos onde não há informações sobre o estado da pessoa |
| feridos                  | bigint       | Número de pessoas feridas |
| causa_acidente           | string       | Causa do acidente |
| id_meteorologia          | int          | Chave estrangeira para a tabela dimensao_meteorologia |
| id_data                  | int          | Chave estrangeira para a tabela dimensao_data |
| id_localidade            | int          | Chave estrangeira para a tabela dimensao_localidade |









**Coleta**

O processo de coleta de dados começou com a importação das bibliotecas necessárias e a desativação dos warnings.

In [0]:
import warnings
warnings.filterwarnings("ignore")
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql.functions import monotonically_increasing_id, col, when, lower, substring

Em seguida, utilizou-se a biblioteca Pandas para importar as tabelas de acidentes de trânsito do período entre 2007 até 2022, armazenadas no GitHub. Essas tabelas foram unificadas em um único DataFrame e adicionando a coluna de ano.

In [0]:
anos = [str(ano) for ano in range(2007, 2023)]
dfs = []

for ano in anos:
    url = f"https://raw.githubusercontent.com/preussagnes/mvp-engenharia-de-dados/main/DataSet/Dados_PRF_{ano}.csv"
    
    df = pd.read_csv(url, encoding='ISO-8859-1', sep=';')
    df['ano'] = ano
    dfs.append(df)

df_completo = pd.concat(dfs)

print("Número de linhas e colunas:")
print(df_completo.shape, '\n')

Número de linhas e colunas:
(1981317, 31) 



Para armazenar os dados brutos, foi criada a camada bronze.

In [0]:
%sql 
DROP DATABASE IF EXISTS bronze CASCADE;

In [0]:
%sql
CREATE DATABASE IF NOT EXISTS bronze;

Com o auxílio do Spark, todos os dados foram salvos nessa camada na tabela acidentes_transito.

In [0]:

camada_bronze = spark.createDataFrame(df_completo)

camada_bronze.write.mode("overwrite").saveAsTable("bronze.acidentes_transito")


Para validar os dados armazenados, foram realizadas duas consultas: a primeira contando o número total de registros na tabela, e a segunda exibindo as cinco primeiras linhas.

In [0]:
%sql
SELECT COUNT(*) FROM bronze.acidentes_transito;


count(1)
1981317


In [0]:
%sql
SELECT * FROM bronze.acidentes_transito limit 5;

id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,ano,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
10.0,11/06/2007,Segunda,15:30:00,MG,381,623.2,OLIVEIRA,Falta de atenção,Colisão frontal,(null),Pleno dia,Decrescente,Ceu Claro,Dupla,Reta,Rural,2007,9,0,4,0,5,0,4,6,,,,,
10.0,11/06/2007,Segunda,15:30:00,MG,381,623.2,OLIVEIRA,Falta de atenção,Colisão frontal,(null),Pleno dia,Decrescente,Chuva,Dupla,Reta,Rural,2007,9,0,4,0,5,0,4,6,,,,,
1032898.0,13/08/2007,Segunda,14:25:00,MG,40,585.5,ITABIRITO,Outras,Saída de Pista,Com Vítimas Feridas,Pleno dia,Crescente,Ceu Claro,Simples,Reta,Rural,2007,3,0,0,1,2,0,1,1,,,,,
1051130.0,12/02/2007,Segunda,02:10:00,MA,135,11.0,SAO LUIS,Animais na Pista,Atropelamento de animal,Com Vítimas Fatais,Plena noite,Crescente,Ceu Claro,Simples,Reta,Urbano,2007,5,2,2,1,0,0,3,1,,,,,
1066824.0,20/11/2007,Terça,05:30:00,CE,222,30.8,CAUCAIA,Defeito mecânico em veículo,Capotamento,Com Vítimas Feridas,Amanhecer,Decrescente,Ceu Claro,Dupla,Reta,Rural,2007,1,0,1,0,0,0,1,1,,,,,


Com os dados brutos armazenados e validados, criou-se a camada silver, onde foram aplicados tratamentos nos campos.

In [0]:
%sql
DROP DATABASE IF EXISTS silver CASCADE;

In [0]:
%sql 
CREATE DATABASE IF NOT EXISTS silver;


As transformações realizadas na camada silver foram as seguintes:
- Foi criada a coluna id_acidente, uma vez que a coluna id, existente na camada bronze, não era um identificador único, pois acidentes distintos estavam compartilhando o mesmo id.
- Foram importados somente os campos relevante para o objetivo do trabalho como: pessoas, mortos, ilesos, ignorados, feridos, causa_acidente, uf, dia_semana, ano, e condicao_metereologica;
- As siglas das unidades federativas foram substituídas pelos seus nomes completos para facilitar a interpretação das informações sobre as localizações dos acidentes;
- Os dias da semana foram convertidos para letras minúsculas, mantendo os acentos e hífens;
- As condições climáticas foram padronizadas sendo todas com letras minúsculas, mantendo acento e os valores 'ignorada' foram alterados para 'ignorado';
-  Foi criada uma nova coluna (periodo_do_dia) que categoriza o horário do acidente em quatro períodos: manhã (entre 5h e 12h), tarde (entre 12h e 18h), noite (entre 18h e 22h) e madrugada (entre 22h e 5h). Embora o dataset já possuísse uma coluna relacionada ao horário, a classificação anterior não seguia um padrão tão claro;
- Os valores "NaN" (Not a Number) e (null) foram excluídos, pois por serem poucas linhas não iriam impactar a análise.

Essas transformações foram armazenadas na tabela acidentes_transito dentro da camada silver.

In [0]:
%sql

CREATE TABLE silver.acidentes_transito AS
SELECT
    ROW_NUMBER() OVER (ORDER BY id) AS id_acidente,
    pessoas, 
    mortos, 
    ilesos, 
    ignorados, 
    feridos, 
    causa_acidente, 
   
    CASE uf
        WHEN 'AC' THEN 'Acre'
        WHEN 'AL' THEN 'Alagoas'
        WHEN 'AP' THEN 'Amapá'
        WHEN 'AM' THEN 'Amazonas'
        WHEN 'BA' THEN 'Bahia'
        WHEN 'CE' THEN 'Ceará'
        WHEN 'DF' THEN 'Distrito Federal'
        WHEN 'ES' THEN 'Espírito Santo'
        WHEN 'GO' THEN 'Goiás'
        WHEN 'MA' THEN 'Maranhão'
        WHEN 'MT' THEN 'Mato Grosso'
        WHEN 'MS' THEN 'Mato Grosso do Sul'
        WHEN 'MG' THEN 'Minas Gerais'
        WHEN 'PA' THEN 'Pará'
        WHEN 'PB' THEN 'Paraíba'
        WHEN 'PR' THEN 'Paraná'
        WHEN 'PE' THEN 'Pernambuco'
        WHEN 'PI' THEN 'Piauí'
        WHEN 'RJ' THEN 'Rio de Janeiro'
        WHEN 'RN' THEN 'Rio Grande do Norte'
        WHEN 'RS' THEN 'Rio Grande do Sul'
        WHEN 'RO' THEN 'Rondônia'
        WHEN 'RR' THEN 'Roraima'
        WHEN 'SC' THEN 'Santa Catarina'
        WHEN 'SP' THEN 'São Paulo'
        WHEN 'SE' THEN 'Sergipe'
        WHEN 'TO' THEN 'Tocantins'
    END AS uf,
    
    CASE LOWER(dia_semana)
        WHEN 'segunda' THEN 'segunda-feira'
        WHEN 'terca' THEN 'terça-feira'
        WHEN 'terça' THEN 'terça-feira'
        WHEN 'terca-feira' THEN 'terça-feira'
        WHEN 'quarta' THEN 'quarta-feira'
        WHEN 'quinta' THEN 'quinta-feira'
        WHEN 'sexta' THEN 'sexta-feira'
        WHEN 'sabado' THEN 'sábado'
        WHEN 'sábado' THEN 'sábado'
        WHEN 'domingo' THEN 'domingo'
        ELSE dia_semana
    END AS dia_semana, 
    ano, 
  
    CASE LOWER(condicao_metereologica)
        WHEN 'ceu claro' THEN 'céu claro'
        WHEN 'ignorada' THEN 'ignorado'
        ELSE LOWER(condicao_metereologica)
    END AS condicao_metereologica,
    
    CASE 
        WHEN CAST(SUBSTRING(horario, 1, 2) AS INT) BETWEEN 5 AND 11 THEN 'manhã'
        WHEN CAST(SUBSTRING(horario, 1, 2) AS INT) BETWEEN 12 AND 17 THEN 'tarde'
        WHEN CAST(SUBSTRING(horario, 1, 2) AS INT) BETWEEN 18 AND 21 THEN 'noite'
        ELSE 'madrugada'
    END AS periodo_do_dia
FROM bronze.acidentes_transito

num_affected_rows,num_inserted_rows


In [0]:
%sql
DELETE FROM silver.acidentes_transito
WHERE 
    id_acidente = '(null)' OR id_acidente = 'nan' OR id_acidente  IS NULL
    OR pessoas = '(null)' OR pessoas = 'nan' OR pessoas IS NULL
    OR mortos = '(null)' OR mortos = 'nan' OR mortos IS NULL
    OR ilesos = '(null)' OR ilesos = 'nan' OR ilesos IS NULL
    OR ignorados= '(null)' OR ignorados = 'nan' OR ignorados IS NULL
    OR feridos = '(null)' OR feridos = 'nan' OR feridos IS NULL
    OR causa_acidente = '(null)' OR causa_acidente = 'nan' OR causa_acidente IS NULL
    OR uf = '(null)' OR uf = 'nan' OR uf IS NULL
    OR dia_semana= '(null)' OR dia_semana = 'nan' OR dia_semana IS NULL
    OR condicao_metereologica = '(null)' OR condicao_metereologica = 'nan' OR condicao_metereologica IS NULL
    OR ano = '(null)' OR ano = 'nan' OR ano IS NULL
    OR periodo_do_dia = '(null)' OR periodo_do_dia = 'nan' OR periodo_do_dia IS NULL;


num_affected_rows
75


Para validar os dados armazenados, foram realizadas duas consultas: a primeira contando o número total de registros na tabela, e a segunda exibindo as cinco primeiras linhas.

In [0]:
%sql
SELECT COUNT(*) FROM silver.acidentes_transito;


count(1)
1981242


In [0]:
%sql
SELECT * FROM silver.acidentes_transito limit 5;

id_acidente,pessoas,mortos,ilesos,ignorados,feridos,causa_acidente,uf,dia_semana,ano,condicao_metereologica,periodo_do_dia
1,1,0,0,0,1,Fenômenos da Natureza,Paraná,domingo,2017,chuva,madrugada
2,3,0,3,0,0,Defeito mecânico em veículo,Paraná,sábado,2014,céu claro,manhã
3,3,0,3,0,0,Defeito mecânico em veículo,Paraná,sábado,2014,chuva,manhã
4,1,0,1,0,0,Falta de Atenção à Condução,Santa Catarina,domingo,2017,chuva,madrugada
5,1,0,1,0,0,Ultrapassagem indevida,Bahia,segunda-feira,2014,chuva,noite


Com os dados tratados e validados na camada silver, foi criada a camada gold, onde os dados refinados foram organizados seguindo a modelagem em estrela. Nessa modelagem a tabela fato fica no centro, armazenando as principais informações sobre os acidentes, como número de vítimas e gravidade. Ao redor, encontram-se as tabelas dimensionais, que fornecem descrições adicionais sobre os acidentes, como data, localidade e condição meteorológica.


Primeiro criou-se a camada gold.

In [0]:
%sql
DROP DATABASE IF EXISTS gold CASCADE;

In [0]:
%sql 
CREATE DATABASE IF NOT EXISTS gold;


Em seguida, foram criadas as tabelas dimensionais:
- Dimensão data: contém informações sobre o dia da semana, período do dia, ano e um identificador único (id_data).

In [0]:
%sql
CREATE TABLE gold.dimensao_data AS
SELECT 
    dia_semana,
    periodo_do_dia,
    ano,
    ROW_NUMBER() OVER (ORDER BY dia_semana, periodo_do_dia, ano) AS id_data
FROM (
    SELECT DISTINCT dia_semana, periodo_do_dia, ano
    FROM silver.acidentes_transito
) subquery;


num_affected_rows,num_inserted_rows


Pode-se ver a tabela criada abaixo:

In [0]:
%sql
SELECT * FROM gold.dimensao_data LIMIT 5

dia_semana,periodo_do_dia,ano,id_data
domingo,madrugada,2007,1
domingo,madrugada,2008,2
domingo,madrugada,2009,3
domingo,madrugada,2010,4
domingo,madrugada,2011,5


- Dimensão Localidade: armazena as unidades federativas (UF) e um identificador único (id_localidade).

In [0]:
%sql
CREATE TABLE gold.dimensao_localidade AS
SELECT 
    uf,
    ROW_NUMBER() OVER (ORDER BY uf) AS id_localidade
FROM (
    SELECT DISTINCT uf
    FROM silver.acidentes_transito
) subquery;

num_affected_rows,num_inserted_rows


Pode-se ver a tabela criada abaixo:

In [0]:
%sql
select * from gold.dimensao_localidade LIMIT 5

uf,id_localidade
Acre,1
Alagoas,2
Amapá,3
Amazonas,4
Bahia,5


- Dimensão Meteorologia: contém a condição meteorológica registrada no momento do acidente e um identificador único (id_meteorologia).

In [0]:
%sql
CREATE TABLE gold.dimensao_meteorologia AS
SELECT 
    condicao_metereologica,
    ROW_NUMBER() OVER (ORDER BY condicao_metereologica) AS id_meteorologia
FROM (
    SELECT DISTINCT condicao_metereologica
    FROM silver.acidentes_transito
) subquery;

num_affected_rows,num_inserted_rows


Pode-se ver a tabela criada abaixo:

In [0]:
%sql
select * from gold.dimensao_meteorologia

condicao_metereologica,id_meteorologia
chuva,1
céu claro,2
garoa/chuvisco,3
granizo,4
ignorado,5
neve,6
nevoeiro/neblina,7
nublado,8
sol,9
vento,10


Por fim, foi criada a tabela fato (fato_acidentes), que consolida as informações sobre os acidentes. Essa tabela inclui campos como pessoas, representando o número total de envolvidos em cada acidente, mortos, ilesos, ignorados, feridos e a causa do acidente.
Além disso, foram adicionadas as chaves estrangeiras id_meteorologia, id_localidade e id_data, que conectam a tabela fato às dimensões criadas.

In [0]:
%sql
CREATE TABLE gold.fato_acidentes AS
SELECT 
    s.id_acidente,
    s.pessoas,
    s.mortos,
    s.ilesos,
    s.ignorados,
    s.feridos,
    s.causa_acidente,
    dm.id_meteorologia,
    dl.id_localidade,
    dd.id_data
FROM silver.acidentes_transito s
LEFT JOIN gold.dimensao_meteorologia dm
    ON s.condicao_metereologica = dm.condicao_metereologica
LEFT JOIN gold.dimensao_localidade dl
    ON s.uf = dl.uf
LEFT JOIN gold.dimensao_data dd
    ON s.dia_semana = dd.dia_semana 
       AND s.ano = dd.ano 
       AND s.periodo_do_dia = dd.periodo_do_dia;


num_affected_rows,num_inserted_rows


Para validar os dados armazenados, foram realizadas duas consultas: a primeira contando o número total de registros na tabela, e a segunda exibindo as cinco primeiras linhas.

In [0]:
%sql
SELECT COUNT(*) FROM gold.fato_acidentes;


count(1)
1981242


In [0]:
%sql
select * from gold.fato_acidentes limit 5

id_acidente,pessoas,mortos,ilesos,ignorados,feridos,causa_acidente,id_meteorologia,id_localidade,id_data
1,1,0,0,0,1,Fenômenos da Natureza,1,14,11
2,3,0,3,0,0,Defeito mecânico em veículo,2,14,344
3,3,0,3,0,0,Defeito mecânico em veículo,1,14,344
4,1,0,1,0,0,Falta de Atenção à Condução,1,24,11
5,1,0,1,0,0,Ultrapassagem indevida,1,5,232


**Questionário**
- A quantidade total de acidentes de trânsito nos estados brasileiros diminuiu ao longo do tempo? Houve um aumento no número de acidentes no período de 2007 até 2011 e depois os acidentes foram gradativiamente diminuindo, com um pequeno aumento a partir de 2021. Porém, de maneira geral, a tendência ao longo do tempo foi de redução.
- A Lei Seca contribuiu para a redução dos acidentes de trânsito relacionados ao consumo de álcool? Com base nos dados a Lei Seca não impactou a quantidade de acidentes envolvendo álcool. Incluisive, entre 2010 e 2014, houve um aumento no número desses acidentes. No entanto, neste mesmo período, havia uma quantidade maior de acidentes em geral.

In [0]:
%sql
SELECT 
    d.ano AS Ano, 
    COUNT(f.id_acidente) AS Total_Acidentes,
    SUM(CASE 
        WHEN LOWER(f.causa_acidente) LIKE '%alcool%' OR LOWER(f.causa_acidente) LIKE '%álcool%' 
        THEN 1 
        ELSE 0 
    END) AS Total_Acidentes_Envolvendo_Alcool
FROM gold.fato_acidentes f
JOIN gold.dimensao_data d ON f.id_data = d.id_data
GROUP BY d.ano
ORDER BY d.ano;


Ano,Total_Acidentes,Total_Acidentes_Envolvendo_Alcool
2007,127647,3104
2008,141035,3561
2009,158642,4813
2010,183458,6805
2011,192322,7559
2012,184558,7594
2013,186748,7527
2014,169197,7391
2015,122158,6745
2016,96360,6331


- Houve diminuição na fatalidade dos acidentes envolvendo álcool? Levando em consideração a variação da quantidade de acidentes envolvendo ácool, os dados indicam que não houve uma variação significativa na taxa de fatalidade. O número de mortes e feridos se manteve relativamente estável ao longo do tempo. No entanto, observou-se um aumento na quantidade de pessoas classificadas como "ignorados" nos registros.

In [0]:
%sql
SELECT 
    d.ano AS Ano,
    COUNT(f.id_acidente) AS Total_Acidentes_Envolvendo_Alcool,
    SUM(f.pessoas) AS Total_Pessoas,
    SUM(f.ilesos) AS Total_Ilesos,
    SUM(f.feridos) AS Total_Feridos,
    SUM(f.mortos) AS Total_Mortos,
    SUM(f.ignorados) AS Total_Ignorados
FROM gold.fato_acidentes f
JOIN gold.dimensao_data d ON f.id_data = d.id_data
WHERE LOWER(f.causa_acidente) LIKE '%alcool%' OR LOWER(f.causa_acidente) LIKE '%álcool%'
GROUP BY d.ano
ORDER BY d.ano;

Ano,Total_Acidentes_Envolvendo_Alcool,Total_Pessoas,Total_Ilesos,Total_Feridos,Total_Mortos,Total_Ignorados
2007,3104,6881,3656,2915,180,129
2008,3561,7807,4166,3206,207,228
2009,4813,10554,5730,4211,249,364
2010,6805,15021,8391,5736,401,493
2011,7559,16416,9326,6182,345,562
2012,7594,16501,8983,6452,485,581
2013,7527,16600,8963,6516,430,691
2014,7391,16102,8487,6384,508,723
2015,6745,14631,7517,5880,480,754
2016,6331,14214,7161,5904,439,710


- Há alguma condição meteorológica associada a um maior número de acidentes envolvendo álcool? Embora possa-se  pensar que condições que dificultam a visão do motorista contribuem mais para a ocorrência de acidentes, os dados mostram que a maioria dos acidentes envolvendo álcool ocorreu em dias de céu claro.

In [0]:
%sql
SELECT 
    m.condicao_metereologica AS Condicao_Meteorologica, 
    COUNT(f.id_acidente) AS Total_Acidentes_Envolvendo_Alcool
FROM gold.fato_acidentes f
JOIN gold.dimensao_meteorologia m ON f.id_meteorologia = m.id_meteorologia
WHERE LOWER(f.causa_acidente) LIKE '%alcool%' OR LOWER(f.causa_acidente) LIKE '%álcool%'
GROUP BY m.condicao_metereologica
ORDER BY 2 DESC;

Condicao_Meteorologica,Total_Acidentes_Envolvendo_Alcool
céu claro,56036
nublado,19531
chuva,9120
sol,4938
ignorado,2077
garoa/chuvisco,1181
nevoeiro/neblina,1099
vento,331
neve,7
granizo,5



- Existe algum dia da semana em que a incidência de acidentes relacionados ao consumo de álcool seja maior? Sim, a maioria dos acidentes relacionados ao consumo de álcool ocorreu no final de semana.

In [0]:
%sql
SELECT 
    d.dia_semana As Dia_Semana, 
    COUNT(f.id_acidente) AS Total_Acidentes_Envolvendo_Alcool
FROM gold.fato_acidentes f
JOIN gold.dimensao_data d ON f.id_data = d.id_data
WHERE LOWER(f.causa_acidente) LIKE '%alcool%' OR LOWER(f.causa_acidente) LIKE '%álcool%'
GROUP BY d.dia_semana
ORDER BY 2 DESC;

Dia_Semana,Total_Acidentes_Envolvendo_Alcool
domingo,30257
sábado,25472
sexta-feira,11382
segunda-feira,7683
quinta-feira,7649
quarta-feira,6264
terça-feira,5618


- Quais estados brasileiros tiveram redução dos acidentes envolvendo álcool ao longo do tempo? Essa é uma das perguntas mais interessantes para análise, mas, devido à visualização estar em formato tabular, tornou-se inviável identificar essa tendência. Podemos ver com alguma clareza que Santa Catarina e Paraná seguem como uf com maior quantidade de acidentes ao decorrer dos anos.

In [0]:
%sql
SELECT 
    d.ano AS Ano,
    l.uf AS UF, 
    COUNT(f.id_acidente) AS Total_Acidentes_Envolvendo_Alcool
FROM gold.fato_acidentes f
JOIN gold.dimensao_localidade l ON f.id_localidade = l.id_localidade
JOIN gold.dimensao_data d ON f.id_data = d.id_data
WHERE LOWER(f.causa_acidente) LIKE '%alcool%' OR LOWER(f.causa_acidente) LIKE '%álcool%'
GROUP BY l.uf, d.ano
ORDER BY 1,3 DESC;

Ano,UF,Total_Acidentes_Envolvendo_Alcool
2007,Santa Catarina,550
2007,Minas Gerais,319
2007,Rio Grande do Sul,277
2007,Paraná,226
2007,Goiás,207
2007,Bahia,155
2007,Espírito Santo,135
2007,São Paulo,129
2007,Rio Grande do Norte,121
2007,Rondônia,108


Na consulta abaixo, é possível observar que Paraná, Santa Catarina aparecem com mais frequência entre as três UFs com maior número de acidentes envolvendo álcool, enquanto Acre, Amapá e Amazonas figuram entre as três com menor número de ocorrências. No entanto, essa análise não responde completamente à pergunta, pois estamos observando apenas os extremos por ano, sem considerar a tendência geral de redução ao longo do tempo de forma mais ampla.

In [0]:
%sql
WITH acidentes_por_uf_ano AS (
    SELECT 
        d.ano AS ano,
        l.uf AS uf, 
        COUNT(f.id_acidente) AS total_acidentes
    FROM gold.fato_acidentes f
    JOIN gold.dimensao_localidade l ON f.id_localidade = l.id_localidade
    JOIN gold.dimensao_data d ON f.id_data = d.id_data
    WHERE LOWER(f.causa_acidente) LIKE '%alcool%' OR LOWER(f.causa_acidente) LIKE '%álcool%'
    GROUP BY d.ano, l.uf
),
ranked_acidentes AS (
    SELECT 
        *,
        DENSE_RANK() OVER (PARTITION BY ano ORDER BY total_acidentes DESC) AS rank_maior,
        DENSE_RANK() OVER (PARTITION BY ano ORDER BY total_acidentes ASC) AS rank_menor
    FROM acidentes_por_uf_ano
)
SELECT 
    ano,
    uf,
    total_acidentes
FROM ranked_acidentes
WHERE rank_maior <= 3 OR rank_menor <= 3
ORDER BY ano, total_acidentes DESC;


ano,uf,total_acidentes
2007,Santa Catarina,550
2007,Minas Gerais,319
2007,Rio Grande do Sul,277
2007,Acre,17
2007,Amapá,10
2007,Amazonas,5
2008,Santa Catarina,570
2008,Minas Gerais,422
2008,Paraná,291
2008,Acre,9


**Conclusão**

Não foi possível afirmar que a Lei Seca teve um impacto direto na redução dos acidentes relacionados ao consumo de álcool. A análise indicou que o número de acidentes de trânsito no Brasil continuou crescendo até 2011, apresentou uma queda até 2021 e, a partir daí, voltou a registrar um leve aumento. Considerando que a Lei Seca entrou em vigor em junho de 2008, poderia-se argumentar que ela não teve um impacto positivo evidente. No entanto, é importante considerar outros fatores que podem ter influenciado esse cenário, como o aumento da frota de veículos populares, outras políticas públicas de segurança no trânsito e a melhoria na coleta de dados sobre acidentes. Dessa forma, para se concluir com mais precisão sobre o real impacto da Lei Seca, seriam necessários estudos mais aprofundados.

**Autoavaliação**

Embora a maioria das perguntas tenha sido respondida, a última — que eu considerei uma das mais legais para entender melhor a situação — ficou com uma visualização bem difícil. Seria muito melhor trazer isso em um gráfico ou algo mais visual, mas acredito que isso seja tratado em outras sprints.

As condições meteorológicas no dataset também não tiveram uma curadoria muito precisa. Achei estranho "sol" e "céu claro" serem categorias separadas. Poderia ter unificado esses campos, mas fiquei receosa de existir alguma diferença que eu não tenha percebido. De qualquer forma, isso não faria tanta diferença no resultado final, mas chamou minha atenção. Além disso, a categoria "vento" ficou bem abstrata.

Outra limitação é que o estudo foca em rodovias, o que deixa a análise meio distante da forma como nós geralmente pensamos na Lei Seca — aqueles testes de bafômetro nas ruas da cidade. Talvez um próximo passo fosse tentar encontrar um dataset com mais informações sobre essas fiscalizações urbanas para ter uma visão mais completa do impacto da lei.