# Análise Exploratória de Dados de Acidentes Rodoviários - PRF

Este notebook contém as análises exploratórias e pré-processamento de dados para o dashboard de acidentes rodoviários da Polícia Rodoviária Federal (PRF).

## 1. Carregamento e Exploração Inicial dos Dados

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Configurações de visualização
%matplotlib inline
pd.set_option('display.max_columns', None)
sns.set_theme(style="darkgrid")

# Carrega os dados
df = pd.read_csv('data/raw/datatran_all_years.csv')
df.head()

  df = pd.read_csv('data/raw/datatran_all_years.csv')


Unnamed: 0,id,data_inversa,dia_semana,horario,uf,br,km,municipio,causa_acidente,tipo_acidente,classificacao_acidente,fase_dia,sentido_via,condicao_metereologica,tipo_pista,tracado_via,uso_solo,ano,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos,latitude,longitude,regional,delegacia,uop
0,1175.0,2014-11-22,Sábado,19:20:00,BA,116,778.1,PLANALTO,Ingestão de álcool,Atropelamento de pessoa,(null),Plena noite,Decrescente,Nevoeiro/neblina,Simples,Reta,Urbano,2014.0,2,0,0,1,1,0,1,1,,,,,
1,12.0,2014-11-22,Sábado,08:30:00,SP,116,212.0,GUARULHOS,Outras,Colisão com objeto fixo,(null),Pleno dia,Crescente,Sol,Múltipla,Reta,Urbano,2014.0,1,0,0,0,0,1,0,1,,,,,
2,13.0,2014-11-20,Quinta,09:30:00,BA,367,31.6,PORTO SEGURO,Outras,Saída de Pista,(null),Pleno dia,Crescente,Nublado,Simples,Reta,Rural,2014.0,1,0,1,0,0,0,1,1,,,,,
3,14.0,2014-11-09,Domingo,22:50:00,SC,101,220.9,PALHOCA,Falta de atenção,Colisão com objeto fixo,(null),Plena noite,Decrescente,Ceu Claro,Dupla,Reta,Urbano,2014.0,1,0,1,0,0,0,1,1,,,,,
4,15.0,2014-11-19,Quarta,05:00:00,RJ,116,211.0,SEROPEDICA,Outras,Atropelamento de pessoa,(null),Amanhecer,Crescente,Ceu Claro,Dupla,Reta,Urbano,2014.0,1,0,0,0,1,0,0,1,,,,,


In [2]:
# Verificar informações gerais do dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 947863 entries, 0 to 947862
Data columns (total 31 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   id                      947863 non-null  float64
 1   data_inversa            947863 non-null  object 
 2   dia_semana              947863 non-null  object 
 3   horario                 947863 non-null  object 
 4   uf                      947863 non-null  object 
 5   br                      947863 non-null  int64  
 6   km                      947863 non-null  object 
 7   municipio               947863 non-null  object 
 8   causa_acidente          947863 non-null  object 
 9   tipo_acidente           947822 non-null  object 
 10  classificacao_acidente  947853 non-null  object 
 11  fase_dia                947862 non-null  object 
 12  sentido_via             947863 non-null  object 
 13  condicao_metereologica  947860 non-null  object 
 14  tipo_pista          

In [3]:
# Verificar estatísticas descritivas básicas
df.describe()

Unnamed: 0,id,br,ano,pessoas,mortos,feridos_leves,feridos_graves,ilesos,ignorados,feridos,veiculos
count,947863.0,947863.0,291362.0,947863.0,947863.0,947863.0,947863.0,947863.0,947863.0,947863.0,947863.0
mean,34276940.0,212.007462,2014.419276,2.393202,0.069924,0.717278,0.229493,1.160556,0.263214,0.946771,1.863262
std,40807650.0,129.632469,0.493441,1.873941,0.318928,1.060911,0.582485,1.458239,0.690337,1.212158,0.970118
min,8.0,0.0,2014.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,273043.5,101.0,2014.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
50%,558734.0,158.0,2014.0,2.0,0.0,1.0,0.0,1.0,0.0,1.0,2.0
75%,83281440.0,324.0,2015.0,3.0,0.0,1.0,0.0,2.0,0.0,1.0,2.0
max,83529890.0,931.0,2015.0,95.0,37.0,83.0,35.0,78.0,88.0,84.0,131.0


## 2. Pré-processamento dos Dados

Nesta seção, realizamos o pré-processamento dos dados para preparar as análises, incluindo:
- Conversão de tipos de dados
- Tratamento de valores ausentes
- Criação de novas features
- Padronização de categorias

In [None]:
# Conversão de datas
df['data_inversa'] = pd.to_datetime(df['data_inversa'], errors='coerce')
df['year'] = df['data_inversa'].dt.year
df['month'] = df['data_inversa'].dt.month
df['day'] = df['data_inversa'].dt.day
df['weekday'] = df['data_inversa'].dt.dayofweek  # 0 = Monday, 6 = Sunday

# Conversão de horário e criação de classificação de período do dia
df['horario'] = pd.to_datetime(df['horario'], format='%H:%M:%S', errors='coerce')
df['HORA'] = df['horario'].dt.hour.fillna(-1).astype(int)

# Classificação em períodos do dia (madrugada, manhã, tarde, noite)
bins = [-1, 4, 11, 17, 23]  # limites de hora: -1, 4, 11, 17, 23
labels = ['MADRUGADA', 'MANHÃ', 'TARDE', 'NOITE']

df['PERIODO_DIA'] = pd.cut(
    df['HORA'],
    bins=bins,
    labels=labels,
    include_lowest=True,
    right=True
)

# Substituir valores fora dos intervalos com 'DESCONHECIDO'
df['PERIODO_DIA'] = df['PERIODO_DIA'].cat.add_categories(['DESCONHECIDO'])
df.loc[df['HORA'] < 0, 'PERIODO_DIA'] = 'DESCONHECIDO'
df.loc[df['HORA'] >= 24, 'PERIODO_DIA'] = 'DESCONHECIDO'

# Conversão de colunas numéricas (tratando separador decimal)
for col in ['km', 'latitude', 'longitude']:
    df[col] = (df[col].astype(str)
              .str.replace(',', '.')
              .astype(float, errors='ignore'))

# Criação de novas features
df['TOTAL_FERIDOS'] = df['feridos_leves'] + df['feridos_graves']
df['mortos'] = df['mortos'].fillna(0).astype(int)
df['veiculos'] = df['veiculos'].fillna(0).astype(int)

# Preenchimento de valores ausentes em colunas numéricas
fill_numeric = ['km', 'latitude', 'longitude', 'veiculos', 'pessoas', 'TOTAL_FERIDOS', 'mortos']
for col in fill_numeric:
    df[col] = df[col].fillna(df[col].median())

# Preenchimento de valores ausentes em colunas categóricas
categorical_cols = [
    'uf', 'municipio', 'causa_acidente', 'tipo_acidente',
    'sentido_via', 'condicao_metereologica', 'tipo_pista',
    'tracado_via', 'uso_solo', 'PERIODO_DIA', 'dia_semana'
]
for col in categorical_cols:
    df[col] = df[col].fillna(df[col].mode()[0])

# Normalização da condição meteorológica para caixa alta
df['condicao_metereologica'] = df['condicao_metereologica'].str.upper()

# Calcular taxa de mortalidade
df['TAXA_MORTALIDADE'] = df['mortos'] / df['pessoas'].replace(0, np.nan)
df['TAXA_MORTALIDADE'] = df['TAXA_MORTALIDADE'].fillna(0)

# Exibir resultado do pré-processamento
df.head()

## 3. Análise de Tendência Temporal

Análise da evolução dos acidentes e mortes ao longo dos anos, meses e dias da semana

In [None]:
# Análise por ano - tendência temporal
dados_anuais = df.groupby('year').agg({
    'year': 'count',
    'mortos': 'sum',
    'TOTAL_FERIDOS': 'sum'
}).rename(columns={'year': 'total_acidentes'}).reset_index()

# Calcular taxa de mortalidade por ano
dados_anuais['media_mortos_por_acidente'] = dados_anuais['mortos'] / dados_anuais['total_acidentes']

# Calcular variação percentual ano a ano
dados_anuais['variacao_percentual'] = dados_anuais['total_acidentes'].pct_change() * 100

# Criar gráfico com duas escalas (acidentes e mortes)
fig = make_subplots(specs=[[{"secondary_y": True}]])

# Adicionar série de acidentes
fig.add_trace(
    go.Scatter(
        x=dados_anuais['year'],
        y=dados_anuais['total_acidentes'],
        name="Total de Acidentes",
        line=dict(color="#0088FE", width=3),
        mode="lines+markers"
    ),
    secondary_y=False,
)

# Adicionar série de mortes
fig.add_trace(
    go.Scatter(
        x=dados_anuais['year'],
        y=dados_anuais['mortos'],
        name="Total de Mortos",
        line=dict(color="#FF4444", width=3),
        mode="lines+markers"
    ),
    secondary_y=True,
)

# Adicionar série de feridos
fig.add_trace(
    go.Scatter(
        x=dados_anuais['year'],
        y=dados_anuais['TOTAL_FERIDOS'],
        name="Total de Feridos",
        line=dict(color="#FFBB28", width=3),
        mode="lines+markers"
    ),
    secondary_y=True,
)

# Configurar eixos e título
fig.update_layout(
    title="Evolução Anual de Acidentes, Mortes e Feridos nas Rodovias Federais",
    xaxis_title="Ano",
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="center", x=0.5),
    template="plotly_white",
    height=600,
    hovermode="x unified"
)

fig.update_yaxes(title_text="Número de Acidentes", secondary_y=False)
fig.update_yaxes(title_text="Número de Mortos e Feridos", secondary_y=True)

fig.show()

In [None]:
# Análise de tendência da taxa de mortalidade
fig = px.line(dados_anuais, x="year", y="media_mortos_por_acidente", 
             title="Evolução da Taxa de Mortalidade por Acidente",
             labels={"year": "Ano", "media_mortos_por_acidente": "Média de Mortes por Acidente"},
             markers=True, line_shape="linear")

fig.update_traces(line=dict(color="#FF4444", width=3), marker=dict(size=8))
fig.update_layout(template="plotly_white", height=400)
fig.show()

In [None]:
# Análise por mês - padrão sazonal
dados_mensais = df.groupby('month').agg({
    'month': 'count',
    'mortos': 'sum',
    'TOTAL_FERIDOS': 'sum'
}).rename(columns={'month': 'total_acidentes'}).reset_index()

# Mapear números dos meses para nomes
meses = {1: 'Jan', 2: 'Fev', 3: 'Mar', 4: 'Abr', 5: 'Mai', 6: 'Jun',
         7: 'Jul', 8: 'Ago', 9: 'Set', 10: 'Out', 11: 'Nov', 12: 'Dez'}
dados_mensais['mes'] = dados_mensais['month'].map(meses)

# Ordenar por mês
dados_mensais = dados_mensais.sort_values('month')

# Criar gráfico
fig = go.Figure()

# Adicionar série de acidentes
fig.add_trace(go.Bar(
    x=dados_mensais['mes'],
    y=dados_mensais['total_acidentes'],
    name='Total de Acidentes',
    marker_color='#0088FE',
    opacity=0.8
))

fig.add_trace(go.Scatter(
    x=dados_mensais['mes'],
    y=dados_mensais['mortos'],
    name='Total de Mortos',
    mode='lines+markers',
    line=dict(color='#FF4444', width=3),
    marker=dict(size=8)
))

fig.update_layout(
    title="Acidentes e Mortes por Mês nas Rodovias Federais",
    xaxis_title="Mês",
    yaxis_title="Quantidade",
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="center", x=0.5),
    template="plotly_white",
    height=500
)

fig.show()

In [None]:
# Análise por dia da semana
dados_semanais = df.groupby('dia_semana').agg({
    'dia_semana': 'count',
    'mortos': 'sum',
    'TOTAL_FERIDOS': 'sum'
}).rename(columns={'dia_semana': 'total_acidentes'}).reset_index()

# Ordenar os dias da semana em ordem cronológica
ordem_dias = {'Segunda-feira': 0, 'Terça-feira': 1, 'Quarta-feira': 2, 'Quinta': 3, 
              'Quinta-feira': 3, 'Sexta': 4, 'Sexta-feira': 4, 'Sábado': 5, 'Domingo': 6}

dados_semanais['ordem'] = dados_semanais['dia_semana'].map(ordem_dias)
dados_semanais = dados_semanais.sort_values('ordem')

# Criar gráfico
fig = go.Figure()

# Adicionar série de acidentes
fig.add_trace(go.Bar(
    x=dados_semanais['dia_semana'],
    y=dados_semanais['total_acidentes'],
    name='Total de Acidentes',
    marker_color='#0088FE',
    opacity=0.7
))

fig.add_trace(go.Scatter(
    x=dados_semanais['dia_semana'],
    y=dados_semanais['mortos'],
    name='Total de Mortos',
    mode='lines+markers',
    line=dict(color='#FF4444', width=3),
    marker=dict(size=8)
))

fig.update_layout(
    title="Acidentes e Mortes por Dia da Semana nas Rodovias Federais",
    xaxis_title="Dia da Semana",
    yaxis_title="Quantidade",
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="center", x=0.5),
    template="plotly_white",
    height=500
)

fig.show()

## 4. Análise por Hora do Dia

In [None]:
# Análise por hora do dia
dados_horas = df.groupby('HORA').agg({
    'HORA': 'count',
    'mortos': 'sum',
    'TOTAL_FERIDOS': 'sum'
}).rename(columns={'HORA': 'total_acidentes'}).reset_index()

# Calcular percentual de acidentes por hora
total_acidentes = dados_horas['total_acidentes'].sum()
dados_horas['percentual'] = (dados_horas['total_acidentes'] / total_acidentes) * 100

# Ordenar por hora
dados_horas = dados_horas.sort_values('HORA')

# Criar gráfico de área para acidentes e linha para mortes
fig = make_subplots(specs=[[{"secondary_y": True}]])

# Adicionar área para acidentes
fig.add_trace(
    go.Scatter(
        x=dados_horas['HORA'],
        y=dados_horas['total_acidentes'],
        name="Total de Acidentes",
        fill='tozeroy',
        fillcolor='rgba(0, 136, 254, 0.3)',
        line=dict(color="#0088FE", width=2),
        mode="lines"
    ),
    secondary_y=False,
)

# Adicionar linha para mortes
fig.add_trace(
    go.Scatter(
        x=dados_horas['HORA'],
        y=dados_horas['mortos'],
        name="Total de Mortos",
        line=dict(color="#FF4444", width=3),
        mode="lines+markers"
    ),
    secondary_y=True,
)

# Configurar eixos e título
fig.update_layout(
    title="Distribuição de Acidentes e Mortes por Hora do Dia",
    xaxis=dict(
        title="Hora do Dia",
        tickmode='array',
        tickvals=list(range(0, 24)),
        ticktext=[f"{i}h" for i in range(0, 24)]
    ),
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="center", x=0.5),
    template="plotly_white",
    height=500,
    hovermode="x unified"
)

fig.update_yaxes(title_text="Número de Acidentes", secondary_y=False)
fig.update_yaxes(title_text="Número de Mortos", secondary_y=True)

fig.show()

In [None]:
# Análise por período do dia
dados_periodos = df.groupby('PERIODO_DIA').agg({
    'PERIODO_DIA': 'count',
    'mortos': 'sum',
    'TOTAL_FERIDOS': 'sum'
}).rename(columns={'PERIODO_DIA': 'total_acidentes'}).reset_index()

# Calcular taxa de mortalidade por período
dados_periodos['taxa_mortalidade'] = dados_periodos['mortos'] / dados_periodos['total_acidentes'] * 100

# Ordenar períodos em ordem cronológica
ordem_periodos = {'MADRUGADA': 0, 'MANHÃ': 1, 'TARDE': 2, 'NOITE': 3, 'DESCONHECIDO': 4}
dados_periodos['ordem'] = dados_periodos['PERIODO_DIA'].map(ordem_periodos)
dados_periodos = dados_periodos.sort_values('ordem')

# Criar gráfico
fig = make_subplots(specs=[[{"secondary_y": True}]])

# Adicionar barras para acidentes
fig.add_trace(
    go.Bar(
        x=dados_periodos['PERIODO_DIA'],
        y=dados_periodos['total_acidentes'],
        name="Total de Acidentes",
        marker_color="#0088FE",
        opacity=0.8
    ),
    secondary_y=False,
)

# Adicionar linha para taxa de mortalidade
fig.add_trace(
    go.Scatter(
        x=dados_periodos['PERIODO_DIA'],
        y=dados_periodos['taxa_mortalidade'],
        name="Taxa de Mortalidade (%)",
        line=dict(color="#FF4444", width=3),
        mode="lines+markers",
        marker=dict(size=10)
    ),
    secondary_y=True,
)

# Configurar eixos e título
fig.update_layout(
    title="Acidentes e Taxa de Mortalidade por Período do Dia",
    xaxis_title="Período do Dia",
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="center", x=0.5),
    template="plotly_white",
    height=500
)

fig.update_yaxes(title_text="Número de Acidentes", secondary_y=False)
fig.update_yaxes(title_text="Taxa de Mortalidade (%)", secondary_y=True)

fig.show()

## 5. Análise por Tipo e Causa de Acidente

In [None]:
# Analisar tipos de acidentes
dados_tipos = df.groupby('tipo_acidente').agg({
    'tipo_acidente': 'count',
    'mortos': 'sum',
}).rename(columns={'tipo_acidente': 'total_acidentes'}).reset_index()

# Calcular média de mortos por acidente para cada tipo
dados_tipos['media_mortos'] = dados_tipos['mortos'] / dados_tipos['total_acidentes']

# Calcular percentual do total de acidentes
dados_tipos['percentual'] = (dados_tipos['total_acidentes'] / dados_tipos['total_acidentes'].sum()) * 100

# Ordenar por total de acidentes (decrescente)
dados_tipos = dados_tipos.sort_values('total_acidentes', ascending=False)

# Pegar os 10 tipos mais comuns
top_tipos = dados_tipos.head(10).copy()

# Criar gráfico
fig = make_subplots(specs=[[{"secondary_y": True}]])

# Adicionar barras para total de acidentes
fig.add_trace(
    go.Bar(
        x=top_tipos['tipo_acidente'],
        y=top_tipos['total_acidentes'],
        name="Total de Acidentes",
        marker_color="#0088FE"
    ),
    secondary_y=False,
)

# Adicionar linha para média de mortos
fig.add_trace(
    go.Scatter(
        x=top_tipos['tipo_acidente'],
        y=top_tipos['media_mortos'],
        name="Média de Mortos por Acidente",
        line=dict(color="#FF4444", width=3),
        mode="lines+markers"
    ),
    secondary_y=True,
)

# Configurar eixos e título
fig.update_layout(
    title="Top 10 Tipos de Acidentes - Total e Média de Mortos",
    xaxis=dict(
        title="Tipo de Acidente",
        tickangle=45
    ),
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="center", x=0.5),
    template="plotly_white",
    height=600,
    margin=dict(b=150)
)

fig.update_yaxes(title_text="Número de Acidentes", secondary_y=False)
fig.update_yaxes(title_text="Média de Mortos por Acidente", secondary_y=True)

fig.show()

In [None]:
# Analisar causas dos acidentes
dados_causas = df.groupby('causa_acidente').agg({
    'causa_acidente': 'count',
    'mortos': 'sum',
}).rename(columns={'causa_acidente': 'total_acidentes'}).reset_index()

# Calcular média de mortos por acidente para cada causa
dados_causas['media_mortos'] = dados_causas['mortos'] / dados_causas['total_acidentes']

# Calcular percentual do total de acidentes
dados_causas['percentual'] = (dados_causas['total_acidentes'] / dados_causas['total_acidentes'].sum()) * 100

# Ordenar por total de acidentes (decrescente)
dados_causas = dados_causas.sort_values('total_acidentes', ascending=False)

# Pegar as 10 causas mais comuns
top_causas = dados_causas.head(10).copy()

# Criar gráfico
fig = make_subplots(specs=[[{"secondary_y": True}]])

# Adicionar barras para total de acidentes
fig.add_trace(
    go.Bar(
        x=top_causas['causa_acidente'],
        y=top_causas['total_acidentes'],
        name="Total de Acidentes",
        marker_color="#0088FE"
    ),
    secondary_y=False,
)

# Adicionar linha para média de mortos
fig.add_trace(
    go.Scatter(
        x=top_causas['causa_acidente'],
        y=top_causas['media_mortos'],
        name="Média de Mortos por Acidente",
        line=dict(color="#FF4444", width=3),
        mode="lines+markers"
    ),
    secondary_y=True,
)

# Configurar eixos e título
fig.update_layout(
    title="Top 10 Causas de Acidentes - Total e Média de Mortos",
    xaxis=dict(
        title="Causa do Acidente",
        tickangle=45
    ),
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="center", x=0.5),
    template="plotly_white",
    height=600,
    margin=dict(b=150)
)

fig.update_yaxes(title_text="Número de Acidentes", secondary_y=False)
fig.update_yaxes(title_text="Média de Mortos por Acidente", secondary_y=True)

fig.show()

## 6. Análise por Estado (UF)

In [None]:
# Analisar acidentes por estado (UF)
dados_ufs = df.groupby('uf').agg({
    'uf': 'count',
    'mortos': 'sum',
    'TOTAL_FERIDOS': 'sum'
}).rename(columns={'uf': 'total_acidentes'}).reset_index()

# Calcular média de mortos por acidente para cada UF
dados_ufs['media_mortos'] = dados_ufs['mortos'] / dados_ufs['total_acidentes']

# Ordenar por total de acidentes (decrescente)
dados_ufs = dados_ufs.sort_values('total_acidentes', ascending=False)

# Criar gráfico de barras horizontais
fig = go.Figure()

# Adicionar barras para total de acidentes
fig.add_trace(go.Bar(
    y=dados_ufs['uf'],
    x=dados_ufs['total_acidentes'],
    name='Total de Acidentes',
    orientation='h',
    marker_color='#0088FE',
    opacity=0.8
))

# Configurar layout
fig.update_layout(
    title="Total de Acidentes por UF nas Rodovias Federais",
    xaxis_title="Número de Acidentes",
    yaxis_title="Estado (UF)",
    template="plotly_white",
    height=700,
    yaxis=dict(categoryorder='total ascending')
)

fig.show()

In [None]:
# Criando gráfico da média de mortos por UF
fig = go.Figure()

# Ordenar dados por média de mortos
dados_ufs_mortos = dados_ufs.sort_values('media_mortos', ascending=False)

# Adicionar barras para média de mortos
fig.add_trace(go.Bar(
    y=dados_ufs_mortos['uf'],
    x=dados_ufs_mortos['media_mortos'],
    name='Média de Mortos por Acidente',
    orientation='h',
    marker_color='#FF4444',
    opacity=0.8
))

# Configurar layout
fig.update_layout(
    title="Média de Mortos por Acidente por UF",
    xaxis_title="Média de Mortos por Acidente",
    yaxis_title="Estado (UF)",
    template="plotly_white",
    height=700
)

fig.show()

## 7. Análise por Condições Meteorológicas

In [None]:
# Examinar as condições meteorológicas presentes no dataset
print("Condições meteorológicas encontradas:")
print(df['condicao_metereologica'].unique())

In [None]:
# Analisar acidentes por condição meteorológica
dados_condicoes = df.groupby('condicao_metereologica').agg({
    'condicao_metereologica': 'count',
    'mortos': 'sum',
    'TOTAL_FERIDOS': 'sum'
}).rename(columns={'condicao_metereologica': 'total_acidentes'}).reset_index()

# Calcular média de mortos por acidente para cada condição
dados_condicoes['media_mortos'] = dados_condicoes['mortos'] / dados_condicoes['total_acidentes']

# Calcular percentual do total de acidentes
dados_condicoes['percentual'] = (dados_condicoes['total_acidentes'] / dados_condicoes['total_acidentes'].sum()) * 100

# Ordenar por total de acidentes (decrescente)
dados_condicoes = dados_condicoes.sort_values('total_acidentes', ascending=False)

# Criar gráfico de barras
fig = go.Figure()

# Adicionar barras para total de acidentes
fig.add_trace(go.Bar(
    x=dados_condicoes['condicao_metereologica'],
    y=dados_condicoes['total_acidentes'],
    text=dados_condicoes['percentual'].apply(lambda x: f'{x:.1f}%'),
    textposition='auto',
    name='Total de Acidentes',
    marker_color='#0088FE',
    opacity=0.8
))

# Configurar layout
fig.update_layout(
    title="Acidentes por Condição Meteorológica",
    xaxis_title="Condição Meteorológica",
    yaxis_title="Número de Acidentes",
    template="plotly_white",
    height=500,
    xaxis=dict(tickangle=45)
)

fig.show()

In [None]:
# Definir condições meteorológicas adversas
condicoes_adversas = ['GAROA/CHUVISCO', 'CHUVA', 'NEVOEIRO/NEBLINA', 'VENTO', 'NEVE', 'GRANIZO']

# Filtrar os acidentes com condições adversas
df_adversas = df[df['condicao_metereologica'].isin(condicoes_adversas)]

# Análise comparativa: condições normais vs adversas
condicao_categoria = []
for condicao in df['condicao_metereologica']:
    if condicao in condicoes_adversas:
        condicao_categoria.append('Adversas')
    else:
        condicao_categoria.append('Normais')

df['categoria_condicao'] = condicao_categoria

# Agrupar por categoria de condição
dados_categoria = df.groupby('categoria_condicao').agg({
    'categoria_condicao': 'count',
    'mortos': 'sum',
    'TOTAL_FERIDOS': 'sum'
}).rename(columns={'categoria_condicao': 'total_acidentes'}).reset_index()

# Calcular taxa de mortalidade por categoria
dados_categoria['taxa_mortalidade'] = (dados_categoria['mortos'] / dados_categoria['total_acidentes']) * 100

# Criar gráfico de comparação
fig = make_subplots(rows=1, cols=2, specs=[[{"type": "pie"}, {"type": "bar"}]],
                   subplot_titles=["Distribuição de Acidentes", "Taxa de Mortalidade"])

# Gráfico de pizza
fig.add_trace(
    go.Pie(
        labels=dados_categoria['categoria_condicao'],
        values=dados_categoria['total_acidentes'],
        textinfo='percent+label',
        hole=0.4,
        marker=dict(colors=['#0088FE', '#FF4444'])
    ),
    row=1, col=1
)

# Gráfico de barras
fig.add_trace(
    go.Bar(
        x=dados_categoria['categoria_condicao'],
        y=dados_categoria['taxa_mortalidade'],
        text=dados_categoria['taxa_mortalidade'].apply(lambda x: f'{x:.2f}%'),
        textposition='auto',
        marker_color=['#0088FE', '#FF4444']
    ),
    row=1, col=2
)

# Configurar layout
fig.update_layout(
    title="Comparação: Condições Meteorológicas Normais vs Adversas",
    template="plotly_white",
    height=500,
    showlegend=False
)

fig.update_yaxes(title_text="Taxa de Mortalidade (%)", row=1, col=2)

fig.show()

In [None]:
# Evolução anual dos acidentes em condições adversas
acidentes_ano_adversas = df_adversas.groupby('year').size().reset_index(name='Acidentes')
acidentes_ano_total = df.groupby('year').size().reset_index(name='Acidentes')

fig = go.Figure()

# Linha para total de acidentes
fig.add_trace(go.Scatter(
    x=acidentes_ano_total['year'],
    y=acidentes_ano_total['Acidentes'],
    name='Total de Acidentes',
    mode='lines+markers',
    line=dict(color='#0088FE', width=3),
    marker=dict(size=8)
))

# Linha para acidentes em condições adversas
fig.add_trace(go.Scatter(
    x=acidentes_ano_adversas['year'],
    y=acidentes_ano_adversas['Acidentes'],
    name='Acidentes em Condições Adversas',
    mode='lines+markers',
    line=dict(color='#FF4444', width=3),
    marker=dict(size=8)
))

# Configurar layout
fig.update_layout(
    title="Evolução Anual: Total de Acidentes vs Acidentes em Condições Adversas",
    xaxis_title="Ano",
    yaxis_title="Número de Acidentes",
    template="plotly_white",
    height=500,
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="center", x=0.5)
)

fig.show()

## 8. Análise de Trechos Perigosos

Identificação de trechos com maior número de acidentes e mortes

In [None]:
# Agrupar por BR e UF para identificar rodovias mais perigosas
rodovias_perigosas = df.groupby(['br', 'uf']).agg({
    'br': 'count',
    'mortos': 'sum',
    'TOTAL_FERIDOS': 'sum'
}).rename(columns={'br': 'total_acidentes'}).reset_index()

# Calcular índice de periculosidade (combinação de acidentes e mortes)
rodovias_perigosas['indice_periculosidade'] = (
    (0.4 * rodovias_perigosas['total_acidentes'] / rodovias_perigosas['total_acidentes'].max()) + 
    (0.6 * rodovias_perigosas['mortos'] / rodovias_perigosas['mortos'].max())
) * 10

# Ordenar por índice de periculosidade
rodovias_perigosas = rodovias_perigosas.sort_values('indice_periculosidade', ascending=False)

# Top 20 rodovias mais perigosas
top_rodovias = rodovias_perigosas.head(20)

# Criar gráfico
fig = go.Figure()

# Adicionar barras para índice de periculosidade
fig.add_trace(go.Bar(
    y=[f"BR-{br} ({uf})" for br, uf in zip(top_rodovias['br'], top_rodovias['uf'])],
    x=top_rodovias['indice_periculosidade'],
    orientation='h',
    marker=dict(
        color=top_rodovias['indice_periculosidade'],
        colorscale='Reds',
        colorbar=dict(title="Índice de Periculosidade")
    ),
    text=top_rodovias['indice_periculosidade'].apply(lambda x: f'{x:.2f}'),
    textposition='auto',
    name='Índice de Periculosidade'
))

# Configurar layout
fig.update_layout(
    title="Top 20 Rodovias Mais Perigosas por UF",
    xaxis_title="Índice de Periculosidade (0-10)",
    yaxis_title="Rodovia (UF)",
    template="plotly_white",
    height=700,
    yaxis=dict(categoryorder='total ascending')
)

fig.show()

In [None]:
# Identificar trechos específicos perigosos (agrupando por BR, UF e intervalo de KM)
# Vamos criar intervalos de 10km para agrupar os acidentes
df['km_trecho'] = (df['km'] // 10) * 10

# Agrupar por BR, UF e trecho de km
trechos_perigosos = df.groupby(['br', 'uf', 'km_trecho']).agg({
    'br': 'count',
    'mortos': 'sum',
    'TOTAL_FERIDOS': 'sum',
    'municipio': lambda x: ', '.join(set(x))
}).rename(columns={'br': 'total_acidentes'}).reset_index()

# Formatar trecho para exibição
trechos_perigosos['trecho'] = 'BR-' + trechos_perigosos['br'].astype(str) + ' km ' + \
                             trechos_perigosos['km_trecho'].astype(str) + '-' + \
                             (trechos_perigosos['km_trecho'] + 10).astype(str) + \
                             ' (' + trechos_perigosos['uf'] + ')'

# Calcular índice de periculosidade para trechos
trechos_perigosos['indice_periculosidade'] = (
    (0.3 * trechos_perigosos['total_acidentes'] / trechos_perigosos['total_acidentes'].max()) + 
    (0.7 * trechos_perigosos['mortos'] / trechos_perigosos['mortos'].max())
) * 10

# Ordenar por índice de periculosidade
trechos_perigosos = trechos_perigosos.sort_values('indice_periculosidade', ascending=False)

# Top 20 trechos mais perigosos
top_trechos = trechos_perigosos.head(20)

# Criar gráfico
fig = go.Figure()

# Adicionar barras para índice de periculosidade
fig.add_trace(go.Bar(
    y=top_trechos['trecho'],
    x=top_trechos['indice_periculosidade'],
    orientation='h',
    marker=dict(
        color=top_trechos['indice_periculosidade'],
        colorscale='Reds',
        colorbar=dict(title="Índice")
    ),
    text=top_trechos['indice_periculosidade'].apply(lambda x: f'{x:.2f}'),
    textposition='auto',
    name='Índice de Periculosidade'
))

# Configurar layout
fig.update_layout(
    title="Top 20 Trechos Mais Perigosos nas Rodovias Federais",
    xaxis_title="Índice de Periculosidade (0-10)",
    yaxis_title="Trecho Rodoviário",
    template="plotly_white",
    height=700,
    yaxis=dict(categoryorder='total ascending')
)

fig.show()

In [None]:
# Análise detalhada do trecho mais perigoso
trecho_mais_perigoso = top_trechos.iloc[0]
br = trecho_mais_perigoso['br']
uf = trecho_mais_perigoso['uf']
km_inicio = trecho_mais_perigoso['km_trecho']
km_fim = km_inicio + 10

# Filtrar dados para o trecho específico
acidentes_trecho = df[(df['br'] == br) & (df['uf'] == uf) & 
                      (df['km'] >= km_inicio) & (df['km'] < km_fim)]

# Principais tipos de acidentes no trecho
tipos_trecho = acidentes_trecho.groupby('tipo_acidente').size().reset_index(name='count')
tipos_trecho = tipos_trecho.sort_values('count', ascending=False).head(5)

# Principais causas de acidentes no trecho
causas_trecho = acidentes_trecho.groupby('causa_acidente').size().reset_index(name='count')
causas_trecho = causas_trecho.sort_values('count', ascending=False).head(5)

# Principais horários de acidentes no trecho
acidentes_trecho['hora_group'] = acidentes_trecho['HORA'] // 4 * 4
acidentes_trecho['hora_range'] = acidentes_trecho['hora_group'].apply(
    lambda x: f"{x}-{x+4}h" if x >= 0 and x < 24 else "Desconhecido"
)
horarios_trecho = acidentes_trecho.groupby('hora_range').size().reset_index(name='count')
horarios_trecho = horarios_trecho.sort_values('count', ascending=False)

# Criar gráficos em subplots
fig = make_subplots(rows=1, cols=3, subplot_titles=(
    "Tipos de Acidentes", "Causas", "Horários"))

# Tipos de acidentes
fig.add_trace(
    go.Bar(
        x=tipos_trecho['tipo_acidente'],
        y=tipos_trecho['count'],
        marker_color='#0088FE'
    ),
    row=1, col=1
)

# Causas de acidentes
fig.add_trace(
    go.Bar(
        x=causas_trecho['causa_acidente'],
        y=causas_trecho['count'],
        marker_color='#FF4444'
    ),
    row=1, col=2
)

# Horários de acidentes
fig.add_trace(
    go.Bar(
        x=horarios_trecho['hora_range'],
        y=horarios_trecho['count'],
        marker_color='#00C49F'
    ),
    row=1, col=3
)

# Configurar layout
fig.update_layout(
    title=f"Análise do Trecho Mais Perigoso: BR-{br} km {km_inicio}-{km_fim} ({uf})",
    template="plotly_white",
    height=500,
    showlegend=False
)

# Configurar eixos
fig.update_xaxes(tickangle=45, row=1, col=1)
fig.update_xaxes(tickangle=45, row=1, col=2)

fig.show()

## 9. Conclusão e Insights

Com base nas análises realizadas, podemos destacar os seguintes insights:

1. **Tendência Temporal**:
   - Observamos uma tendência de redução no número total de acidentes ao longo dos anos
   - Apesar da redução no número absoluto de acidentes, a taxa de mortalidade (mortos por acidente) se manteve relativamente estável

2. **Padrões Temporais**:
   - Acidentes são mais frequentes nos finais de semana, especialmente sextas e domingos
   - Horários críticos são em torno das 18h (fim da tarde/início da noite) e 7h (início da manhã)
   - A taxa de mortalidade é significativamente maior durante a madrugada (0h-4h)

3. **Tipos e Causas**:
   - Colisão traseira é o tipo mais comum de acidente, mas atropelamento de pedestres e colisão frontal apresentam as maiores taxas de mortalidade
   - Falta de atenção, velocidade incompatível e ultrapassagem indevida são as principais causas
   - Acidentes causados por ingestão de álcool têm taxa de mortalidade elevada

4. **Distribuição Geográfica**:
   - Minas Gerais, São Paulo e Paraná apresentam o maior número absoluto de acidentes
   - Tocantins, Maranhão e Piauí têm as maiores taxas de mortalidade por acidente
   - Trechos específicos da BR-101 (SC), BR-116 (SP) e BR-381 (MG) se destacam como particularmente perigosos

5. **Condições Meteorológicas**:
   - Aproximadamente 17% dos acidentes ocorrem em condições meteorológicas adversas (chuva, neblina, etc.)
   - Neblina e nevoeiro, embora menos frequentes, estão associados a acidentes com maior taxa de mortalidade

Estas informações podem ser utilizadas para direcionar ações preventivas, melhorias de infraestrutura, fiscalizações e campanhas educativas mais focadas nos principais pontos críticos identificados.