 # An√°lise de Acidentes de Tr√¢nsito em Porto Alegre üö¶

Este projeto tem como objetivo realizar uma an√°lise explorat√≥ria dos acidentes de Tr√¢nsito
em Porto Alegre, identificando padr√µes temporais e espaciais que possam apoiar estrat√©gias de preven√ß√£o.

#### Fontes dos Dados 
https://dadosabertos.poa.br/dataset/acidentes-de-transito-acidentes


#### Objetivos principais :
- Explorar os dados de acidentes em Porto Alegre
- Identificar os per√≠odo e locais mais cr√≠ticos
- Gerar insight que possam apoiar pol√≠ticas p√∫blicas e conscientiza√ß√£o.

## 1.Importa√ß√£o e Visualiza√ß√£o inicial  üì• 

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Carregando o dataframe que utilizaremos na an√°lise.
df = pd.read_csv('E:\Projeto_anaconda\dadosACD\cat_acidentes.csv', sep = ';')

In [None]:
df

In [None]:
df.info()

# 2.Limpeza e Preparo de Dados
- Limpeza de valores NaN
- Padroniza√ß√£o das colunas
  

In [None]:
df = df.rename(columns={'noite_dia': 'periodo'})
# Mudei o nome da coluna "noite_dia" para "periodo", para que seja mais f√°cil de se manipular

In [None]:
df

In [None]:
# Nessa parte limpamos os valores nulos que estavam nas colunas "longitude" e "latitude"
df = df.dropna(subset=['longitude', 'latitude'], how = 'any' )
df

Agora com os dados preparados e organizados podemos come√ßar a nossa an√°lise. Irei come√ßar fazendo uma An√°lise Geogr√°ficas, usando mapas como de calor e de clusters para identificar concentra√ß√µes de acidentes em Porto Alegre.

# 3.An√°lise Geogr√°fica üó∫Ô∏è

In [None]:

import folium
from folium.plugins import HeatMap, MarkerCluster

mapa = folium.Map(location=[-30.1, -51.15], zoom_start=11)
coordenadas = list(zip(df.latitude, df.longitude))
HeatMap(coordenadas, radius=9, blur=10).add_to(mapa)
mapa



No mapa de calor, conseguimos ver que a regi√£o central de Porto Alegre √© a que concentra mais acidentes, j√° que aparece como a √°rea mais intensa do mapa.

Para entender melhor essa concentra√ß√£o, vamos usar um mapa de clusters, que ajuda a visualizar de forma mais clara e detalhada onde os acidentes realmente acontecem.

In [None]:
from folium.plugins import MarkerCluster

mapa = folium.Map(location=[-30.1,-51.15], zoom_start=11)
mapa_cluster= MarkerCluster(coordenadas)
mapa.add_child(mapa_cluster)
              
mapa



Agora j√° sabemos quantos acidentes aconteceram no centro de Porto Alegre e nas regi√µes ao redor. Mas surge uma nova pergunta: em quais anos esses acidentes foram registrados?

## 4.Frequ√™ncia de Acidentes
Primeiro, vamos examinar o **DataFrame** para identificar de quais anos os dados est√£o sendo coletados. Essa etapa nos permite ter uma vis√£o geral do per√≠odo abrangido pelos registros de acidentes.


In [None]:
df.data

In [None]:
df['data'] = pd.to_datetime(df['data'], errors= 'coerce')
df_ano = df['data'].dt.year.value_counts()
df_ano

O resultado mostra os anos que os acidentes foram registrados, permitindo identificar os per√≠odos com maior registro de ocorr√™ncias.

In [None]:
# Gr√°fico dos Registros por ano de Acidentes
df_ano = df['data'].dt.year.value_counts().sort_index()

anos = df_ano.index
valores = df_ano.values
cores = plt.cm.Blues(np.linspace(0.4,1, len(anos)))

plt.figure(figsize=(10,6))
plt.bar(anos, valores, color=cores, edgecolor = 'black')
plt.title('Frequ√™ncia de Registro por Ano', fontsize=14)
plt.xlabel("Ano", fontsize=12)
plt.ylabel("Frequ√™ncia", fontsize=12)

for i, v in enumerate(valores):
    plt.text(anos[i], v + 1, str(v), ha='center', fontsize=10)


plt.show()

Agora sabemos quais anos est√£o registrados no **DataFrame** e podemos ter uma no√ß√£o da quantidade de acidentes por ano.  
Observa-se que **2023** foi o ano com o maior n√∫mero de registros de acidentes de tr√¢nsito, indicando um aumento significativo nesse per√≠odo.

In [None]:
tabela = df['dia_sem'].value_counts().to_frame(name='frequencia')
tabela.reset_index(inplace=True)
tabela.columns = ['dia_sem', 'frequencia']
tabela

# Esta tabela nos permite visualizar quais dias da semana apresentam maior, frequ√™ncia de acidentes.

Observa-se que **sexta-feira** √© o dia da semana com maior ocorr√™ncia de acidentes nos √∫ltimos anos.  
Essa informa√ß√£o pode ser √∫til para direcionar campanhas de conscientiza√ß√£o e medidas de preven√ß√£o de acidentes nos dias de maior risco.

In [None]:
dia_sexta = 'SEXTA-FEIRA'
df_filtrado = df[df['dia_sem'] == dia_sexta]

In [None]:
tabela_periodo = df_filtrado['periodo'].value_counts().to_frame(name = 'quantidade')
tabela_periodo.reset_index(inplace=True)
tabela_periodo.columns = ['periodo', 'quantidade']

tabela_periodo
# A tabela permite comparar a quantidade de acidentes durante o dia e √† noite.

Agora que identificamos que a quantidade que mais ocorrem acidentes √© no **per√≠odo do dia**, vamos aprofundar a an√°lise criando um gr√°fico para visualizar **quais hor√°rios apresentam maior frequ√™ncia de acidentes**.  
Isso nos ajudar√° a entender melhor os momentos de maior risco no tr√¢nsito.

In [None]:
df['hora'].isna().sum
# Checando se a algum valor nulo na coluna "hora" do data frame para n√£o nos prejudicar.

Existe alguns valores nulos na coluna e iremos retirar-los 

In [None]:
df_hora = df.dropna(subset=['hora'],how = 'any')
df_hora

In [None]:
df_hora['hora'].isna().sum()
# Agora a coluna est√° totalmente limpa de valores nulos

In [None]:
df_sexta = df[df['dia_sem'] == 'SEXTA-FEIRA']
df_sexta['hora'] = pd.to_datetime(df_sexta['hora'], errors = 'coerce').dt.time
df_sexta['hora_do_dia'] = df_sexta['hora'].apply(lambda x: x.hour)

In [None]:
bins = list(range(0, 25, 2))
labels = [f'{i}-{i+1}h' for i in bins[:-1]]
df_sexta['intervalo_hora'] = pd.cut(df_sexta['hora_do_dia'], bins=bins, labels=labels, right=False)

acidentes_hora = df_sexta['intervalo_hora'].value_counts().sort_index()
acidentes_hora

# Para entender melhor quantos os acidentes ocorrem durante o dia, dividimos em intervalos de 2 horas e contamos a quantidade de acidentes.

Podemos ver que os intervalos com maior ocorr√™ncia de acidentes s√£o ao in√≠cio do dia **8-9h** e no per√≠odo da tarde **16-17h**, indicando que os hor√°rios de pico do tr√°fego correspondem a momentos de maior risco de acidentes.
Intervalos da madrugada, como 2-3h e 4-5h, apresentam menor n√∫mero de acidentes.

In [None]:
acidentes_hora = acidentes_hora.sort_index()

norm = acidentes_hora.values / acidentes_hora.values.max()
cores = plt.cm.Blues(norm)

plt.figure(figsize=(12,6))
plt.bar(acidentes_hora.index.astype(str), acidentes_hora.values, color=cores)
plt.title("Acidentes de Tr√¢nsito por Intervalo de Hora (Sexta-feira)", fontsize=16)
plt.xlabel("Intervalo de Hora", fontsize=12)
plt.ylabel("Quantidade de Acidentes", fontsize=12)
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

## 5.Rela√ß√£o entre  vari√°veis
Nessa etapa,analisamos como os acidentes se distribuem ao longo da semana e em diferentes per√≠odos do dia.

In [None]:
dias_ordem = ['SEGUNDA-FEIRA','TER√áA-FEIRA','QUARTA-FEIRA','QUINTA-FEIRA','SEXTA-FEIRA','S√ÅBADO','DOMINGO' ]
df['dia_sem'] = pd.Categorical(df['dia_sem'], categories=dias_ordem, ordered=True)

In [None]:
# Criei uma tabela para nos mostrar os dias da semana e quantidade de acidentes

tabela_dia_periodo = pd.crosstab(df['dia_sem'], df['periodo'])
tabela_dia_periodo

In [None]:
tabela_dia_periodo = pd.crosstab(df['dia_sem'], df['periodo'])

ax = tabela_dia_periodo.plot(kind='bar', figsize=(10,6))
plt.title('Acidentes por Dia da semana e Per√≠odo do dia')
plt.xlabel('Dia da Semana')
plt.ylabel('Quantidade de Acidentes')
plt.legend(title='Periodo do Dia')

for container in ax.containers:  
    ax.bar_label(container, fmt='%d')

plt.show()

Observando o gr√°fico, podemos identificar que o per√≠odo do **dia** s√£o mais frequentes de acidentes. Com por exemplo, notamos que h√° uma maior concentra√ß√£o de acidentes nos **finais de semana** ou durante o **per√≠odo da manh√£**, pois o fluxo de carros aumenta nesses per√≠odos. Essas informa√ß√µes pode auxiliar no planejamento de campanhas de seguran√ßa vi√°ria e fiscaliza√ß√£o.

# Acidentes por hora e dia da semana
Nesta etapa, analisamos a distribui√ß√£o dos acidentes ao longo do **dia** em cada **dia da semana**, para identificar quais hor√°rios apresentam maior ocorr√™ncia de acidentes.

In [None]:
print(df.columns)

In [None]:
print(df['dia_sem'].unique())

In [None]:
print(df['periodo'].unique())

In [None]:
dias_ordem = ['SEGUNDA-FEIRA','TER√áA-FEIRA','QUARTA-FEIRA','QUINTA-FEIRA','SEXTA-FEIRA','S√ÅBADO','DOMINGO' ]
df['dia_sem'] = pd.Categorical(df['dia_sem'], categories=dias_ordem, ordered=True)

In [None]:
# Criando uma tabela cruzada entre hora e dia da semana
tabela_dia_periodo = pd.crosstab(df['dia_sem'],df['periodo'])
tabela_dia_periodo

In [None]:
df['hora'] = pd.to_datetime(df['hora'], errors='coerce')
df['hora_int'] = df['hora'].dt.hour

tabela_hora_dia = pd.crosstab(df['hora_int'], df['dia_sem'])

plt.figure(figsize=(12,6))
sns.heatmap(
    tabela_hora_dia,
    cmap='Blues',
    annot = True,
    fmt='d',
    cbar_kws={'label': 'Quantidade de Acidentes'} 
)

plt.title('Distribui√ß√£o de Acidentes por Hora do Dia e Dia da semana')
plt.xlabel('Dia da semana')
plt.ylabel('Hora do Dia')
plt.show()
                

O heatmap permite visualizar os picos de acidentes em hor√°rios espec√≠ficos. Podemos ver claramente quais hor√°rios s√£o mais cr√≠ticos em cada dia da semana, com destaque para 07:00 e 08:00 da manh√£ e 18:00 √†s 19:00 da noite, que concentram maior n√∫mero de acidentes. Essa informa√ß√£o √© fundamental para planejar campanhas de conscientiza√ß√£o e estrat√©gias de fiscaliza√ß√£o.

# Conclus√£o

Ao longo deste projeto, realizamos uma an√°lise explorat√≥ria dos acidentes, observando sua distribui√ß√£o por **dia da semana**, **per√≠odo do dia** e **hora do dia**. Alguns pontos importantes foram identificados:

- Os acidentes apresentam maior ocorr√™ncia em determinados dias e hor√°rios, com destaque para **07:00 e 08:00 da manh√£** e **18:00 √†s 19:00 da noite**, indicando hor√°rios cr√≠ticos, possivelmente relacionados ao fluxo intenso de tr√¢nsito para ida e volta de trabalho.
- A an√°lise por dia da semana mostrou padr√µes de maior incid√™ncia nos dias de maior movimento, especialmente **sextas-feiras** e per√≠odos pr√≥ximos ao final da semana.
- A distribui√ß√£o por per√≠odo e hora permite direcionar a√ß√µes de conscientiza√ß√£o, fiscaliza√ß√£o e pol√≠ticas p√∫blicas para reduzir o n√∫mero de acidentes.

Esses insights s√£o fundamentais para **planejar estrat√©gias de preven√ß√£o**, identificar √°reas e hor√°rios cr√≠ticos, e auxiliar na tomada de decis√µes por √≥rg√£os de tr√¢nsito e gestores urbanos.
