# Exploração dos Dados Coletados

### Aqui abaixo no link está o dicionário de dados.
[Dicionário de Dados](https://docs.google.com/spreadsheets/d/1Zgqj_uRK1fG0wJQOHbfJ9MsjBoDjOD-bQyTVb-v7VlQ/edit?usp=sharing)

In [None]:
import numpy as np
import pandas as pd
import requests
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
!wget https://dadosabertos.poa.br/dataset/6ee76b32-a6b8-4822-9889-e44135cdd7a5/resource/5cc6b043-84aa-4841-a7d1-643948206c3b/download/websin.csv

In [None]:
!wget https://dadosabertos.poa.br/dataset/ddc7c320-d52a-469f-831a-921b30feb48c/resource/a46aaaca-8cc1-4082-aa78-ce9f859e2df5/download/cat_vitimas.csv

# Base de dados websin

In [None]:
df = pd.read_csv("/content/websin.csv", sep=';', error_bad_lines=False)  # lê o arquivo csv

In [None]:
df.shape    # retorna a quantidade de linhas e colunas

In [None]:
df.index

In [None]:
df.columns

In [None]:
df

In [None]:
import matplotlib.pyplot as plt

# Convert 'implantacao' to datetime, invalid parsing will be set as NaT
df['implantacao'] = pd.to_datetime(df['implantacao'], errors='coerce')

# Create a new column 'ano' with the year of implantacao
df['ano'] = df['implantacao'].dt.year

# Group by 'ano' and count the number of sinalizacao
sinalizacao_por_ano = df.groupby('ano').size()

# Convert index to integer
sinalizacao_por_ano.index = sinalizacao_por_ano.index.dropna().astype(int)

# Create a larger plot
plt.figure(figsize=(10, 6))

# Create a bar plot
sinalizacao_por_ano.plot(kind='bar')

# Get current x-axis ticks and labels
locs, labels = plt.xticks()

# Set new x-axis ticks and labels to display every 5 years
plt.xticks(locs[::1], labels[::1])

plt.xlabel('Ano')
plt.ylabel('Quantidade de Sinalização Instalada')
plt.title('Quantidade de Sinalização Instalada por Ano')
plt.tight_layout()  # Adjust the layout to make room for the x-axis labels
plt.show()

In [None]:
# Agrupa por 'cruzamento_nome' e conta
counts = df['cruzamento_nome'].value_counts()

# Ordena em ordem decrescente
sorted_counts = counts.sort_values(ascending=False)

# Exibe os 'cruzamento_nome' com mais instalações
sorted_counts

In [None]:
import matplotlib.pyplot as plt

# Agrupa por 'cruzamento_nome' e conta
counts = df['cruzamento_nome'].value_counts()

# Ordena em ordem decrescente
sorted_counts = counts.sort_values(ascending=False)

# Seleciona os 10 'cruzamento_nome' mais frequentes
top_10_cruzamentos = sorted_counts.head(10)

# Cria um gráfico de barras
top_10_cruzamentos.plot(kind='bar', figsize=(10, 6))

plt.xlabel('Cruzamento')
plt.ylabel('Contagem')
plt.title('Top 10 Cruzamentos Mais Sinalizados')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Base de dados vítimas

In [None]:
vit = pd.read_csv("/content/cat_vitimas.csv", sep=';', error_bad_lines=False)  # lê o arquivo csv

In [None]:
vit.shape    # retorna a quantidade de linhas e colunas

In [None]:
vit.index

In [None]:
vit.columns

In [None]:
vit

In [None]:
vit['sum_vit'] = vit[['auto', 'taxi', 'onibus_urb', 'onibus_met', 'onibus_int', 'caminhao', 'moto', 'carroca', 'bicicleta', 'outro', 'lotacao']].sum(axis=1)

In [None]:
import pandas as pd

# Convert 'data' to datetime format
vit['data'] = pd.to_datetime(vit['data'])

# Extract year
vit['year'] = vit['data'].dt.year

# Exclude the year 2202
vit = vit[vit['year'] != 2202]

# Group by year and sum 'sum_vit'
yearly_deaths = vit.groupby('year')['sum_vit'].sum()

# Plot
plt.figure(figsize=(10, 6))
bars = yearly_deaths.plot(kind='bar', color='red')
plt.title('Total de Mortes por Ano', fontweight='bold')
plt.xlabel('Ano', fontweight='bold')
plt.ylabel('Total de Mortes', fontweight='bold')

# Add numbers on top of each bar
for bar in bars.patches:
    bars.annotate(format(bar.get_height(), '.0f'),
                   (bar.get_x() + bar.get_width() / 2,
                    bar.get_height()), ha='center', va='center',
                   size=10, xytext=(0, 8),
                   textcoords='offset points')

plt.show()