# Carregar os dados

In [1]:
# Importar as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
import pandas as pd

# Carregar o arquivo CSV em um DataFrame
df = pd.read_excel('datatran2021_Completa.xlsx')

# Explorar os dados

In [4]:
# Verificando o tamanho da planilha
df.shape

(64539, 32)

In [None]:
# Algumas informações da estrutura dos dados
df.info()

In [6]:
# Verificando o nome dos rótulos
df.columns

Index(['id', 'data_inversa', 'dia_semana', 'horario', 'Hora', 'Turno', 'uf',
       'br', 'km', 'municipio', 'causa_acidente', 'tipo_acidente',
       'classificacao_acidente', 'fase_dia', 'sentido_via',
       'condicao_metereologica', 'tipo_pista', 'tracado_via', 'uso_solo',
       'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos',
       'ignorados', 'feridos', 'veiculos', 'latitude', 'longitude', 'regional',
       'delegacia', 'uop'],
      dtype='object')

In [None]:
# Visualizando uma coluna específica
df['causa_acidente']

In [None]:
# Visualizando mais de uma coluna
df[['causa_acidente','fase_dia']]

In [None]:
# Verificando os tipos de dados em uma única coluna
df['causa_acidente'].unique()

In [None]:
# Exibindo um intervalo do DataFrame
df[4:8]

In [None]:
# Exibindo um intervalo do DataFrame
df[:8]

In [None]:
# Exibindo um intervalo do DataFrame
df[4:]

In [None]:
# Exibindo um intervalo do DataFrame
df[-8:]

In [None]:
# Visualizando mais de uma coluna dentro de um intervalo
df[:5][['causa_acidente','fase_dia']]

In [None]:
# Agrupando por Turno, onde realiza a contagem
df['Turno'].value_counts()

In [None]:
# Agrupando por UF e depois por Turno, onde realiza a contagem
df.groupby(['uf','Turno'])['Turno'].count()

In [None]:
# Verifica no Dataframe e exibe os registros onde o Turno NÃO for nulo
df[df['Turno'].notnull()]

In [None]:
# Verifica no Dataframe e exibe os registros onde o Turno for nulo
df[df['Turno'].isnull()]

In [None]:
# Acidentes com número de mortos entre 3 e 7
df[df['mortos'].between(3, 5)]

In [None]:
# Municípios cujo nome contém a letra "a"
df[df['municipio'].str.contains('a', case=False)]

In [None]:
# Acidentes que ocorreram nos turnos da Manhã ou Noite
df[df['Turno'].isin(['Manhã', 'Noite'])]

In [None]:
# Alunos do turno Manhã
df[df['Turno'] == 'Manhã']

In [None]:
# Acidentes com número de mortos acima de 3 OU turno Tarde
df[(df['mortos'] > 3) | (df['Turno'] == 'Tarde')]

In [None]:
# Acidentes com número de mortos acima de 3 E UF da PB
df[(df['mortos'] > 2) & (df['uf'] == 'PB')]

In [None]:
# Acidentes com número de mortos acima de 7
df[df['mortos'] > 7]

# Limpar os dados

In [None]:
# Verificar valores ausentes
df.isnull().sum()

In [None]:
# Remover todos os registros nulo
df = df.dropna()

# Transformar os dados

In [None]:
# Criar uma nova coluna de saldo de gols
df['saldo_gols'] = df['mandante_placar'] - df['visitante_placar']

# Analisar os dados

In [None]:
# Quantidade de registros por UF
df['uf'].value_counts()

In [None]:
# Quantidade de registros por UF
df.groupby(['uf'])['mortos'].max()

In [None]:
# Analisando o número de mortos
# df[df['uf']=='PB']['feridos'].describe()
df[(df['uf'] == 'PB') & (df['feridos'] > 0)]['feridos'].describe()

In [57]:
# Estatísticas para os gols do mandante
print('Média.........:',df['feridos'].mean())
print('Moda..........:',df['feridos'].mode().values)
print('Mediana.......:',df['feridos'].median())
print('Máximo........:',df['feridos'].max())
print('Mínimo........:',df['feridos'].min())
print('Desvio Padrão.:',df['feridos'].std())
print('Variância.....:',df['feridos'].var())

Média.........: 1.11321836408993
Moda..........: [1]
Mediana.......: 1.0
Máximo........: 49
Mínimo........: 0
Desvio Padrão.: 1.1515498344365296
Variância.....: 1.3260670211907988


In [None]:
# Gráfico de Barra por UF
df.groupby('uf')['feridos'].sum().plot(kind='bar', figsize=(12,5), title='Evolução de Feridos por UF')
plt.ylabel('Total de Feridos')
plt.xlabel('UF')
plt.grid(True)
plt.show()

In [None]:
# Gráfico de Linha por UF
df.groupby('uf')['feridos'].sum().plot(kind='line', figsize=(12,5), title='Evolução de Feridos por UF')
plt.ylabel('Total de Feridos')
plt.xlabel('UF')
plt.grid(True)
plt.show()

In [64]:
df.columns

Index(['id', 'data_inversa', 'dia_semana', 'horario', 'Hora', 'Turno', 'uf',
       'br', 'km', 'municipio', 'causa_acidente', 'tipo_acidente',
       'classificacao_acidente', 'fase_dia', 'sentido_via',
       'condicao_metereologica', 'tipo_pista', 'tracado_via', 'uso_solo',
       'pessoas', 'mortos', 'feridos_leves', 'feridos_graves', 'ilesos',
       'ignorados', 'feridos', 'veiculos', 'latitude', 'longitude', 'regional',
       'delegacia', 'uop'],
      dtype='object')

In [None]:
# Histograma de feridos
df[df['uf']=='PB']['pessoas'].plot(kind='hist', bins=20, title='Distribuição de Feridos')
plt.xlabel('Número de Feridos')
plt.grid(True)
plt.show()

In [None]:
df[(df['uf'] == 'PB') & (df['feridos'] > 0)].boxplot(column='feridos')
plt.title('Boxplot - Feridos')
plt.ylabel('Quantidade de Feridos')
plt.grid(True)
plt.show()

# Salvar ou exportar

In [None]:
df2 = df.groupby(['uf'])['feridos'].count()
df2

In [78]:
# Salvar ou exportar a base de dados para o formato JSON
df2.to_json('dados.json', orient='records', indent=4)

In [79]:
# Salvar ou exportar a base de dados para o formato TXT
df2.to_csv('dados.txt', sep='\t', index=False)

In [80]:
# Salvar ou exportar a base de dados para o formato CSV
df2.to_csv('dados.csv', index=False)

In [81]:
# Salvar ou exportar a base de dados para o formato XLSX
df2.to_excel('dados.xlsx', index=False)