In [None]:
import pandas as pd
from scipy import stats
import matplotlib
import matplotlib.pyplot as plt

plt.style.use('fivethirtyeight')
plt.rcParams['axes.labelsize'] = 10
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10
plt.rcParams['legend.fontsize'] = 10

In [None]:
# importando os dados com Pandas
df = pd.read_csv("ocorrencias_cenipa.csv", sep=';', encoding='latin-1')

In [None]:
# quantos registros há no dataset
df.shape

In [None]:
df.head()

In [None]:
# quais são os tipos de ocorrências existentes?
print(df['tipo'].unique())

In [None]:
# qual o total de ocorrências por tipo (categoria)?
print('INCIDENTES:', str(df['tipo'][df['tipo'] == 'INCIDENTE'].count()))
print('INCIDENTES GRAVES:', str(df['tipo'][df['tipo'] == 'INCIDENTE GRAVE'].count()))
print('ACIDENTES:', str(df['tipo'][df['tipo'] == 'ACIDENTE'].count()))
print('Total do Ocorrências:', str(df['tipo'].count()))

In [None]:
# visualizandos os dados sobre os incidentes e acidentes
df_group = df['tipo'].value_counts()
plt.figure(1, figsize=(20, 8))

# colocando um título para o gráfico
plt.suptitle('Acidentes Aéreos', fontsize=20)
plt.title("Maior Recorrência", fontsize=16)
plt.xlabel('Tipos de Acidente', fontsize=12)
plt.ylabel('Quantidade de Ocorrências', fontsize=12)

# plota o gráfico com os dados
df_group.plot.bar()
plt.savefig('recorrencia_de_incidentes.jpg', format='jpg', dpi=300, bbox_inches='tight', pad_inches=0.2)

In [None]:
# quais são as descrições das ocorrências existentes?
print(df['descricao'].unique())

In [None]:
# qual a frequência em que ocorrem as ocorrências?
result = []
for ocorrencia in df['descricao'].sort_values(ascending=True).unique():    
    result.append([ocorrencia, df['descricao'][df['descricao'] == ocorrencia].count()])

# cria um novo DataFrame com os dados obtidos
df_descricao_tipo_ocorrencias = pd.DataFrame(result, columns =['descricao', 'total'])

# mostra o resultado dos 10 tipos de ocorrência mais frequentes
df_descricao_tipo_ocorrencias.sort_values(ascending=False, by = 'total').head(10)

In [None]:
# salva um arquivo excel
df_descricao_tipo_ocorrencias.to_excel("df_descricao_tipo_ocorrencias.xlsx", index=True, header=True)

In [None]:
# normalizando os dados para verificar percentualmente - usando dicionários
df_freq_dict = {}

for ocorrencia in df['descricao'].unique():
    df_freq_dict[ocorrencia] = (df['descricao'][df['descricao'] == ocorrencia].count() / df['descricao'].count()) * 100

# criando uma série
ocorrencias_freq = pd.Series(df_freq_dict)

# mostrando os dados ordenados
ocorrencias_freq.sort_values(ascending=False).head(10)

In [None]:
# ocorrências por estado?
for ocorrencia in df['estado'].unique():
    print(str(ocorrencia) + ' :' +
          str(df['estado'][
              df['estado'] == ocorrencia
              ].count()
             )
         )

In [None]:
# frequência de ocorrências por estado
df_freq_dict = {}

for ocorrencia in df['estado'].unique():
    df_freq_dict[ocorrencia] = (df['estado'][df['estado'] == ocorrencia].count() / df['estado'].count()) * 100

# criando uma série
ocorrencias_por_estado_freq = pd.Series(df_freq_dict)

# mostrando os dados ordenados
ocorrencias_por_estado_freq.sort_values(ascending=False).head(10)

In [None]:
# visualizando os dados
fig, axes = plt.subplots(figsize=(10.,6.))

ocorrencias_por_estado_freq.sort_values(ascending=False).head(10).plot(kind='bar')

plt.title("Ocorrências por Estado", fontsize=16)
plt.xlabel('Estados', fontsize=12)
plt.ylabel('Ocorrência', fontsize=12)
                   
plt.savefig('acidentes_maior_recorrencia.jpg', format='jpg', dpi=600, bbox_inches='tight', pad_inches=0.2)
plt.show()
plt.close()

In [None]:
# trablando com as cidades
# quantas cidades diferentes apresentaram algum problema?
cidades = df["cidade"].nunique()
print("Existem", cidades, "cidades únicas nos dados")

In [None]:
# faz um agrupamento por cidade versus ocorrências e ordena em ordem crescente e mostra as 10 maiores
ocorrencias_nas_cidades = df.groupby('cidade')['codigo'].nunique().sort_values(ascending=False).head(10)
print(ocorrencias_nas_cidades)

In [None]:
print("\nEssas cidades representam", round(ocorrencias_nas_cidades.head(10).sum()/df.shape[0]*100,1),"% do total dos dados.")

In [None]:
# mostrando o gráfico da representação anterior
plt.figure(figsize=(16,8))
ocorrencias_nas_cidades.head(10).plot(kind="bar",rot=0)

plt.suptitle('Acidentes Aéreos', fontsize=20)
plt.title("Cidades por Ocorrência", fontsize=16)
plt.xlabel('Tipos de Acidente', fontsize=12)
plt.ylabel('Quantidade de Ocorrências', fontsize=12)

plt.savefig('cidades_por_ocorrencia.jpg', format='jpg', dpi=600, bbox_inches='tight', pad_inches=0.2)

In [None]:
# distribuição de ocorrências ao longo dos anos por estado
ano_freq_dict = { }
ano_freq_dict['all'] = {}

for s in df['estado'].unique():
    ano_freq_dict[s] = {}

for ocorrencia in df['ano'].unique():    
    ano_freq_dict['all'][ocorrencia] = df['ano'][df['ano'] == ocorrencia].count()
    
    for s in df['estado'].unique():        
        ano_freq_dict[s][ocorrencia] = df['ano'][(df['ano'] == ocorrencia) & (df['estado'] == s)].count()

ano_freq = pd.DataFrame(ano_freq_dict)

ano_freq.head(10)

In [None]:
# salvando dados em um arquivo excel
ano_freq.to_excel("df_distribuicao_por_ano.xlsx", index = True, header=True)

In [None]:
fig, axes = plt.subplots(figsize=(12.,6.))

ano_freq['all'].plot.area(label='total')
ano_freq['SP'].plot.area(label='SP')
ano_freq['MG'].plot.area(label='MG')

plt.suptitle('Acidentes Aéreos', fontsize=16)
plt.title("Distribuição de Acidentes por Ano", fontsize=12)
axes.set_xlabel('Estado')
axes.set_ylabel('Número de Ocorrências nos Últimos 10 anos')
          
axes.legend(loc='upper left')
plt.savefig('acidentes_por_estado.jpg', format='jpg', dpi=600, bbox_inches='tight', pad_inches=0.2)
plt.show()
plt.close()

# Atividade de Fixação 

In [None]:
# Quantos países fabricam aeronaves?

In [None]:
# Mostre graficamente os países fabricantes

In [None]:
# Mostre graficamento o nível de dano das aeronaves

In [None]:
# O que você pode inferir sobre os dados?

In [None]:
# Quantas cidades estão duplicadas?

In [None]:
# Mostre as 5 cidades que tiveram mais destruição de aeronaves

In [None]:
# Filtre as cidade únicas e salve o resultado em um arquivo excel denominado df_cidades_unicas.xlsx
# ATENÇÃO: o DataFrame não pode ser alterado, pois, será utilizado posteriormente

In [None]:
# Abra o arquivo salvo e mostre o total de observations

In [None]:
# Crie um subset e salve em um arquivo excel com o nome: df_reduzido.xlsx com as seguintes variables
# Descricao, cidade, estado, ano, aeronave_nivel_dano

In [None]:
# Abra o arquivo salvo e mostre seu conteúdo