In [77]:
import pandas as pd
import numpy as np
import seaborn as sns
import datetime
from matplotlib import rcParams
import matplotlib.pyplot as plt
import plotly.express as px
import pydeck as pdk

In [3]:
df = pd.read_csv("ocorrencias_aviacao.csv")

In [4]:
df.columns

Index(['codigo_ocorrencia', 'ocorrencia_classificacao', 'ocorrencia_tipo',
       'ocorrencia_tipo_categoria', 'ocorrencia_tipo_icao',
       'ocorrencia_latitude', 'ocorrencia_longitude', 'ocorrencia_cidade',
       'ocorrencia_uf', 'ocorrencia_pais', 'ocorrencia_aerodromo',
       'ocorrencia_dia', 'ocorrencia_horario',
       'investigacao_aeronave_liberada', 'investigacao_status',
       'divulgacao_relatorio_numero', 'divulgacao_relatorio_publicado',
       'divulgacao_dia_publicacao', 'total_recomendacoes',
       'total_aeronaves_envolvidas', 'ocorrencia_saida_pista',
       'ocorrencia_dia_extracao'],
      dtype='object')

### Change to date time
    - ocorrencia_dia
    - ocorrencia_horario
### Drop
    - ocorrencia_dia_extracao
    - divulgacao_dia_publicacao
    - ocorrencia_tipo_icao
    - investigação_aeronave_liberada
    - divulgação_relatorio_publicado
    - divulgação_relatorio_numero
    - total_recomendações
### Change from SIM e NÃO to 1 and 0
    - ocorrencia_saida_pista

#### Create a new column 'ocorrencia_data'

In [5]:
df['ocorrencia_data'] = pd.to_datetime(df['ocorrencia_dia'], format='%Y-%m-%d')

In [6]:
df = df.drop(['ocorrencia_dia'],axis=1)

#### 'ocorrencia_horario' to datetime

In [7]:
df['ocorrencia_horario'] = pd.to_datetime(df['ocorrencia_horario'],format='%H:%M:%S')

#### Data Drop

In [8]:
df = df.drop(['ocorrencia_dia_extracao'],axis=1)

In [9]:
df = df.drop(['divulgacao_dia_publicacao'],axis=1)

In [10]:
df = df.drop(['ocorrencia_tipo_icao'],axis=1)

In [11]:
df = df.drop(['investigacao_aeronave_liberada'],axis=1)

In [12]:
df = df.drop(['divulgacao_relatorio_publicado'],axis=1)

In [13]:
df = df.drop(['divulgacao_relatorio_numero'],axis=1)

In [14]:
df = df.drop(['total_recomendacoes'],axis=1)

#### Change ocorrencia_saida_pista to 0 and 1

In [15]:
df['ocorrencia_saida_pista'] = df['ocorrencia_saida_pista'].apply(lambda x: 1 if x == 'SIM' else 0)

#### New Dtypes and columns

In [80]:
df.head(30)

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_tipo_categoria,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_horario,investigacao_status,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_data
0,201305055424986,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,-9.9085,-63.0333,ARIQUEMES,RO,BRASIL,SJOG,1900-01-01 11:00:00,FINALIZADA,1,0,2013-05-05
1,201605160250139,INCIDENTE GRAVE,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,-11.2644,-61.2589,CACOAL,RO,BRASIL,SSKW,1900-01-01 19:19:00,ATIVA,1,0,2016-05-13
2,201805021421302,INCIDENTE,AERÓDROMO,AERÓDROMO,-11.4956,-61.4508,CACOAL,RO,BRASIL,SSKW,1900-01-01 22:40:00,FINALIZADA,1,0,2018-03-09
3,201311259977425,INCIDENTE GRAVE,POUSO SEM TREM,CONTATO ANORMAL COM A PISTA,-11.4956,-61.4508,CACOAL,RO,BRASIL,SSKW,1900-01-01 12:32:00,FINALIZADA,1,0,2013-11-25
4,201103187273112,INCIDENTE,OUTROS,OUTROS,-13.195,-60.8184,CEREJEIRAS,RO,BRASIL,****,1900-01-01 13:30:00,FINALIZADA,1,0,2011-03-18
5,200808073991179,ACIDENTE,PERDA DE CONTROLE NO SOLO,PERDA DE CONTROLE NO SOLO,-9.1194,-68.5978,CEREJEIRAS,RO,BRASIL,****,1900-01-01 15:10:00,FINALIZADA,1,1,2008-08-07
6,201108118145873,ACIDENTE,POUSO LONGO,EXCURSÃO DE PISTA,3.7119,-64.1625,AMAJARI,RR,BRASIL,****,1900-01-01 17:00:00,FINALIZADA,1,0,2011-08-11
7,201604251335501,INCIDENTE GRAVE,TRÁFEGO AÉREO,PERDA DE SEPARAÇÃO / COLISÃO EM VOO,3.5544,-61.8694,AMAJARI,RR,BRASIL,****,1900-01-01 05:48:00,ATIVA,2,0,2016-02-24
8,201604062021424,ACIDENTE,PERDA DE CONTROLE NO SOLO,PERDA DE CONTROLE NO SOLO,3.7633,-62.4094,AMAJARI,RR,BRASIL,SWAQ,1900-01-01 16:05:00,FINALIZADA,1,1,2016-04-05
9,200902274965349,INCIDENTE,PERDA DE CONTROLE NO SOLO,PERDA DE CONTROLE NO SOLO,3.6521,-61.4206,AMAJARI,RR,BRASIL,****,1900-01-01 16:30:00,FINALIZADA,1,1,2009-02-27


In [110]:
df['ocorrencia_aerodromo'] = df.groupby('ocorrencia_uf')['ocorrencia_aerodromo'].count().reset_index()

df

Unnamed: 0,ocorrencia_uf,ocorrencia_aerodromo
0,***,3
1,AC,53
2,AL,16
3,AM,219
4,AP,13
5,BA,208
6,CE,75
7,DF,151
8,ES,66
9,GO,268


### Map

In [27]:
map_data = df[['codigo_ocorrencia','ocorrencia_latitude', 'ocorrencia_longitude','ocorrencia_classificacao','ocorrencia_tipo','ocorrencia_data','ocorrencia_aerodromo']]

map_plot = px.scatter_mapbox(map_data, lat= 'ocorrencia_latitude',lon='ocorrencia_longitude',hover_name='codigo_ocorrencia',hover_data=['ocorrencia_classificacao','ocorrencia_tipo','ocorrencia_data','ocorrencia_aerodromo'],color_discrete_sequence=['green'],zoom=4,height=500)

In [28]:
map_plot.update_layout(mapbox_style='open-street-map')
map_plot.update_layout(height=600,margin ={'r':0, 't':0, 'l':0, 'r':0,'b':0})

map_plot.show()

### Other plots

In [72]:
df1.rename(columns={'ocorrencia_uf':'UF','ocorrencia_aerodromo':'numero_de_ocorrencias'},inplace=True)

df1

Unnamed: 0,UF,numero_de_ocorrencias
0,***,3
1,AC,53
2,AL,16
3,AM,219
4,AP,13
5,BA,208
6,CE,75
7,DF,151
8,ES,66
9,GO,268


In [75]:
px.histogram(df1,x='UF',y='numero_de_ocorrencias',height=700)

In [104]:
# 2014 locations of car accidents in the UK
# UK_ACCIDENTS_DATA = ('https://raw.githubusercontent.com/uber-common/'
#                      'deck.gl-data/master/examples/3d-heatmap/heatmap-data.csv')

# Define a layer to display on a map
layer = pdk.Layer(
    'ColumnLayer',
    df,
    get_position=['ocorrencia_longitude', 'ocorrencia_latitude'],
    auto_highlight=True,
    elevation_scale=50,
    pickable=True,
    elevation_range=[0, 5000],
    extruded=True,                 
    coverage=50)

# Set the viewport location
view_state = pdk.ViewState(
    longitude=-44.2806,
    latitude=-23.0222,
    zoom=1,
    min_zoom=3,
    max_zoom=15,
    pitch=40.5,
    bearing=-10.36)

# Render
r = pdk.Deck(layers=[layer], initial_view_state=view_state)
r.to_html('demo.html') 

In [128]:
df.loc[(df['ocorrencia_data'].dt.year == 2017) & (df['ocorrencia_classificacao'].isin(['ACIDENTE','']))]

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_tipo,ocorrencia_tipo_categoria,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_horario,investigacao_status,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_data
210,201711152026161,ACIDENTE,POUSO SEM TREM,CONTATO ANORMAL COM A PISTA,-10.8706,-61.8467,JI-PARANÁ,RO,BRASIL,SBJI,1900-01-01 20:40:00,ATIVA,1,0,2017-11-11
216,201706241353561,ACIDENTE,CAUSADO POR FENÔMENO METEOROLÓGICO EM VOO,OUTROS,3.2483,-60.2467,BONFIM,RR,BRASIL,SSJL,1900-01-01 21:00:00,FINALIZADA,1,0,2017-06-21
217,201710191757029,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,3.3503,-59.8780,BONFIM,RR,BRASIL,****,1900-01-01 11:40:00,FINALIZADA,1,0,2017-10-16
218,201707050515445,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,2.7917,-60.5900,CANTÁ,RR,BRASIL,SWPD,1900-01-01 15:00:00,ATIVA,1,0,2017-07-03
255,201706152048494,ACIDENTE,FALHA DO MOTOR EM VOO,FALHA OU MAU FUNCIONAMENTO DO MOTOR,2.1111,-62.4453,CARACARAÍ,RR,BRASIL,SJLU,1900-01-01 18:00:00,ATIVA,1,0,2017-06-14
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5048,201704031537231,ACIDENTE,INDETERMINADO,INDETERMINADO,-23.4611,-47.4900,SOROCABA,SP,BRASIL,****,1900-01-01 17:45:00,ATIVA,1,0,2017-03-31
5082,201711271331205,ACIDENTE,EXCURSÃO DE PISTA,EXCURSÃO DE PISTA,-21.2572,-49.7942,UBARANA,SP,BRASIL,SDTO,1900-01-01 11:30:00,ATIVA,1,1,2017-11-25
5086,201707061920096,ACIDENTE,POUSO LONGO,EXCURSÃO DE PISTA,-23.4414,-45.0761,UBATUBA,SP,BRASIL,SDUB,1900-01-01 20:20:00,ATIVA,1,1,2017-07-04
5106,201709121317043,ACIDENTE,PERDA DE CONTROLE EM VOO,PERDA DE CONTROLE EM VOO,-19.8628,-49.7739,SÃO FRANCISCO DE SALES,MG,BRASIL,****,1900-01-01 18:30:00,FINALIZADA,1,0,2017-09-02
