In [1]:
import pandas as pd
import pandera as pa

In [3]:
cenipa_dataset = "../../datasets/cenipa/ocorrencia_2010_2020.csv"
valores_ausentes = ['**', '###!', '####', '***', '****' ,'*****', 'NULL']

df = pd.read_csv(cenipa_dataset, 
                 delimiter=";", 
                 parse_dates=["ocorrencia_dia"],
                 dayfirst=True,
                 na_values=valores_ausentes)
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


In [6]:
schema = pa.DataFrameSchema(columns = {
    "codigo":pa.Column(pa.Int, required=False),
    "codigo_ocorrencia":pa.Column(pa.Int),
    "ocorrencia_cidade":pa.Column(pa.String),
    "ocorrencia_uf":pa.Column(pa.String, 
                              pa.Check.str_length(2,2), nullable=True),
    "ocorrencia_dia":pa.Column(pa.DateTime),
    "ocorrencia_hora":pa.Column(pa.String, 
                                pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3])(:[0-5][0-9]){2}$'), 
                                nullable=True,),
})

In [7]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5747,79804,79804,79804,79804,79804,INCIDENTE,-23.0069444444,-47.1344444444,CAMPINAS,SP,...,2020-12-29,19:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5748,79757,79757,79757,79757,79757,INCIDENTE GRAVE,-10.804722,-49.756389,LAGOA DA CONFUSÃO,TO,...,2020-12-30,18:30:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5749,79802,79802,79802,79802,79802,INCIDENTE,-22.81,-43.25055555555,RIO DE JANEIRO,RJ,...,2020-12-30,00:54:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5750,79756,79756,79756,79756,79756,INCIDENTE GRAVE,-22.507222,-54.364167,VICENTINA,MS,...,2020-12-31,09:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


In [8]:
df.dtypes

codigo_ocorrencia                          int64
codigo_ocorrencia1                         int64
codigo_ocorrencia2                         int64
codigo_ocorrencia3                         int64
codigo_ocorrencia4                         int64
ocorrencia_classificacao                  object
ocorrencia_latitude                       object
ocorrencia_longitude                      object
ocorrencia_cidade                         object
ocorrencia_uf                             object
ocorrencia_pais                           object
ocorrencia_aerodromo                      object
ocorrencia_dia                    datetime64[ns]
ocorrencia_hora                           object
investigacao_aeronave_liberada            object
investigacao_status                       object
divulgacao_relatorio_numero               object
divulgacao_relatorio_publicado            object
divulgacao_dia_publicacao                 object
total_recomendacoes                        int64
total_aeronaves_envo

In [9]:
df.iloc[1]

codigo_ocorrencia                               40349
codigo_ocorrencia1                              40349
codigo_ocorrencia2                              40349
codigo_ocorrencia3                              40349
codigo_ocorrencia4                              40349
ocorrencia_classificacao                    INCIDENTE
ocorrencia_latitude                               NaN
ocorrencia_longitude                              NaN
ocorrencia_cidade                               BELÉM
ocorrencia_uf                                      PA
ocorrencia_pais                                BRASIL
ocorrencia_aerodromo                             SBBE
ocorrencia_dia                    2010-01-03 00:00:00
ocorrencia_hora                              11:05:00
investigacao_aeronave_liberada                    SIM
investigacao_status                        FINALIZADA
divulgacao_relatorio_numero                       NaN
divulgacao_relatorio_publicado                    NÃO
divulgacao_dia_publicacao   

In [10]:
df.iloc[-1]

codigo_ocorrencia                               79844
codigo_ocorrencia1                              79844
codigo_ocorrencia2                              79844
codigo_ocorrencia3                              79844
codigo_ocorrencia4                              79844
ocorrencia_classificacao                    INCIDENTE
ocorrencia_latitude                          -22,9875
ocorrencia_longitude                           -43,37
ocorrencia_cidade                      RIO DE JANEIRO
ocorrencia_uf                                      RJ
ocorrencia_pais                                BRASIL
ocorrencia_aerodromo                             SBJR
ocorrencia_dia                    2020-12-31 00:00:00
ocorrencia_hora                              13:24:00
investigacao_aeronave_liberada                    SIM
investigacao_status                        FINALIZADA
divulgacao_relatorio_numero                       NaN
divulgacao_relatorio_publicado                    NÃO
divulgacao_dia_publicacao   

In [11]:
filtro = df.ocorrencia_hora.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
4100,78823,78823,78823,78823,78823,INCIDENTE,,,CORUMBÁ,MS,...,2017-07-09,,,FINALIZADA,,NÃO,,0,1,NÃO


In [12]:
df.count()

codigo_ocorrencia                 5752
codigo_ocorrencia1                5752
codigo_ocorrencia2                5752
codigo_ocorrencia3                5752
codigo_ocorrencia4                5752
ocorrencia_classificacao          5752
ocorrencia_latitude               3457
ocorrencia_longitude              3455
ocorrencia_cidade                 5752
ocorrencia_uf                     5751
ocorrencia_pais                   5752
ocorrencia_aerodromo              3403
ocorrencia_dia                    5752
ocorrencia_hora                   5751
investigacao_aeronave_liberada    3270
investigacao_status               5412
divulgacao_relatorio_numero       1952
divulgacao_relatorio_publicado    5752
divulgacao_dia_publicacao         1494
total_recomendacoes               5752
total_aeronaves_envolvidas        5752
ocorrencia_saida_pista            5752
dtype: int64

In [14]:
# ocorrências com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro,["ocorrencia_cidade", "total_recomendacoes"]]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
63,SÃO PAULO,11
326,RIO DE JANEIRO,19
530,SÃO PAULO,11
727,ITÁPOLIS,11
872,RECIFE,23
884,SÃO JOSÉ DOS PINHAIS,11
1062,UBERLÂNDIA,20
1972,BRASÍLIA,11
2795,SANTOS,13
3930,VITÓRIA,12


In [20]:
# ocorrências com classificados como incidente grave
filtro1 = ((df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE'))
filtro2 = df.ocorrencia_uf == 'SP'

df.loc[filtro1 & filtro2,["ocorrencia_cidade", "ocorrencia_classificacao" ,"total_recomendacoes"]]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,total_recomendacoes
16,SÃO PAULO,INCIDENTE,0
18,SANTOS,INCIDENTE,0
26,SOROCABA,INCIDENTE,0
27,CAMPINAS,INCIDENTE,0
33,GUARULHOS,INCIDENTE,0
...,...,...,...
5704,SÃO PAULO,INCIDENTE GRAVE,0
5705,SOROCABA,INCIDENTE GRAVE,0
5715,SÃO PAULO,INCIDENTE GRAVE,0
5742,SÃO PAULO,INCIDENTE,0


In [21]:
# ocorrências com classificados como incidente grave
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'

df.loc[filtro1 & filtro2,["ocorrencia_cidade", "ocorrencia_classificacao" ,"total_recomendacoes"]]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,total_recomendacoes
16,SÃO PAULO,INCIDENTE,0
18,SANTOS,INCIDENTE,0
26,SOROCABA,INCIDENTE,0
27,CAMPINAS,INCIDENTE,0
33,GUARULHOS,INCIDENTE,0
...,...,...,...
5704,SÃO PAULO,INCIDENTE GRAVE,0
5705,SOROCABA,INCIDENTE GRAVE,0
5715,SÃO PAULO,INCIDENTE GRAVE,0
5742,SÃO PAULO,INCIDENTE,0


In [24]:
# ocorrências com cidades que contem 'MA'
filtro = df.ocorrencia_dia.str.contains('MA')

df.loc[filtro,["ocorrencia_cidade", "ocorrencia_classificacao" ,"total_recomendacoes"]]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,ocorrencia_dia,total_recomendacoes
2996,SALVADOR,INCIDENTE GRAVE,2015-01-01,3
2997,IVINHEMA,ACIDENTE,2015-01-02,0
2998,TEFÉ,INCIDENTE,2015-01-02,0
2999,BELO HORIZONTE,INCIDENTE,2015-01-02,0
3000,TOLEDO,ACIDENTE,2015-01-04,6
...,...,...,...,...
3462,ITABERÁ,INCIDENTE GRAVE,2015-12-24,0
3463,GUARULHOS,INCIDENTE,2015-12-25,0
3464,SÃO FRANCISCO DO SUL,INCIDENTE,2015-12-26,0
3465,MAÇAMBARÁ,ACIDENTE,2015-12-28,2


In [23]:
# ocorrências com cidades que contem 'MA' ou 'AL'
filtro = df.ocorrencia_cidade.str.contains('MA|AL')

df.loc[filtro,["ocorrencia_cidade", "ocorrencia_classificacao" ,"total_recomendacoes"]]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,total_recomendacoes
5,SALVADOR,INCIDENTE,0
7,CANUTAMA,INCIDENTE GRAVE,3
13,PRIMAVERA DO LESTE,ACIDENTE,2
15,CANUTAMA,ACIDENTE,0
17,SALVADOR,INCIDENTE,0
...,...,...,...
5738,FORTALEZA,INCIDENTE,0
5739,MARITUBA,ACIDENTE,0
5741,NOVA MARINGÁ,INCIDENTE GRAVE,0
5745,MATO RICO,ACIDENTE,0


In [None]:
# ocorrências por ano
filtro = df.ocorrencia_cidade.str.contains('MA')

df.loc[filtro,["ocorrencia_cidade", "ocorrencia_classificacao" ,"total_recomendacoes"]]

In [25]:
# ocorrências por ano e mes
filtro = (df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.month == 12)

df.loc[filtro,["ocorrencia_cidade", "ocorrencia_classificacao", "ocorrencia_dia" ,"total_recomendacoes"]]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,ocorrencia_dia,total_recomendacoes
3428,GUARULHOS,INCIDENTE,2015-12-01,0
3429,PALMAS,INCIDENTE,2015-12-01,0
3430,PALMAS,INCIDENTE,2015-12-02,0
3431,JUNDIAÍ,INCIDENTE,2015-12-02,0
3432,CAMPOS DOS GOYTACAZES,INCIDENTE,2015-12-03,0
3433,BELO HORIZONTE,INCIDENTE,2015-12-03,0
3434,TRINDADE,ACIDENTE,2015-12-06,3
3435,AMERICANA,ACIDENTE,2015-12-06,1
3436,AGUAÍ,ACIDENTE,2015-12-08,1
3437,JALES,ACIDENTE,2015-12-08,0


In [32]:
# ocorrências por ano e meses 7 à 12
filtro = (df.ocorrencia_dia.dt.year == 2015) & ((df.ocorrencia_dia.dt.month > 6) & (df.ocorrencia_dia.dt.month <= 12))

df.loc[filtro,["ocorrencia_cidade", "ocorrencia_classificacao", "ocorrencia_dia" ,"total_recomendacoes"]]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,ocorrencia_dia,total_recomendacoes
3242,MARABÁ,INCIDENTE,2015-07-01,0
3243,BELÉM,INCIDENTE GRAVE,2015-07-03,0
3244,MANAUS,INCIDENTE,2015-07-04,0
3245,LONDRINA,INCIDENTE,2015-07-04,0
3246,BLUMENAU,ACIDENTE,2015-07-05,1
...,...,...,...,...
3462,ITABERÁ,INCIDENTE GRAVE,2015-12-24,0
3463,GUARULHOS,INCIDENTE,2015-12-25,0
3464,SÃO FRANCISCO DO SUL,INCIDENTE,2015-12-26,0
3465,MAÇAMBARÁ,ACIDENTE,2015-12-28,2


In [34]:
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)

In [35]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_hora
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2010-01-03 12:00:00
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2010-01-03 11:05:00
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2010-01-03 03:00:00
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO,2010-01-04 17:30:00
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2010-01-05 19:25:00


In [38]:
# ocorrências por ano e meses 7 à 12
filtro = (df.ocorrencia_dia_hora >= '2010-12-03 11:00:00') & (df.ocorrencia_dia_hora <= '2010-12-08 14:30:00')

df.loc[filtro,["ocorrencia_cidade", "ocorrencia_classificacao", "ocorrencia_dia" ,"total_recomendacoes"]]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,ocorrencia_dia,total_recomendacoes
511,OLÍMPIA,ACIDENTE,2010-12-03,0
512,ALAGOINHAS,INCIDENTE,2010-12-03,0
513,MACAÉ,INCIDENTE,2010-12-04,0
514,MANAUS,INCIDENTE,2010-12-05,0
515,ARARAQUARA,INCIDENTE,2010-12-05,0


In [39]:
# ocorrências por ano e mes
filtro = (df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.month == 3)

df201503 = df.loc[filtro]

In [40]:
df201503.count()

codigo_ocorrencia                 37
codigo_ocorrencia1                37
codigo_ocorrencia2                37
codigo_ocorrencia3                37
codigo_ocorrencia4                37
ocorrencia_classificacao          37
ocorrencia_latitude               23
ocorrencia_longitude              23
ocorrencia_cidade                 37
ocorrencia_uf                     37
ocorrencia_pais                   37
ocorrencia_aerodromo              21
ocorrencia_dia                    37
ocorrencia_hora                   37
investigacao_aeronave_liberada    11
investigacao_status               35
divulgacao_relatorio_numero       18
divulgacao_relatorio_publicado    37
divulgacao_dia_publicacao         15
total_recomendacoes               37
total_aeronaves_envolvidas        37
ocorrencia_saida_pista            37
ocorrencia_dia_hora               37
dtype: int64

In [41]:
df201503.groupby(['codigo_ocorrencia']).count()

Unnamed: 0_level_0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_hora
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
53109,1,1,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
53112,1,1,1,1,1,1,1,1,1,1,...,1,0,1,1,1,0,1,1,1,1
53120,1,1,1,1,1,1,1,1,1,1,...,1,0,1,1,1,1,1,1,1,1
53148,1,1,1,1,1,1,1,1,1,1,...,1,0,1,1,1,1,1,1,1,1
53149,1,1,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
53151,1,1,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
53152,1,1,1,1,1,1,1,1,1,1,...,1,0,1,1,1,1,1,1,1,1
53153,1,1,1,1,1,0,0,1,1,1,...,1,0,1,0,1,0,1,1,1,1
53154,1,1,1,1,1,0,0,1,1,1,...,1,0,1,0,1,0,1,1,1,1
53164,1,1,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1


In [42]:
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()

ocorrencia_classificacao
ACIDENTE            5
INCIDENTE          14
INCIDENTE GRAVE     2
Name: ocorrencia_aerodromo, dtype: int64

In [43]:
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

In [44]:
df201503.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [45]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64

In [46]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64

In [47]:
# ocorrências por ano e mes
filtro = (df.ocorrencia_dia.dt.year == 2010) & (df.ocorrencia_uf.isin(['SP', 'MG', 'ES', 'RJ']))
dfsudeste2010 = df.loc[filtro]

In [48]:
dfsudeste2010.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_hora
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2010-01-03 12:00:00
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO,2010-01-03 03:00:00
9,39711,39711,39711,39711,39711,INCIDENTE GRAVE,,,PARÁ DE MINAS,MG,...,20:00:00,,,,NÃO,,0,1,NÃO,2010-01-10 20:00:00
11,40069,40069,40069,40069,40069,ACIDENTE,-23.5069444444,-46.6341666667,SÃO PAULO,SP,...,14:50:00,SIM,FINALIZADA,A-121/CENIPA/2012,SIM,2012-11-19,8,1,NÃO,2010-01-10 14:50:00
16,39809,39809,39809,39809,39809,INCIDENTE,,,SÃO PAULO,SP,...,15:00:00,,,,NÃO,,0,1,NÃO,2010-01-15 15:00:00


In [49]:
dfsudeste2010.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            40
INCIDENTE          170
INCIDENTE GRAVE     18
dtype: int64

In [50]:
dfsudeste2010.count()

codigo_ocorrencia                 228
codigo_ocorrencia1                228
codigo_ocorrencia2                228
codigo_ocorrencia3                228
codigo_ocorrencia4                228
ocorrencia_classificacao          228
ocorrencia_latitude                36
ocorrencia_longitude               36
ocorrencia_cidade                 228
ocorrencia_uf                     228
ocorrencia_pais                   228
ocorrencia_aerodromo              127
ocorrencia_dia                    228
ocorrencia_hora                   228
investigacao_aeronave_liberada    188
investigacao_status               202
divulgacao_relatorio_numero        48
divulgacao_relatorio_publicado    228
divulgacao_dia_publicacao          29
total_recomendacoes               228
total_aeronaves_envolvidas        228
ocorrencia_saida_pista            228
ocorrencia_dia_hora               228
dtype: int64

In [52]:
dfsudeste2010.groupby(['ocorrencia_uf','ocorrencia_classificacao']).size()

ocorrencia_uf  ocorrencia_classificacao
ES             INCIDENTE                    5
MG             ACIDENTE                     7
               INCIDENTE                   39
               INCIDENTE GRAVE              5
RJ             ACIDENTE                     9
               INCIDENTE                   52
               INCIDENTE GRAVE              4
SP             ACIDENTE                    24
               INCIDENTE                   74
               INCIDENTE GRAVE              9
dtype: int64

In [55]:
dfsudeste2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO           47
SÃO PAULO                33
GUARULHOS                18
BELO HORIZONTE           17
CAMPINAS                 13
MACAÉ                    12
CONFINS                   7
UBERLÂNDIA                5
JUIZ DE FORA              4
VITÓRIA                   4
MARÍLIA                   3
SÃO JOSÉ DOS CAMPOS       3
SÃO JOSÉ DO RIO PRETO     3
SOROCABA                  2
ITANHAÉM                  2
RIBEIRÃO PRETO            2
IPATINGA                  2
POÇOS DE CALDAS           2
DIVINÓPOLIS               2
BAURU                     2
JUNDIAÍ                   2
ARARAQUARA                2
CAMPOS DOS GOYTACAZES     2
AREALVA                   2
MONTES CLAROS             2
UBERABA                   2
POUSO ALEGRE              1
PIRACICABA                1
PIRASSUNUNGA              1
ARRAIAL DO CABO           1
RESENDE                   1
PENÁPOLIS                 1
SANTOS                    1
SERRA NEGRA               1
SÃO BERNARDO DO CAMPO     1
TI

In [61]:
filtro = (dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO') & (dfsudeste2010.total_recomendacoes > 0)

dfsudeste2010.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_hora
119,40190,40190,40190,40190,40190,INCIDENTE,,,RIO DE JANEIRO,RJ,...,02:35:00,,,,NÃO,,3,1,NÃO,2010-04-06 02:35:00
274,41750,41750,41750,41750,41750,ACIDENTE,-22.9875,-43.37,RIO DE JANEIRO,RJ,...,19:53:00,SIM,FINALIZADA,A-133/CENIPA/2011,SIM,2011-12-21,3,1,NÃO,2010-07-12 19:53:00
326,42250,42250,42250,42250,42250,ACIDENTE,-22.9102777778,-43.1627777778,RIO DE JANEIRO,RJ,...,12:26:00,SIM,FINALIZADA,A-001/CENIPA/2012,SIM,2012-02-22,19,1,SIM,2010-08-12 12:26:00


In [62]:
filtro = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'

dfsudeste2010.loc[filtro].total_recomendacoes.sum()

25

In [63]:
dfsudeste2010.groupby('ocorrencia_cidade').total_recomendacoes.sum()

ocorrencia_cidade
AMERICANA                 0
ARARAQUARA                0
ARAÇATUBA                 0
AREALVA                   0
ARRAIAL DO CABO           0
BAURU                     0
BEBEDOURO                 0
BELO HORIZONTE            2
BOCAINA                   0
BOITUVA                   1
BOM JESUS DO AMPARO       0
BOM JESUS DO GALHO        1
BRAGANÇA PAULISTA         9
BROTAS                    0
CAJOBI                    0
CAMANDUCAIA               9
CAMPINAS                  0
CAMPOS DOS GOYTACAZES     0
CASIMIRO DE ABREU         0
CONFINS                   0
COROMANDEL                0
COSMÓPOLIS                0
DIAMANTINA                0
DIVINÓPOLIS               0
GUARULHOS                 0
IPATINGA                  0
IPERÓ                     3
ITANHAÉM                  1
ITÁPOLIS                  0
JUIZ DE FORA              0
JUNDIAÍ                   7
LINHARES                  0
MACAÉ                     0
MANGARATIBA               0
MARÍLIA                   0
MO

In [65]:
dfsudeste2010.groupby('ocorrencia_aerodromo', dropna=False).total_recomendacoes.sum()

ocorrencia_aerodromo
SBAE     0
SBAQ     0
SBBH     0
SBBP     9
SBBU     0
SBCF     0
SBGL     3
SBGR     0
SBIP     0
SBJD     7
SBJR     3
SBKP     0
SBME     0
SBMK     0
SBML     0
SBMT    27
SBPC     0
SBPR     1
SBRJ    19
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBUL     0
SBUR     0
SBVT     0
SDAM     0
SDOI     1
SDPW     0
SDPY     0
SNDT     0
SNDV     0
SNXT     0
NaN     45
Name: total_recomendacoes, dtype: int64

In [67]:
filtro = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro].groupby('ocorrencia_cidade').total_recomendacoes.sum().sort_values()

ocorrencia_cidade
BOITUVA                   1
BOM JESUS DO GALHO        1
ITANHAÉM                  1
BELO HORIZONTE            2
SÃO BERNARDO DO CAMPO     2
IPERÓ                     3
NOVO HORIZONTE            3
TIMÓTEO                   3
JUNDIAÍ                   7
RESENDE                   8
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
RIO DE JANEIRO           25
SÃO PAULO                41
Name: total_recomendacoes, dtype: int64

In [69]:
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2010.ocorrencia_dia.dt.month]).total_recomendacoes.sum()

ocorrencia_cidade      ocorrencia_dia
BELO HORIZONTE         2                  1
                       3                  1
BOITUVA                7                  1
BOM JESUS DO GALHO     12                 1
BRAGANÇA PAULISTA      11                 9
CAMANDUCAIA            7                  9
IPERÓ                  1                  3
ITANHAÉM               9                  1
JUNDIAÍ                5                  5
                       6                  2
NOVO HORIZONTE         7                  3
RESENDE                4                  8
RIO DE JANEIRO         4                  3
                       7                  3
                       8                 19
SÃO BERNARDO DO CAMPO  1                  2
SÃO PAULO              1                  8
                       2                 14
                       6                  2
                       11                 6
                       12                11
TIMÓTEO                2              