In [None]:
import pandas as pd
import pandera as pa

In [None]:
valores_ausentes = ['**','###!','####','****','*****','NULL']
df_AcidentesAeronaves = pd.read_csv("ocorrencia_2010_2020.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes)
df_AcidentesAeronaves.head(10)

In [None]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo": pa.Column(pa.String, nullable=True),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int)
    }
)

In [None]:
schema.validate(df_AcidentesAeronaves)

In [None]:
df_AcidentesAeronaves.dtypes

In [None]:
df_AcidentesAeronaves.loc[1]

In [None]:
df_AcidentesAeronaves.iloc[1]

In [None]:
df_AcidentesAeronaves.iloc[-1]

In [None]:
df_AcidentesAeronaves.tail()

In [None]:
df_AcidentesAeronaves.iloc[10:15]

In [None]:
df_AcidentesAeronaves.loc[10:15]

In [None]:
df_AcidentesAeronaves.loc[:,'ocorrencia_uf']

In [None]:
df_AcidentesAeronaves['ocorrencia_uf']

In [None]:
df_AcidentesAeronaves.isna().sum()

In [None]:
df_AcidentesAeronaves.isnull().sum()

In [None]:
filtro = df_AcidentesAeronaves.ocorrencia_uf.isnull()
df_AcidentesAeronaves.loc[filtro]

In [None]:
filtro = df_AcidentesAeronaves.ocorrencia_aerodromo.isnull()
df_AcidentesAeronaves.loc[filtro]

In [None]:
filtro = df_AcidentesAeronaves.ocorrencia_hora.isnull()
df_AcidentesAeronaves.loc[filtro]

In [None]:
df_AcidentesAeronaves.count()

In [None]:
#ocorrências com mais de 10 recomendações
filtro = df_AcidentesAeronaves.total_recomendacoes > 10
df_AcidentesAeronaves.loc[filtro]

In [None]:
#ocorrências com mais de 10 recomendações
filtro = df_AcidentesAeronaves.total_recomendacoes > 10
df_AcidentesAeronaves.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

In [None]:
#ocorrências cuja classificação == INCIDENTE GRAVE
filtro = df_AcidentesAeronaves.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df_AcidentesAeronaves.loc[filtro]

In [None]:
#ocorrências cuja classificação == INCIDENTE GRAVE e o estado == SP
filtro1 = df_AcidentesAeronaves.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df_AcidentesAeronaves.ocorrencia_uf == 'SP'
df_AcidentesAeronaves.loc[filtro1 & filtro2]

In [None]:
#ocorrências cuja classificação == INCIDENTE GRAVE ou o estado == SP
filtro1 = df_AcidentesAeronaves.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df_AcidentesAeronaves.ocorrencia_uf == 'SP'
df_AcidentesAeronaves.loc[filtro1 | filtro2]

In [None]:
#ocorrências cuja (classificação == INCIDENTE GRAVE ou classificação == INCIDENTE) e o estado == SP
filtro1 = df_AcidentesAeronaves.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df_AcidentesAeronaves.ocorrencia_uf == 'SP'
df_AcidentesAeronaves.loc[filtro1 & filtro2]

In [None]:
#ocorrências cuja cidade comecem com a letra C
filtro = df_AcidentesAeronaves.ocorrencia_cidade.str[0] == 'C'
df_AcidentesAeronaves.loc[filtro]

In [None]:
#ocorrências cuja cidade terminam com a letra A
filtro = df_AcidentesAeronaves.ocorrencia_cidade.str[-1] == 'A'
df_AcidentesAeronaves.loc[filtro]

In [None]:
#ocorrências cuja cidade terminam com os caracteres MA
filtro = df_AcidentesAeronaves.ocorrencia_cidade.str[-2:] == 'MA'
df_AcidentesAeronaves.loc[filtro]

In [None]:
#ocorrências cuja cidade contém (em qualquer parte do conteúdo) os caracteres MA ou AL
filtro = df_AcidentesAeronaves.ocorrencia_cidade.str.contains('MA|AL')
df_AcidentesAeronaves.loc[filtro]

In [None]:
#ocorrências do ano de 2015
filtro = df_AcidentesAeronaves.ocorrencia_dia.dt.year == 2015
df_AcidentesAeronaves.loc[filtro]

In [None]:
df_AcidentesAeronaves.dtypes

In [None]:
#ocorrências do ano de 2015 e mês 12 e dias entre 3 e 8
filtro_ano = df_AcidentesAeronaves.ocorrencia_dia.dt.year == 2015
filtro_mes = df_AcidentesAeronaves.ocorrencia_dia.dt.month == 12
filtro_dia_inicio = df_AcidentesAeronaves.ocorrencia_dia.dt.day > 2
filtro_dia_fim = df_AcidentesAeronaves.ocorrencia_dia.dt.day < 9
df_AcidentesAeronaves.loc[filtro_ano & filtro_mes & filtro_dia_inicio & filtro_dia_fim]

In [None]:
df_AcidentesAeronaves['ocorrencia_dia_hora'] = pd.to_datetime(df_AcidentesAeronaves.ocorrencia_dia.astype(str) + ' '  + df_AcidentesAeronaves.ocorrencia_hora)

In [None]:
df_AcidentesAeronaves.head()

In [None]:
df_AcidentesAeronaves.dtypes

In [None]:
#ocorrências do ano de 2015 e mês 12 e dias entre 3 e 8
filtro_ano = df_AcidentesAeronaves.ocorrencia_dia_hora.dt.year == 2015
filtro_mes = df_AcidentesAeronaves.ocorrencia_dia_hora.dt.month == 12
filtro_dia_inicio = df_AcidentesAeronaves.ocorrencia_dia_hora.dt.day > 2
filtro_dia_fim = df_AcidentesAeronaves.ocorrencia_dia_hora.dt.day < 9
df_AcidentesAeronaves.loc[filtro_ano & filtro_mes & filtro_dia_inicio & filtro_dia_fim]

In [None]:
filtro1 = df_AcidentesAeronaves.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro2 = df_AcidentesAeronaves.ocorrencia_dia_hora <= '2015-12-08 14:30:00'
df_AcidentesAeronaves.loc[filtro1 & filtro2]

In [None]:
#ocorrências do ano de 2015 e mês 03
filtro1 = df_AcidentesAeronaves.ocorrencia_dia.dt.year == 2015
filtro2 = df_AcidentesAeronaves.ocorrencia_dia.dt.month == 3
df201503 = df_AcidentesAeronaves.loc[filtro1 & filtro2]
df201503

In [None]:
df201503.count()

In [None]:
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

In [None]:
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()

In [None]:
df201503.groupby(['ocorrencia_classificacao']).size()

In [None]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

In [None]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

In [None]:
filtro1 = df_AcidentesAeronaves.ocorrencia_dia.dt.year == 2010
filtro2 = df_AcidentesAeronaves.ocorrencia_uf.isin(['SP','MG','ES','RJ'])
dfsudeste2010 = df_AcidentesAeronaves.loc[filtro1 & filtro2]
dfsudeste2010

In [None]:
dfsudeste2010.groupby(['ocorrencia_classificacao']).size()

In [None]:
dfsudeste2010.count()

In [None]:
dfsudeste2010.groupby(['ocorrencia_uf', 'ocorrencia_classificacao']).size()

In [None]:
dfsudeste2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

In [None]:
filtro1 = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
filtro2 = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro1 & filtro2]

In [None]:
filtro = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2010.loc[filtro].total_recomendacoes.sum()

In [None]:
dfsudeste2010.groupby(['ocorrencia_aerodromo'], dropna=False).total_recomendacoes.sum()

In [None]:
dfsudeste2010.groupby(['ocorrencia_cidade']).total_recomendacoes.sum()

In [None]:
filtro = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values()

In [None]:
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2010.ocorrencia_dia.dt.month]).total_recomendacoes.sum()

In [None]:
filtro1 = dfsudeste2010.total_recomendacoes > 0
filtro2 = dfsudeste2010.ocorrencia_cidade == 'SÃO PAULO'
dfsudeste2010.loc[filtro1 & filtro2]