In [None]:
import pandas as pd
import pandera as pa

In [None]:
valores_ausentes = ['*****','****','**','####','###!','NULL']
df = pd.read_csv("ocorrencia.csv", sep=";", 
                 parse_dates=['ocorrencia_dia'], 
                 dayfirst=True, 
                 na_values = valores_ausentes)
df.head(10)

In [None]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String,
                                  pa.Check.str_length(2,2),
                                  nullable=True),
        "ocorrencia_aerodromo":pa.Column(pa.String, 
                                         nullable=True),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String, 
                                    pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), 
                                    nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)
    }
)

In [None]:
schema.validate(df)

In [None]:
df.dtypes

In [None]:
df.loc[1]

In [None]:
df.iloc[-1]

In [None]:
df.tail()

In [None]:
df.iloc[10:15]

In [None]:
df.loc[10:15]

In [None]:
df.loc[:,'ocorrencia_uf']

In [None]:
df['ocorrencia_uf']

In [None]:
df.isna().sum()

In [None]:
df.isnull().sum()

In [None]:
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

In [None]:
filtro = df.ocorrencia_aerodromo.isnull()
df.loc[filtro]

In [None]:
filtro = df.ocorrencia_hora.isnull()
df.loc[filtro]

In [None]:
df.count()

In [None]:
#ocorrencias com mais 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro]

In [None]:
#ocorrencias com mais 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

In [None]:
#ocorrencias cuja classificação é "INCIDENTE GRAVE"
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
#df.loc[filtro, ['ocorrencia_cidade', 'ocorrencia_classificacao', 'total_recomendacoes']]
df.loc[filtro]

In [None]:
#ocorrencias cuja classificação é "INCIDENTE GRAVE" e o estado == 'SP'
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
#df.loc[filtro, ['ocorrencia_cidade', 'ocorrencia_classificacao', 'total_recomendacoes']]
df.loc[filtro1 & filtro2]

In [None]:
#ocorrencias cuja classificação é "INCIDENTE GRAVE" ou o estado == 'SP'
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
#df.loc[filtro, ['ocorrencia_cidade', 'ocorrencia_classificacao', 'total_recomendacoes']]
df.loc[filtro1 | filtro2]

In [None]:
#ocorrencias cuja classificação é "INCIDENTE GRAVE" ou classificao == INCIDADE e o estado == 'SP'
filtro1 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2]

In [None]:
#ocorrencias cuja classificação é "INCIDENTE GRAVE" ou classificao == INCIDADE e o estado == 'SP'
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2]

In [None]:
#ocorrencias cuja cidade começa com C 
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]

In [None]:
#ocorrencias cuja cidade terminam com A 
filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro]

In [None]:
#ocorrencias cuja cidade terminam com MA 
filtro = df.ocorrencia_cidade.str[-2:] == 'MA'
df.loc[filtro]

In [None]:
#ocorrencias cuja cidade contem (em qualquer parte do conteudo) com MA 
filtro = df.ocorrencia_cidade.str.contains('MA | AL')
df.loc[filtro]

In [None]:
#ocorrencias do ano de 2015 
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]

In [None]:
#ocorrencias do ano de 2015 e mÊs 12 e dias entre 2 e 8
#filtro = (df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.month == 12)
filtro_ano = (df.ocorrencia_dia.dt.year == 2015) 
filtro_mes = (df.ocorrencia_dia.dt.month == 12)
# filtro_dia = (df.ocorrencia_dia.dt.day >2) & (df.ocorrencia_dia.dt.day < 9)
filtro_dia_inicio = (df.ocorrencia_dia.dt.day >2) 
filtro_dia_fim = (df.ocorrencia_dia.dt.day < 9)
df.loc[filtro_ano & filtro_mes & filtro_dia_inicio & filtro_dia_fim]

In [None]:
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)

In [None]:
df.head()

In [None]:
df.dtypes

In [None]:
#ocorrencias do ano de 2015 e mÊs 12 e dias entre 2 e 8
filtro_ano = (df.ocorrencia_dia_hora.dt.year == 2015) 
filtro_mes = (df.ocorrencia_dia_hora.dt.month == 12)
filtro_dia_inicio = (df.ocorrencia_dia_hora.dt.day >2) 
filtro_dia_fim = (df.ocorrencia_dia_hora.dt.day < 9)
df.loc[filtro_ano & filtro_mes & filtro_dia_inicio & filtro_dia_fim]

In [None]:
filtro1 = df.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro2 = df.ocorrencia_dia_hora <= '2015-12-08 13:00:00'
df.loc[filtro1 & filtro2]

In [None]:
#ocorrencias do ano de 2015 e mes 03
filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro_ano & filtro_mes]
df201503

In [None]:
df201503.count()

In [None]:
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

In [None]:
#ignora dados nulos
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()

In [None]:
df201503.groupby(['ocorrencia_classificacao']).size()

In [None]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

In [None]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

In [None]:
#ocorrencias do ano de 2010
filtro_ano = df.ocorrencia_dia.dt.year == 2012
filtro_uf = df.ocorrencia_uf.isin(['SP','MG', 'ES', 'RJ'])
dfsudeste2012 = df.loc[filtro_ano & filtro_uf]
dfsudeste2012

In [None]:
dfsudeste2012.groupby(['ocorrencia_classificacao']).size()

In [None]:
dfsudeste2012.count()

In [None]:
dfsudeste2012.groupby(['ocorrencia_uf', 'ocorrencia_classificacao']).size()

In [None]:
dfsudeste2012.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

In [None]:
filtro1 = dfsudeste2012.ocorrencia_cidade == 'RIO DE JANEIRO'
filtro2 = dfsudeste2012.total_recomendacoes > 0
dfsudeste2012.loc[filtro1 & filtro2]

In [None]:
filtro = dfsudeste2012.ocorrencia_cidade == 'RIO DE JANEIRO'

dfsudeste2012.loc[filtro].total_recomendacoes.sum()

In [None]:
dfsudeste2012.groupby(['ocorrencia_aerodromo'],dropna=False).total_recomendacoes.sum()

In [None]:
filtro = dfsudeste2012.total_recomendacoes > 0
dfsudeste2012.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values()

In [None]:

dfsudeste2012.loc[filtro].groupby(['ocorrencia_cidade',
                                  dfsudeste2012.ocorrencia_dia.dt.month]).total_recomendacoes.sum()

In [None]:
filtro1 = dfsudeste2012.total_recomendacoes > 0
filtro2 = dfsudeste2012.ocorrencia_cidade == 'SÃO PAULO'
dfsudeste2012.loc[filtro1 & filtro2]