In [None]:
import pandas as pd
import pandera as pa

In [None]:
# Leitura e extração dos dados pelo método CSV, onde durante a leitura os dados ausentes serão substuídos por dados não informados/dados não disponíveis

valores_ausentes = ['**','###!','####','****','*****','NULL']
df = pd.read_csv('ocorrencia.csv', sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes)
df.head(10)

In [None]:
# Definindo os tipos das colunas e indicando quais não possuem valores NA

schema = pa.DataFrameSchema(
    columns= {
        "codigo": pa.Column(pa.Int, required=False),
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo": pa.Column(pa.String, nullable=True),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int)
    }
)

In [None]:
# Verificação da alteração de tipo de dado de cada coluna

df.dtypes

In [None]:
# Retornando lable da segunda linha

df.loc[1]

Manipulação de Valores Nulos

A função _isna_ trata valores não informados, mesmo com outra característica, outro valor, como o NaN, ou seja, indepentente se nesse df possui NA, NaT, NaN, o _Pandas_ entende esses valores como valores não disponíveis/não informados

In [None]:
df.isna().sum()

In [None]:
df.isnull().sum()

In [None]:
# Valores Nulos por Estado

df.loc[df.ocorrencia_uf.isnull()]

In [None]:
filtro = df.ocorrencia_aerodromo.isnull()
df.loc[filtro]

In [None]:
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

In [None]:
#Pelo count sabemos a quantidade de ocorrências com valores nulos porque ele por padrão ele não conta os valores nulos, é só vermos a diferença dos valores, já o filtro sabemos quais são as ocorrências nulas

In [None]:
filtro = df.ocorrencia_hora.isnull()
df.loc[filtro]

In [None]:
# Ocorrências com mais de 10 recomendações | Todas as colunas

filtro = df.total_recomendacoes > 10
df.loc[filtro]

In [None]:
# Cidades que tiveram ocorrências com mais de 10 recomendações
 
df.loc[filtro, 'ocorrencia_cidade']

In [None]:
# Cidades que tiveram ocorrências com mais de 10 recomendações e o total 
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade','total_recomendacoes']]

In [None]:
# Filtrando as ocorrências que tiveram incidentes graves

filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro]

In [None]:
# Ocorrências de incidentes graves em São Paulo

filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

In [None]:
# Ocorrências cuja cidade comece com a Letra C

filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]

In [None]:
# Ocorrências cuja cidade termine com a Letra A

filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro]

In [None]:
# Ocorrências cuja cidade termine com os caracteres MA

filtro = df.ocorrencia_cidade.str[-2:] == 'MA'
df.loc[filtro]

In [None]:
# Ocorrências cuja cidades contenha em seu nome os caracteres MA

filtro = df.ocorrencia_cidade.str.contains ('MA')
df.loc[filtro]

In [None]:
# Ocorrências do ano de 2015

filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]

In [None]:
# Ocorrências de Dezembro de 2015
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 12
df.loc[filtro1 & filtro2]

In [None]:
# Ocorrências de 08 de Dezembro de 2015

filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 12
filtro_dia = df.ocorrencia_dia.dt.day == 8
df.loc[filtro_ano & filtro_mes & filtro_dia]

In [None]:
# Concatenando colunas Ocorrência dia e Ocorrência hora para consulta mais aprimorada

df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)

In [None]:
# Retornando ocorrências em com data e horas específicas

filtro_1 = df.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro_2 = df.ocorrencia_dia_hora <= '2015-12-08 14:00:00'
df.loc[filtro_1 & filtro_2]

In [None]:
# Agrupamento de Dados e Criação de Novo DF referente a março de 2015

filtro_1 = df.ocorrencia_dia.dt.year == 2015
filtro_2 = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro_1 & filtro_2]
df201503

In [None]:
df201503.groupby(['codigo_ocorrencia']).count()

In [None]:
# Contando dentro de Ocorrência quantos  ACIDENTEs, INCIDENTEs, INCINDENTEs GRAVEs ocorreram

df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

In [None]:
# SIZE | Agrupa e conta os registros, que foram agrupados, as linha do Dataframe

df201503.groupby(['ocorrencia_classificacao']).size()

In [None]:
# Contando número de linhas agrupadas do menor pro maior

df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

In [None]:
# Contando número de linhas agrupadas do maior pro menor

df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

In [None]:
# Filtrando Ocorrências da Região Sudeste

filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_uf.isin(['SP','MG','ES','RJ'])
dfsudeste2015 = df.loc[filtro1 & filtro2]
dfsudeste2015

In [None]:
# Retornadndo quantidade de incidentes na região sudeste

dfsudeste2015.count()

In [None]:
# Retronando incidentes do ano de 2015

dfsudeste2015.groupby(['ocorrencia_classificacao']).size()

In [None]:
# Retornando quantas ocorrências por classificação tiveram em cada estado do sudeste

dfsudeste2015.groupby(['ocorrencia_classificacao','ocorrencia_uf']).size()

In [None]:
# Retornando os incidentes por cidade no sudeste de forma decrescente

dfsudeste2015.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

In [None]:
# Retornando Ocorrências da cidade do Rio de Janeiro

filtro = dfsudeste2015.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2015.loc[filtro]

In [None]:
# Total de Recomendações que o Rio de Janeiro teve

filtro = dfsudeste2015.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2015.loc[filtro].total_recomendacoes.sum()

In [None]:
# Confirmando as 6 recomendações que resultaram do código anterior, verificar na coluna total_recomendacoes

filtro1 = dfsudeste2015.ocorrencia_cidade == 'RIO DE JANEIRO'
filtro2 = dfsudeste2015.total_recomendacoes > 0
dfsudeste2015.loc[filtro1 & filtro2]

In [None]:
# Total de Recomendações por cidade da Região Sudeste

dfsudeste2015.groupby(['ocorrencia_cidade']).total_recomendacoes.sum()

In [None]:
# Total de Recomendações por Aeródromo

dfsudeste2015.groupby(['ocorrencia_aerodromo'], dropna=False).total_recomendacoes.sum()

In [None]:
# Retornando somente as cidades que tem recomendações não nulas ordenadas por ordem crescente

filtro = dfsudeste2015.total_recomendacoes > 0
dfsudeste2015.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values

In [None]:
# Retornando as ocorrências da cidade de Viçosa que possuem pele menos 1 ocorrência

filtro1 = dfsudeste2015.total_recomendacoes > 0 
filtro2 = dfsudeste2015.ocorrencia_cidade == 'VIÇOSA'
dfsudeste2015.loc[filtro1 & filtro2]