--------------------------- Validação de Dados

In [None]:
import pandas as pd
import pandera as pa

In [None]:
df = pd.read_csv("ocorrencia.csv", sep=",", parse_dates=['ocorrencia_dia', 'ocorrencia_hora'], dayfirst=True )
#df.head(10)
#df.tail(n)

In [None]:
schema = pa.DataFrameSchema(
        columns = {
            "Não_necessária":pa.Column(pa.Int, required = False),
            "codigo_ocorrencia2":pa.Column(pa.Int),      
            "ocorrencia_classificacao":pa.Column(pa.String),
            "ocorrencia_cidade":pa.Column(pa.String),
            "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2,2)),
            "ocorrencia_aerodromo":pa.Column(pa.String),
            "codigo_ocorrencia":pa.Column(pa.Int),
            "ocorrencia_dia":pa.Column(pa.DateTime),
            "ocorrencia_hora":pa.Column(pa.DateTime, nullable = True),
            "total_recomendacoes":pa.Column(pa.Int),
        }
)

In [None]:
schema.validate(df)

------------------------------------- Limpeza dos Dados

In [None]:
df.loc[1:3,'ocorrencia_uf'] #Localizando na matriz ['linha','colina']' nao sao indices de arrays e sim da lista

In [None]:
df.iloc[1] # iloc já pode se utilizar indices, como por exemplo -1 para encontrar a ultima linha ou -2 para a penultima
#iloc é indice e loc é label

In [None]:
df.loc[1]

In [None]:
df.loc[[1,500],'ocorrencia_uf'] #Localizando na matriz ['linha','colina']' nao sao indices de arrays e sim da lista

In [None]:
df.loc[:,'ocorrencia_uf'] #Localizando na matriz ['linha','colina']' nao sao indices de arrays e sim da lista

In [None]:
#df.codigo_ocorrencia2.is_unique #verifica se é unico

In [None]:
#if(df.codigo_ocorrencia2.is_unique):
    #df.set_index('codigo_ocorrencia2', inplace = True)

In [None]:
df.head()

In [None]:
df.loc[45407]

In [None]:
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro] #localiza na coluna indicada valores NULL,NAN,NAT,NA
df.count()
df.ocorrencia_uf.count()

In [None]:
df['codigo_ocorrencia2'] #le a colina sem a necessidade de linhas, mas vai ler todo o arquivo

In [None]:
df.reset_index(drop=True,inplace=True)

In [None]:
#filtro combinado com ambos os filtros
filtro1 = df.ocorrencia_uf == 'SP'
filtro2 = df.total_recomendacoes > 10
df.loc[filtro1 & filtro2, ['ocorrencia_UF', 'total_recomendacoes']] #filtra recomendações > 10 por coluna, se nao tiver nada, filtra em todas

In [None]:
#filtro combinado com ou e &
filtro1 = df.ocorrencia_uf.isin(['SP','MG'])
#filtro1 = (df.ocorrencia_uf == 'SP') or (df.ocorrencia_uf == 'MG')
filtro2 = df.total_recomendacoes > 10
df.loc[filtro1 & filtro2, ['ocorrencia_UF', 'total_recomendacoes']] #filtra recomendações > 10 por coluna, se nao tiver nada, filtra em todas

In [None]:
#filtro combinado com ou
filtro1 = df.ocorrencia_uf == 'SP'
filtro2 = df.total_recomendacoes > 10
df.loc[filtro1 or filtro2, ['ocorrencia_UF', 'total_recomendacoes']] #filtra recomendações > 10 por coluna, se nao tiver nada, filtra em todas

In [None]:
#filtro
filtro2 = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']] #filtra recomendações > 10 por coluna, se nao tiver nada, filtra em todas

In [None]:
#filtros por caractere
filtro4 = df.ocorrencia_cidade.str[0] == 'C' #o zero indica a posição do caractere, -1 indica ultima letra por exemplo
#filtros por multiplos caracteres 
filtro4 = df.ocorrencia_cidade.str[-2:] == 'CA' #pega as ultimas 2 letras poderia ser tbm [-2:-1]
#filtros por intes que constam em qualquer parte
filtro4 = df.ocorrencia_cidade.str.contains('CA|MA') #CA ou MA
#filtro por data
filtro4 = df.ocorrencia_dia.dt.year == 2015
#filtro por data combinada
filtro4 = df.ocorrencia_dia.dt.year == 2015
filtro5 = df.ocorrencia_dia.dt.month == 12
filtro6 = (df.ocorrencia_dia.dt.day < 9) & (df.ocorrencia_dia.dt.day > 2)
#df.loc[filtro4 & filtro6 & filtro5]
#filtro4 = (df.ocorrencia_dia.dt.year == 2015) & (filtro5 = df.ocorrencia_dia.dt.month == 12)
novodf = df.loc[filtro4]

In [None]:
#transformar em data
pd.to_datetime()
#transformar o tipo
pd.ocorrencia_dia.astype(str)

In [None]:
df.head()

In [None]:
df.head()

In [None]:
df.replace(['**','####','###!','****','*****','NULL'], pd.NA, inplace = True)

In [None]:
df.head(10)

In [None]:
df.isnull().sum()

In [None]:
df.fillna(value={'ocorrencia_uf':'MG'}, inplace=True) #substitui valores em colunas especificadas

In [None]:
df.isnull().sum()

In [None]:
df['coluna_calculada'] = (df.total_recomendacoes.sum() / 2) #cria coluna

In [None]:
df.head()

In [None]:
df.drop(['coluna_calculada'], inplace=True, axis=1) #axis=1 é coluna e #axis=0 é linha

In [None]:
df.head()

In [None]:
#df.dropna() exclui toda a linha que contenha uma celula vazia
#df.dropna(subset=['coluna1','coluna2']) exclui toda a linha que contenha uma celula vazia
#df.drop_duplicates(inplace=True)

---------------------------- Transformação de dados

In [None]:
df.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()
#por label
df.groupby(['ocorrencia_classificacao']).size()
#organizando
df.groupby(['ocorrencia_classificacao']).size().sort_values() # crescende
df.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False) #decrescente
#ordenando nivel de classificação
df.groupby(['ocorrencia_uf','ocorrencia_classificacao']).size()
#somando coluna recomendacoes por filtro de cidade = rio de janeiro
filtro = df.ocorrencia_cidade == 'RIO DE JANEIRO'
df.loc[filtro].total_recomendacoes.sum()