# Instruções de Extração, Validação e Limpeza

## Carregando as Bibliotecas:

In [2]:
import pandas as pd
import pandera as pa

## 1 - Extração:

In [3]:
valores_ausentes = ["**", "****", "###!", "####", "*****", "NULL", "NÃO IDENTIFICADA", ""]
df = pd.read_csv("ocorrencia.csv", sep=",", parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes)
# valores_ausentes - cria um array com todos os possíveis valores ausentes nos dados a serem carregados
# na_values=valores_ausentes - identifica pelo array criado os possíveis valores ausentes e os substitui por NaN ou NaT já no carregamento

## 2 - Validação:

### Esquema de Validação:

In [8]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo": pa.Column(pa.Int, required=False),
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String, nullable=True),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo": pa.Column(pa.String, nullable=True),
        "ocorrencia_dia": pa.Column(pa.DateTime, nullable=True),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9]):([0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Float, nullable=True)
    }
)

### Validação dos Dados:

In [9]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0.0
...,...,...,...,...,...,...,...,...,...
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,9:30:00,0.0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0
5166,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0.0


### Conferir os Tipos de Dados:

In [10]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                float64
dtype: object

### Localizando e exibindo itens do dataframe por seus indices com a função .iloc[]:

In [22]:
df.iloc[0] # imprime o primeiro item do dataframe

codigo_ocorrencia                         52242
codigo_ocorrencia2                        52242
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                  PORTO ALEGRE
ocorrencia_uf                                RS
ocorrencia_aerodromo                       SBPA
ocorrencia_dia              2012-01-05 00:00:00
ocorrencia_hora                        20:27:00
total_recomendacoes                         0.0
Name: 0, dtype: object

In [23]:
df.iloc[-1] # imprime o último item do dataframe

codigo_ocorrencia                         80467
codigo_ocorrencia2                        80467
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                     PETROLINA
ocorrencia_uf                                PE
ocorrencia_aerodromo                       SBPL
ocorrencia_dia              2021-12-31 00:00:00
ocorrencia_hora                        20:30:00
total_recomendacoes                         0.0
Name: 5167, dtype: object

In [24]:
df.iloc[10:15] # imprime os itens de indice 10 a 14 do dataframe - o indice 15 não consta no range

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,45332,45332,ACIDENTE,VIAMÃO,RS,,2012-01-09,13:30:00,0.0
11,52245,52245,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-09,13:36:00,0.0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0.0
13,45408,45408,ACIDENTE,ELDORADO,SP,,2012-01-11,13:45:00,1.0
14,45447,45447,INCIDENTE,RIO BRANCO,AC,,2012-01-13,18:15:00,0.0


In [25]:
df.iloc[-3:] # imprime do antepenúltimo ao último item do dataframe - o indice do primeiro indice a ser exibido vem primeiro

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0
5166,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0.0
5167,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0.0


### Buscando Dados de uma Coluna Específica - funciona com uma coluna por vez:

In [26]:
df['ocorrencia_uf']

0       RS
1       SP
2       RS
3       SP
4       RS
        ..
5163    SP
5164    RS
5165    PR
5166    PE
5167    PE
Name: ocorrencia_uf, Length: 5168, dtype: object