<a href="https://colab.research.google.com/github/alexsandro-matias/dataframes/blob/main/Fundamentos_de_ETL_com_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# pip install pandera



In [2]:
import pandas as pd 


# Para validação dos tipos de dados do dataframe, faz-se uso de outra biblioteca
# por que mesmo que usando o parse não se garante que os dados serão válidos.

import pandera as pa

In [3]:
df = pd.read_csv("ocorrencia_2010_2020.csv", sep=",")

df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,03/01/2010,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,03/01/2010,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,03/01/2010,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,04/01/2010,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,05/01/2010,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,29/12/2020,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,30/12/2020,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,30/12/2020,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,31/12/2020,09:00:00,0


In [4]:
df.dtypes

codigo_ocorrencia            int64
codigo_ocorrencia2           int64
ocorrencia_classificacao    object
ocorrencia_cidade           object
ocorrencia_uf               object
ocorrencia_aerodromo        object
ocorrencia_dia              object
ocorrencia_hora             object
total_recomendacoes          int64
dtype: object

In [5]:
df.ocorrencia_dia.dt.month

AttributeError: ignored

In [None]:
# Deixando os valores como datas

df = pd.read_csv("ocorrencia_2010_2020.csv", sep=",", parse_dates=['ocorrencia_dia'])
df
df.dtypes

In [None]:
df.ocorrencia_dia.dt.month

In [None]:
df.head(10)

In [21]:
# Ajustando para que o primeiro valor seja considerado dia. 
df = pd.read_csv("ocorrencia_2010_2020.csv", sep=",", parse_dates=['ocorrencia_dia'], dayfirst=True)
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [26]:
schema = pa.DataFrameSchema(
    columns = {
     "codigo_ocorrencia":pa.Column(pa.Int),
     "codigo_ocorrencia2":pa.Column(pa.Int),
     "ocorrencia_classificacao":pa.Column(pa.String),
     "ocorrencia_cidade":pa.Column(pa.String),
     #limitando a quantidade caracteres da UP
     "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2,2)),
     "ocorrencia_dia":pa.Column(pa.DateTime),
     "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
     "total_recomendacoes": pa.Column(pa.Int)
 }
 
)

In [27]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0


In [None]:
# Caso o nome esteja digitado de forma errada. lançará a seguinte exceção:
# SchemaError: column 'codigo_ocorrenci' not in dataframe

In [None]:
# Como não foi explicitado que poderia receber valores nulos, neste campo, lançará a seguinte exceção:
# SchemaError: non-nullable series 'ocorrencia_hora' contains null values: {4100: nan}