# FUNDAMENTOS DE ETL COM PYTHON - FERNANDO TIOSSO - DIO

## 1 - Extração de Dados

### Importando a Biblioteca Pandas:

In [7]:
import pandas as pd # alias comumente utilizado pela comunidade

### Carregar o Arquivo .csv:

In [8]:
df = pd.read_csv("ocorrencia.csv", sep=",")
# read_csv - função da biblioteca pandas que carrega arquivos .csv
# se o arquivo estiver na mesma pasta que o código, basta informar seu código. Senão, precisará informar o caminho.
# o arquivo será carregado para um "dataframe" quando o carregarmos em uma variável
# com o parâmetro "sep=" informamos qual será o separador das colunas dos dados

In [10]:
print(df) # exibição do dataframe

      codigo_ocorrencia  codigo_ocorrencia2 ocorrencia_classificacao  \
0                 52242               52242                INCIDENTE   
1                 45331               45331                 ACIDENTE   
2                 45333               45333                 ACIDENTE   
3                 45401               45401                 ACIDENTE   
4                 45407               45407                 ACIDENTE   
...                 ...                 ...                      ...   
5162              80458               80458                 ACIDENTE   
5163              80452               80452                 ACIDENTE   
5164              80457               80457          INCIDENTE GRAVE   
5165              80460               80460                INCIDENTE   
5166              80467               80467                INCIDENTE   

     ocorrencia_cidade ocorrencia_uf ocorrencia_aerodromo ocorrencia_dia  \
0         PORTO ALEGRE            RS                 SBPA  

### Verificar os Tipos de Dados Carregados:

In [11]:
df.dtypes
# com o atributo .dtypes do dataframe exibimos os tipos de dados carregados na extração

codigo_ocorrencia             int64
codigo_ocorrencia2            int64
ocorrencia_classificacao     object
ocorrencia_cidade            object
ocorrencia_uf                object
ocorrencia_aerodromo         object
ocorrencia_dia               object
ocorrencia_hora              object
total_recomendacoes         float64
dtype: object

### Existem funções específicas para trabalhar com datas no Dataframe

#### Acessar apenas a coluna ocorrencia_dia:

In [12]:
df.ocorrencia_dia
# df - nome do objeto do dataframe
# .ocorrencia_dia - nome da coluna a ser acessada

0         5/1/2012
1         6/1/2012
2         6/1/2012
3         6/1/2012
4         6/1/2012
           ...    
5162    30/12/2021
5163    31/12/2021
5164    31/12/2021
5165    31/12/2021
5166    31/12/2021
Name: ocorrencia_dia, Length: 5167, dtype: object

#### Acessando informações das datas:

In [13]:
df.ocorrencia_dia.dt.month
# .dt - acessa as funções de data
# .month - retorna o mês da data
# nas condições atuais, retornará um erro, pois os dados não estão no formato de data na coluna.

AttributeError: Can only use .dt accessor with datetimelike values

#### Carregando o Arquivo .csv com as colunas de data no formato correto:

In [14]:
df = pd.read_csv('ocorrencia.csv', sep=',', parse_dates=['ocorrencia_dia'])
# com o parâmetro "parse_dates=" informamos uma lista com as colunas que deverão ser carregadas com o formato de "data"


  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listl

In [15]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                float64
dtype: object

#### Testando agora a função dt.month deverá retornar os meses das datas:

In [16]:
df.ocorrencia_dia.dt.month

0        5.0
1        6.0
2        6.0
3        6.0
4        6.0
        ... 
5162    12.0
5163    12.0
5164    12.0
5165    12.0
5166    12.0
Name: ocorrencia_dia, Length: 5167, dtype: float64

## 2 - Validação de Dados

### Imprimir as Primeiras 10 linhas do Dataframe:

In [17]:
df.head(10)
# .head() - imprime as primeiras linhas do dataframe
# (10) - especifica o número de linhas que serão impressas

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-05-01,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-06-01,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-06-01,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-06-01,17:00:00,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-06-01,16:30:00,0.0
5,52243,52243,INCIDENTE,UBATUBA,SP,****,2012-06-01,14:30:00,0.0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-07-01,18:15:00,0.0
7,45334,45334,INCIDENTE,BELÉM,PA,SBBE,2012-08-01,19:12:00,0.0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,****,2012-08-01,16:00:00,0.0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-08-01,22:13:00,0.0


### Para previnir que os dias e os meses nas datas sejam carregados invertidos, passamos o parâmetro dayfirst=True no carregamento:

In [43]:
df = pd.read_csv("ocorrencia.csv", sep=",", parse_dates=['ocorrencia_dia'], dayfirst=True)

In [19]:
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0.0
5,52243,52243,INCIDENTE,UBATUBA,SP,****,2012-01-06,14:30:00,0.0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0.0
7,45334,45334,INCIDENTE,BELÉM,PA,SBBE,2012-01-08,19:12:00,0.0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,****,2012-01-08,16:00:00,0.0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-01-08,22:13:00,0.0


### Verificando as datas finais para conferir o formato:

In [20]:
df.tail(10)
# .tail() - exibe as últimas linhas do dataframe

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,9:00:00,0.0
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0.0
5159,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,*****,2021-12-29,18:50:00,0.0
5160,80451,80451,INCIDENTE,MANAUS,AM,SBEG,2021-12-30,14:41:00,0.0
5161,80456,80456,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0.0
5162,80458,80458,ACIDENTE,JATAÍ,GO,####,2021-12-30,20:30:00,0.0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,*****,2021-12-31,9:30:00,0.0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0
5166,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0.0


### Validação dos Tipos de Dados:

In [21]:
df.dtypes # lista os tipos de dados das colunas

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                float64
dtype: object

### Carregando a Biblioteca Pandera:

In [22]:
import pandera as pa # biblioteca com a qual criamos um padrão de validação dos dados antes deles serem carregados

### Criando o Esquema de Validação dos Dados:

In [49]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo": pa.Column(pa.Int, required=False),
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String, nullable=True),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo": pa.Column(pa.String, nullable=True),
        "ocorrencia_dia": pa.Column(pa.DateTime, nullable=True),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9]):([0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Float, nullable=True)
    }
)

# pa.DataFrameSchema - função que cria o esquema de validação
# columns - descrição das colunas a serem validadas
# pa.Column(pa.Int) - definição do tipo de dados a ser validado na coluna
# schema - variável a qual o esquema é atribuído
# nas colunas onde podem haver valores nulos devemos incluir o parâmetro "nullable=True"
# o parâmetro pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9]):([0-5][0-9])?$') define um padrão de formato de hora a ser validado na coluna "ocorrencia_hora".
# o parâmetro acima pode ser onitido, mas quando explicitado deve ser o segundo a ser descrito
# o parêmetro pa.Check.str_length(2,2) define o tamanho mínimo e máximo dos dados na coluna "ocorrencia_uf" em número de caracteres
# para validarmos um modelo com uma coluna que nem sempre é atualizada, incluímos no esquema da coluna o parâmetro required=False

### Validando o Dataframe com o Esquema criado:

In [50]:
schema.validate(df)

# validate(df) - função que executação a validação do dataframe "df" segundo o esquema "schema"
# se o dataframe for validado, o dados do dataframe serão exibidos

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0.0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,####,2021-12-30,20:30:00,0.0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,*****,2021-12-31,9:30:00,0.0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0
