# Pré-processamento - Limpeza dos Dados

##### "A qualidade dos dados **supera** os algoritmos sofisticados".

O objetivo da limpeza de dados é assegurar que o seu conjunto de dados:
> 1. Seja livre de erros;
> 2. Possua qualidade;
> 3. Seja preciso e eficiente;
> 4. Tenha completude;
> 5. Seja consistente.

In [1]:
import pandas as pd

In [34]:
data = pd.read_csv('datasets/INMET_NE_CE_A305_FORTALEZA_01-01-2020_A_31-12-2020.CSV', sep=';', encoding='ISO-8859-1', decimal=',')

In [35]:
data.head()

Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
0,2020/01/01,0000 UTC,0.0,1008.8,1008.8,1008.4,5.2,25.7,23.0,26.4,25.7,23.2,22.8,85.0,82.0,85.0,38.0,1.8,0.0,
1,2020/01/01,0100 UTC,0.0,1009.5,1009.6,1008.8,9.5,26.1,23.3,26.3,25.7,23.5,23.0,86.0,85.0,85.0,21.0,1.8,0.0,
2,2020/01/01,0200 UTC,0.0,1009.5,1009.5,1009.5,9.8,25.8,23.2,26.2,25.8,23.4,23.1,85.0,84.0,85.0,39.0,1.4,0.0,
3,2020/01/01,0300 UTC,0.0,1008.9,1009.5,1008.9,10.0,26.2,23.3,26.3,25.8,23.4,23.2,86.0,84.0,84.0,30.0,2.0,0.5,
4,2020/01/01,0400 UTC,0.0,1008.3,1008.9,1008.3,10.3,25.7,23.2,26.2,25.6,23.3,23.0,86.0,84.0,86.0,203.0,1.5,0.0,


##### 1. Livre de erros

Remoção e/ou tratamento de valores inválidos, errados ou que não possuem nenhum valor para a análise.

In [20]:
data.columns

Index(['Data', 'Hora UTC', 'PRECIPITAÇÃO TOTAL. HORÁRIO (mm)',
       'PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO. HORARIA (mB)',
       'PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)',
       'PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)',
       'RADIACAO GLOBAL (Kj/m²)',
       'TEMPERATURA DO AR - BULBO SECO. HORARIA (°C)',
       'TEMPERATURA DO PONTO DE ORVALHO (°C)',
       'TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)',
       'TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)',
       'TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)',
       'TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)',
       'UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)',
       'UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)',
       'UMIDADE RELATIVA DO AR. HORARIA (%)',
       'VENTO. DIREÇÃO HORARIA (gr) (° (gr))', 'VENTO. RAJADA MAXIMA (m/s)',
       'VENTO. VELOCIDADE HORARIA (m/s)', 'Unnamed: 19'],
      dtype='object')

##### 2. Possua qualidade

Garantir que os dados estejam na formatação adequada.

In [33]:
data.dtypes

Data                                                      object
Hora UTC                                                  object
PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                          object
PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)     object
PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)           object
PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)          object
RADIACAO GLOBAL (Kj/m²)                                   object
TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)              object
TEMPERATURA DO PONTO DE ORVALHO (°C)                      object
TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)                object
TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)                object
TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)          object
TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)          object
UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)                 float64
UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)                 float64
UMIDADE RELATIVA DO AR, H

##### 3. Seja preciso e eficiente

Garantir de que os dados são realmente confiáveis e precisos dentro do seu contexto.

##### 4. Tenha completude

Garantir que os dados estejam completos (tarefa difícil e demorada).

##### 5. Seja consistente

In [28]:
data.duplicated().value_counts()

False    8784
dtype: int64