In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [2]:
pd.set_option('display.max_row',10000)
pd.set_option('display.max_columns',40)


|CODIGO  | ATRIBUTO	DESCRIÇÃO	                 |UNIDADE|
|--------|---------------------------------------|-------|
|VEN_DIR |VENTO, DIREÇÃO HORARIA 	             |° (gr) |
|CHUVA   |PRECIPITAÇÃO TOTAL, HORÁRIO	         |mm     |
|PRE_INS |PRESSÃO ATMOSFÉRICA AO NÍVEL DA ESTACÃO|mB     |
|PRE_MIN |PRESSÃO ATMOSFÉRICA MIN. NA HORA ANT.  |mB     |
|UMD_MAX |UMIDADE REL. MAX. NA HORA ANT.         |%      |
|PRE_MAX |PRESSÃO ATMOSFÉRICA MAX.NA HORA ANT.   |mB     |
|VEN_VEL |VENTO, VELOCIDADE HORARIA	             |m/s    |
|PTO_MIN |TEMPERATURA ORVALHO MIN. NA HORA ANT.  |°C     |
|TEM_MAX |TEMPERATURA MÁXIMA NA HORA ANT.        |°C     |
|RAD_GLO |RADIAÇÃO GLOBAL	                     |KJ/m²  |
|PTO_INS |TEMPERATURA DO PONTO DE ORVALHO	     |°C     |
|VEN_RAJ |VENTO, RAJADA MÁXIMA	                 |m/s    |
|TEM_INS |TEMPERATURA DO AR - BULBO SECO, HORARIA|°C     |
|UMD_INS |UMIDADE RELATIVA DO AR, HORARIA	     |%      |
|TEM_MIN |TEMPERATURA MÍNIMA NA HORA ANT. (AUT)	 |°C     |
|UMD_MIN |UMIDADE REL. MIN. NA HORA ANT. (AUT)	 |%      |
|PTO_MAX |TEMPERATURA ORVALHO MAX. NA HORA ANT.  |°C     |

### Lendo o dataset salvo anteriormente:

In [3]:
df = pd.read_csv('Dados/data_raw.csv',sep=';')

---

## Tratamento da Data que está em UTC

In [4]:
# Visualização do dataframe antes do tratamento das horas
df[['DC_NOME', 'DT_MEDICAO', 'HR_MEDICAO']].head()

Unnamed: 0,DC_NOME,DT_MEDICAO,HR_MEDICAO
0,SAO PAULO - MIRANTE,2015-01-01,0
1,SAO PAULO - MIRANTE,2015-01-01,100
2,SAO PAULO - MIRANTE,2015-01-01,200
3,SAO PAULO - MIRANTE,2015-01-01,300
4,SAO PAULO - MIRANTE,2015-01-01,400


### Adequando colunas:

A captação dos dados são horários porém no formato UTC, o que pode dificultar o entendimento dos horários.
A função abaixo cria uma coluna 'HORA' com o formato de 24h, sendo o horário 24h igualada a 0h, e além disso transforma a coluna da data (DT_MEDICAO) em formato datetime. 

In [5]:
from funcoes import HORA_UTC

In [6]:
HORA_UTC(df)

Unnamed: 0,DC_NOME,PRE_INS,TEM_SEN,VL_LATITUDE,PRE_MAX,UF,RAD_GLO,PTO_INS,TEM_MIN,VL_LONGITUDE,UMD_MIN,PTO_MAX,VEN_DIR,DT_MEDICAO,CHUVA,PRE_MIN,UMD_MAX,VEN_VEL,PTO_MIN,TEM_MAX,VEN_RAJ,TEM_INS,UMD_INS,CD_ESTACAO,HORA
0,SAO PAULO - MIRANTE,925.5,25.1,-23.496294,925.5,SP,-3.54,16.8,25.5,-46.620088,57.0,17.1,344.0,2015-01-01,0.0,924.7,60.0,1.7,16.4,25.7,5.7,25.5,59.0,A701,21:00:00
1,SAO PAULO - MIRANTE,926.0,25.5,-23.496294,926.0,SP,-3.54,15.7,25.4,-46.620088,52.0,16.8,306.0,2015-01-01,0.0,925.5,59.0,0.8,15.2,25.9,4.8,25.4,55.0,A701,22:00:00
2,SAO PAULO - MIRANTE,925.5,25.1,-23.496294,926.0,SP,-3.54,15.7,25.4,-46.620088,53.0,16.0,303.0,2015-01-01,0.0,925.5,56.0,1.6,15.4,25.8,5.1,25.7,54.0,A701,23:00:00
3,SAO PAULO - MIRANTE,925.0,24.5,-23.496294,925.5,SP,-3.54,16.5,25.3,-46.620088,53.0,16.5,297.0,2015-01-01,0.0,925.0,58.0,2.0,15.3,25.7,4.9,25.3,58.0,A701,0:00:00
4,SAO PAULO - MIRANTE,924.5,24.3,-23.496294,925.0,SP,-3.54,17.2,25.0,-46.620088,58.0,17.2,3.0,2015-01-01,0.0,924.5,62.0,2.1,16.5,25.4,4.4,25.0,62.0,A701,1:00:00


In [7]:
# Visualização do dataframe depois do tratamento das horas
df[['DC_NOME', 'DT_MEDICAO', 'HR_MEDICAO','HORA']].head()

Unnamed: 0,DC_NOME,DT_MEDICAO,HR_MEDICAO,HORA
0,SAO PAULO - MIRANTE,2015-01-01,0,21
1,SAO PAULO - MIRANTE,2015-01-01,100,22
2,SAO PAULO - MIRANTE,2015-01-01,200,23
3,SAO PAULO - MIRANTE,2015-01-01,300,0
4,SAO PAULO - MIRANTE,2015-01-01,400,1


In [8]:
df.dtypes

DC_NOME                 object
PRE_INS                float64
TEM_SEN                float64
VL_LATITUDE            float64
PRE_MAX                float64
UF                      object
RAD_GLO                float64
PTO_INS                float64
TEM_MIN                float64
VL_LONGITUDE           float64
UMD_MIN                float64
PTO_MAX                float64
VEN_DIR                float64
DT_MEDICAO      datetime64[ns]
CHUVA                  float64
PRE_MIN                float64
UMD_MAX                float64
VEN_VEL                float64
PTO_MIN                float64
TEM_MAX                float64
VEN_RAJ                float64
TEM_INS                float64
UMD_INS                float64
CD_ESTACAO              object
HR_MEDICAO               int64
HORA                     int32
dtype: object

## Tratamento dos dados

### Verificação de nulls nos datasets

As radiações com `valores negativos` podem ser **igualadas a zero**, pois esses valores são pelo fato de ser noite e não será contado.

In [9]:
from funcoes import p_null

In [10]:
#Verifica as porcentagens de missing
p_null(df)

PRE_INS: 0.23% or 141nulls
TEM_SEN: 0.9% or 554nulls
PRE_MAX: 0.23% or 142nulls
RAD_GLO: 1.53% or 941nulls
PTO_INS: 0.24% or 145nulls
TEM_MIN: 0.23% or 144nulls
UMD_MIN: 0.23% or 144nulls
PTO_MAX: 0.24% or 146nulls
VEN_DIR: 0.23% or 142nulls
CHUVA: 0.24% or 145nulls
PRE_MIN: 0.23% or 142nulls
UMD_MAX: 0.23% or 144nulls
VEN_VEL: 0.9% or 553nulls
PTO_MIN: 0.24% or 148nulls
TEM_MAX: 0.23% or 144nulls
VEN_RAJ: 0.23% or 142nulls
TEM_INS: 0.23% or 142nulls
UMD_INS: 0.23% or 143nulls

The columns with the most % nulls are:
RAD_GLO         1.533372
TEM_SEN         0.902751
VEN_VEL         0.901121
PTO_MIN         0.241168
PTO_MAX         0.237909
CHUVA           0.236279
PTO_INS         0.236279
UMD_MIN         0.234650
TEM_MAX         0.234650
TEM_MIN         0.234650
UMD_MAX         0.234650
UMD_INS         0.233020
PRE_MIN         0.231391
VEN_RAJ         0.231391
VEN_DIR         0.231391
TEM_INS         0.231391
PRE_MAX         0.231391
PRE_INS         0.229761
CD_ESTACAO      0.000000
HR_

## Tratamento da Radiação:

Entre as 19h até as 5 da manhã, independente do mês é provavel que não há radiação, se houver vai ser pequena então iguala esses valores a zero.

In [11]:
from funcoes import treat_null_RAD

In [12]:
# Fazendo a função para  dataframe:
# função Salva 
treat_null_RAD(df,salva=1)


The columns with the most % nulls are:
DC_NOME         0.0
CHUVA           0.0
HORA            0.0
HR_MEDICAO      0.0
CD_ESTACAO      0.0
UMD_INS         0.0
TEM_INS         0.0
VEN_RAJ         0.0
TEM_MAX         0.0
PTO_MIN         0.0
VEN_VEL         0.0
UMD_MAX         0.0
PRE_MIN         0.0
DT_MEDICAO      0.0
PRE_INS         0.0
VEN_DIR         0.0
PTO_MAX         0.0
UMD_MIN         0.0
VL_LONGITUDE    0.0
TEM_MIN         0.0
PTO_INS         0.0
RAD_GLO         0.0
UF              0.0
PRE_MAX         0.0
VL_LATITUDE     0.0
TEM_SEN         0.0
RAD             0.0
dtype: float64


# Atenção! As duas últimas células podem ser evitadas. 

Elas tem o propósito de apenas mostrar como fizemos os tratamentos dos dados. Mas como salvamos os dados em csv, pode começar pela leitura dos dados.

In [13]:
df = pd.read_csv('Dados/data_tratado.csv',sep=';')
df.head()

Unnamed: 0,DC_NOME,PRE_INS,TEM_SEN,VL_LATITUDE,PRE_MAX,UF,RAD_GLO,PTO_INS,TEM_MIN,VL_LONGITUDE,UMD_MIN,PTO_MAX,VEN_DIR,DT_MEDICAO,CHUVA,PRE_MIN,UMD_MAX,VEN_VEL,PTO_MIN,TEM_MAX,VEN_RAJ,TEM_INS,UMD_INS,CD_ESTACAO,HR_MEDICAO,HORA,RAD
0,SAO PAULO - MIRANTE,925.5,25.1,-23.496294,925.5,SP,-3.54,16.8,25.5,-46.620088,57.0,17.1,344.0,2015-01-01,0.0,924.7,60.0,1.7,16.4,25.7,5.7,25.5,59.0,A701,0,21,0.0
1,SAO PAULO - MIRANTE,926.0,25.5,-23.496294,926.0,SP,-3.54,15.7,25.4,-46.620088,52.0,16.8,306.0,2015-01-01,0.0,925.5,59.0,0.8,15.2,25.9,4.8,25.4,55.0,A701,100,22,0.0
2,SAO PAULO - MIRANTE,925.5,25.1,-23.496294,926.0,SP,-3.54,15.7,25.4,-46.620088,53.0,16.0,303.0,2015-01-01,0.0,925.5,56.0,1.6,15.4,25.8,5.1,25.7,54.0,A701,200,23,0.0
3,SAO PAULO - MIRANTE,925.0,24.5,-23.496294,925.5,SP,-3.54,16.5,25.3,-46.620088,53.0,16.5,297.0,2015-01-01,0.0,925.0,58.0,2.0,15.3,25.7,4.9,25.3,58.0,A701,300,0,0.0
4,SAO PAULO - MIRANTE,924.5,24.3,-23.496294,925.0,SP,-3.54,17.2,25.0,-46.620088,58.0,17.2,3.0,2015-01-01,0.0,924.5,62.0,2.1,16.5,25.4,4.4,25.0,62.0,A701,400,1,0.0


---