# Análise, Limpeza e Engenharia de Dados

In [None]:
##Bibliotecas úteis

import pandas as pd ## Para manipulação dos conjuntos de dados
import numpy as np ## Para 
import chardet ## Biblioteca para lidar com a codificação de caracteres
import matplotlib.pyplot as plt
import seaborn as sns
# para escala
from mlxtend.preprocessing import minmax_scaling
# Para transformação Box-Cox
from scipy import stats

from sklearn.preprocessing import OneHotEncoder, LabelEncoder, MinMaxScaler


%matplotlib inline

## Abrir o conjunto de dados

In [None]:
weather_df = pd.read_csv('bases/summary_of_weather.csv', index_col=0)

## Visualizar o conjunto de dados

In [None]:
weather_df.head()

#### Tem alguns dados faltando...

## Limpar o conjunto de dados
    --Lidar com dados faltantes, como: __NaN__ ou __None__
    --Remover colunas sujas

### -- Lidar com dados faltantes

#### Verificando o número de dados faltantes por coluna

In [None]:
weather_df.isnull().sum()

In [None]:
weather_df.isnull().sum().plot(kind='bar')

#### Verificando a porcentagem de dados faltantes

In [None]:
## Vamos checar a quantidade de linhas e colunas
weather_df.shape

In [None]:
## Agora, o número total de células no dataset
num_total_celulas_weather_df = np.product(weather_df.shape)
num_total_celulas_weather_df

In [None]:
## E o numero de células com números faltantes
num_celulas_faltantes = weather_df.isnull().sum().sum()
num_celulas_faltantes

In [None]:
print('Porcentagem de dados faltantes:',  100 * num_celulas_faltantes / num_total_celulas_weather_df)

### Remover dados faltantes

Vamos começar removendo todas as __linhas__ que contém algum valor faltante

In [None]:
weather_df.dropna()

#### Eita! Não sobrou nenhuma linha!
Vamos tentar remover todas as __colunas__ que têm algum valor faltante:

In [None]:
weather_df_sem_nan = weather_df.dropna(axis=1)
weather_df_sem_nan.head()

Vamos ver a quantidade de dados perdidos:

In [None]:
print('Quantidade de colunas no dataset original:', weather_df.shape[1])
print('Quantidade de colunas sem valores faltantes:', weather_df_sem_nan.shape[1])

Sobraram 9 colunas!
###### Conseguimos remover dados e continuar com uma parcela do dataset!
##### Mas quanto?

In [None]:
## Agora, o número total de células no dataset
num_total_celulas_weather_df = np.product(weather_df.shape)
print('num_total_celulas_weather_df', num_total_celulas_weather_df)

## E o numero de células com números faltantes
num_celulas_weather_df_sem_nan = np.product(weather_df_sem_nan.shape)
print('num_celulas_weather_df_sem_nan', num_celulas_weather_df_sem_nan)

print('Porcentagem de dados resultantes:',  100 *  num_celulas_weather_df_sem_nan / num_total_celulas_weather_df)

#### Perdemos MUITO dado!

###### Vamos olhar mais atentamente para o conjunto de dados.
###### Quais dados não existem e quais não foram coletados?

-- Se o dado não existe, não faz sentido tentar adivinhar qual valor deveria estar ali

-- Se o dado não foi coletado, vale a pena tentar colocar algo na célula desfalcada

In [None]:
#Mostrando 5 amostras do dataset
weather_df.sample(5)

In [None]:
### Escolha uma coluna e analise seus dados faltosos

#### Exemplo: coluna 'Snowfall'

In [None]:
### Ver quantos e quais dados não-nulos
pd.value_counts(weather_df['Snowfall'])

In [None]:
weather_df.sort_values(by='Date', inplace=True)
weather_df.head()

In [None]:
weather_df['Snowfall'] = weather_df['Snowfall'].fillna(method='bfill', axis=0).fillna(0)

In [None]:
weather_df.isnull().sum()

In [None]:
pd.value_counts(weather_df['Snowfall'])

###### Tratar os valores que não são numéricos

In [None]:
weather_df.loc[:, 'Snowfall'].replace(0.0, 0, inplace=True)
weather_df.loc[:, 'Snowfall'].replace('0', 0, inplace=True)
weather_df.loc[:, 'Snowfall'].replace('#VALUE!', method='bfill', inplace=True)

In [None]:
pd.value_counts(weather_df['Snowfall'])

#### -- Remover colunas com todos os valores nulos

In [None]:
weather_df.dropna(how='all', axis=1, inplace=True)

In [None]:
weather_df.isnull().sum()

#### -- Aplicar fillna para todo o dataset

In [None]:
weather_df = weather_df.fillna(method='ffill', axis=0).fillna(0)

### -- Coluna Precip

In [None]:
pd.value_counts(weather_df['Precip'])

###### Limpar dados não-numéricos da coluna

In [None]:
weather_df.loc[:,'Precip'].replace('T',0, inplace=True)

In [None]:
weather_df.sample(5)

###### Mudar tipo da coluna

In [None]:
weather_df.Precip = weather_df.Precip.astype(float)

## Engenharia de Dados

##### Tratamento de Datas

In [None]:
### Sua vez! Trate a coluna Date



In [None]:
### Sua vez! monte uma coluna nova com o mês 



In [None]:
### Sua vez! monte uma coluna nova com o valor da precipitação do mês anterior



## Escala e Padronização

### Escala

In [None]:
weather_df_MaxTemp = weather_df.MaxTemp

# Colocar em escala de 0 a 1
scaled_data = minmax_scaling(weather_df_MaxTemp, columns = [0])

# plotar os dados originais e em escala
fig, ax=plt.subplots(1,2)
sns.distplot(weather_df_MaxTemp, ax=ax[0])
ax[0].set_title("Dados Originais")
sns.distplot(scaled_data, ax=ax[1])
ax[1].set_title("Dados em Escala")

In [None]:
# Sua vez! 
# Aplique a função scale para a coluna "MinTemp"


In [None]:
## Sua vez! 
## Identifique as colunas de dados numéricos utilizando a biblioteca pandas e numpy




In [None]:
## Sua vez! Aplique a função scale para todas as colunas de dados numéricos

numeric_columns = list(weather_df.select_dtypes(include=[np.number]).columns)
numeric_columns.remove('STA')
numeric_columns.remove('YR')
numeric_columns.remove('MO')
numeric_columns.remove('DA')

In [None]:
scaled_columns = minmax_scaling(weather_df[numeric_columns], numeric_columns)

In [None]:
scaled_columns.head()

### Normalização

In [None]:
scaled_columns['MaxTemp'].hist()

In [None]:
# normalize the exponential data with boxcox

scaled_maxtemp = scaled_columns['MaxTemp']

normalized_data = stats.boxcox(scaled_maxtemp[scaled_maxtemp>0])

# plot both together to compare
fig, ax=plt.subplots(1,2)
sns.distplot(scaled_maxtemp, ax=ax[0])
ax[0].set_title("Dados Originais")
sns.distplot(normalized_data[0], ax=ax[1])
ax[1].set_title("Dados Normalizados")

In [None]:
# Sua vez! 
# Normalize a coluna "MinTemp"


In [None]:
## Sua vez! Normalize todas as colunas de dados numéricos




###### Sem usar biblioteca:

In [None]:
# normalize the exponential data with boxcox

scaled_maxtemp = scaled_columns['MaxTemp']

normalized_data = ( scaled_maxtemp - scaled_maxtemp.mean() ) / scaled_maxtemp.std()

# plot both together to compare
fig, ax=plt.subplots(1,2)
sns.distplot(scaled_maxtemp, ax=ax[0])
ax[0].set_title("Dados Originais")
sns.distplot(normalized_data, ax=ax[1])
ax[1].set_title("Dados Normalizados")

## One Hot Encoder

#### Via sklearn

In [None]:
weather_df['Month'] = pd.to_datetime(weather_df['Date'], format="%Y-%m-%d").dt.strftime("%b")

In [None]:
one_hot_encoder = OneHotEncoder(categories='auto')
ohe_month = one_hot_encoder.fit_transform(weather_df['Month'].values.reshape(-1,1)).toarray()
ohe_month_df = pd.DataFrame(ohe_month, columns=['month_' + str(i) for i in range(ohe_month.shape[1])])

In [None]:
ohe_month_df.head()

In [None]:
weather_df_month_ohe = pd.concat([weather_df, ohe_month_df],axis=1)

In [None]:
weather_df_month_ohe.head()

###### Via pandas

In [None]:
ohe_month = pd.get_dummies(weather_df['Month'], dummy_na=True)
weather_df_month_ohe = pd.concat([weather_df, ohe_month],axis=1)

In [None]:
weather_df_month_ohe.head()

In [None]:
# Faça OHE para a coluna YR. Escolha um método de sua preferência.


