# Curso Data Science do Zero - Minerando Dados

## 5º Capítulo: Pre-processamento de Dados ##

### Técnicas de processamento de Dados - Discretização

##### importando a biblioteca pandas

In [None]:
import pandas as pd

##### cojunto de dados de exemplo

In [None]:
altura = [1.50,1.57,1.62,1.70,1.85,1.90]

##### aplicando a discretização em 3 bins de tamanho igual e com os labels P, M e G

In [None]:
altura = pd.qcut(altura,3,labels=['P','M','G'])

In [None]:
print(altura)

##### verificando a quantidade de objetos em cada bin

In [None]:
altura.value_counts()

##### lendo a base de dados

In [None]:
dataset = pd.read_csv('kc_house_data.csv')

##### contando o número de pisos

In [None]:
dataset['floors'].value_counts()

##### discretizando os valores do atributo floors e armazenando o resultado no atributo floors_labels

In [None]:
dataset['floors_labels'] = pd.cut(
    dataset['floors'],
    5,
    labels=['Muito-Pequeno','Pequeno','Medio','Grande','Muito-Grande']
)

##### verificando o novo atributo

In [None]:
dataset.head(10)

##### verificando os valores únicos do atributo

In [None]:
dataset['floors_labels'].unique()

##### contagem de valores em cada bin ou categoria

In [None]:
dataset['floors_labels'].value_counts()

### Técnicas de processamento de Dados - Normalização de dados

##### norma L2 é definida como a raiz quadrada do somatório de todos os elementos do vetor ao quadrado.

![l2-norma](l2-norma.png)

##### vejamos um simples exemplo do calculo da norma l2.

![l2-norma-exemplo](l2-norma-exemplo.png)

##### importando as bibliotecas necessárias.

In [None]:
import warnings
warnings.filterwarnings('ignore')
from sklearn.preprocessing import Normalizer
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

##### alguns dados de exemplo

In [None]:
data = [
    [-1, 2],
    [0.5, 6],
    [0, 10],
    [1, 18]
]
print (data)

#### valor da média

In [None]:
print (np.mean(data))

#### visualizando a distribuição dos dados

In [None]:
sns.distplot(np.array(data).reshape(-1))
plt.show()

##### instanciando o objeto Normalize

In [None]:
normalizer = Normalizer().fit(data)

##### aplicando a normalização nos dados de exemplo utilizando a norma l2

In [None]:
data2 = normalizer.transform(data)
print(data2)

#### Alterando a forma dos dados para apenas uma dimensão

In [None]:
data2 = data2.reshape(-1)

#### valor da média

In [None]:
print(np.mean(data2))

In [None]:
sns.distplot(data2)
plt.show()

### Técnicas de pre-processamento de Dados - Standartization

In [None]:
data = np.random.normal(size = 50)
print(data)

#### Alterando a forma dos dados para apenas uma dimensão

In [None]:
data = data.reshape(-1,1)

In [None]:
sns.distplot(data)
plt.show()

##### importando as bibliotecas necessárias.

In [None]:
from sklearn.preprocessing import MinMaxScaler

##### instânciando o objeto scaler

In [None]:
scaler = MinMaxScaler().fit(data)

##### transformando os dados com o objeto scaler

In [None]:
data_scaled = scaler.transform(data)
print(data_scaled)

#### Alterando a forma dos dados para apenas uma dimensão

In [None]:
data_scaled = data_scaled.reshape(-1,1)

In [None]:
sns.distplot(data_scaled)
plt.show()

# StandardScaler - Técnica de Pré-Processamento

* Padroniza a escala dos dados sem interferir na sua forma

* Mantém a escala dos dados mais fiel que a Técnica MinMaxScale

In [None]:
data = np.random.normal(size = 50)
print(data)

#### Alterando a forma dos dados para apenas uma dimensão

In [None]:
data = data.reshape(-1,1)

In [None]:
sns.distplot(data)
plt.show()

##### importando as bibliotecas necessárias.

In [None]:
from sklearn.preprocessing import StandardScaler

##### instânciando o objeto scaler

In [None]:
scaler = StandardScaler().fit(data)

##### transformando os dados com o objeto scaler

In [None]:
data_scaled = scaler.transform(data)
print(data_scaled)

#### Alterando a forma dos dados para apenas uma dimensão

In [None]:
data_scaled = data_scaled.reshape(-1,1)

In [None]:
sns.distplot(data_scaled)
plt.show()