# Aula 3 - Normalizando o Conjunto de Dados

Em ciência de dados, a normalização refere-se ao processo de ajustar os valores de diferentes variáveis para uma escala comum. Isso é feito para garantir que todas as variáveis tenham um peso igual durante a análise. A normalização é especialmente útil em algoritmos de aprendizado de máquina que são sensíveis à escala dos dados, como regressão linear, redes neurais e algoritmos de agrupamento.

In [1]:
# Importando principais pacotes e a base
import numpy as np
import pandas as pd
baseDeDados = pd.read_csv('admission.csv', delimiter=';')
baseDeDados

Unnamed: 0,Name,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Approval
0,Lucas,337,118,4,4.5,4.5,9.65,1,1
1,Ana,324,107,4,4.0,4.5,8.87,1,1
2,Jose,316,104,3,3.0,3.5,8.0,1,1
3,Carlos,322,110,3,3.5,2.5,8.67,1,1
4,Zileide,314,103,2,2.0,3.0,8.21,0,0
5,Joana,330,115,5,4.5,3.0,9.34,1,1
6,Davi,321,109,3,3.0,4.0,8.2,1,1
7,Daniel,308,101,2,3.0,4.0,7.9,0,0
8,Marcelo,302,102,1,2.0,1.5,8.0,0,0


Atualmente nossa base de dados tem valores em escalas bem diferentes. Um modelo poderia dar muito mais peso para "GRE Score" do que para "University Rating", por exemplo. Se queremos que todos tenham o mesmo peso é importante normalizar as colunas. Seus valores passarão a ser entre 0 e 1.

Vamos repetir de forma breve o que fizemos na última aula para que possamos partir do mesmo ponto.

In [2]:
# Separando a base de dados
X = baseDeDados.iloc[:,:-1].values
y = baseDeDados.iloc[:,-1].values

# Preenchendo dados que estão faltando
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='median')
imputer = imputer.fit_transform(X[:,1:])

# Rotulando os dados
from sklearn.preprocessing import LabelEncoder
labelencoder_X = LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])
D = pd.get_dummies(X[:,0])
X = X[:,1:]
X = np.insert(X, 0, D.values, axis=1)

# Separando conjuntos de teste e treino
from sklearn.model_selection import train_test_split
XTrain, XTest, yTrain, yTest = train_test_split(X, y, test_size = 0.2)

In [3]:
pd.DataFrame(XTrain)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,False,False,False,True,False,False,False,False,False,324,107,4,4.0,4.5,8.87,1
1,False,False,True,False,False,False,False,False,False,330,115,5,4.5,3.0,9.34,1
2,False,True,False,False,False,False,False,False,False,337,118,4,4.5,4.5,9.65,1
3,False,False,False,False,True,False,False,False,False,302,102,1,2.0,1.5,8.0,0
4,False,False,False,False,False,True,False,False,False,314,103,2,2.0,3.0,8.21,0
5,False,False,False,False,False,False,False,False,True,308,101,2,3.0,4.0,7.9,0
6,False,False,False,False,False,False,False,True,False,316,104,3,3.0,3.5,8.0,1


Para realizar a normalização, vamos importar a classe **StandardScaler** do pacote **preprocessing** da biblioteca **sklearn**.

O **StandardScaler** é uma técnica comum de pré-processamento de dados usada para padronizar os recursos removendo a média e escalonando para a variância unitária.


A linha **scale_X = StandardScaler()** cria uma instância do StandardScaler chamada scale_X. Esta instância será usada para padronizar os conjuntos de dados.

In [4]:
from sklearn.preprocessing import StandardScaler
scale_X = StandardScaler()
XTrain = scale_X.fit_transform(XTrain)
XTest = scale_X.fit_transform(XTest)

Geralmente só faz sentido normalizarmos o X, e não o Y, pois geralmente Y já estão em valores normalizados como 0 e 1.

In [5]:
pd.DataFrame(XTrain)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,0.0,-0.408248,-0.408248,2.44949,-0.408248,-0.408248,0.0,-0.408248,-0.408248,0.462717,-0.022966,0.763763,0.717958,1.093987,0.456757,0.866025
1,0.0,-0.408248,2.44949,-0.408248,-0.408248,-0.408248,0.0,-0.408248,-0.408248,0.987963,1.263117,1.527525,1.220529,-0.437595,1.165591,0.866025
2,0.0,2.44949,-0.408248,-0.408248,-0.408248,-0.408248,0.0,-0.408248,-0.408248,1.600751,1.745398,0.763763,1.220529,1.093987,1.63312,0.866025
3,0.0,-0.408248,-0.408248,-0.408248,2.44949,-0.408248,0.0,-0.408248,-0.408248,-1.463186,-0.826767,-1.527525,-1.292325,-1.969177,-0.855341,-1.154701
4,0.0,-0.408248,-0.408248,-0.408248,-0.408248,2.44949,0.0,-0.408248,-0.408248,-0.412693,-0.666007,-0.763763,-1.292325,-0.437595,-0.538628,-1.154701
5,0.0,-0.408248,-0.408248,-0.408248,-0.408248,-0.408248,0.0,-0.408248,2.44949,-0.93794,-0.987528,-0.763763,-0.287183,0.58346,-1.006157,-1.154701
6,0.0,-0.408248,-0.408248,-0.408248,-0.408248,-0.408248,0.0,2.44949,-0.408248,-0.237611,-0.505247,0.0,-0.287183,0.072932,-0.855341,0.866025


Dúvidas:
1. Fazer a normalização antes ou depois da divisão de bases? 
2. O professor disse que a normalização faria os valores ficarem entre 0 e 1, mas isso não aconteceu. Por que?