# Standard Scaler

[sklearn.preprocessing.StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)

class sklearn.preprocessing.**StandardScaler**(copy=True, with_mean=True, with_std=True)

Como funciona?

Ele vai normalizar os valores das variáveis (colunas, features) para que cada variável tenha **média = 0** e **desvio padrão = 1**.

Isso é feito pois quando precisamos comparar valores de escalas diferentes, estes valores podem estar muito diferentes entre si. Por exemplo, se tivermos uma coluna salário anual com valores dentro da escala [10000- 50000] e tivermos que relacioná-la com valores dentro de uma escala de idade [18-65], podemos ter erros de avaliação. A normalização reduz os valores, colocando-os numa mesma escala.

O Scaler fez a aplicação na fórmula: 

> `z = (x - u) / s`, onde:
* `x` é o valor da variável;
* `u` é o valor da média das colunas;
* `s` é o valor do desvio padrão das colunas.

In [2]:
from sklearn.preprocessing import StandardScaler
import numpy as np

### ex1

In [17]:
data = np.array([[0, 0], [0, 0], [1, 1], [1, 1]])
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)



In [18]:
print(data)

[[0 0]
 [0 0]
 [1 1]
 [1 1]]


In [19]:
print(scaled_data)

[[-1. -1.]
 [-1. -1.]
 [ 1.  1.]
 [ 1.  1.]]


Verifique a média de cada variável é 0

In [20]:
scaled_data.mean(axis = 0)

array([0., 0.])

E que o desvio padrão é 1

In [21]:
scaled_data.std(axis = 0)

array([1., 1.])

**Calculando na fórmula** `z = (x - u) / s`

* z = (0 - 1) / 1 
* z = -1 / 1 
* z = -1

In [22]:
z = (0 - data.mean(axis = 0)[0]) / data.std(axis = 0)[0]
z

-1.0

### ex2

In [23]:
data = np.array([[12000, 45], [15200, 32], [18900, 51], [35000, 38]])
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)



In [24]:
print(data)

[[12000    45]
 [15200    32]
 [18900    51]
 [35000    38]]


In [25]:
data.mean(axis = 0)

array([20275. ,    41.5])

In [26]:
data.std(axis = 0)

array([8.84516111e+03, 7.15891053e+00])

In [27]:
print(scaled_data)

[[-0.93553977  0.48890121]
 [-0.57376004 -1.32701756]
 [-0.15545223  1.32701756]
 [ 1.66475204 -0.48890121]]


In [28]:
scaled_data.mean(axis = 0)

array([ 0.00000000e+00, -1.38777878e-17])

In [29]:
scaled_data.std(axis = 0)

array([1., 1.])

**Calculando na fórmula** `z = (x - u) / s`

* z = (12000 - 20275) / 8845.161
* z = -8275 / 8.845161 
* z = -0.935539

In [36]:
z = (12000 - data.mean(axis = 0)[0]) / data.std(axis = 0)[0]
z

-0.9355397714481237