# PRÁTICA GUIADA: Normalização de dados com Python.

#### Vamos trabalhar com o dataset de preços de imóveis da cidade de Bostn, conhecido como:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy Variável (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per USD10,000
        - PTRATIO  pupil-teacher ratio by town
        - B        1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
        - LSTAT    % lower status of the population
        - MEDV     Median value of owner-occupied homes in USD 1000's

    :Missing Attribute Values: None

    :Creator: Harrison, D. and Rubinfeld, D.L.

This is a copy of UCI ML housing dataset.
https://archive.ics.uci.edu/ml/machine-learning-databases/housing/


This dataset was taken from the StatLib library which is maintained at Carnegie Mellon University.

The Boston house-price data of Harrison, D. and Rubinfeld, D.L. 'Hedonic
prices and the demand for clean air', J. Environ. Economics & Management,
vol.5, 81-102, 1978.   Used in Belsley, Kuh & Welsch, 'Regression diagnostics
...', Wiley, 1980.   N.B. Various transformations are used in the table on
pages 244-261 of the latter.

The Boston house-price data has been used in many machine learning papers that address regression
problems.   
     
.. topic:: References

   - Belsley, Kuh & Welsch, 'Regression diagnostics: Identifying Influential Data and Sources of Collinearity', Wiley, 1980. 244-261.
   - Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.

#### Para explorarmos o dataset vamos habilihar a [função mágica](https://ipython.readthedocs.io/en/stable/interactive/magics.html)  [`%matplotlib inline`](https://www.it-swarm.dev/pt/python/objetivo-do-matplotlib-inline/831339552/), para plotarmos nossos gráficos em tela.

#### Vamos precisar importar as seguintes bibliotecas:

- [`matplotlib.pyplot`](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.html), para gráficos.
- [`numpy`](numpy.org), para o manejo dos dados.
- [`pandas`](https://pandas.pydata.org/), para o manejo dos dados.
- [`sklearn.datasets`](https://scikit-learn.org/stable/datasets/index.html) para a otenção de um dataset.
- [`sklearn.linear_model`](https://scikit-learn.org/stable/modules/linear_model.html), para a modelização dos dados.
- [`sklearn.preprocessing`](https://scikit-learn.org/stable/modules/preprocessing.html), para o pre-processamento dos dados.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import datasets, preprocessing

#### Em seguida podemos carregar o conjunto de dados de Boston, para isso usamos a função [`datasets.load_boston()`](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html) e carregamos o mesmo em um objetp `boston`. 

#### Repare que o objeto `boston` é do tipo [`sklearn.utils.Bunch`](https://scikit-learn.org/stable/modules/generated/sklearn.utils.Bunch.html), um objeto Container que expõe chaves como atributos, o que significa que temos que aplicar o atributo [`.data`](https://scikit-learn.org/0.16/modules/generated/sklearn.datasets.load_boston.html) para acessar os dados do dataset.

#### A observação anterior se torna relevante quando a função [`pd.DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) for usada para converter o container `boston` no dataframe `df`.



#### O atributo [`feature_names`](https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781789537864/1/ch01lvl1sec13/datasets-and-code-used-in-this-book) pode ser útil para extrair o nome dos atributos do objeto `bunch`.

In [None]:
boston = datasets.load_boston()
print (boston.DESCR)

In [None]:
boston = datasets.load_boston()
df = pd.DataFrame(boston.data, 
                  columns = boston.feature_names
                 )
df.head()

### Normalizamos os dados

#### Vejamos o efeito de escalar os dados escolhendo um par de variáveis com uma grande diferença de escala.

#### Os atributos de `NOX` para concentração de oxido nitroso e `TAX` para o valor total dos impostos cobrados têm unidades diferentes e escalas distintas.

#### Vamos instanciar os objetos `xs` e `ys` para receber os atributos acima e plotar a dispersão [`plt.scatter()`](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html) de ambos os atributos e observar as escalas relacionadas.

In [None]:
xs = df["NOX"]
ys = df["TAX"]

plt.scatter(xs, ys)
plt.xlabel("NOX")
plt.ylabel("TAX")
plt.show()

### Padronização

#### Vamos aplicar a [padronização](https://towardsdatascience.com/normalization-vs-standardization-explained-209e84d0f81e) e transformar as variáveis para terem média 0 $(\mu = 0)$ e desvio padrão 1 $(\sigma = 1)$ aplicando a fórmula: <br/>
<br/>
<center>$ x' = \frac{x - \mu}{\sigma}$</center>

#### Para tanto vamos novamente instanciar os atributos `NOX` e `TAX` com os objetos `xs` e `ys` e calcular seus valores médios, com a função [`np.mean()`](https://numpy.org/doc/stable/reference/generated/numpy.mean.html), e seus desvios padrões com a função [`np.std()`](https://numpy.org/doc/stable/reference/generated/numpy.std.html).

#### Podemos replotar o gráfico anterior, atualizar os valores de `xs` e `ys` e plotar uma dispersão atualizada com a normalização.

In [None]:
xs = df["NOX"]
ys = df["TAX"]

plt.scatter(xs, ys, color = 'b')

plt.xlabel("NOX")
plt.ylabel("TAX")
plt.show()

In [None]:
## escreva a função para normalizar os dados

In [None]:
#fazer o histograma das variáveis normalizadas e não normalizadas

#### Como se pode ver, não alteramos a forma dos dados, só sua escala. Também podemos usar scikit-learn para padronizar variáveis.

#### Para isso vamos fazer uso da classe de funções [`sklearn.preprocessing`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing) e especificamente da função [`preprocessing.scale()`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html). Usaremos também a função `plt.scatter()` para a dispersão dos dados.

In [None]:
from sklearn import preprocessing

xs = preprocessing.scale(df["NOX"])
ys = preprocessing.scale(df["TAX"])

plt.scatter(xs, ys, color = 'r')
plt.xlabel("NOX standardized")
plt.ylabel("TAX standardized")
plt.show()

In [None]:
#observação importante ## boas práticas
# https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing
from sklearn import preprocessing

scaler = preprocessing.StandardScaler().fit(x_test.values)

x_train_norm = scaler.transform(x_train.values)
x_test_norm = scaler.transform(x_test.values)


In [None]:
## Agora considere que tivermos muitos outliers? como fazer? 

##  <span style = "color:blue">Prática Independente 1.</span>

#### Observe os atributos de taxa de criminalidade per capita `CRIM` e distâncias ponderadas para cinco centros de emprego em Boston `DIS` do dataset e plote uma dispersão inicial dessas colunas.      

#### Agora calcule a padronização, criando uma função específica, para então realizar a plotagem da padroniação.

In [None]:
#faça o plot

#### Você encontrou valores negativos para sua padronização? o que eles significam?

#### Aplique a função `preprocessing.scale()` da biblioteca `sklearn` e compare a padronização automática da biblioteca com aquela que você calculou com a função que criou.

#### A seguir plote as distribuições para as formas originais e padronizadas de `DIS` e `CRIM` e observe se a padronização gerou algum efeito indesejado.

### Normalização Min-Max

#### Vamos testar agora essa outra forma de normalização aplicando a seguinte fórmula: <br/>
<br/>
<center>$x' = \frac{x - x_{min}}{x_{max} - x_{min}}$<center/>

#### Uma outra forma de aplicarmos uma domalização aos dados é pelo método dos [mínimos e máximos](https://towardsdatascience.com/everything-you-need-to-know-about-min-max-normalization-in-python-b79592732b79). 

#### Para isso vamos precisar fazer uso das funções  [`np.min()`](https://numpy.org/doc/stable/reference/generated/numpy.minimum.html) [`np.max()`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.max.html) para calcular os valores mínimos e máximos de dos atributos `'NOX'` e `'TAX'`, que separamos.

#### Depois da atualização dos valores de `xs` e `ys` podemos com a relação que vimos acima na célula anterior, podemos plotar as dispersões, com a ajuda da função `plt.scatter()`.

#### Plotamos a seguir a dispersão dos atributos escolhidos.

In [None]:
xs = df["NOX"]
ys = df["TAX"]
plt.scatter(xs, 
            ys, 
            color = 'b')
plt.xlabel("NOX")
plt.ylabel("TAX")
plt.show()

#### Vamos normalizaar dos atributos escolhidos, a partir dos métodos de máximo e mínimo.

#### Plotamos agora os dados normalizados pelo método Min-Max.

#### Se checarmos novamente os histogramas para os casos com e sem a regularização por (Mín-Máx) veremos novamente que o processo de normalização não afeta as distribuições dos atributos.

#### Podemos repetir os processos de definição do tamanho da figura, com a função`plt.figure()`, posicionamento dos subplots com `plt.subplot()` e  os títulos de cada histograma, com `.set_title()`.

#### Esse tipo de normalização também pode ser obtido com scikit-learn, com a classe de funções [`sklearn.preprocessing`](https://scikit-learn.org/stable/modules/preprocessing.html) podemos 


#### [`preprocessing.MinMaxScaler()`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html) que dimensiona e converte cada recurso individualmente de modo que esteja no intervalo especificado no conjunto de treinamento, por exemplo entre zero e um.


#### Depois disso vamos aplicar a função [`scaler.fit_transform()`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler.fit_transform) que ajusta os dados e depois os transforma, retornando uma versão transformada do `X`, para atualizar os valores de `xs` e `ys`.

#### Por fim plotamos a nova dispersão com [`plt.scatter()`](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html) para os dados normalizados.

In [None]:
from sklearn import preprocessing

scaler = preprocessing.MinMaxScaler()

xs = scaler.fit_transform(df[["NOX"]])
ys = scaler.fit_transform(df[["TAX"]])

plt.scatter(xs, ys, color='r')
plt.xlabel("NOX Min-Max Scaled")
plt.ylabel("TAX Min-Max Scaled")
plt.show()

##  <span style = "color:blue">Prática Independente 2.</span>

#### Observe os atributos de taxa de criminalidade per capita `CRIM` e distâncias ponderadas para cinco centros de emprego em Boston `DIS` do dataset e plote uma dispersão inicial dessas colunas.

#### Crie uma função que gere a normalização pelo método  de quaisquer dois atributos informados como parâmetros.

#### Agora plote uma nova dispersão dos mesmos atributos submetidos à normalização e discuta o que vê.

#### Plote as distribuições dos atributos `xs` e `ys` estudados acima, para os valores antes e depois da normalização.

#### Por fim, faça uso da função [`.MinMaxScaler()`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html) para normalizar os atributos escolhidos e os compare com a função que você criou anteriormente.

In [None]:
from sklearn import preprocessing

scaler = preprocessing.MinMaxScaler()

xs = scaler.fit_transform(df[["DIS"]])
ys = scaler.fit_transform(df[["CRIM"]])

plt.scatter(xs, ys, color = 'g')
plt.xlabel("DIS Min-Max Scaled")
plt.ylabel("CRIM Min-Max Scaled")
plt.show()

##  <span style = "color:blue">Prática Independente 3.</span>

#### Estude a dispersão entre os atributos `DIS` e `CRIM`.

In [None]:
xs = df["DIS"]
ys = df["CRIM"]
plt.scatter(xs, 
            ys, 
            color = 'b')
plt.xlabel("DIS")
plt.ylabel("CRIM")
plt.show()

#### Crie uma função capaz de realizar ambas as normalizações `L1` e `L2`, a partir de parâmetros de identificação dos atributos `xs` e `ys` e do tipo de norealizadarealizadarmalização a ser realizada.

1. L1 o valor é dividido pela soma dos valores absolutos
2. L2 o valor ẽ dividido pela soma dos valoes ao quadrado

In [None]:
## Escreva a função

#### Aplique a normalização `L1` na função que você criou no item anterior, para os atributos `DIS` e `CRIM` e plote sua dispersão normalizada. 

In [None]:
# A escala do scatterplot fica muito pequena com L1 e é impossível de visualizar.
# Pode-se testar a multiplicação de cada vetor por 100 para conferir se a forma dos dados permanece inalterada.


#### Compare as distribuições para `DIS` e `CRIM`, antes de depois da normalização.

#### Repita para os mesmos atributos `DIS` e `CRIM` os procedimentos anteriores, agora para a normalização do tipo `L2`.

In [None]:
# A escala do scatterplot fica muito pequena com L1 e é impossível de visualizar.
# Pode-se testar a multiplicação de cada vetor por 100 para conferir se a forma dos dados permanece inalterada.
