## 2. Aprendizagem de máquina

### Objetivos

  - Dicas de pré-processamento de dados
  - Entender e praticar a normalização dos dados
  - Entender e praticar codificação Label Encoder e One Hot Encoder.


## Pré-processamento

Nesta etapa estamos interessados em tratar os dados que servirão de entrada do nosso modelo de Machine Learning seja ele predição, agrupamento ou classificação. Existem diversas técnicas que podem (e devem) ser aplicadas, já conhecemos algumas e hoje veremos outras técnicas.


## Normalização de dados

O conceito de normalização é simples, a idéia é deixar os dados todos na mesma ordem de grandeza, desta forma evita-se gerar discrepâncias entre os atributos (colunas).  

Os métodos mais populares são:

- Normalização Min-Máx: transforma os dados em um escala linear entre 0 e 1
- Normalização de pontuação Z: Escala de dados com base na média e desvio padrão (tambem chamado de padronização)
- Dimensionamento decimal: Dimensiona os dados movendo o ponto decimal do atributo (muito utilizado em sistemas embarcados).



Exemplo: Vamos criar um lista com 3 atributos e vamos normalizar.

- Atributos:
  - altura (cm)
  - massa (Kg)
  - idade (anos)

In [4]:
import numpy as np
import pandas as pd

cols = ['altura (cm)', 'massa (kg)', 'idade (anos)']
df = pd.DataFrame(np.array([
                            [170, 90, 20], # altura (cm), massa (Kg), idade (anos)
                            [168, 55, 33],
                            [173, 84, 57],
                            [182, 99, 45]
                        ]),columns=cols)

df.head()

Unnamed: 0,altura (cm),massa (kg),idade (anos)
0,170,90,20
1,168,55,33
2,173,84,57
3,182,99,45


In [12]:
from google.colab import sheets
sheet = sheets.InteractiveSheet(df=df)

https://docs.google.com/spreadsheets/d/1wK4TQukD5YEFaMC4dwtTf-n6EjDs3F6dPPAU5CfYA0o#gid=0


No nosso exemplo vamos usar o método min-máx:

$$
valor_{normalizado}=\dfrac{valor - min_{valores}}{(max_{valores} - min_{valores})}(max_{feature_range} - min_{feature_range}) + min_{feature_range}
$$


In [10]:
from sklearn.preprocessing import MinMaxScaler

#Cria o objeto da classe MinMaxScaler
scaler_minmax = MinMaxScaler(feature_range=(0,1))

scaled_data = scaler_minmax.fit_transform(df[cols])

print(scaled_data)

[[0.0952381  0.81395349 0.        ]
 [0.         0.         0.35135135]
 [0.23809524 0.6744186  1.        ]
 [1.         1.         0.56756757]]


exemplo mudando a escala para 0, 10

In [11]:
from sklearn.preprocessing import MinMaxScaler

#Cria o objeto da classe MinMaxScaler
scaler_minmax = MinMaxScaler(feature_range=(0,10))

scaled_data = scaler_minmax.fit_transform(df[cols])

print(scaled_data)

[[ 0.95238095  8.13953488  0.        ]
 [ 0.          0.          3.51351351]
 [ 2.38095238  6.74418605 10.        ]
 [10.         10.          5.67567568]]


Agora que os dados já estão normalizados, podemos aplicar está transformação em novos dados inseridos pelos usuario. Para isso, basta usar a função ``transform()`` do scaler já treinado.

In [7]:
# Dados definidos pelo usuário
novos_dados = pd.DataFrame({'altura (cm)': [180, 90, 30],
                            'massa (kg)': [185, 80, 40],
                            'idade (anos)': [165, 57, 25]})
# Aplicando o scaler nos novos dados
scaled_novos_dados = scaler_minmax.transform(novos_dados)

print(scaled_novos_dados)

[[ 0.85714286  2.95454545  3.91891892]
 [-5.57142857  0.56818182  1.        ]
 [-9.85714286 -0.34090909  0.13513514]]


Outra técnica que podemos utilizar é o ``StandardScaler`` que normaliza valores com média 0 e desvio padrão igual a 1.


In [8]:
cols = ['altura (cm)', 'massa (kg)', 'idade (anos)']
df = pd.DataFrame(np.array([
                            [170, 90, 20], # altura (cm), massa (Kg), idade (anos)
                            [168, 55, 33],
                            [173, 84, 57],
                            [189, 98, 41]
                        ]),columns=cols)

df.head()

from sklearn.preprocessing import StandardScaler

#Cria o objeto da classe standardScaler
scaler_standard = StandardScaler()

scaled_data = scaler_standard.fit_transform(df[cols])

scaled_data

array([[-0.60412209,  0.50853555, -1.32415683],
       [-0.84577093, -1.648888  , -0.35435183],
       [-0.24164884,  0.13869151,  1.4360574 ],
       [ 1.69154186,  1.00166093,  0.24245125]])

Da mesma forma que o anterior, podemos aplicar está transformação em novos dados inseridos pelos usuario. Para isso, basta usar a função `transform()` do scaler já treinado.

In [13]:
# Dados definidos pelo usuário
novos_dados2 = pd.DataFrame({'altura (cm)': [180, 90, 30],
                            'massa (kg)': [185, 80, 40],
                            'idade (anos)': [165, 57, 25]})
# Aplicando o scaler nos novos dados
scaled_novos_dados2 = scaler_standard.transform(novos_dados2)

print(scaled_novos_dados2)



[[  0.60412209   6.36439947   9.49289895]
 [-10.27007559  -0.10787118   1.4360574 ]
 [-17.51954071  -2.57349809  -0.9511549 ]]


### Aplicando transformações e revertendo a transformação dos dados

Podemos aplicar a transformação nos dados e o método `inverse_transform` é usado para reverter os dados de volta à sua escala original.

In [14]:
# transformações diferentes em no mesmo dataset
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler


cols = ['altura', 'massa', 'idade']
df = pd.DataFrame(np.array([
                            [170, 90, 20], # altura (cm), massa (Kg), idade (anos)
                            [168, 55, 33],
                            [173, 84, 57],
                            [189, 98, 41]
                        ]),columns=cols)

#Cria o objeto da classe standardScaler e MinMaxScaler
scaler_standard = StandardScaler()
scaler_minmax = MinMaxScaler(feature_range=(0,1))

# Aplica as transformações
scaled_standard = scaler_standard.fit_transform(df[['altura']])
scaled_minmax = scaler_minmax.fit_transform(df[['massa']])

# atualiza o valor e mostra o resultado
df[['altura']] = scaled_standard
df[['massa']] = scaled_minmax


print("Dados transformados:")
print(df.head())

# Reverte as transformações
df[['altura']] = scaler_standard.inverse_transform(df[['altura']])
df[['massa']] = scaler_minmax.inverse_transform(df[['massa']])

print("\nDados revertidos para a escala original:")
print(df.head())

Dados transformados:
     altura     massa  idade
0 -0.604122  0.813953     20
1 -0.845771  0.000000     33
2 -0.241649  0.674419     57
3  1.691542  1.000000     41

Dados revertidos para a escala original:
   altura  massa  idade
0   170.0   90.0     20
1   168.0   55.0     33
2   173.0   84.0     57
3   189.0   98.0     41


## Desafio 1

Vamos praticar com o dataset 'wine' outro clássico do mundo de ml. Aplique essas transformações necessárias aprendidas nos atributos numéricos.



In [15]:
import pandas as pd

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
wine_data = pd.read_csv(url, delimiter=";")

wine_data.head()

### seu código aqui.....



Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


## Codificação de Atributos Categóricos: `Label Encoder` e `One Hot Encoder`

Em diversas situações, nos deparamos com atributos categóricos em nossos conjuntos de dados, ou seja, aqueles que contêm texto em vez de números.

Considere os seguintes exemplos:

- O atributo `cidade`, que pode conter valores como `["cotia","São Paulo","Pouso Alegre"]` que são exemplos de nomes de cidades;
- O atributo `qualificação profissional`, que pode ter valores como `["junior","Pleno","Senior"]` indicando níveis hierárquicos de cargos.

Para trabalhar com aprendizado de máquina, manter esses atributos em formato de texto pode não ser a abordagem mais adequada. Por isso, uma alternativa é converter esses textos em valores numéricos. Vamos explorar algumas técnicas para realizar essa conversão.

### Label Encoder

O Label Encoder é uma técnica simples para converter atributos categóricos de texto para números, associando um valor numérico único a cada texto distinto do atributo.

- Exemplo:

    ["cotia","São Paulo","Pouso Alegre"] == [0,2,1]

    ["junior","Pleno","Senior"] == [0,1,2]

Observação: Note que os indices estão em `ordem alfabética`.


In [None]:
import numpy as np
import pandas as pd

cols = ['altura(cm)', 'massa(kg)', 'qualificacao']
df = pd.DataFrame(np.array([
    [170, 90, "junior"],
    [168, 55, "pleno"],
    [173, 84, "junior"],
    [189, 98, "senior"]
]), columns=cols)

df.head()

Unnamed: 0,altura(cm),massa(kg),qualificacao
0,170,90,junior
1,168,55,pleno
2,173,84,junior
3,189,98,senior


In [None]:
from sklearn.preprocessing import LabelEncoder

# Cria o objeto LabelEncoder
labelencoder = LabelEncoder()

# Converte a coluna 'qualificacao' para string e ajusta os dados categóricos
df['qualificacao'] = df['qualificacao'].astype(str)
labelencoder.fit(df['qualificacao'])

# Aplica a transformação dos dados categóricos
df['qualificacao'] = labelencoder.transform(df['qualificacao'])

### uma alternativa é usar o comando abaixo
# Ajusta e transforma os dados categóricos no mesmo comando
# df['qualificacao'] = df['qualificacao'].astype(str)
# df['qualificacao'] = labelencoder.fit_transform(df['qualificacao'])

df.head()

Unnamed: 0,altura(cm),massa(kg),qualificacao
0,170,90,0
1,168,55,1
2,173,84,0
3,189,98,2


In [None]:
# Novos dados para codificação
novos_dados2 = pd.DataFrame({'qualificacao': ["junior", "pleno", "junior", "senior", "senior"]})
encoded_data = labelencoder.transform(novos_dados2['qualificacao'])

print('Qualificação codificada:', encoded_data)

# Para voltar aos atributos originais
print('Qualificação decodificada:', labelencoder.inverse_transform(encoded_data))


Qualificação codificada: [0 1 0 2 2]
Qualificação decodificada: ['junior' 'pleno' 'junior' 'senior' 'senior']


### Dicas

O problema surge quando diferentes números na mesma coluna levam o modelo a interpretar erroneamente os dados como se estivessem em uma ordem específica, por exemplo, 0 < 1 < 2.

Como desenvolvedor, é crucial estar ciente dessa questão e avaliar se a ordenação faz sentido para o contexto. Por exemplo, para o atributo qualificação, a ordenação pode não ser problemática. No entanto, para atributos como gênero ou estado, onde não existe uma ordem natural, a utilização do Label Encoder pode ser inadequada.

Nesses casos, o One Hot Encoder pode ser uma alternativa útil, pois cria variáveis binárias para cada categoria, evitando assim a implicação de uma ordem entre elas.

### One Hot Encoder

Podemos associar cada valor de um atributo como uma nova coluna e preencher com 0 ou 1 o valor desta coluna, é desta forma que o one hot encoder funciona.

- Exemplo:

In [None]:
import numpy as np
import pandas as pd

cols = ['altura (cm)', 'massa (kg)', 'qualificacao']
df = pd.DataFrame(np.array([
                            [170, 90, "junior"], # altura (cm), massa (Kg), gênero (f/m)
                            [168, 55, "pleno"],
                            [173, 84, "junior"],
                            [189, 98, "senior"]
                        ]),columns=cols)

df.head()

Unnamed: 0,altura (cm),massa (kg),qualificacao
0,170,90,junior
1,168,55,pleno
2,173,84,junior
3,189,98,senior


In [None]:
from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder()

ponte_ohe = ohe.fit_transform(df[['qualificacao']]).toarray()

ponte_ohe

array([[1., 0., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.]])

In [None]:
#transforma o o np.arry em um dataframe
ponte_ohe = pd.DataFrame(ponte_ohe,columns=["qualificacao"+str(int(i)) for i in range(df.shape[1])])

#adiciona as novas colunas ao dataframe original
df = pd.concat([df,ponte_ohe], axis=1)

df.head()

Unnamed: 0,altura (cm),massa (kg),qualificacao,qualificacao0,qualificacao1,qualificacao2
0,170,90,junior,1.0,0.0,0.0
1,168,55,pleno,0.0,1.0,0.0
2,173,84,junior,1.0,0.0,0.0
3,189,98,senior,0.0,0.0,1.0


In [None]:
# faz o drop da coluna original qualificacao

df = df.drop(["qualificacao"], axis=1)

df.head()

Unnamed: 0,altura (cm),massa (kg),qualificacao0,qualificacao1,qualificacao2
0,170,90,1.0,0.0,0.0
1,168,55,0.0,1.0,0.0
2,173,84,1.0,0.0,0.0
3,189,98,0.0,0.0,1.0


Note que agora temos a adição de 3 novas colunas, onde cada uma corresponde a uma classificação do atributo ("junior", "pleno", "senior")

## Desafio 2

Vamos avaliar o efeito de transformação de variavel no treinamento de um dataset, para isso:

Treine e avalie `duas vezes` o classificador kNN para o dataset Wine.

Considere o sequinte:

```python
X = wine_data.drop(['quality'], axis=1)
y = wine_data['quality'] #Variavel para ser predita

```


Compare o efeito da normalização na avaliação do classificador. Use k = 5.

In [None]:
##### seu código aqui........

