<a href="https://colab.research.google.com/github/Lucas-Souza-Santos/InteligenciaArtificialUFPE/blob/main/IA_Parte4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Pré-processamento dos dados

Em nossa vida diária, lidamos com muitos dados, mas esses dados esão na forma bruta. Para fornecer os dados como entrada de algoritmos de aprendizado de máquina, precisamos convertê-los em dados significativos. É aí que o pré-processamento de dados entra em cena. Em outras palavras, podemos dizer que antes de fornecer os dados aos algoritmos de aprendizado de máquina, precisamos pré-processar os dados.

##### Estapas de pré-processamento de dados 


**Etapa 1 - Importar os pacotes úteis**

In [39]:
import numpy as np 
import sklearn.preprocessing as pp

**Etapa 2 - Definir dados de amostra**


In [40]:
entrada_dados = np.array([[2.1, -1.9, 5.5],
                         [-1.5, 2.4, 3.5],
                         [0.5, -7.9, 5.6],
                         [5.9, 2.3, -5.8]])

**Etapa 3 - Aplicação da técinica de pré-processamento**
* Binarização

In [41]:
entrada_binarizada = pp.Binarizer(threshold= 0.5).transform(entrada_dados)
print(entrada_binarizada)

[[1. 0. 1.]
 [0. 1. 1.]
 [0. 0. 1.]
 [1. 1. 0.]]


Depois que o código foi execultado: obtemos 1 para valores acima de 0.5 e 0 para valores abaixo de 0.5.

* Romoção de Média

In [42]:
print(f"Média = {entrada_dados.mean(axis=0)}")
print(f"Desvio Padrão = {entrada_dados.std(axis= 0)}")

Média = [ 1.75  -1.275  2.2  ]
Desvio Padrão = [2.71431391 4.20022321 4.69414529]


O código abaixo vai retirar a média e o desvio padrão dos resultados

In [43]:
entrada_escala = pp.scale(entrada_dados)
print(f"Média = {entrada_escala.mean(axis=0)}")
print(f"Desvio Padrão = {entrada_escala.std(axis=0)}")

Média = [1.11022302e-16 0.00000000e+00 0.00000000e+00]
Desvio Padrão = [1. 1. 1.]


* Dimensionamento

In [44]:
dados_escalado_minmax = pp.MinMaxScaler(feature_range=(0, 1))
dados_escalonado_minmax = dados_escalado_minmax.fit_transform(entrada_dados)
print(f"\nMin max escala de dados: \n {dados_escalonado_minmax}")


Min max escala de dados: 
 [[0.48648649 0.58252427 0.99122807]
 [0.         1.         0.81578947]
 [0.27027027 0.         1.        ]
 [1.         0.99029126 0.        ]]


* Normalização
  1. Normalização L1 ou **Desvios Mínimos Absolutos**

In [45]:
# Normalização de dados 
dados_normalizados_L1 = pp.normalize(entrada_dados, norm='l1')
print(dados_normalizados_L1)

[[ 0.22105263 -0.2         0.57894737]
 [-0.2027027   0.32432432  0.47297297]
 [ 0.03571429 -0.56428571  0.4       ]
 [ 0.42142857  0.16428571 -0.41428571]]


  2. Normalização L2 ou **mínimos quadrados**

In [46]:
# normalização de dados L2
dados_normalizados_L2 = pp.normalize(entrada_dados, norm='l2')
print(f"\nL2 normalização de dados: \n{dados_normalizados_L2}")


L2 normalização de dados: 
[[ 0.33946114 -0.30713151  0.88906489]
 [-0.33325106  0.53320169  0.7775858 ]
 [ 0.05156558 -0.81473612  0.57753446]
 [ 0.68706914  0.26784051 -0.6754239 ]]


## Rotulando os dados
Os rotulos podem vim em forma de palavras ou em números. As funções ao aprendizados de máquinas no sklearn esperam que os dados tenham rótulos numéricos. Portanto, se os dados estiverem em outra forma, eles devem ser convertidos em números. 

In [47]:
entrada_label = ['red', 'black', 'red', 'green', 'black', 'yellow', 'white']
encoder = pp.LabelEncoder()
encoder.fit(entrada_label)

LabelEncoder()

In [48]:
test_labels = ['green','red','black']
encoded_values = encoder.transform(test_labels)
print("\nLabels =", test_labels)


Labels = ['green', 'red', 'black']


In [49]:
print("Encoded values =", list(encoded_values))

Encoded values = [1, 2, 0]
