## Importar biblioteca e método

In [3]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import MultiLabelBinarizer
import pandas as pd
import numpy as np

## Conceitos e ferramentas

Sci-kit learn é uma biblioteca de python muito famosa pela sua fácil implementação em projetos de ML.

_Vou falar agora sobre uma das pré-etapas mais importantes: preparar seus dados e traduzi-los para uma forma em que o computador entenda._

Sklearn.preprocessing é um módulo dentro dessa biblioteca que possui diversas funções para pre-processamento de dados - ou seja, preparar os dados para as aplicações, formatando-os para um formato compatível com futuras aplicações - um formato numérico limpo e padronizado, para que os algoritmos de machine learning, que são modelos matemáticos, consigam entender e aprender com os dados de forma eficiente.

Antes de comentarmos sobre as principais funções do módulo Sci-kit learn, vamos brevemente comentar sobre dados e suas características.



### Dados e suas categorias.


Entender como os dados se dividem será importante na hora de usarmos o módulo preprossecing do sci-kit. Isso porque temos métodos que diferenciam-se sutilmente de acordo com o tipo de dado que estamos usando - ou seja, qual pre-processamento usar. 



1. Dados Qualitativos:


    Dados qualitativos são aqueles que descrevem uma característica a respeito de um dado. Dentro dessa classificação ainda temos os Dados qualitativos nominais, que representam os dados que não possuem nenhuma ordem de hierarquia entre si, e os dados qualitativos ordinais, que possuem uma ordem de hierarquia entre si. 


    Exemplo: [AZUL, VERDE, AMARELO] - Dado qualitativo nominal. 

    Exemplo: [BOM, ÓTIMO, EXCELENTE] - Dado qualitativo ordinal.

    


    

2. Dados quantitativos:

    Dados quantitativos são aqueles que descrevem quantitade - ou seja, expressos unicamente como números. Temos também aqui outras duas distinções: Dados quantitativos discretos e Dados quantitativos contínuos.


     Os dados discretos são os números "Que podem ser contados" e não assumem uma incerteza - exemplo, quantidade de dedos que você tem na mão (5, eu espero :p)
     
    
     Os dados contínuos são aquelas cujo seu valor está associado a uma incerteza (Lembra de física experimental 1? Onde uma certa medição poderia ter uma incerteza de +/- 0.05? Os dados contínuos seguem a mesma linha), com isso podemos associar dados conitínuos a medições, onde podem assumir qualquer valor dentro de um intervalo e geralmente são representados por decimais.


    


fonte: https://www.geeksforgeeks.org/data-types-in-statistics/

### OneHotEncoder 


Aqui temos uma classe utilizada para pre-processar dados categóricos nominais. Esse método é responsável por criar uma representação vetorial de cada Item do nosso dataseat, relacionando uma característica presente a ele com um algarimso 1 em seu vetor.

In [4]:
cores = [['AZUL'],['PRETO'],['BRANCO'],['BRANCO']]

encoder = OneHotEncoder(sparse_output=False)
matriz = encoder.fit_transform(cores)
print(matriz)

[[1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]]



O OneHot encolder recebe como dados um array 2D. Observe que nosso array cores é um array 2D - Uma lista de listas. 
O array cores nesse formato é interpretado como uma tabela de três linhas e uma coluna.
Quando estamos mexendo com Dataframe, podemos pegar uma coluna dele e passar como parâmetro para o objeto. 


In [None]:
data = {
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Campinas', 'São Paulo', 'Belo Horizonte', 'Rio de Janeiro', 'Campinas', 'Salvador'],
    'Idade': [28, 35, 41, 22, 54, 39, 48, 29],
    'Nivel_Cliente': ['Prata', 'Ouro', 'Prata', 'Bronze', 'Ouro', 'Prata', 'Ouro', 'Bronze'],
    'Pontos': [150, 800, 210, 50, 1200, 300, 950, 75],
    'Comprou_Ultimo_Mes': [1, 1, 0, 0, 1, 1, 1, 0]
}

tabelaClientes = pd.DataFrame(data)

#Podemos obter uma coluna de um dataframe de duas formas:

colunaCidades1 = tabelaClientes['Cidade']
colunaCidades2 = tabelaClientes[['Cidade']]

#A colunaCidade1 retorna um SerieID - uma estrutura de dados 1D
#A colunaCidade2 retorna um novo DataFrame - 2D

encoder = OneHotEncoder(sparse_output=False)

cidades1 = encoder.fit_transform(colunaCidades2)
print(cidades1)

print(" ")

#Entender melhor o reshape e escrever
cidades2 = encoder.fit_transform(colunaCidades1.values.reshape(-1,1))
print(cidades2)


Por padrão, a classe encoder retorna uma matriz esparsa (colocar a definicao de matriz esparsa). Para melhor visualização, podemos mudar o atributo sparse_out para falso e obtermos aquela matriz mais tradicional c:

Essa matriz é o que chamamos de matriz item x característica. Cada linha representa um item, cada coluna, uma característica.

Os métodos .fit() e .transfomr() são essenciais para o funcionamento completo do nosso encoder.



1. fit() é o método que aprende com nossos dados para criar um mapa de índices. No processo, o encoder analisa as linhas do array de entrada, identifica cada categoria única e, então, associa um índice numérico a ela. O resultado é uma legenda interna que conecta cada valor de texto distinto a uma posição numérica específica.


2. O .transform() é o método que executa a transformação: ele pega o "mapa" criado pelo .fit() e o usa para converter os dados originais em um novo array numérico.

-----------------------

    Para sintetizar o que o encoder faz:

Dado uma coluna de um dataframe, o encoder - junto com o método fit e tranform - primeiramente analise todas as características únicas de cada linha e á elas associa um index.

Feito isso, agora ele pega cada item e cria um grande vetor, onde cada indice sera abstratamente uma característica - seguindo as associações feita anteriormente.

Se o vetor A tem a característica Z, representado pelo indice 3, então, supondo 6 características no total, o vetor A pode ser representado por:

 [0,0,0,1,0,0]

    Atenção
    
O OneHotEncoder *APENAS* funciona com items que tem UMA característica. Para algo multilabel, usamos o multilabel binarize.

Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

------

### MultiLabelBinarizer

O multilabelbinarizer também é uma classe do slklearn.preprocessing usada para preprocessar dados categóricos nominais. Ele diferencia-se do OneHotEncoder por ter a capacidade de associar mais de uma característica a um item. 

O transformador MUltiLabelBinarizer recebe como parâmetro uma lista de listas e transforma-a em um formato multi-rótulo.

In [5]:
generos = [['Terror','Suspense'],['Ação'],['Comédia, Aventura'],['Romance','Ação'],['Terror','Suspense']]

encoderMB = MultiLabelBinarizer(sparse_output=False)
matrixIC = encoderMB.fit_transform(generos)
print(matrixIC)

[[0 0 0 1 1]
 [1 0 0 0 0]
 [0 1 0 0 0]
 [1 0 1 0 0]
 [0 0 0 1 1]]


Diferenre do OneHotEncoder, aqui podemos - e devemos - usar a estrutura series do pandas.

Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html

Outro link: https://www.kdnuggets.com/2023/01/encoding-categorical-features-multilabelbinarizer.html

### OrdinalEncoder

pesquisar