# Discretização
- https://scikit-learn.org/stable/modules/preprocessing.html#discretization
- **Transforma atributos contínuos de um conjunto de dados em atributos nominais**
    - segundo a própria documentação, é o particionamento de recursos contínuos em valores discretos

### KBinsDiscretizer
- https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html#sklearn.preprocessing.KBinsDiscretizer
- Divide os dados contínuos em intervalos, podendo ser ajustado de acordo com o parâmetro **`strategy`** para que todos os intervalos tenham o **mesmo comprimento** (**`uniform`**), um **número similar de pontos** (**`quantile`**, default) ou até mesmo baseado em um procedimento de agrupamento de k-means (**`kmeans`**)
- O **`encode`** define a forma que sera codificado o resultado transformado, em geral usamos **`onehot`** para termos o retorno em colunas e **`ordinal`** para valores numéricos

In [1]:
# Importando o pandas
import pandas as pd

In [2]:
# Importando os dados do titanic após as etapas de Data Cleaning
titanic = pd.read_csv('train2.csv')

In [3]:
# Visualizando a tabela
titanic.head(2)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Titulos
0,0,3,male,22.0,1,0,7.25,S,Mr
1,1,1,female,38.0,1,0,71.2833,C,Mrs


In [4]:
# Importando o KBinsDiscretizer
from sklearn.preprocessing import KBinsDiscretizer

In [22]:
# Definindo nossa discretização
est = KBinsDiscretizer(n_bins=5, encode='ordinal', strategy='uniform')

In [23]:
# Fazendo o fit com a coluna Fare
est = est.fit(titanic[['Fare']])

In [24]:
# Transformando os dados
titanic['Fare_disc'] = est.transform(titanic[['Fare']])

In [25]:
# Visualizando os dados gerados
titanic.Fare_disc.value_counts()

0.0    838
1.0     33
2.0     17
4.0      3
Name: Fare_disc, dtype: int64

In [None]:
# Salvando a contagem de valores em uma variável

In [None]:
# Adicionando 0 para o valor 3

- Podemos utilizar o aggregate do pandas junto ao group by para verificar o mínimo, máximo e contagem de registros dos grupos gerados
    - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.aggregate.html

In [None]:
# Verificando o intervalo em cada um desses grupos

In [None]:
# Calculando os comprimentos

- O comprimento vai ser calculando considerando todo o range e dividindo em 3. Depois os pontos serão agrupando considerando cada uma dessas 3 regiões

In [None]:
# Verificando os dados estatísticos da coluna Fare

In [None]:
# Calculando o range

In [None]:
# Dividindo esse range em 3

- Podemos utilizar o **`bin_edges_`** para determinar os limites dos grupos criados

In [None]:
# Podemos utilizar o bin_edges para verificar os limites dos grupos gerados

- Vamos utilizar o barplot para visualizar graficamente
    - https://matplotlib.org/stable/plot_types/basic/bar.html#sphx-glr-plot-types-basic-bar-py

In [None]:
# Utilizando um gráfico de barras para visualizar

- Podemos utilizar `strategy=quantile` para que cada região tenha a mesma quantidade de registros
    - Segundo a documentação: **"usa os valores dos quantis para ter compartimentos igualmente preenchidos"**

In [None]:
# Definindo nossa discretização

In [None]:
# Fazendo o fit com a coluna Fare

In [None]:
# Transformando os dados

In [None]:
# Visualizando os dados gerados

In [None]:
# Salvando a contagem de valores em uma variável

In [None]:
# Verificando o intervalo em cada um desses grupos

In [None]:
# Novamente utilizando o bin_edges

- Podemos então verificar os **quantis** da coluna Fare
    - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.quantile.html
    - Obs: **quartil é o quantil quando dividimos a base em 4 partes iguais**

In [None]:
# Verificando os quantis que dividem essa base em 5 regiões

In [None]:
# Podemos visualizar o comprimento de cada uma dessas regiões

In [None]:
# Utilizando um gráfico de barras para visualizar

### Binarização
- https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Binarizer.html#sklearn.preprocessing.Binarizer
- **Transforma os dados em binários** (0 - se valor for menor ou igual ao limite ou 1 - valor maior que o limite) **baseado em um limite** informado como parâmetro
    - **`threshold`**: limite usado para classificação dos valores
- **Podemos fazer a binarização na coluna SibSp para determinar se as pessoas estavam viajando sozinhas (SibSp == 0) ou acompanhadas dos irmãos / conjuges (SibSp > 0)**  
    - Para isso, **podemos considerar o limite igual a 0** (que é o valor default), por exemplo

In [None]:
# Visualizando os valores de Parch

In [None]:
# Importando o Binarizer

In [None]:
# Criando a binarização

In [None]:
# Fazendo o fit

In [None]:
# Fazendo a transformação

In [None]:
# Visualizando os valores