#### Pré-processamento

In [20]:
from sklearn.datasets import load_breast_cancer
import pandas as pd
from sklearn.preprocessing import KBinsDiscretizer

dataset = load_breast_cancer()
df_breast_cancer = pd.DataFrame(dataset.data, columns=dataset.feature_names)

df_features_selecionadas = df_breast_cancer[['mean area', 'mean perimeter']]

print("\nFeatures contínuas selecionadas:")
print(df_features_selecionadas.head())


Features contínuas selecionadas:
   mean area  mean perimeter
0     1001.0          122.80
1     1326.0          132.90
2     1203.0          130.00
3      386.1           77.58
4     1297.0          135.10


#### Quantização por bins fixos

In [None]:
discretizador_uniform = KBinsDiscretizer(n_bins=4, encode='ordinal', strategy='uniform')

features_uniform = discretizador_uniform.fit_transform(df_features_selecionadas)

df_features_uniform = pd.DataFrame(features_uniform, columns=df_features_selecionadas.columns)

print("=== Discretização por meio de quantização por bins fixos ===")

print("Antes da discretização (valores originais):")
print(df_features_selecionadas.head())

print("\nApós discretização:")
print(df_features_uniform.head())

=== Discretização por meio de quantização por bins fixos ===
Antes da discretização (valores originais):
   mean area  mean perimeter
0     1001.0          122.80
1     1326.0          132.90
2     1203.0          130.00
3      386.1           77.58
4     1297.0          135.10

Após discretização:
   mean area  mean perimeter
0        1.0             2.0
1        2.0             2.0
2        1.0             2.0
3        0.0             0.0
4        1.0             2.0


#### Quantização por bins variáveis

In [22]:
discretizador_quantile = KBinsDiscretizer(n_bins=4, encode='ordinal', strategy='quantile')

features_quantile = discretizador_quantile.fit_transform(df_features_selecionadas)

df_features_quantile = pd.DataFrame(features_quantile, columns=df_features_selecionadas.columns)

print("=== Discretização por meio de quantização por bins variáveis ===")
print("\nAntes da discretização (valores originais):")
print(df_features_selecionadas.head())

print("\nApós discretização:")
print(df_features_quantile.head())

=== Discretização por meio de quantização por bins variáveis ===

Antes da discretização (valores originais):
   mean area  mean perimeter
0     1001.0          122.80
1     1326.0          132.90
2     1203.0          130.00
3      386.1           77.58
4     1297.0          135.10

Após discretização:
   mean area  mean perimeter
0        3.0             3.0
1        3.0             3.0
2        3.0             3.0
3        0.0             1.0
4        3.0             3.0
