# Questão 2-  Identificando features continuas no breast dataset

In [15]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import KBinsDiscretizer



def carregar_dataset_breast_cancer():
    dataset = load_breast_cancer()
    df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names)
    return df

def identificar_features_continuas(df):
    return df.select_dtypes(include=[np.number]).columns.tolist()


df = carregar_dataset_breast_cancer()
features_continuas = identificar_features_continuas(df)
feature1, feature2 = features_continuas[0], features_continuas[1]
print(f"features continuas: ${features_continuas}")

features_selecionadas = features_continuas[:2]

features continuas: $['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness', 'mean compactness', 'mean concavity', 'mean concave points', 'mean symmetry', 'mean fractal dimension', 'radius error', 'texture error', 'perimeter error', 'area error', 'smoothness error', 'compactness error', 'concavity error', 'concave points error', 'symmetry error', 'fractal dimension error', 'worst radius', 'worst texture', 'worst perimeter', 'worst area', 'worst smoothness', 'worst compactness', 'worst concavity', 'worst concave points', 'worst symmetry', 'worst fractal dimension']


#### Questão 2 -b) Selecione duas features contínuas do dataset e realize a discretização dessas variáveis por meio de quantização por bins fixos. Apresente os resultados.

In [9]:
def discretizar_com_bins_fixos(df, feature, n_bins=3):
    df[f'{feature}_bin_fixo'] = pd.cut(df[feature], bins=n_bins)
    return df[[feature, f'{feature}_bin_fixo']]


bins_fixos = discretizar_com_bins_fixos(df.copy(), feature1)

print("Discretizacao bins fixo:")
print(bins_fixos.head())

Discretizacao bins fixo:
   mean radius mean radius_bin_fixo
0        17.99     (14.024, 21.067]
1        20.57     (14.024, 21.067]
2        19.69     (14.024, 21.067]
3        11.42       (6.96, 14.024]
4        20.29     (14.024, 21.067]


#### Questao 2 - c)Selecione duas features contínuas do dataset (podem ser as mesmas do item (b)) e realize a discretização dessas variáveis por meio de quantização por bins variáveis. Apresente os resultados.

In [11]:

def discretizar_com_bins_variaveis(df, feature, n_bins=3):
    df[f'{feature}_bin_quantil'] = pd.qcut(df[feature], q=n_bins)
    return df[[feature, f'{feature}_bin_quantil']]



bins_variaveis = discretizar_com_bins_variaveis(df.copy(), feature2)
print("\nDiscretiza bin VARIAVEL:")
print(bins_variaveis.head())


Discretiza bin VARIAVEL:
   mean texture     mean texture_bin_quantil
0         10.38  (9.709000000000001, 17.193]
1         17.77              (17.193, 20.74]
2         21.25               (20.74, 39.28]
3         20.38              (17.193, 20.74]
4         14.34  (9.709000000000001, 17.193]


##### Questao 3 Considere o breast cancer dataset.a)Defina uma função personalizada que realize uma normalização nas features do dataset usando FunctionTransformer do sklearn.

In [17]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer



def normalizar_features(df, features):
    transformer = FunctionTransformer(
        func=lambda x: (x - x.min(axis=0)) / (x.max(axis=0) - x.min(axis=0)),
        validate=True
    )
    dados = df[features].to_numpy()
    normalizadas = transformer.fit_transform(dados)
    df_normalizado = pd.DataFrame(normalizadas, columns=[f'{f}_normalizado' for f in features])
    return df_normalizado


normalizados = normalizar_features(df.copy(), [feature1, feature2])

print("\nFeatures normalizadas com FunctionTransformer (min-max):")
print(normalizados.head())




Features normalizadas com FunctionTransformer (min-max):
   mean radius_normalizado  mean texture_normalizado
0                 0.521037                  0.022658
1                 0.643144                  0.272574
2                 0.601496                  0.390260
3                 0.210090                  0.360839
4                 0.629893                  0.156578


##### Questao 5 a) Considere o breast cancer dataset. Faça uma normalização das features do dataset usando o MinMaxScaler. Apresente os resultados obtidos.

In [18]:
from sklearn.preprocessing import MinMaxScaler


def normalizar_com_minmax_scaler(df, features):
    scaler = MinMaxScaler()
    normalizadas = scaler.fit_transform(df[features])
    df_normalizado = pd.DataFrame(normalizadas, columns=[f'{f}_minmax' for f in features])
    return df_normalizado


normalizados_minmax = normalizar_com_minmax_scaler(df.copy(), [feature1, feature2])

print("\nfeatures normalizadas   MinMaxScaler:")
print(normalizados_minmax.head())



Features normalizadas com MinMaxScaler:
   mean radius_minmax  mean texture_minmax
0            0.521037             0.022658
1            0.643144             0.272574
2            0.601496             0.390260
3            0.210090             0.360839
4            0.629893             0.156578


##### b) standard scaler

In [19]:
from sklearn.preprocessing import StandardScaler


def normalizar_com_standard_scaler(df, features):
    scaler = StandardScaler()
    normalizadas = scaler.fit_transform(df[features])
    return pd.DataFrame(normalizadas, columns=[f'{f}_standard' for f in features])


normalizados_standard = normalizar_com_standard_scaler(df.copy(), features_selecionadas)

print("\n Normalizacao  de StandardScaler:")
print(normalizados_standard.head())


 Normalizacao  de StandardScaler:
   mean radius_standard  mean texture_standard
0              1.097064              -2.073335
1              1.829821              -0.353632
2              1.579888               0.456187
3             -0.768909               0.253732
4              1.750297              -1.151816


#### c) norma l2

In [20]:
from sklearn.preprocessing import Normalizer


def aplicar_regularizacao_l2(df, features):
    normalizer = Normalizer(norm='l2')
    regularizadas = normalizer.fit_transform(df[features])
    return pd.DataFrame(regularizadas, columns=[f'{f}_l2' for f in features])


regularizados_l2 = aplicar_regularizacao_l2(df.copy(), features_selecionadas)

print("\nRegularização com norma L2:")
print(regularizados_l2.head())



Regularização com norma L2:
   mean radius_l2  mean texture_l2
0        0.866162         0.499764
1        0.756732         0.653725
2        0.679670         0.733518
3        0.488838         0.872375
4        0.816633         0.577157
