In [None]:
# 1. **Preprocesamiento de Datos**
Este grupo de métodos se utiliza para preparar los datos antes de aplicar cualquier algoritmo de machine learning. El preprocesamiento asegura que los datos estén en el formato adecuado y mejora el rendimiento de los modelos.
   - **Funciones comunes:**
     - **StandardScaler:** Normalizar los datos para tener media 0 y desviación estándar 1.
     - **MinMaxScaler:** Escalar los datos a un rango específico, generalmente [0, 1].
     - **RobustScaler:** Escalar los datos usando estadísticas robustas a valores atípicos.
     - **Normalizer:** Normalizar las muestras individualmente para tener norma unitaria.
     - **Binarizer:** Convertir datos numéricos en datos binarios.
     - **PolynomialFeatures:** Generar nuevas características polinómicas a partir de las características originales.

In [None]:
## Carga de datos y preparación
Importamos el dataset Iris y las bibliotecas necesarias. X contiene las características y y las etiquetas.

In [20]:
from sklearn.datasets import load_iris
import pandas as pd

# Load the dataset
data = load_iris()
X = data.data
y = data.target

## StandardScaler
Escalamos las características para tener media 0 y desviación estándar 1.

In [21]:
from sklearn.preprocessing import StandardScaler

# Initialize the StandardScaler
scaler = StandardScaler()

# Fit and transform the data
X_scaled = scaler.fit_transform(X)

# Create a DataFrame for better visualization
df_scaled = pd.DataFrame(X_scaled, columns=data.feature_names)

print("Standard Scaler:")
print(df_scaled.head())

Standard Scaler:
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0          -0.900681          1.019004          -1.340227         -1.315444
1          -1.143017         -0.131979          -1.340227         -1.315444
2          -1.385353          0.328414          -1.397064         -1.315444
3          -1.506521          0.098217          -1.283389         -1.315444
4          -1.021849          1.249201          -1.340227         -1.315444


## MinMaxScaler
Escalamos las características al rango [0, 1].

In [10]:
from sklearn.preprocessing import MinMaxScaler

# Initialize the MinMaxScaler
minmax_scaler = MinMaxScaler()

# Fit and transform the data
X_minmax_scaled = minmax_scaler.fit_transform(X)

# Create a DataFrame for better visualization
df_minmax_scaled = pd.DataFrame(X_minmax_scaled, columns=data.feature_names)

print("MinMax Scaler:")
print(df_minmax_scaled.head())

MinMax Scaler:
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0           0.222222          0.625000           0.067797          0.041667
1           0.166667          0.416667           0.067797          0.041667
2           0.111111          0.500000           0.050847          0.041667
3           0.083333          0.458333           0.084746          0.041667
4           0.194444          0.666667           0.067797          0.041667


## RobustScaler
Escalamos las características utilizando estadísticas robustas a valores atípicos.

In [11]:
from sklearn.preprocessing import RobustScaler

# Initialize the RobustScaler
robust_scaler = RobustScaler()

# Fit and transform the data
X_robust_scaled = robust_scaler.fit_transform(X)

# Create a DataFrame for better visualization
df_robust_scaled = pd.DataFrame(X_robust_scaled, columns=data.feature_names)

print("Robust Scaler:")
print(df_robust_scaled.head())

Robust Scaler:
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0          -0.538462               1.0          -0.842857         -0.733333
1          -0.692308               0.0          -0.842857         -0.733333
2          -0.846154               0.4          -0.871429         -0.733333
3          -0.923077               0.2          -0.814286         -0.733333
4          -0.615385               1.2          -0.842857         -0.733333


# Normalizer
Normalizamos las muestras para tener norma unitaria.

In [19]:
from sklearn.preprocessing import Normalizer

# Initialize the Normalizer
normalizer = Normalizer()

# Fit and transform the data
X_normalized = normalizer.fit_transform(X)

# Create a DataFrame for better visualization
df_normalized = pd.DataFrame(X_normalized, columns=data.feature_names)

print("Normalizer:")
print(df_normalized.head())

Normalizer:
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0           0.803773          0.551609           0.220644          0.031521
1           0.828133          0.507020           0.236609          0.033801
2           0.805333          0.548312           0.222752          0.034269
3           0.800030          0.539151           0.260879          0.034784
4           0.790965          0.569495           0.221470          0.031639


# Binarizer
Binarizamos los datos basándonos en un umbral (3.0)

In [13]:
from sklearn.preprocessing import Binarizer

# Initialize the Binarizer with a threshold of 3.0
binarizer = Binarizer(threshold=3.0)

# Fit and transform the data
X_binarized = binarizer.fit_transform(X)

# Create a DataFrame for better visualization
df_binarized = pd.DataFrame(X_binarized, columns=data.feature_names)

print("Binarizer:")
print(df_binarized.head())

Binarizer:
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                1.0               1.0                0.0               0.0
1                1.0               0.0                0.0               0.0
2                1.0               1.0                0.0               0.0
3                1.0               1.0                0.0               0.0
4                1.0               1.0                0.0               0.0


# PolynomialFeatures
Generamos nuevas características consistentes en todas las combinaciones de características hasta un grado dado (2)

In [14]:
from sklearn.preprocessing import PolynomialFeatures

# Initialize the PolynomialFeatures with degree 2
poly = PolynomialFeatures(degree=2)

# Fit and transform the data
X_poly = poly.fit_transform(X)

# Create a DataFrame for better visualization
df_poly = pd.DataFrame(X_poly, columns=poly.get_feature_names_out(data.feature_names))

print("Polynomial Features:")
print(df_poly.head())

Polynomial Features:
     1  sepal length (cm)  sepal width (cm)  petal length (cm)  \
0  1.0                5.1               3.5                1.4   
1  1.0                4.9               3.0                1.4   
2  1.0                4.7               3.2                1.3   
3  1.0                4.6               3.1                1.5   
4  1.0                5.0               3.6                1.4   

   petal width (cm)  sepal length (cm)^2  sepal length (cm) sepal width (cm)  \
0               0.2                26.01                               17.85   
1               0.2                24.01                               14.70   
2               0.2                22.09                               15.04   
3               0.2                21.16                               14.26   
4               0.2                25.00                               18.00   

   sepal length (cm) petal length (cm)  sepal length (cm) petal width (cm)  \
0                      