In [7]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split

data = fetch_california_housing()
x,y = data.data , data.target

X_train, X_test, y_train, y_test  = train_test_split(
    x,y,
    test_size=0.3,   # Porcentaje del dataset para el conjunto de prueba
    random_state=42, # Controlar la aleatoriedad
    shuffle=True,    # Mezclar los datos antes de dividir
    stratify=None    # Estratificar por y si es Clasificacion
)

x.shape
X_train.shape

X_train

array([[   4.1312    ,   35.        ,    5.88235294, ...,    2.98529412,
          33.93      , -118.02      ],
       [   2.8631    ,   20.        ,    4.40120968, ...,    2.0141129 ,
          32.79      , -117.09      ],
       [   4.2026    ,   24.        ,    5.61754386, ...,    2.56491228,
          34.59      , -120.14      ],
       ...,
       [   2.9344    ,   36.        ,    3.98671727, ...,    3.33206831,
          34.03      , -118.38      ],
       [   5.7192    ,   15.        ,    6.39534884, ...,    3.17889088,
          37.58      , -121.96      ],
       [   2.5755    ,   52.        ,    3.40257649, ...,    2.10869565,
          37.77      , -122.42      ]])

# Manejo de Valores Faltantes con SimpleImputer

In [8]:
#Manejo de Valores Faltantes con SimpleImputer
from sklearn.impute import SimpleImputer
import pandas as pd

# Datos con valores faltantes
X = pd.DataFrame({
    'A': [1, 3, 7],
    'B': [2, None, 8],
    'C': [None, 6, 9]
})

print("Datos originales:")
print(X)

# Crear un imputador con la estrategia de la media
imputer = SimpleImputer(strategy='mean')

# Ajustar y transformar los datos
X_imputed = imputer.fit_transform(X)

# Convertir el resultado a un DataFrame de pandas
X_imputed_df = pd.DataFrame(X_imputed, columns=X.columns)

print("nDatos imputados:")
print(X_imputed_df)

Datos originales:
   A    B    C
0  1  2.0  NaN
1  3  NaN  6.0
2  7  8.0  9.0
nDatos imputados:
     A    B    C
0  1.0  2.0  7.5
1  3.0  5.0  6.0
2  7.0  8.0  9.0


# Codificación One-Hot con OneHotEncoder

La codificación One-Hot convierte cada categoría en una nueva columna binaria y asigna un valor de 1 o 0 para indicar la presencia o ausencia de esa categoría. Esto permite que los algoritmos de aprendizaje automático procesen las variables categóricas de manera efectiva.

Scikit-learn proporciona la clase OneHotEncoder para realizar la codificación One-Hot. Veamos un ejemplo:

In [13]:
from sklearn.preprocessing import OneHotEncoder

# Datos categóricos
X = [['rojo'], ['verde'], ['azul'], ['verde'], ['rojo']]

# Crear un codificador One-Hot
# El orden de las columnas es por orden alfabetico ['azul', 'rojo', 'verde']
#encoder = OneHotEncoder()
# Si queremos definir otro orden para las columnas
encoder = OneHotEncoder(categories=[['rojo', 'verde', 'azul']])

# Ajustar y transformar los datos
X_encoded = encoder.fit_transform(X)

print(X_encoded.toarray())

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]


## Codificación de Etiquetas con LabelEncoder   

In [16]:
from sklearn.preprocessing import LabelEncoder

# Datos categóricos
y = ['rojo', 'verde', 'azul', 'verde', 'rojo']

# Crear un codificador de etiquetas por orden alfabetico
encoder = LabelEncoder()

# Ajustar y transformar los datos
y_encoded = encoder.fit_transform(y)

print(y_encoded)

[1 2 0 2 1]


# *Integración en un Flujo de Trabajo de Aprendizaje Automático*

Ahora que hemos aprendido sobre SimpleImputer, OneHotEncoder y LabelEncoder, veamos cómo integrarlos en un flujo de trabajo completo de aprendizaje automático.

En este ejemplo:

1. Cargamos el conjunto de datos «tic-tac-toe» utilizando fetch_openml() de Scikit-learn.
2. Dividimos los datos en conjuntos de entrenamiento y prueba utilizando train_test_split().
3. Creamos instancias de SimpleImputer y OneHotEncoder para manejar valores faltantes y codificar variables categóricas, respectivamente.
4. Preprocesamos los datos de entrenamiento y prueba utilizando los transformadores.
5. Codificamos las etiquetas de destino utilizando LabelEncoder.
6. Creamos y entrenamos un clasificador de árboles de decisión.
7. Hacemos predicciones en el conjunto de prueba y calculamos la precisión del modelo.

In [17]:
from sklearn.datasets import fetch_openml
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos
X, y = fetch_openml('tic-tac-toe', version=1, return_X_y=True)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear un imputador para manejar valores faltantes
imputer = SimpleImputer(strategy='most_frequent')

# Crear un codificador One-Hot para variables categóricas
encoder = OneHotEncoder()

# Preprocesar los datos de entrenamiento
X_train_imputed = imputer.fit_transform(X_train)
X_train_encoded = encoder.fit_transform(X_train_imputed)

# Preprocesar los datos de prueba
X_test_imputed = imputer.transform(X_test)
X_test_encoded = encoder.transform(X_test_imputed)

# Codificar las etiquetas de destino
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_test_encoded = label_encoder.transform(y_test)

# Crear y entrenar un clasificador de árboles de decisión
classifier = DecisionTreeClassifier()
classifier.fit(X_train_encoded, y_train_encoded)

# Hacer predicciones en el conjunto de prueba
y_pred = classifier.predict(X_test_encoded)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test_encoded, y_pred)
print(f"Precisión del modelo: {accuracy}")

Precisión del modelo: 0.9739583333333334


In [None]:
from sklearn.datasets import fetch_openml
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos
X, y = fetch_openml('tic-tac-toe', version=1, return_X_y=True)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [21]:
print(X.head())  # Ver las primeras filas de características
#print(y[:5])     # Ver las primeras etiquetas


  top-left-square top-middle-square  ... bottom-middle-square bottom-right-square
0               x                 x  ...                    o                   o
1               x                 x  ...                    x                   o
2               x                 x  ...                    o                   x
3               x                 x  ...                    b                   b
4               x                 x  ...                    o                   b

[5 rows x 9 columns]


In [26]:
data_bunch = fetch_openml('tic-tac-toe', version=1, as_frame=True)
print(type(data_bunch))

<class 'sklearn.utils._bunch.Bunch'>
