In [1]:
from sklearn.impute import SimpleImputer
import pandas as pd

# Datos con valores faltantes
X = pd.DataFrame({
    'A': [1, 3, 7],
    'B': [2, None, 8],
    'C': [None, 6, 9]
})

print("Datos originales:")
print(X)

# Crear un imputador con la estrategia de la media
imputer = SimpleImputer(strategy='mean')

# Ajustar y transformar los datos
X_imputed = imputer.fit_transform(X)

# Convertir el resultado a un DataFrame de pandas
X_imputed_df = pd.DataFrame(X_imputed, columns=X.columns)

print("nDatos imputados:")
print(X_imputed_df)

Datos originales:
   A    B    C
0  1  2.0  NaN
1  3  NaN  6.0
2  7  8.0  9.0
nDatos imputados:
     A    B    C
0  1.0  2.0  7.5
1  3.0  5.0  6.0
2  7.0  8.0  9.0


In [2]:
from sklearn.preprocessing import OneHotEncoder

# Datos categóricos
X = [['rojo'], ['verde'], ['azul'], ['verde'], ['rojo']]

# Crear un codificador One-Hot
encoder = OneHotEncoder()

# Ajustar y transformar los datos
X_encoded = encoder.fit_transform(X)

print(X_encoded.toarray())

[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]]


In [3]:
from sklearn.preprocessing import LabelEncoder

# Datos categóricos
y = ['rojo', 'verde', 'azul', 'verde', 'rojo']

# Crear un codificador de etiquetas
encoder = LabelEncoder()

# Ajustar y transformar los datos
y_encoded = encoder.fit_transform(y)

print(y_encoded)

[1 2 0 2 1]


In [5]:
from sklearn.datasets import fetch_openml
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos
X, y = fetch_openml('tic-tac-toe', version=1, return_X_y=True)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear un imputador para manejar valores faltantes
imputer = SimpleImputer(strategy='most_frequent')

# Crear un codificador One-Hot para variables categóricas
encoder = OneHotEncoder()

# Preprocesar los datos de entrenamiento
X_train_imputed = imputer.fit_transform(X_train)
X_train_encoded = encoder.fit_transform(X_train_imputed)

# Preprocesar los datos de prueba
X_test_imputed = imputer.transform(X_test)
X_test_encoded = encoder.transform(X_test_imputed)

# Codificar las etiquetas de destino
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_test_encoded = label_encoder.transform(y_test)

# Crear y entrenar un clasificador de árboles de decisión
classifier = DecisionTreeClassifier()
classifier.fit(X_train_encoded, y_train_encoded)

# Hacer predicciones en el conjunto de prueba
y_pred = classifier.predict(X_test_encoded)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test_encoded, y_pred)
print(f"Precisión del modelo: {accuracy}")

Precisión del modelo: 0.9305555555555556


In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
import pandas as pd

# Cargar el conjunto de datos de California Housing
data = fetch_california_housing(as_frame=True)
df = data.frame

# Separar en características (X) y variable objetivo (y)
X = df.drop("MedHouseVal", axis=1)
y = df["MedHouseVal"]

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el preprocesador con selección automática de columnas numéricas y pasar el resto
preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), X.select_dtypes(include=['float64', 'int']).columns),
        ("cat", OneHotEncoder(), X.select_dtypes(include=['object']).columns)
    ],
    remainder='passthrough',  # Pasar las columnas no transformadas sin cambios
    n_jobs=-1,                # Usar todos los núcleos disponibles para procesamiento
    verbose=True,             # Mostrar información de procesamiento
    sparse_threshold=0.3      # Convertir a formato disperso si la densidad es menor al umbral
)

# Aplicar las transformaciones al conjunto de entrenamiento y prueba
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)

# Mostrar información sobre el conjunto de datos transformado
print("Conjunto de entrenamiento transformado:", X_train.shape)
print("Conjunto de prueba transformado:", X_test.shape)


Conjunto de entrenamiento transformado: (16512, 8)
Conjunto de prueba transformado: (4128, 8)


In [12]:
x_transformed = preprocessor.fit_transform(X)

In [14]:
x_transformed

array([[ 2.34476576,  0.98214266,  0.62855945, ..., -0.04959654,
         1.05254828, -1.32783522],
       [ 2.33223796, -0.60701891,  0.32704136, ..., -0.09251223,
         1.04318455, -1.32284391],
       [ 1.7826994 ,  1.85618152,  1.15562047, ..., -0.02584253,
         1.03850269, -1.33282653],
       ...,
       [-1.14259331, -0.92485123, -0.09031802, ..., -0.0717345 ,
         1.77823747, -0.8237132 ],
       [-1.05458292, -0.84539315, -0.04021111, ..., -0.09122515,
         1.77823747, -0.87362627],
       [-0.78012947, -1.00430931, -0.07044252, ..., -0.04368215,
         1.75014627, -0.83369581]])

In [None]:
x