In [3]:
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# Cargar el conjunto de datos de California Housing
data = fetch_california_housing()
X, y = data.data, data.target

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear un Pipeline
pipeline = Pipeline(steps=[
    ('scaler', StandardScaler()),  # Escalado de características
    ('regressor', LinearRegression())  # Regresor
])

# Ajustar el Pipeline a los datos de entrenamiento
pipeline.fit(X_train, y_train)

# Hacer predicciones utilizando el Pipeline
y_pred = pipeline.predict(X_test)

# Calcular y mostrar la precisión (o R^2) del modelo
r2_score = pipeline.score(X_test, y_test)
print(f"R^2 del modelo: {r2_score:.2f}")


R^2 del modelo: 0.58


In [6]:
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import fetch_openml

# Cargar el conjunto de datos de Titanic
data = fetch_openml('titanic', version=1)
df = pd.DataFrame(data.data, columns=data.feature_names)

# Agregar la columna 'survived' como objetivo
df['survived'] = data.target

# Identificar características numéricas y categóricas
numeric_features = ['age', 'fare']
categorical_features = ['sex', 'embarked']

# Crear transformadores para los diferentes tipos de datos
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Manejar valores faltantes
    ('scaler', StandardScaler())                   # Escalar características
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),  # Manejar valores faltantes
    ('onehot', OneHotEncoder(handle_unknown='ignore'))                      # Codificación One-Hot
])

# Combinar los transformadores en un ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Crear el Pipeline completo
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),          # Preprocesamiento
    ('classifier', LogisticRegression())     # Clasificador
])

# Separar las características (X) y la etiqueta objetivo (y)
X = df[numeric_features + categorical_features]
y = df['survived']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Ajustar el Pipeline a los datos de entrenamiento
pipeline.fit(X_train, y_train)

# Hacer predicciones utilizando el Pipeline
y_pred = pipeline.predict(X_test)

# Calcular y mostrar la precisión (o R^2) del modelo
accuracy = pipeline.score(X_test, y_test)
print(f"Precisión del modelo: {accuracy:.2f}")


Precisión del modelo: 0.78
