In [3]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Crear un DataFrame más grande con más valores faltantes
np.random.seed(128)
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hannah', 'Ian', 'Jack'],
    'Age': [25, np.nan, 30, np.nan, 40, 35, np.nan, 29, 50, np.nan],
    'Salary': [50000, 60000, np.nan, 80000, np.nan, 55000, 70000, np.nan, np.nan, 90000],
    'Gender': ['F', 'M', np.nan, 'M', 'F', np.nan, 'F', np.nan, 'M', 'F'],
    'City': ['New York', np.nan, 'San Francisco', 'Los Angeles', np.nan, 'Houston', np.nan, 'Seattle', 'Miami', 'Boston'],
    'Department': ['HR', 'IT', np.nan, 'Finance', 'Marketing', 'IT', 'HR', np.nan, 'Finance', np.nan]
}

df = pd.DataFrame(data)

# Kodigo
print("Gabriel Guzmán - seed(128)\n")

# Mostrar el DataFrame original
print("DataFrame original:\n", df)

# ----------------- SOLUCIÓN: ELIMINAR FILAS CON NAN EN 'SALARY' -----------------
# Eliminar filas donde 'Salary' es NaN
df = df.dropna(subset=['Salary'])

# ----------------- SEPARAR VARIABLES DEPENDIENTE E INDEPENDIENTES -----------------
# El objetivo es predecir el salario (Salary)
X = df.drop(columns=['Salary', 'Name'])  # Variables predictoras
y = df['Salary']  # Variable objetivo (Salary)

# ----------------- CREAR EL PIPELINE -----------------
# Crear pipelines separados para columnas numéricas y categóricas
numeric_features = ['Age']
categorical_features = ['Gender', 'City', 'Department']

# Pipeline para columnas numéricas: imputar valores faltantes y escalar
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Imputar valores faltantes con la media
    ('scaler', StandardScaler())  # Escalar las columnas numéricas
])

# Pipeline para columnas categóricas: imputar valores faltantes y aplicar One-Hot Encoding
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='Unknown')),  # Imputar valores faltantes con 'Unknown'
    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False))  # Aplicar One-Hot Encoding y manejar categorías desconocidas
])

# Usar ColumnTransformer para aplicar las transformaciones correspondientes a cada tipo de columna
preprocessor = ColumnTransformer(transformers=[
    ('num', numeric_transformer, numeric_features),
    ('cat', categorical_transformer, categorical_features)
])

# Crear el pipeline final que combina preprocesamiento y el modelo
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),  # Transformación de datos
    ('regressor', LinearRegression())  # Modelo de regresión lineal
])

# ----------------- ENTRENAR EL MODELO -----------------
# Dividir el dataset en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ajustar el pipeline en los datos de entrenamiento
pipeline.fit(X_train, y_train)

# Aplicar la transformación de preprocesamiento para mostrar el DataFrame transformado
X_train_transformed = pipeline.named_steps['preprocessor'].transform(X_train)

# Mostrar el DataFrame transformado
print("\nDataFrame transformado (después de imputación, escalado y One-Hot Encoding):\n")
transformed_df = pd.DataFrame(X_train_transformed, columns=pipeline.named_steps['preprocessor'].get_feature_names_out())
print(transformed_df)

# Predecir los salarios en el conjunto de prueba
y_pred = pipeline.predict(X_test)

# Mostrar las predicciones y los valores reales
print("\nPredicciones de Salario (y_pred):\n", y_pred)
print("\nValores reales de Salario (y_test):\n", y_test.values)

# Evaluación del modelo: Mostrar el puntaje de precisión (R^2)
score = pipeline.score(X_test, y_test)
print("\nPrecisión del modelo (R^2 score):", score)


Gabriel Guzmán - seed(128)

DataFrame original:
       Name   Age   Salary Gender           City Department
0    Alice  25.0  50000.0      F       New York         HR
1      Bob   NaN  60000.0      M            NaN         IT
2  Charlie  30.0      NaN    NaN  San Francisco        NaN
3    David   NaN  80000.0      M    Los Angeles    Finance
4      Eva  40.0      NaN      F            NaN  Marketing
5    Frank  35.0  55000.0    NaN        Houston         IT
6    Grace   NaN  70000.0      F            NaN         HR
7   Hannah  29.0      NaN    NaN        Seattle        NaN
8      Ian  50.0      NaN      M          Miami    Finance
9     Jack   NaN  90000.0      F         Boston        NaN

DataFrame transformado (después de imputación, escalado y One-Hot Encoding):

   num__Age  cat__Gender_F  cat__Gender_M  cat__Gender_Unknown  \
0       0.0            1.0            0.0                  0.0   
1       0.0            0.0            1.0                  0.0   
2       0.0            1.

Interpretación del R² score:
R² = 1: El modelo predice perfectamente todos los datos.
R² entre 0 y 1: El modelo predice razonablemente bien, donde 0 significa que el modelo no es mejor que la media y 1 es una predicción perfecta.
R² = 0: El modelo no es mejor que simplemente predecir la media de los valores.
R² < 0 (negativo): El modelo está prediciendo peor que si simplemente tomaras la media de los valores en el conjunto de datos.