In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler, RobustScaler
from sklearn.impute import SimpleImputer

# Leer el CSV
data = pd.read_csv('../data/EstudioCrediticio_TrainP.csv')

### Lectura de datos y borrado columnas id y creditoaprobado

In [15]:
# Eliminar la primera columna
data = data.iloc[:, 1:]

# Eliminar la penúltima columna
data = data.iloc[:, :-2].join(data.iloc[:, -1])

### Obtener variables predictoras y dependiente

In [16]:
# Separar las características (X) y la variable a predecir (y)
X = data.iloc[:, :-1]  # Todas las columnas menos la última
y = data.iloc[:, -1]   # La última columna

### Identificar variables categóricas y numéricas

In [17]:
# Identificar columnas numéricas y categóricas
categorical_cols = X.select_dtypes(include=['object', 'category']).columns
numeric_cols = X.select_dtypes(include=['int64', 'float64']).columns

### Pipe para variables categóricas (SimpleImputer y OneHotEncoder)

In [18]:
# Pipeline para variables categóricas (Imputación + OneHotEncoder)
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Imputar con el valor más frecuente
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

### Pipe para variables numéricas (SimpleImputer y StandardScaler)

In [19]:
# Pipeline para variables numéricas (Imputación + Escalado)
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Imputar con la media
    ('scaler', RobustScaler())
])

### Pipe combinada de las dos transformaciones anteriores

In [20]:
# Combinación de transformaciones para columnas categóricas y numéricas
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_cols),
        ('cat', categorical_transformer, categorical_cols)
    ])

### Pipe final con preprocesamiento y modelo

In [21]:
# Crear pipeline final con preprocesamiento y modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])

### Conjunto de entrenamiento y prueba

In [22]:
# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Entrenamiento del modelo

In [23]:
# Entrenar el modelo
model.fit(X_train, y_train)

### Evaluación del modelo

In [24]:
# Evaluar el modelo
train_score = model.score(X_train, y_train)
test_score = model.score(X_test, y_test)

print(f"R² del conjunto de entrenamiento: {train_score:.2f}")
print(f"R² del conjunto de prueba: {test_score:.2f}")

R² del conjunto de entrenamiento: 0.75
R² del conjunto de prueba: 0.75
