In [8]:
import pandas as pd

data = {
    "Concepto": ["Renta", "Super", "Gasolina", "Super", "Gasolina", "Luz", "Agua", "Renta", "Agua"],
    "Monto": [2750, 900, 1200, 1100, 800, 600, 400, 2750, 150],
}

df = pd.DataFrame(data)
print(df)


   Concepto  Monto
0     Renta   2750
1     Super    900
2  Gasolina   1200
3     Super   1100
4  Gasolina    800
5       Luz    600
6      Agua    400
7     Renta   2750
8      Agua    150


In [9]:
# Preprocesamiento y modelo con Pipeline
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Usamos la columna original (sin get_dummies manual)
X = df[["Concepto"]]
y = df["Monto"]

# OneHotEncoder con drop='first' y tolerante a categorías nuevas
pre = ColumnTransformer(
    transformers=[
        ("cat", OneHotEncoder(drop="first", handle_unknown="ignore"), ["Concepto"])
    ],
    remainder="drop"
)

pipe = Pipeline(steps=[
    ("prep", pre),
    ("model", LinearRegression())
])



In [10]:
# Split + entrenamiento
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

pipe.fit(X_train, y_train)

# (Opcional) Mostrar coeficientes con nombres de features ya transformadas
feature_names = pipe.named_steps["prep"].get_feature_names_out()
coefs = pipe.named_steps["model"].coef_
print("Coeficientes:", dict(zip(feature_names, coefs)))
print("Intercepto:", pipe.named_steps["model"].intercept_)



Coeficientes: {'cat__Concepto_Gasolina': np.float64(724.9999999999999), 'cat__Concepto_Renta': np.float64(2475.0), 'cat__Concepto_Super': np.float64(824.9999999999998)}
Intercepto: 275.0000000000002


In [11]:
# Predicción sobre test
y_pred = pipe.predict(X_test)

print("👉 Valores reales:", list(y_test))
print("👉 Predicciones:", list(y_pred))


👉 Valores reales: [2750, 900, 600]
👉 Predicciones: [np.float64(2750.0), np.float64(1100.0), np.float64(275.0000000000002)]




In [12]:
# Predicciones nuevas: ahora solo pasas el DataFrame con la columna original
nuevo_super = pd.DataFrame({"Concepto": ["Super"]})
nuevo_agua  = pd.DataFrame({"Concepto": ["Agua"]})
nuevo_renta = pd.DataFrame({"Concepto": ["Renta"]})
nuevo_luz   = pd.DataFrame({"Concepto": ["Luz"]})
nuevo_gas   = pd.DataFrame({"Concepto": ["Gasolina"]})

print("Predicción para 'Super':",   pipe.predict(nuevo_super)[0])
print("Predicción para 'Agua':",    pipe.predict(nuevo_agua)[0])
print("Predicción para 'Renta':",   pipe.predict(nuevo_renta)[0])
print("Predicción para 'Luz':",     pipe.predict(nuevo_luz)[0])
print("Predicción para 'Gasolina':",pipe.predict(nuevo_gas)[0])




Predicción para 'Super': 1100.0
Predicción para 'Agua': 275.0000000000002
Predicción para 'Renta': 2750.0
Predicción para 'Luz': 275.0000000000002
Predicción para 'Gasolina': 1000.0000000000001


