In [4]:
import pandas as pd
from category_encoders import TargetEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import joblib

In [5]:
# Cargar los datos
data = pd.read_csv('data.csv')
data = data[data['Modelo'] == 'Clase GLA']

# A la columna de Kilómetros le sacamos el km y lo convertimos a número
data['Kilómetros'] = data['Kilómetros'].str.replace(' km', '').str.replace(',', '').astype(int)

# Definir las características (features) y el objetivo (target)
X = data[['Kilómetros', 'Edad']]
y = data['Precio']

precio_okm = y[X['Kilómetros'] == 0].mean()

# Filtrar datos donde los kilómetros no son 0
X = X[X['Kilómetros'] != 0]
y = y[X.index]

y = precio_okm - y

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Predecir
y_pred = model.predict(X_test)

# Evaluar
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'MSE: {mse}')
print(f'R2: {r2}')


MSE: 76965589.23862691
R2: 0.7564697354916259


In [8]:
# Predict
km = 89000
edad = 9
precio = model.predict([[km, edad]])
precio = precio_okm - precio
print(f'Precio 0 km: {precio_okm}')
print(f'Precio: {precio[0]}')


Precio 0 km: 91463.63636363637
Precio: 25759.005666642202


