In [18]:
import pandas as pd
import numpy as np
from category_encoders import TargetEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import joblib

In [19]:
# Cargar los datos
data = pd.read_csv('fixed_dataset.csv')

# A la columna de Kilómetros le sacamos el km y lo convertimos a número
data['Kilómetros'] = data['Kilómetros'].str.replace(' km', '').str.replace(',', '').astype(int)

# Definir las características (features) y el objetivo (target)
X = data[['Kilómetros', 'Edad']]
y = data['Precio']

In [20]:
for modelo in data['Modelo'].unique():

    print(f"Modelo: {modelo}")
    X_modelo = X[data['Modelo'] == modelo]
    y_modelo = y[data['Modelo'] == modelo]

    precios_okm = y_modelo[X_modelo['Kilómetros'] == 0]

    if len(precios_okm) < 2:
        print("Cantidad de precios 0km: ", len(precios_okm))
        print("No hay suficientes datos para entrenar el modelo para el modelo ", modelo)
        print()
        continue

    if len(X_modelo) < len(precios_okm) + 2:
        print("Cantidad de datos: ", len(X_modelo))
        print("Cantidad de precios 0km: ", len(precios_okm))
        print("No hay suficientes datos para entrenar el modelo para el modelo ", modelo)
        print()
        continue

    # Calcular Q1 y Q3
    Q1 = np.percentile(precios_okm, 25)
    Q3 = np.percentile(precios_okm, 75)

    # Calcular el rango intercuartil (IQR)
    IQR = Q3 - Q1

    # Determinar los límites
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    # Filtrar los outliers
    datos_filtrados = [x for x in precios_okm if limite_inferior <= x <= limite_superior]

    # Calcular el promedio sin outliers
    precio_okm = np.mean(datos_filtrados)

    # Filtrar datos donde los kilómetros no son 0
    X_modelo = X_modelo[X_modelo['Kilómetros'] != 0]
    y_modelo = y_modelo[X_modelo.index]

    y_modelo = precio_okm - y_modelo

    # Dividir los datos en entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X_modelo, y_modelo, test_size=0.2, random_state=42)

    # Entrenar el modelo
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Predecir los precios
    y_pred = model.predict(X_test)

    # Evaluar el modelo
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    print(f"Mean Squared Error: {mse}")
    print(f"R^2: {r2}")
    print()

    # # Guardar el modelo
    # joblib.dump(model, f'model_{modelo}.joblib')
    # print(f"Modelo guardado en model_{modelo}.joblib")
    # print()

Modelo: 2008
Mean Squared Error: 2756223.089244061
R^2: 0.7176594149122152

Modelo: 208
Cantidad de datos:  3
Cantidad de precios 0km:  3
No hay suficientes datos para entrenar el modelo para el modelo  208

Modelo: 3008
Mean Squared Error: 20103663.43789289
R^2: 0.7541547826269408

Modelo: 4008
Cantidad de precios 0km:  0
No hay suficientes datos para entrenar el modelo para el modelo  4008

Modelo: 4Runner
Cantidad de precios 0km:  0
No hay suficientes datos para entrenar el modelo para el modelo  4Runner

Modelo: 5008
Mean Squared Error: 1844602.755428766
R^2: nan

Modelo: 500X
Cantidad de precios 0km:  0
No hay suficientes datos para entrenar el modelo para el modelo  500X

Modelo: DS7
Cantidad de datos:  19
Cantidad de precios 0km:  18
No hay suficientes datos para entrenar el modelo para el modelo  DS7

Modelo: Actyon
Cantidad de precios 0km:  0
No hay suficientes datos para entrenar el modelo para el modelo  Actyon

Modelo: Agile
Cantidad de precios 0km:  0
No hay suficientes da



Mean Squared Error: 8251720.247326997
R^2: 0.6918330478598613

Modelo: Trailblazer
Mean Squared Error: 6651556.148609884
R^2: 0.9272797036922534

Modelo: Trooper
Cantidad de precios 0km:  0
No hay suficientes datos para entrenar el modelo para el modelo  Trooper

Modelo: Tucson
Mean Squared Error: 13861134.35615627
R^2: 0.7454924628921913

Modelo: UX
Cantidad de precios 0km:  0
No hay suficientes datos para entrenar el modelo para el modelo  UX

Modelo: Veracruz
Cantidad de precios 0km:  0
No hay suficientes datos para entrenar el modelo para el modelo  Veracruz

Modelo: Vitara
Cantidad de precios 0km:  0
No hay suficientes datos para entrenar el modelo para el modelo  Vitara

Modelo: Wrangler
Mean Squared Error: 137323042.71625295
R^2: 0.669765192785714

Modelo: X-Terra
Cantidad de precios 0km:  0
No hay suficientes datos para entrenar el modelo para el modelo  X-Terra

Modelo: X-Trail
Mean Squared Error: 41217078.91262835
R^2: 0.8132867137720659

Modelo: X1
Mean Squared Error: 180351

