In [10]:


import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import plotly.graph_objects as go
import numpy as np





# Dataset ampliado
data = {
    'Antigüedad': [5, 3, 7, 2, 4, 6, 1, 8, 3, 5, 2, 6, 7, 4, 3, 5, 2, 1, 6, 4, 3, 7, 2, 5],
    'Kilometraje': [50000, 30000, 70000, 25000, 45000, 60000, 20000, 80000, 32000, 52000,
                    27000, 61000, 72000, 46000, 31000, 53000, 26000, 21000, 62000, 47000,
                    33000, 73000, 24000, 54000],
    'Puertas': [4, 2, 4, 2, 4, 2, 4, 2, 4, 2, 4, 2, 4, 2, 4, 2, 4, 2, 4, 2, 4, 2, 4, 2],
    'Precio': [12000, 15000, 9000, 16000, 13000, 10000, 17000, 8000, 14000, 11000,
               15500, 9500, 8800, 12500, 14500, 11500, 15800, 17500, 9800, 12800,
               14200, 8700, 16200, 10800]
}



cars_df = pd.DataFrame(data)
print(cars_df)

    Antigüedad  Kilometraje  Puertas  Precio
0            5        50000        4   12000
1            3        30000        2   15000
2            7        70000        4    9000
3            2        25000        2   16000
4            4        45000        4   13000
5            6        60000        2   10000
6            1        20000        4   17000
7            8        80000        2    8000
8            3        32000        4   14000
9            5        52000        2   11000
10           2        27000        4   15500
11           6        61000        2    9500
12           7        72000        4    8800
13           4        46000        2   12500
14           3        31000        4   14500
15           5        53000        2   11500
16           2        26000        4   15800
17           1        21000        2   17500
18           6        62000        4    9800
19           4        47000        2   12800
20           3        33000        4   14200
21        

In [11]:

# Variables independientes y dependiente
X = cars_df[['Antigüedad', 'Kilometraje', 'Puertas']]
y = cars_df['Precio']


# Dividir en conjunto de entrenamiento y prueba (80%-20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Realizar predicciones
y_pred = model.predict(X_test)

# Calcular métricas de desempeño
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)


In [12]:

# Preparar DataFrame para gráfico
graph_df = pd.DataFrame({
    'Precio Real': y_test.values,
    'Precio Predicho': y_pred,
    'Error Absoluto': np.abs(y_test.values - y_pred)
})

# Ordenar por Precio Real
graph_df = graph_df.sort_values(by='Precio Real').reset_index(drop=True)

# Crear gráfico mejorado
fig = go.Figure()
fig.add_trace(go.Bar(x=graph_df.index, y=graph_df['Precio Real'], name='Precio Real', marker_color='blue'))
fig.add_trace(go.Bar(x=graph_df.index, y=graph_df['Precio Predicho'], name='Precio Predicho', marker_color='orange'))

# Añadir etiquetas de valores
fig.update_traces(texttemplate='%{y:.0f}', textposition='outside')

# Añadir anotaciones con métricas
fig.add_annotation(text=f"MAE: {mae:.2f}\nRMSE: {rmse:.2f}\nR²: {r2:.3f}",
                   xref="paper", yref="paper",
                   x=1.05, y=1,
                   showarrow=False,
                   font=dict(size=12),
                   align="left",
                   bordercolor="black",
                   borderwidth=1,
                   bgcolor="lightyellow")

fig.update_layout(title='Comparación Mejorada de Precios Reales vs. Predichos',
                  xaxis_title='Vehículos ordenados por Precio Real',
                  yaxis_title='Precio (USD)',
                  barmode='group',
                  height=600)

fig.show()
