In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import statsmodels.api as sm

In [2]:
#importar datos
df = pd.read_csv('Coleccionista.csv')
df.head()

Unnamed: 0,Painting,Price,Bidders,Age
0,1,3470,10,67
1,2,3500,8,56
2,3,3700,7,73
3,4,3860,4,71
4,5,3920,12,99


In [3]:
print("\n--- INCISO A ---")

# variables Independientes (X) y Dependiente (Y)
X_a = df[['Bidders', 'Age']]
Y = df['Price']

#  scikit-learn para obtener ecuacion
model_a = LinearRegression()
model_a.fit(X_a, Y)

print(f"Intersección (b0): {model_a.intercept_:.2f}")
print(f"Coeficientes (b1, b2): {model_a.coef_}")

# Ecuación formateada
print(f"Ecuación: Precio = {model_a.intercept_:.2f} + ({model_a.coef_[0]:.2f} * Postores) + ({model_a.coef_[1]:.2f} * Antigüedad)")


--- INCISO A ---
Intersección (b0): 3080.05
Coeficientes (b1, b2): [-54.18854049  16.2891028 ]
Ecuación: Precio = 3080.05 + (-54.19 * Postores) + (16.29 * Antigüedad)


In [4]:
print("\n--- INCISO B ---")

# variable de interacción: Postores * Antigüedad
df['Interaccion'] = df['Bidders'] * df['Age']

# variables independientes con la interacción
X_b = df[['Bidders', 'Age', 'Interaccion']]


#  statsmodels para ver si la variable es significativa, este permite verlo en forma de tabla.
X_b_sm = sm.add_constant(X_b)
model_b_sm = sm.OLS(Y, X_b_sm).fit()

print(model_b_sm.summary())

# Interpretación
p_val_interaccion = model_b_sm.pvalues['Interaccion']
if p_val_interaccion < 0.05:
    print(f"\nLa interacción es significativa (p-value: {p_val_interaccion:.4f})")
else:
    print(f"\nLa interacción NO es significativa (p-value: {p_val_interaccion:.4f})")


--- INCISO B ---
                            OLS Regression Results                            
Dep. Variable:                  Price   R-squared:                       0.669
Model:                            OLS   Adj. R-squared:                  0.621
Method:                 Least Squares   F-statistic:                     14.12
Date:                Mon, 19 Jan 2026   Prob (F-statistic):           2.92e-05
Time:                        18:07:40   Log-Likelihood:                -168.19
No. Observations:                  25   AIC:                             344.4
Df Residuals:                      21   BIC:                             349.3
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const        3971.6782    850.17

In [None]:
print("\nINCISO C ")
print("Análisis para selección de variables:")
# pvalues del modelo B para revisar lo que se puede eliminar
print(model_b_sm.pvalues.sort_values(ascending=False))

print("\nConclusión: Como el p value de interaccion es mayor a 0.05 no sirve esa iteraccion.")
print("Nos quedamos con el modelo original de 'Postores' y 'Antigüedad'.")


 INCISO C 
Análisis para selección de variables:
Age            0.508962
Interaccion    0.265015
Bidders        0.122230
const          0.000131
dtype: float64

Conclusión: Como el p value de interaccion es mayor a 0.05 no sirve esa iteraccion.
Nos quedamos con el modelo original de 'Postores' y 'Antigüedad'.
