In [1]:
import pandas as pd

In [2]:
print(pd.__version__)

1.5.3


In [3]:
#cargar datos
df = pd.read_csv('datacotizacion.csv')

In [4]:
print(df.head())

   idCotizacion fechaCotizacion  idTipo  idModelo  idAcabado  idSeguridad  \
0             1      11/10/2021       1         1          1            3   
1             2      11/10/2021       1         1          1            3   
2             3      11/10/2021       1         1          1            3   
3             4      11/10/2021       1         1          1            3   
4             5      11/10/2021       1         1          1            3   

   alto  ancho  precioCotizacion  
0   250     90               300  
1   249     90               300  
2   251     90               300  
3   250     91               300  
4   251     93               300  


In [5]:
# Mostrar información básica sobre el DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 350 entries, 0 to 349
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   idCotizacion      350 non-null    int64 
 1   fechaCotizacion   350 non-null    object
 2   idTipo            350 non-null    int64 
 3   idModelo          350 non-null    int64 
 4   idAcabado         350 non-null    int64 
 5   idSeguridad       350 non-null    int64 
 6   alto              350 non-null    int64 
 7   ancho             350 non-null    int64 
 8   precioCotizacion  350 non-null    int64 
dtypes: int64(8), object(1)
memory usage: 23.3+ KB
None


In [6]:
# Identificar valores faltantes
print(df.isnull().sum())

idCotizacion        0
fechaCotizacion     0
idTipo              0
idModelo            0
idAcabado           0
idSeguridad         0
alto                0
ancho               0
precioCotizacion    0
dtype: int64


In [7]:
# Eliminar las columnas innecesarias
columnas_a_eliminar = ['idCotizacion', 'fechaCotizacion']
df = df.drop(columns=columnas_a_eliminar)

# Verificar que las columnas se hayan eliminado
print(df.columns)


Index(['idTipo', 'idModelo', 'idAcabado', 'idSeguridad', 'alto', 'ancho',
       'precioCotizacion'],
      dtype='object')


In [8]:
# Mezclar los datos para evitar que los patrones en los datos ordenados afecten el rendimiento del modelo.
from sklearn.utils import shuffle
df = shuffle(df, random_state=42)

# Verificar que los datos se han mezclado
print(df.head())

     idTipo  idModelo  idAcabado  idSeguridad  alto  ancho  precioCotizacion
157       4         7          1            2   232    260              1200
341       7        12          2            2   260    400              3800
315       6        11          2            2   350    260              8000
234       4         9          1            1   260    260              1650
155       4         7          1            2   240    260              1400


In [9]:
# Insertar bibliotecas para el modelado
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [10]:
# Asignando el valor de las variables dependientes a X y las variabl dependiente a Y (precioCotizacion)
x = df.drop(columns=['precioCotizacion'])
y = df['precioCotizacion']

In [11]:
# Se dividen los datos en 80% entrenamiento y 20% prueba
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

In [12]:
# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo
model.fit(x_train, y_train)

In [13]:
# Predecir los valores del conjunto de prueba
y_pred = model.predict(x_test)

In [14]:
# Calcular el error cuadrático medio y el coeficiente de determinación (R^2)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [15]:
print(f'Error Cuadrático Medio (MSE): {mse}')

Error Cuadrático Medio (MSE): 677460.0126271279


In [16]:
print(f'Coeficiente de Determinación (R^2): {r2}')

Coeficiente de Determinación (R^2): 0.8921586044112044


In [18]:
#verificar la cantidad de datos que sirven para entrenamiento y para testeo del total de 350 datos
print(f'x_train shape: {x_train.shape}') #80% para entrenamiento
print(f'x_test shape: {x_test.shape}') #20% para testeo
print(f'y_train shape: {y_train.shape}')
print(f'y_test shape: {y_test.shape}')

x_train shape: (280, 6)
x_test shape: (70, 6)
y_train shape: (280,)
y_test shape: (70,)


In [19]:
from sklearn.model_selection import cross_val_score

# Realizar validación cruzada con 5 divisiones
cv_scores = cross_val_score(model, x, y, cv=5, scoring='neg_mean_squared_error')

# Convertir los puntajes negativos a positivos
cv_scores = -cv_scores

print(f'Cross-Validation MSE scores: {cv_scores}')
print(f'Average Cross-Validation MSE: {cv_scores.mean()}')

Cross-Validation MSE scores: [ 925478.5958404  1264938.22198203 1745090.88721869  913909.6939993
 1704851.50823292]
Average Cross-Validation MSE: 1310853.7814546693


In [20]:
# Calcular la varianza
varianza = y.var()
print(f'Varianza de la variable objetivo (precio): {varianza}')

Varianza de la variable objetivo (precio): 6481981.157011871


In [21]:
# Guardar el modelo entrenado en un archivo
import joblib
joblib.dump(model, 'modelo_regresion_lineal.pkl')

['modelo_regresion_lineal.pkl']