In [7]:
import os

In [3]:
!pip install numpy==1.23.5 scikit-learn==1.2.2 pandas joblib

Collecting numpy==1.23.5
  Downloading numpy-1.23.5-cp310-cp310-win_amd64.whl (14.6 MB)
     ---------------------------------------- 0.0/14.6 MB ? eta -:--:--
     ---------------------------------------- 0.1/14.6 MB 1.7 MB/s eta 0:00:09
      --------------------------------------- 0.3/14.6 MB 2.6 MB/s eta 0:00:06
     - -------------------------------------- 0.6/14.6 MB 5.0 MB/s eta 0:00:03
     --- ------------------------------------ 1.3/14.6 MB 6.8 MB/s eta 0:00:02
     ----- ---------------------------------- 1.9/14.6 MB 8.8 MB/s eta 0:00:02
     ------- -------------------------------- 2.7/14.6 MB 10.1 MB/s eta 0:00:02
     --------- ------------------------------ 3.5/14.6 MB 10.5 MB/s eta 0:00:02
     ----------- ---------------------------- 4.2/14.6 MB 11.6 MB/s eta 0:00:01
     ------------ --------------------------- 4.5/14.6 MB 11.6 MB/s eta 0:00:01
     ------------- -------------------------- 4.8/14.6 MB 10.6 MB/s eta 0:00:01
     ---------------- -----------------------


[notice] A new release of pip is available: 23.0.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [4]:
import pandas as pd
import numpy as np
import os
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
import joblib


# Crear un dataset sintético de viviendas

In [None]:
np.random.seed(42)
n_samples = 500

# Crear características sintéticas
RM = np.random.normal(6.5, 1, n_samples)  # Número medio de habitaciones
LSTAT = np.random.normal(12, 7, n_samples)  # % de población de estatus bajo
PTRATIO = np.random.normal(18, 2, n_samples)  # Ratio alumno-profesor
DIS = np.random.normal(3.5, 2, n_samples)  # Distancia ponderada a centros de empleo

# Crear precio como función de estas características más algo de ruido
PRICE = 22 + 5*RM - 0.7*LSTAT - 0.7*PTRATIO - 0.4*DIS + np.random.normal(0, 3, n_samples)

# Crear DataFrame
data = {
    'RM': RM,
    'LSTAT': LSTAT,
    'PTRATIO': PTRATIO,
    'DIS': DIS,
    'PRICE': PRICE
}
df = pd.DataFrame(data)

# Guardar el CSV
df.to_csv(os.path.join(os.getcwd(), 'housing_data.csv'), index=False)
print("Dataset creado y guardado en housing_data.csv")


Dataset creado y guardado en housing_data.csv


# Crear y guardar el modelo

In [None]:
X = df.drop('PRICE', axis=1)
y = df['PRICE']

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Estandarizar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

# Entrenar el modelo
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# Crear directorio para los modelos si no existe
os.makedirs(os.path.join(os.getcwd(), 'models'), exist_ok=True)

# Guardar el modelo y el scaler
joblib.dump(model, os.path.join(os.getcwd(), 'models/housing_model.pkl'))
joblib.dump(scaler, os.path.join(os.getcwd(), 'models/scaler.pkl'))

print("Modelo y scaler creados y guardados en la carpeta models/")

Modelo y scaler creados y guardados en la carpeta models/


# Mostrar

In [8]:
# Mostrar las primeras filas del dataset
print("\nPrimeras 5 filas del DataFrame:")
print(df.head())

# Mostrar estadísticas básicas
print("\nEstadísticas descriptivas:")
print(df.describe())

# Ver los coeficientes del modelo
coefficients = pd.DataFrame({
    'Feature': X.columns,
    'Coefficient': model.coef_
})
print("\nCoeficientes del modelo:")
print(coefficients)


Primeras 5 filas del DataFrame:
         RM      LSTAT    PTRATIO       DIS      PRICE
0  6.996714  18.483243  20.798711  5.056722  25.437979
1  6.361736  25.365916  19.849267  2.397629  20.765442
2  7.147689   2.210027  18.119261  1.863602  40.385241
3  8.023030  15.940785  16.706126  3.493251  36.941126
4  6.265847   7.445502  19.396447  3.159631  27.595173

Estadísticas descriptivas:
               RM       LSTAT     PTRATIO         DIS       PRICE
count  500.000000  500.000000  500.000000  500.000000  500.000000
mean     6.506838   12.222783   18.216969    3.566376   31.765264
std      0.981253    6.845980    2.020493    1.968132    7.901322
min      3.258733   -6.878207   12.207489   -2.380777    6.241990
25%      5.799693    7.832958   16.795141    2.276128   26.515528
50%      6.512797   12.199721   18.239612    3.482173   31.569336
75%      7.136783   16.558696   19.509477    4.899539   36.883817
max     10.352731   30.426674   23.203366    9.886215   53.100502

Coeficientes d