In [12]:
import pandas as pd
import numpy as np
import time
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
import psycopg2
from sqlalchemy import create_engine
from ydata_profiling import ProfileReport
import warnings
warnings.filterwarnings('ignore')

In [13]:
engine = create_engine('postgresql://admin:pgpwd@78.107.239.106:5433/homecrowdb')
query = "SELECT * FROM autos"

df = pd.read_sql(query, engine)
df.head(10)

Unnamed: 0,brand,model,vehicleType,gearbox,fuelType,notRepairedDamage,powerPS,kilometer,yearOfRegistration,monthOfRegistration,dateCreated,lastSeen,postalCode,price
0,volkswagen,golf,kleinwagen,manuell,benzin,nein,75,150000,2001,6,2016-03-17 00:00:00,2016-03-17 17:40:17,91074,1500
1,skoda,fabia,kleinwagen,manuell,diesel,nein,69,90000,2008,7,2016-03-31 00:00:00,2016-04-06 10:17:21,60437,3600
2,bmw,3er,limousine,manuell,benzin,ja,102,150000,1995,10,2016-04-04 00:00:00,2016-04-06 19:17:07,33775,650
3,peugeot,2_reihe,cabrio,manuell,benzin,nein,109,150000,2004,8,2016-04-01 00:00:00,2016-04-05 18:18:39,67112,2200
4,mazda,3_reihe,limousine,manuell,benzin,nein,105,150000,2004,12,2016-03-26 00:00:00,2016-04-06 10:45:34,96224,2000
5,volkswagen,passat,kombi,manuell,diesel,ja,140,150000,2005,12,2016-04-07 00:00:00,2016-04-07 10:25:17,57290,2799
6,nissan,navara,suv,manuell,diesel,nein,190,70000,2011,3,2016-03-21 00:00:00,2016-04-06 07:45:42,4177,17999
7,renault,twingo,kleinwagen,automatik,benzin,nein,75,150000,2004,2,2016-03-20 00:00:00,2016-04-06 13:16:07,65599,1750
8,ford,c_max,bus,manuell,diesel,nein,136,150000,2007,6,2016-03-23 00:00:00,2016-04-05 18:45:11,88361,7550
9,mercedes_benz,a_klasse,bus,manuell,benzin,nein,102,150000,2004,1,2016-04-01 00:00:00,2016-04-05 22:46:05,49565,1850


In [14]:
# Работа с данными
df = pd.get_dummies(df, columns=['brand', 'vehicleType', 'gearbox', 'fuelType', 'notRepairedDamage'], drop_first=True)
df = df.drop(columns=['dateCreated', 'lastSeen', 'postalCode', 'model'])
df.fillna(df.mean(), inplace=True)
df.head(10)

Unnamed: 0,powerPS,kilometer,yearOfRegistration,monthOfRegistration,price,brand_audi,brand_bmw,brand_chevrolet,brand_chrysler,brand_citroen,...,vehicleType_limousine,vehicleType_suv,gearbox_manuell,fuelType_benzin,fuelType_cng,fuelType_diesel,fuelType_elektro,fuelType_hybrid,fuelType_lpg,notRepairedDamage_nein
0,75,150000,2001,6,1500,False,False,False,False,False,...,False,False,True,True,False,False,False,False,False,True
1,69,90000,2008,7,3600,False,False,False,False,False,...,False,False,True,False,False,True,False,False,False,True
2,102,150000,1995,10,650,False,True,False,False,False,...,True,False,True,True,False,False,False,False,False,False
3,109,150000,2004,8,2200,False,False,False,False,False,...,False,False,True,True,False,False,False,False,False,True
4,105,150000,2004,12,2000,False,False,False,False,False,...,True,False,True,True,False,False,False,False,False,True
5,140,150000,2005,12,2799,False,False,False,False,False,...,False,False,True,False,False,True,False,False,False,False
6,190,70000,2011,3,17999,False,False,False,False,False,...,False,True,True,False,False,True,False,False,False,True
7,75,150000,2004,2,1750,False,False,False,False,False,...,False,False,False,True,False,False,False,False,False,True
8,136,150000,2007,6,7550,False,False,False,False,False,...,False,False,True,False,False,True,False,False,False,True
9,102,150000,2004,1,1850,False,False,False,False,False,...,False,False,True,True,False,False,False,False,False,True


In [15]:
#profile = ProfileReport(df, title="Profiling Report")
#profile

In [16]:
# Разделение на обучающую и тестовую выборки
X = df.drop(columns=['price'])
y = df['price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [17]:
# Масштабирование признаков
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [18]:
# Стохастический градиентный спуск с регуляризацией
def sgd(X, y, w_0, batch_size, alpha=0.01, num_epochs=100, lambda_reg=0.1):
    m = len(y)
    w = w_0.copy()
    n_iter = 0
    for epoch in range(num_epochs):
        for i in range(0, m, batch_size):
            X_batch = X[i:i+batch_size]
            y_batch = y[i:i+batch_size]
            
            # Прогноз и ошибка
            prediction = X_batch.dot(w)
            error = prediction - y_batch
            
            # Градиент с регуляризацией (L2)
            gradient = 2 * X_batch.T.dot(error) / batch_size + 2 * lambda_reg * w
            
            # Обновление коэффициентов
            w -= alpha * gradient
        n_iter += 1
        if np.linalg.norm(gradient) < 1e-6:
            break
    return w, n_iter

In [None]:
# Cходимость и время работы для разных размеров батча
batch_sizes = np.arange(5, 500, 10)
iterations = []
times = []

for batch_size in batch_sizes:
    w_0 = np.random.uniform(-2, 2, X_train.shape[1])
    
    start_time = time.time()
    w_sgd, n_iter = sgd(X_train, y_train, w_0, batch_size=batch_size)
    end_time = time.time()
    
    time_taken = (end_time - start_time) * 1000  # Время в миллисекундах
    iterations.append(n_iter)
    times.append(time_taken)

In [None]:
# График зависимости количества шагов до сходимости от размера батча
plt.figure(figsize=(10, 6))
plt.plot(batch_sizes, iterations, marker='o')
plt.title('Зависимость количества шагов до сходимости от размера батча')
plt.xlabel('Размер батча')
plt.ylabel('Количество шагов до сходимости')
plt.grid(True)
plt.show()

In [None]:
# График зависимости времени до сходимости от размера батча
plt.figure(figsize=(10, 6))
plt.plot(batch_sizes, times, marker='o')
plt.title('Зависимость времени до сходимости от размера батча (мс)')
plt.xlabel('Размер батча')
plt.ylabel('Время до сходимости (мс)')
plt.grid(True)
plt.show()

In [None]:
# Оценка на тестовой выборке
def evaluate_model(X_test, y_test, w, lambda_reg=0.1):
    # Прогноз
    y_pred = X_test.dot(w)
    
    # MSE без регуляризации
    mse_no_reg = mean_squared_error(y_test, y_pred)
    
    # MSE с регуляризацией
    mse_reg = mse_no_reg + lambda_reg * np.sum(w ** 2)
    
    return mse_no_reg, mse_reg

In [None]:
# Сравнение моделей с и без регуляризации для разных размеров батча
mse_no_reg_results = []
mse_reg_results = []

for batch_size in batch_sizes:
    w_0 = np.random.uniform(-2, 2, X_train.shape[1])
    
    # Модель без регуляризации
    w_sgd_no_reg, _ = sgd(X_train, y_train, w_0, batch_size=batch_size, lambda_reg=0)
    
    # Модель с регуляризацией
    w_sgd_reg, _ = sgd(X_train, y_train, w_0, batch_size=batch_size, lambda_reg=0.1)
    
    mse_no_reg, mse_reg = evaluate_model(X_test, y_test, w_sgd_no_reg)
    mse_no_reg_results.append(mse_no_reg)
    mse_reg_results.append(mse_reg)

In [None]:
# График MSE с и без регуляризации
plt.figure(figsize=(10, 6))
plt.plot(batch_sizes, mse_no_reg_results, label='Без регуляризации', marker='o')
plt.plot(batch_sizes, mse_reg_results, label='С регуляризацией', marker='x')
plt.title('Зависимость MSE от размера батча')
plt.xlabel('Размер батча')
plt.ylabel('MSE')
plt.legend()
plt.grid(True)
plt.show()