In [20]:
import numpy as np
import pandas as pd

In [21]:
df = pd.read_csv('Data/advertising.csv',index_col=0)

In [22]:
df.head()

Unnamed: 0,TV,radio,newspaper,sales
1,230.1,37.8,69.2,22.1
2,44.5,39.3,45.1,10.4
3,17.2,45.9,69.3,9.3
4,151.5,41.3,58.5,18.5
5,180.8,10.8,58.4,12.9


# Градиентный спуск реализованный самостоятельно

In [23]:
# Загружаем данные из DataFrame
X = df['TV']  # Фактор (признак), объясняющая переменная
y = df['sales']  # Целевая переменная (зависимая)

# Количество наблюдений (строк в данных)
n = len(y)

# Добавляем столбец единиц в X для учета свободного члена (Intercept в регрессии)
# X становится матрицей размерности (n, 2), где первый столбец - 1, второй - TV
X = np.append(np.ones((n, 1)), X.values.reshape(n, 1), axis=1)

# Преобразуем y в вектор-столбец (n, 1) для удобства матричных операций
y = df['sales'].values.reshape(n, 1)

# Инициализируем параметры модели (вектор коэффициентов) нулями
# par - это вектор (2,1), включающий b0 (свободный член) и b1 (коэффициент при TV)
par = np.zeros((2, 1))

In [24]:
# Определяем функцию стоимости (функцию ошибки)
def cost_function(X, y, par):
    """
    Вычисляет функцию стоимости (ошибки) для линейной регрессии.
    
    Аргументы:
    X - матрица признаков (n, 2)
    y - вектор значений (n, 1)
    par - вектор параметров (2, 1)
    
    Возвращает:
    cost - среднеквадратичная ошибка (MSE)
    """
    y_pred = np.dot(X, par)  # Предсказанные значения модели
    error = (y_pred - y) ** 2  # Квадрат ошибки для каждого наблюдения
    cost = 1 / n * np.sum(error)  # Средняя ошибка (MSE)
    return cost

In [25]:
# Определяем функцию градиентного спуска
def grad_d(X, y, par, alpha, iterations, eps=0.001):
    """
    Выполняет градиентный спуск для минимизации функции стоимости.
    
    Аргументы:
    X - матрица признаков (n, 2)
    y - вектор значений (n, 1)
    par - начальные параметры (2, 1)
    alpha - скорость обучения (learning rate)
    iterations - максимальное количество итераций
    eps - критерий остановки (если градиент становится очень мал)
    
    Возвращает:
    par - оптимизированные параметры (2, 1)
    costs - список значений функции стоимости на каждой итерации
    """
    costs = []  # Список для хранения значений функции стоимости

    for i in range(iterations):
        y_pred = np.dot(X, par)  # Предсказания модели
        der = np.dot(X.transpose(), (y_pred - y))  # Градиент ошибки
        par -= alpha * 1 / n * der  # Обновление параметров по методу градиентного спуска
        costs.append(cost_function(X, y, par))  # Сохранение значения ошибки

        # Критерий остановки: если градиент (длина вектора градиента) стал меньше eps
        if np.linalg.norm(der) <= eps:
            # Завершаем итерации, если улучшение незначительно
            break

    return par, costs


In [26]:
# Запуск градиентного спуска
par_opt, costs_opt = grad_d(X, y, par, 0.00005, 500_000)

In [27]:
par_opt

array([[7.02008789],
       [0.04760015]])

# Градиентный спуск с помощью библиотеки (для сравнения)

In [28]:
# Импортируем необходимые библиотеки
import numpy as np
import statsmodels.api as sm  # Библиотека для статистического анализа

# Создаём модель линейной регрессии (OLS - Ordinary Least Squares, метод наименьших квадратов)
mod = sm.OLS(y, X)  # Передаём целевую переменную y и матрицу признаков X

# Выполняем подгонку модели к данным (находим оптимальные параметры)
res = mod.fit()

# Выводим результаты регрессии (таблицу со статистическими характеристиками модели)
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.612
Model:                            OLS   Adj. R-squared:                  0.610
Method:                 Least Squares   F-statistic:                     312.1
Date:                Wed, 12 Feb 2025   Prob (F-statistic):           1.47e-42
Time:                        11:17:35   Log-Likelihood:                -519.05
No. Observations:                 200   AIC:                             1042.
Df Residuals:                     198   BIC:                             1049.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          7.0326      0.458     15.360      0.0

In [30]:
import pandas as pd
import numpy as np

df = pd.read_csv('Data/advertising.csv',index_col=0)
print(df.head)

X = df[['TV','radio','newspaper']]
y = df['sales']
n = len(y)
X = np.append(np.ones((n, 1)), X.values.reshape(n, 3), axis = 1)
y = df['sales'].values.reshape(n, 1)
par = np.zeros((4,1))

def cost_function(X, y , par):
    y_pred = np.dot(X, par)
    error = (y_pred - y)**2
    cost = 1/(n)*np.sum(error)
    return cost

def grad_d(X, y, par, alpha, iterations, eps=0.001):
    costs = []
    for i in range(iterations):
        y_pred = np.dot(X, par)
        der = np.dot (X.transpose(), (y_pred - y))/ n
        par -= alpha * der
        costs.append(cost_function(X,y, par))
        if np.linalg.norm(der) < eps:
            break
    return par, costs

par, costs = grad_d(X, y, par, 0.00005, 500_000)
print(par[0].round(3)) # Константа
print(par[1].round(3)) # TV
print(par[2].round(3)) # Radio
print(par[3].round(3)) # Newspaper

<bound method NDFrame.head of         TV  radio  newspaper  sales
1    230.1   37.8       69.2   22.1
2     44.5   39.3       45.1   10.4
3     17.2   45.9       69.3    9.3
4    151.5   41.3       58.5   18.5
5    180.8   10.8       58.4   12.9
..     ...    ...        ...    ...
196   38.2    3.7       13.8    7.6
197   94.2    4.9        8.1    9.7
198  177.0    9.3        6.4   12.8
199  283.6   42.0       66.2   25.5
200  232.1    8.6        8.7   13.4

[200 rows x 4 columns]>
[2.863]
[0.046]
[0.189]
[-0.001]


In [31]:
import numpy as np
import statsmodels.api as sm
mod = sm.OLS(y, X)
res = mod.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.897
Model:                            OLS   Adj. R-squared:                  0.896
Method:                 Least Squares   F-statistic:                     570.3
Date:                Wed, 12 Feb 2025   Prob (F-statistic):           1.58e-96
Time:                        11:18:06   Log-Likelihood:                -386.18
No. Observations:                 200   AIC:                             780.4
Df Residuals:                     196   BIC:                             793.6
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          2.9389      0.312      9.422      0.0

In [32]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X, y)
print(model.coef_)
print(model.intercept_)

[[ 0.          0.04576465  0.18853002 -0.00103749]]
[2.93888937]


# Стохастический градиентный спуск

Давайте потренируемся применять стохастический градиентный спуск для решения задачи линейной регрессии. Для решения практических задач можно использовать готовые библиотеки.

Загружаем стандартный датасет об алмазах из библиотеки Seaborn:

In [33]:
import seaborn as sns
import pandas as pd
import numpy as np

df = sns.load_dataset('diamonds')
print(df.head())

   carat      cut color clarity  depth  table  price     x     y     z
0   0.23    Ideal     E     SI2   61.5   55.0    326  3.95  3.98  2.43
1   0.21  Premium     E     SI1   59.8   61.0    326  3.89  3.84  2.31
2   0.23     Good     E     VS1   56.9   65.0    327  4.05  4.07  2.31
3   0.29  Premium     I     VS2   62.4   58.0    334  4.20  4.23  2.63
4   0.31     Good     J     SI2   63.3   58.0    335  4.34  4.35  2.75


Удаляем часть признаков:

In [34]:
df.drop(['depth', 'table', 'x', 'y', 'z'], axis=1, inplace=True)

Закодируем категориальные признаки:

In [35]:
df = pd.get_dummies(df, drop_first=True)

Логарифмируем признаки:

In [36]:
df['carat'] = np.log(1+df['carat'])
df['price'] = np.log(1+df['price'])

Определяем целевую переменную и предикторы:

In [37]:
X = df.drop(columns='price')
y = df['price']

Разделяем выборку на обучающую и тестовую (объём тестовой возьмите равным 0.33), значение random_state должно быть равно 42.

In [38]:
from sklearn.model_selection import train_test_split, GridSearchCV 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

Теперь реализуйте алгоритм линейной регрессии со стохастическим градиентным спуском (класс SGDRegressor). Отберите с помощью GridSearchCV оптимальные параметры по следующей сетке:

In [46]:
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error

# Создаем модель линейной регрессии из библиотеки cо стохастическим градиентным спуском
model = SGDRegressor(fit_intercept=True)

# Cетка гиперпараметров
param_grid = {
    "loss": ["squared_error", "epsilon_insensitive"],
    "penalty": ["elasticnet"],
    "alpha": np.logspace(-3, 3, 10),
    "l1_ratio": np.linspace(0, 1, 10),
    "learning_rate": ["constant"],
    "eta0": np.logspace(-4, -1, 4)
}

# GridSearchCV для отбора оптимальных параметров
grid_search = GridSearchCV(
    model, 
    param_grid,
    scoring='neg_mean_squared_error',
    cv=5,
    n_jobs=-1,  # Используем все ядра процессора
    )

# Обучаем GridSearch
grid_search.fit(X_train, y_train)

# Получаем лучшую модель
best_model = grid_search.best_estimator_

# Предсказываем на тестовой выборке
y_pred = best_model.predict(X_test)

# Вычисляем MSE и округляем до 3 знаков
mse = round(mean_squared_error(y_test, y_pred), 3)

# Выводим лучшие параметры и точность
print("Лучшие параметры:", grid_search.best_params_)
print("MSE:", mse)

Лучшие параметры: {'alpha': np.float64(0.001), 'eta0': np.float64(0.01), 'l1_ratio': np.float64(0.2222222222222222), 'learning_rate': 'constant', 'loss': 'squared_error', 'penalty': 'elasticnet'}
MSE: 0.044
