In [21]:
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [22]:
df = pd.read_csv("../Data/Advertising.csv", index_col=0)

print (f"{df.shape[0]} samples")
print(f"{df.shape[1]-1} features")

200 samples
3 features


dimension 0 is rows, 1 - columns

In [23]:
df.head()

Unnamed: 0,TV,Radio,Newspaper,Sales
1,230.1,37.8,69.2,22.1
2,44.5,39.3,45.1,10.4
3,17.2,45.9,69.3,9.3
4,151.5,41.3,58.5,18.5
5,180.8,10.8,58.4,12.9


In [24]:
X, y = df.drop("Sales", axis = "columns"), df["Sales"]
X.head(2), y.head(2)

(      TV  Radio  Newspaper
 1  230.1   37.8       69.2
 2   44.5   39.3       45.1,
 1    22.1
 2    10.4
 Name: Sales, dtype: float64)

In [25]:
X.shape, y.shape

((200, 3), (200,))

## Scikit-learn steps

### 1. Train/test split

In [26]:
from sklearn.model_selection import train_test_split

In [27]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

### 2. Feature scaling

In [28]:
# using normalization

from sklearn.preprocessing import MinMaxScaler

# instantiate an object from the class MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

scaler.fit(X_train): Обучение масштабировщика на обучающих данных. Это означает, что MinMaxScaler анализирует данные в X_train и вычисляет минимальные и максимальные значения для каждого признака. Эти параметры будут использоваться для масштабирования данных при применении трансформации.  
После выполнения этого кода, объект scaler будет содержать информацию о том, как преобразовывать значения признаков для достижения заданного диапазона. Этот объект scaler можно затем использовать для масштабирования как обучающих, так и тестовых данных, чтобы они имели схожий масштаб.

In [29]:
scaled_X_train = scaler.transform(X_train)
scaled_X_test = scaler.transform(X_test)

X_test.head(3)


Unnamed: 0,TV,Radio,Newspaper
96,163.3,31.6,52.9
16,195.4,47.7,52.9
31,292.9,28.3,43.2


In [30]:
print(f'min is {X_test.min()}, max is {X_test.max()}')

min is TV           5.4
Radio        0.8
Newspaper    0.9
dtype: float64, max is TV           292.9
Radio         49.4
Newspaper    114.0
dtype: float64


In [31]:
scaled_X_test

array([[0.54988164, 0.63709677, 0.52286282],
       [0.65843761, 0.96169355, 0.52286282],
       [0.98816368, 0.57056452, 0.42644135],
       [0.03719986, 0.74395161, 0.44632207],
       [0.74264457, 0.98790323, 0.02882704],
       [0.25160636, 0.70564516, 0.52087475],
       [0.73080825, 0.88508065, 0.26739563],
       [0.16672303, 0.23387097, 0.17992048],
       [0.74974636, 0.06854839, 0.12723658],
       [0.58978695, 0.45362903, 0.31013917],
       [0.10415962, 0.49596774, 0.01888668],
       [0.18769023, 0.11491935, 0.29224652],
       [0.79066622, 0.06854839, 0.83996024],
       [0.01589449, 0.60282258, 0.09045726],
       [0.46939466, 0.04233871, 0.26143141],
       [0.5732161 , 0.15725806, 0.34691849],
       [0.02231992, 0.56653226, 0.40854871],
       [0.66587758, 0.46975806, 0.13817097],
       [0.25228272, 0.40927419, 0.32007952],
       [0.80047345, 0.55443548, 0.10636183],
       [0.77375719, 0.65120968, 0.73459245],
       [0.22691917, 0.73790323, 1.13021869],
       [0.

### 3. Fitting Linear regression algorithm to the training data

**LinearRegression()**

In [32]:
from sklearn.linear_model import LinearRegression

SVD (Singular Value Decomposition) approach в линейной регрессии используется для решения нормального уравнения методом наименьших квадратов (МНК). 

In [33]:
model_SVD = LinearRegression()
model_SVD.fit(scaled_X_train, y_train)
print(f"Parameters: {model_SVD.coef_}")
print(f"Intercept: {model_SVD.intercept_}")

Parameters: [13.02832938  9.88465985  0.69237469]
Intercept: 2.7418553248528124


**Stochastic gradient descent** - это оптимизационный алгоритм, применяемый для обучения моделей машинного обучения, включая линейные модели и нейронные сети. Он является частным случаем более общего метода градиентного спуска. Основная идея SGD заключается в том, чтобы обновлять параметры модели на каждом шаге, используя градиент функции потерь только на одном случайно выбранном (стохастическом) образце из обучающего набора данных. Это отличается от батчевого градиентного спуска, который использует весь обучающий набор данных для каждого обновления параметров, и мини-батч градиентного спуска, который использует подмножество случайно выбранных данных.

In [34]:
from sklearn.linear_model import SGDRegressor

In [35]:
model_SGD = SGDRegressor(loss = "squared_error", learning_rate = "invscaling", max_iter = 10000)

* loss="squared_error": Параметр loss определяет функцию потерь, которая минимизируется в процессе обучения. В данном случае, используется квадратичная функция потерь ("squared_error"), что соответствует минимизации среднеквадратичной ошибки (Mean Squared Error, MSE) в задаче регрессии.

* learning_rate="invscaling": Параметр learning_rate определяет стратегию изменения шага обучения (learning rate) в процессе обучения. "invscaling" означает, что шаг обучения уменьшается с течением времени. 

* max_iter=10000: Параметр max_iter определяет максимальное количество итераций (эпох), которое алгоритм SGD выполняет в процессе обучения. В данном случае, установлено значение 10000.

In [36]:
model_SGD.fit(scaled_X_train, y_train)
print(f"Parameters: {model_SGD.coef_}")
print(f"Intercept: {model_SGD.intercept_}")

Parameters: [11.94512801  8.98762398  1.34214424]
Intercept: [3.592186]


**Manual test**

In [37]:
test_sample_features = scaled_X_test[0].reshape(1, -1)
test_sample_target = y_test.values[0]

By reshaping we can add or remove dimensions or change number of elements in each dimension.  
We are allowed to have one "unknown" dimension: we do not have to specify an exact number for one of the dimensions in the reshape method. In this case, we pass -1 as the value, and NumPy calculates this number (we can not pass -1 to more than one dimension).


In [38]:
print (f"Scaled features {test_sample_features}, label {test_sample_target}")
print (f"Prediction SVD: {model_SVD.predict(test_sample_features)[0]:.2f}")
print (f"Prediction SGD: {model_SGD.predict(test_sample_features)[0]:.2f}")

Scaled features [[0.54988164 0.63709677 0.52286282]], label 16.9
Prediction SVD: 16.57
Prediction SGD: 16.59


### 4. Evaluation

In [39]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [40]:
y_pred_SVD = model_SVD.predict(scaled_X_test)
y_pred_SGD = model_SGD.predict(scaled_X_test)

mae_SVD = mean_absolute_error(y_test, y_pred_SVD)
mse_SVD = mean_squared_error(y_test, y_pred_SVD)
rmse_SVD = np.sqrt(mse_SVD)

print (f"SVD, MAE: {mae_SVD:.2f}, MSE: {mse_SVD:.2f}, RMSE: {rmse_SVD:.2f}")

mae_SGD = mean_absolute_error (y_test, y_pred_SGD)
mse_SGD = mean_squared_error(y_test, y_pred_SGD)
rmse_SGD = np.sqrt(mse_SGD)

print (f"SGD, MAE: {mae_SGD:.2f}, MSE: {mse_SGD:.2f}, RMSE: {rmse_SGD:.2f}")

SVD, MAE: 1.51, MSE: 3.80, RMSE: 1.95
SGD, MAE: 1.52, MSE: 4.09, RMSE: 2.02


# Pipelines

Transformers and estimators (predictors) can be combined together into a single unifying object: a pipeline.

***Trying some piece of code from*** https://scikit-learn.org/stable/getting_started.html

In [41]:
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [42]:
df = load_iris(as_frame = True)
df

{'data':      sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
 0                  5.1               3.5                1.4               0.2
 1                  4.9               3.0                1.4               0.2
 2                  4.7               3.2                1.3               0.2
 3                  4.6               3.1                1.5               0.2
 4                  5.0               3.6                1.4               0.2
 ..                 ...               ...                ...               ...
 145                6.7               3.0                5.2               2.3
 146                6.3               2.5                5.0               1.9
 147                6.5               3.0                5.2               2.0
 148                6.2               3.4                5.4               2.3
 149                5.9               3.0                5.1               1.8
 
 [150 rows x 4 columns],
 'target': 0     

In [43]:
# create a pipeline object
pipe = make_pipeline(StandardScaler(), LogisticRegression())

#load the iris dataset and split it into train and test sets
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 0)

y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [44]:
# fit the whole pipeline

pipe.fit(X_train, y_train)

In [45]:
# we can now use it as any othe estimator

accuracy_score(pipe.predict(X_test), y_test)

0.9736842105263158