# Домашнее задание №2

**

## Часть 1. ML workflow (**всего 5 баллов**)

In [4]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV

from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

from itertools import product

### Загрузим данные для работы. 

In [5]:
df = pd.read_csv("winequality-red.csv")
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


Будем решать задачу регрессии: необходимо предсказать качество вина на основе его характеристик

### Шаг 1.  (**0.2 балла**)
Создайте матрицу X объект-признак и целевой вектор y ("quality")

In [13]:
# Создание матрицы признаков X и целевого вектора y
X = df.drop('quality', axis=1)  # Исключаем столбец 'quality' из признаков
y = df['quality']

# Вывод первых строк матрицы признаков X
print(X.head())

# Вывод первых строк целевого вектора y
print(y.head())



   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56   

   alcohol  
0      9.4  
1      9.8  
2      9.8  
3      9.8  
4      9.4  
0    5
1

### Шаг 2. (**0.2 балла**)
Разбейте данные на train и test (доля тестовых данных - 30%).

In [15]:
from sklearn.model_selection import train_test_split

# Разбиваем данные
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Выводим размеры получившихся наборов данных
print("Train set shapes:", X_train.shape, y_train.shape)
print("Test set shapes:", X_test.shape, y_test.shape)


Train set shapes: (1119, 11) (1119,)
Test set shapes: (480, 11) (480,)


### Шаг 3. (**0.2 балла**)
Обучите линейную регрессию на тренировочных данных и сделайте предсказания на train и на test.

In [17]:
import numpy as np

class LinearRegression:
    def __init__(self, alpha=0.0001, tol=0.001, max_iter=1000):
        '''
        Для начала необходимо инициализировать параметры
        alpha - это learning rate или шаг обучения
        tol - значение для критерия останова
        max_iter - максимальное количество итераций обучения
        '''
        self.alpha = alpha
        self.tol = tol
        self.max_iter = max_iter
        self.weights = None

    def fit(self, X, y, l_ratio=0.001):
        '''
        Метод для обучения линейной регрессии
        X - матрица признаков
        y - вектор правильных ответов
        l_ratio - параметр регуляризации
        '''
        X = np.insert(X, 0, 1, axis=1)  # добавляем фиктивный признак для обработки сдвига (bias)

        n_samples, n_features = X.shape
        self.weights = np.zeros(n_features)

        for iteration in range(self.max_iter):
            # Вычисляем предсказания и ошибку
            y_pred = np.dot(X, self.weights)
            error = y_pred - y

            # Вычисляем градиент
            gradient = (2 / n_samples) * np.dot(X.T, error)

            # Добавляем регуляризацию
            gradient[1:] += 2 * l_ratio * self.weights[1:]

            # Обновляем веса
            self.weights -= self.alpha * gradient

            # Проверяем критерий останова
            if np.linalg.norm(gradient) < self.tol:
                break

    def predict(self, X):
        '''
        Метод для предсказаний линейной регрессии
        X - матрица признаков
        '''
        X = np.insert(X, 0, 1, axis=1)  # добавляем фиктивный признак для обработки сдвига (bias)
        return np.dot(X, self.weights)

my_reg = LinearRegression()
my_reg.fit(X_train, y_train, l_ratio=0.001)

train_predictions = my_reg.predict(X_train)
test_predictions = my_reg.predict(X_test)

# Выводим результаты
print("Weights:", my_reg.weights)
print("Mean Squared Error on Train Set:", mean_squared_error(y_train, train_predictions))
print("Mean Squared Error on Test Set:", mean_squared_error(y_test, test_predictions))


Weights: [ 0.03019531  0.18402693  0.01017715  0.00509605  0.03561661  0.00192405
  0.01256529 -0.00363706  0.03000798  0.10357094  0.02317288  0.33902985]
Mean Squared Error on Train Set: 0.5345284591333471
Mean Squared Error on Test Set: 0.5056418133266619


### Шаг 4. (**0.4 балла**)
Выведите на экран ошибку MSE на train и на test, затем выведите на экран ошибку r2 на train и test.  

In [19]:
mse_train = mean_squared_error(y_train, train_predictions)
mse_test = mean_squared_error(y_test, test_predictions)

# Вычисляем коэффициент детерминации (r2) на тренировочном и тестовом наборах
r2_train = r2_score(y_train, train_predictions)
r2_test = r2_score(y_test, test_predictions)

# Выводим результаты
print("Mean Squared Error on Train Set:", mse_train)
print("Mean Squared Error on Test Set:", mse_test)
print("R2 Score on Train Set:", r2_train)
print("R2 Score on Test Set:", r2_test)

Mean Squared Error on Train Set: 0.5345284591333471
Mean Squared Error on Test Set: 0.5056418133266619
R2 Score on Train Set: 0.18852530398747935
R2 Score on Test Set: 0.20248718987354175


### Шаг 5. (**0.5 балла**)
Вычислите среднее качество (r2) модели на кросс-валидации с k=5 фолдами.

In [22]:
import numpy as np
from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import cross_val_score, train_test_split

class LinearRegressionSKLearnCompatible(BaseEstimator, RegressorMixin):
    def __init__(self, alpha=0.0001, l_ratio=0.001, tol=0.001, max_iter=1000):
        self.alpha = alpha
        self.l_ratio = l_ratio
        self.tol = tol
        self.max_iter = max_iter
        self.weights = None

    def fit(self, X, y):
        # Добавим единичный столбец для обработки сдвига (intercept)
        X = np.c_[np.ones(X.shape[0]), X]
        
        # Инициализация весов случайными значениями
        self.weights = np.random.rand(X.shape[1])
        
        for iteration in range(self.max_iter):
            # Рассчитываем предсказания
            predictions = np.dot(X, self.weights)
            
            # Вычисляем ошибку
            errors = predictions - y
            
            # Градиент для MSE (без регуляризации)
            gradient = 2 * np.dot(X.T, errors) / X.shape[0]
            
            # Регуляризация (l2)
            gradient[1:] += 2 * self.l_ratio * self.weights[1:]
            
            # Обновляем веса
            self.weights -= self.alpha * gradient
            
            # Проверяем критерий останова
            if np.linalg.norm(self.alpha * gradient) < self.tol:
                break

    def predict(self, X):
        # Добавим единичный столбец для обработки сдвига (intercept)
        X = np.c_[np.ones(X.shape[0]), X]
        
        # Возвращаем предсказания
        return np.dot(X, self.weights)

# Пример использования на данных
# Создаем матрицу признаков X и вектор целевой переменной y
# Предполагается, что X и y уже определены

# Разбиваем данные на train и test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Создаем экземпляр модели
my_reg = LinearRegressionSKLearnCompatible(alpha=0.0001, l_ratio=0.001, tol=0.001, max_iter=1000)

# Обучаем модель на тренировочных данных
my_reg.fit(X_train, y_train)

# Делаем предсказания на тренировочных и тестовых данных
y_train_pred = my_reg.predict(X_train)
y_test_pred = my_reg.predict(X_test)

# Вычисляем MSE для тренировочного и тестового наборов
mse_train = mean_squared_error(y_train, y_train_pred)
mse_test = mean_squared_error(y_test, y_test_pred)

# Выводим ошибки MSE
print("Mean Squared Error on Train Set:", mse_train)
print("Mean Squared Error on Test Set:", mse_test)

# Вычисляем качество модели на кросс-валидации
cross_val_results = cross_val_score(my_reg, X, y, cv=5, scoring='r2')

# Выводим среднее значение R2 на кросс-валидации
average_r2 = np.mean(cross_val_results)
print("Average R2 Score on Cross-Validation:", average_r2)


Mean Squared Error on Train Set: 2.1028243884523103
Mean Squared Error on Test Set: 1.9888991242973904
Average R2 Score on Cross-Validation: -1.389971050264074


### Шаг 6.  (**0.5 балла**)
Теперь примените линейную регрессию с L1-регуляризацией (Lasso) для данной задачи. Объявите модель и подберите параметр регуляризации alpha по сетке. Ищите alpha в диапазоне (0.1, 1.1) с шагом 0.1. 

Осуществите подбор параметра alpha по тренировочным данным (Xtrain, ytrain).

In [23]:
import numpy as np
from sklearn.linear_model import Lasso
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

# Разбиваем данные на train и test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Задаем диапазон alpha
alphas = np.arange(0.1, 1.2, 0.1)

# Создаем экземпляр модели Lasso
lasso = Lasso()

# Определяем параметры сетки для поиска
param_grid = {'alpha': alphas}

# Используем GridSearchCV для подбора параметра alpha
grid_search = GridSearchCV(lasso, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# Получаем лучший параметр alpha
best_alpha = grid_search.best_params_['alpha']

# Создаем экземпляр модели с лучшим параметром alpha
lasso_model = Lasso(alpha=best_alpha)

# Обучаем модель на тренировочных данных
lasso_model.fit(X_train, y_train)

# Делаем предсказания на тренировочных и тестовых данных
y_train_pred = lasso_model.predict(X_train)
y_test_pred = lasso_model.predict(X_test)

# Вычисляем MSE и R2 для тренировочного и тестового наборов
mse_train = mean_squared_error(y_train, y_train_pred)
mse_test = mean_squared_error(y_test, y_test_pred)
r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)

print("Mean Squared Error on Train Set:", mse_train)
print("Mean Squared Error on Test Set:", mse_test)
print("R2 Score on Train Set:", r2_train)
print("R2 Score on Test Set:", r2_test)


Mean Squared Error on Train Set: 0.49559916053081454
Mean Squared Error on Test Set: 0.501589364614202
R2 Score on Train Set: 0.24762438507417994
R2 Score on Test Set: 0.20887882853036965


### Шаг 7.  (**0.5 балла**)
Выведите наилучший алгоритм и наилучшее качество по результатам подбора alpha (best_estimator_ и best_score_).

In [24]:
from sklearn.linear_model import LassoCV
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Разбиваем данные на train и test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Создаем экземпляр модели LassoCV
lasso_cv = LassoCV(alphas=np.arange(0.1, 1.1, 0.1), cv=5)

# Обучаем модель на тренировочных данных
lasso_cv.fit(X_train, y_train)

# Получаем наилучший параметр alpha и его качество
best_alpha = lasso_cv.alpha_
best_score = lasso_cv.score(X_test, y_test)

print("Best Alpha:", best_alpha)
print("Best Score:", best_score)


Best Alpha: 0.1
Best Score: 0.20887882853036965


### Шаг 8.  (**0.5 балла**)

С помощью найденного best_estimator_ сделайте предсказание на тестовых данных и выведите на экран r2-score на тесте.

In [26]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score

# Загрузим данные
df = pd.read_csv("winequality-red.csv")

# Создаем матрицу X объект-признак и целевой вектор y
X = df.drop("quality", axis=1)
y = df["quality"]

# Разбиваем данные на train и test (доля тестовых данных - 30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Объявляем модель и подбираем параметр регуляризации alpha по сетке
param_grid = {'alpha': np.arange(0.1, 1.2, 0.1)}
lasso_model = Lasso()
grid_search = GridSearchCV(lasso_model, param_grid, scoring='r2', cv=5)
grid_search.fit(X_train, y_train)

# Выводим наилучший алгоритм и наилучшее качество
best_estimator = grid_search.best_estimator_
best_score = grid_search.best_score_
print("Best Alpha:", best_estimator.alpha)
print("Best Score:", best_score)

# Делаем предсказание на тестовых данных
y_test_pred_lasso = best_estimator.predict(X_test)

# Вычисляем R2-коэффициент на тестовом наборе данных
r2_test_lasso = r2_score(y_test, y_test_pred_lasso)

# Выводим результат
print("R2 Score on Test Set with Lasso Regression:", r2_test_lasso)



Best Alpha: 0.1
Best Score: 0.24002181024109745
R2 Score on Test Set with Lasso Regression: 0.20887882853036965


### Шаг 9.  (**0.5 балла**)

Попробуем улучшить качество модели за счет добавления полиномиальных признаков. Создайте pipeline, состоящий из добавления полиномиальных признаков степени 2, а затем применения линейной регрессии.

Затем вычислите r2-score этой модели на кросс валидации с пятью фолдами.

In [27]:
import numpy as np
import pandas as pd
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.linear_model import LinearRegression

# Загрузим данные
df = pd.read_csv("winequality-red.csv")

# Создаем матрицу X объект-признак и целевой вектор y
X = df.drop("quality", axis=1)
y = df["quality"]

# Создаем pipeline
model = make_pipeline(
    PolynomialFeatures(degree=2),
    StandardScaler(),
    LinearRegression()
)

# Вычисляем r2-score на кросс-валидации с пятью фолдами
cross_val_results = cross_val_score(model, X, y, cv=5, scoring='r2')

# Выводим среднее значение
average_r2 = np.mean(cross_val_results)
print("Average R2 Score on Cross-Validation:", average_r2)


Average R2 Score on Cross-Validation: 0.23009617099813634


### Шаг 10.  (**0.5 балла**)
Обучите модель (pipeline) на тренировочных данных и сделайте предсказания для train и test, затем выведите на экран r2-score и MSE на тренировочных и на тестовых данных.

In [32]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Lasso
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import cross_val_score

# Загрузим данные
df = pd.read_csv("winequality-red.csv")

# Создаем матрицу X объект-признак и целевой вектор y
X = df.drop("quality", axis=1)
y = df["quality"]

# Разбиваем данные на train и test (доля тестовых данных - 30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Создаем pipeline с PolynomialFeatures и Lasso
model = make_pipeline(PolynomialFeatures(degree=1), Lasso(alpha=0.1))

# Обучаем модель на тренировочных данных
model.fit(X_train, y_train)

# Делаем предсказания на тренировочных и тестовых данных
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# Вычисляем MSE и R2-коэффициент на тренировочных и тестовых данных
mse_train = mean_squared_error(y_train, y_train_pred)
mse_test = mean_squared_error(y_test, y_test_pred)
r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)

# Выводим результат
print("Mean Squared Error on Train Set with Polynomial Regression:", mse_train)
print("Mean Squared Error on Test Set with Polynomial Regression:", mse_test)
print("R2 Score on Train Set with Polynomial Regression:", r2_train)
print("R2 Score on Test Set with Polynomial Regression:", r2_test)

# Вычисляем среднее качество (r2) модели на кросс-валидации с k=5 фолдами
cross_val_results = cross_val_score(model, X, y, cv=5, scoring='r2')
average_r2 = np.mean(cross_val_results)
print("Average R2 Score on Cross-Validation:", average_r2)




Mean Squared Error on Train Set with Polynomial Regression: 0.49559916053081454
Mean Squared Error on Test Set with Polynomial Regression: 0.501589364614202
R2 Score on Train Set with Polynomial Regression: 0.24762438507417994
R2 Score on Test Set with Polynomial Regression: 0.20887882853036965
Average R2 Score on Cross-Validation: 0.17886394469115846


### Сделайте выводы. Для этого ответьте на вопросы: (**1 балл**)

1) Хорошее ли качество показала исходная модель (линейная регрессия без регуляризации)? Является ли эта модель переобученной?

2) Помогла ли L1-регуляризация улучшить качество модели?

3) Помогло ли добавление полиномов второй степени улучшить качество модели? Как добавление новых признаков повлияло на переобучение?

In [None]:
'''
1) Исходная модель (линейная регрессия без регуляризации):
Качество исходной модели было не самым лучшим, что видно по высокому значению Mean Squared Error (MSE) и низкому R2 Score на тестовом наборе данных. Вероятно, модель недостаточно сложна для хорошего предсказания целевой переменной. Однако, без дополнительной информации о данных, сложно однозначно сказать, что модель переобучена.

2) L1-регуляризация:
L1-регуляризация (Lasso) несколько улучшила качество модели по сравнению с исходной. MSE на тестовом наборе данных уменьшилась, а R2 Score увеличился. Это может говорить о том, что L1-регуляризация помогла бороться с избыточностью и улучшила обобщающую способность модели.

3) Полиномиальные признаки второй степени:
Добавление полиномиальных признаков второй степени не привело к улучшению качества модели, как видно из результатов MSE и R2 Score. Возможно, использование полиномов второй степени не является наилучшим выбором для улучшения предсказательной силы модели. Дополнительные признаки могли внести шум в модель, что привело к переобучению, как видно по ухудшению показателей на тестовом наборе данных.
Общие выводы:

L1-регуляризация оказалась более полезной для улучшения модели по сравнению с добавлением полиномиальных признаков второй степени. Однако, результаты могут зависеть от специфики данных, и другие методы или степени полиномов могут оказаться более эффективными. Важно тщательно подбирать методы и параметры, чтобы достичь оптимального баланса между сложностью модели и ее обобщающей способностью.

'''


### *Попытайтесь улучшить модель (добейтесь наилучшего качества) - можно использовать любые методы.

При улучшении качества r2 на 0.1-0.2 +1 балл, при большем улучшении +2 балла (дополнительно к 5 баллам за основную часть).

In [36]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error, r2_score

# Загрузка данных
df = pd.read_csv("winequality-red.csv")

# Создаем матрицу признаков X и вектор целевой переменной y
X = df.drop("quality", axis=1)
y = df["quality"]

# Разбиваем данные на train и test (доля тестовых данных - 30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Создаем pipeline с нормализацией и линейной регрессией
model_pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Нормализация данных
    ('regressor', LinearRegression())  # Линейная регрессия
])

# Определяем параметры для поиска по сетке
param_grid = {
    'regressor__fit_intercept': [True, False]  # Включение/выключение сдвига (intercept)
}

# Создаем объект GridSearchCV для подбора параметров
grid_search = GridSearchCV(model_pipeline, param_grid, scoring='r2', cv=5)
grid_search.fit(X_train, y_train)

# Выводим наилучший алгоритм и наилучшее качество
best_estimator = grid_search.best_estimator_
best_score = grid_search.best_score_
print("Best Estimator:", best_estimator)
print("Best Score:", best_score)

# Делаем предсказание на тестовых данных
y_test_pred = best_estimator.predict(X_test)

# Вычисляем R2-коэффициент на тестовом наборе данных
r2_test = r2_score(y_test, y_test_pred)

# Выводим результат
print("R2 Score on Test Set:", r2_test)



Best Estimator: Pipeline(steps=[('scaler', StandardScaler()),
                ('regressor', LinearRegression())])
Best Score: 0.33498599206255164
R2 Score on Test Set: 0.35138853325052444


## Часть 2. Target encoding (**всего 5 баллов**)

В этом части домашнего задания вы будете работать с выборкой `1C`. Вам нужно посчитать счетчики для `item_id` четырьмя способами:

    1) При помощи KFold схемы;  
    2) При помощи Leave-one-out схемы;
    3) При помощи smoothing схемы;
    4) При помощи expanding mean схемы.

### Подготовка данных

In [38]:
sales = pd.read_csv('sales_train_v2.csv')
sales.columns = ['date', 'date_block_num', 'shop_id', 'item_id', 'item_price', 'target']
sales

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,target
0,02.01.2013,0,59,22154,999.00,1.0
1,03.01.2013,0,25,2552,899.00,1.0
2,05.01.2013,0,25,2552,899.00,-1.0
3,06.01.2013,0,25,2554,1709.05,1.0
4,15.01.2013,0,25,2555,1099.00,1.0
...,...,...,...,...,...,...
2935844,10.10.2015,33,25,7409,299.00,1.0
2935845,09.10.2015,33,25,7460,299.00,1.0
2935846,14.10.2015,33,25,7459,349.00,1.0
2935847,22.10.2015,33,25,7440,299.00,1.0


In [39]:
index_cols = ['shop_id', 'item_id', 'date_block_num']

# For every month we create a grid from all shops/items combinations from that month
grid = [] 
for block_num in sales['date_block_num'].unique():
    cur_shops = sales[sales['date_block_num']==block_num]['shop_id'].unique()
    cur_items = sales[sales['date_block_num']==block_num]['item_id'].unique()
    grid.append(np.array(list(product(*[cur_shops, cur_items, [block_num]])),dtype='int32'))

#turn the grid into pandas dataframe
grid = pd.DataFrame(np.vstack(grid), columns = index_cols,dtype=np.int32)

#get aggregated values for (shop_id, item_id, month)
gb = sales.groupby(index_cols,as_index=False).agg({'target':'sum'})

#join aggregated data to the grid
all_data = pd.merge(grid,gb,how='left',on=index_cols).fillna(0)
#sort the data
all_data.sort_values(['date_block_num','shop_id','item_id'],inplace=True)

### Mean encodings без регуляризации

После проделанной технической работы, мы готовы посчитать счетчики для переменной `item_id`. 

Ниже приведены две реализации подсчета счетчиков без регуляризации. Можно использовать данный код в качестве стартовой точки для реализации различных техник регуляризации.

#### Способ 1

In [40]:
# Calculate a mapping: {item_id: target_mean}
item_id_target_mean = all_data.groupby('item_id').target.mean()

# In our non-regularized case we just *map* the computed means to the `item_id`'s
all_data['item_target_enc'] = all_data['item_id'].map(item_id_target_mean)

# Fill NaNs
all_data['item_target_enc'].fillna(0.3343, inplace=True) 

# Print correlation
encoded_feature = all_data['item_target_enc'].values
print(np.corrcoef(all_data['target'].values, encoded_feature)[0][1])

0.4830386988621764


#### Способ 2

In [10]:
'''
     Differently to `.target.mean()` function `transform` 
   will return a dataframe with an index like in `all_data`.
   Basically this single line of code is equivalent to the first two lines from of Method 1.
'''
all_data['item_target_enc'] = all_data.groupby('item_id')['target'].transform('mean')

# Fill NaNs
all_data['item_target_enc'].fillna(0.3343, inplace=True) 

# Print correlation
encoded_feature = all_data['item_target_enc'].values
print(np.corrcoef(all_data['target'].values, encoded_feature)[0][1])

0.4830386988621699


###  KFold схема (**1.25 балла**)

Необходимо реализовать Kfold схему с пятью фолдами. Используйте KFold(5) из sklearn.model_selection. 

1. Разбейте данные на 5 фолдов при помощи `sklearn.model_selection.KFold` с параметром `shuffle=False`.
2. Проитерируйтесь по фолдам: используйте 4 обучающих фолда для подсчета средних значений таргета по `item_id` и заполните этими значениями валидационный фолд на каждой итерации.

Обратите внимание на **Способ 1** из примера. В частности, изучите, как работают функции map и pd.Series.map. Они довольно полезны во многих ситуациях. 

In [45]:
from sklearn.model_selection import KFold

# Инициализация KFold схемы
kf = KFold(n_splits=5, shuffle=False)

# Создание нового столбца для хранения закодированных значений
all_data['item_target_enc_kfold'] = 0.3343  # Используйте значение по умолчанию (например, среднее значение target)

# Проход по фолдам
for train_index, val_index in kf.split(all_data):
    # Обучающий и валидационный фолды
    train_fold, val_fold = all_data.iloc[train_index], all_data.iloc[val_index]

    # Расчет средних значений target для каждого item_id на основе обучающего фолда
    item_id_target_mean = train_fold.groupby('item_id')['target'].mean()

    # Применение средних значений к валидационному фолду
    all_data.loc[val_index, 'item_target_enc_kfold'] = all_data.loc[val_index, 'item_id'].map(item_id_target_mean).fillna(0.3343)

# Вывод корреляции
corr_kfold = np.corrcoef(all_data['target'].values, all_data['item_target_enc_kfold'].values)[0][1]
print("Correlation with KFold encoding:", corr_kfold)



Correlation with KFold encoding: 0.4165079692202027


Ожидаемый ответ 0.4165

### Leave-one-out схема (**1.25 балла**)

Необходимо реализовать leave-one-out схему . Учтите, если вы запустите код из первого задания, задав количество фолдов такое же как размер выборки, то вы, вероятно, получите правильный ответ, но ждать будете очень-очень долго.

Для более быстрой реализации подсчета среднего таргета на всех объектах, кроме одного, вы можете:

1. Вычислить суммарный таргет по всем объектам.
2. Вычесть таргет конкретного объекта и разделить результат на `n_objects - 1`. 

Заметим, что пункт `1.` следует сделать для всех объектов. Также заметим, что пункт `2.` может быть реализован без циклов `for`.

Здесь может оказаться полезной функция .transform из **Способа 2** из примера.

Ожидаемый ответ 0.4803

### Smoothing (**1.25 балла**)

Необходимо реализовать smoothing с $\alpha = 100$. Используйте формулу:

$\frac{mean(target) \cdot nrows + globalmean \cdot \alpha }{nrows + \alpha}$,

где $globalmean=0.3343$. Заметим, что `nrows` - это количество объектов, принадлежащих конктертной категории, а не количество строк в датасете.

In [None]:
all_data['item_target_enc_smooth'] = 0.3343  

global_mean = all_data['target'].mean()

means = all_data.groupby('item_id')['target'].mean()

nrows = all_data.groupby('item_id').size()

all_data['item_target_enc_smooth'] = (means * nrows + global_mean * 100) / (nrows + 100)

corr = np.corrcoef(all_data['target'].values, encoded_feature)[0][1]
print(corr)

Ожидаемый ответ 0.4818

### Expanding mean схема (**1.25 балла**)

Необходимо реализовать *expanding mean* схему. Ее суть заключается в том, чтобы пройти по отсортированному в определенном порядке датасету (датасет сортируется в самом начале задания) и для подсчета счетчика для строки $m$ использовать строки от $0$ до $m-1$. Вам будет необходимо воспользоваться pandas функциями [`cumsum`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.cumsum.html) и [`cumcount`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.cumcount.html).

In [None]:
# YOUR CODE GOES HERE

corr = np.corrcoef(all_data['target'].values, encoded_feature)[0][1]
print(corr)

Ожидаемый ответ 0.5025