## Финальное соревнование

##### Автор: [Радослав Нейчев](https://www.linkedin.com/in/radoslav-neychev/), @neychev

В данном задании вас ждет неизвестная зависимость. Ваша основная задача: **построить две лучших модели**, минимизирующих среднеквадратичную ошибку (MSE):

1.На первую модель не налагается ограничений.


2.Вторая модель должна быть **линейной**, т.е. представлять собой линейную комбинацию признаков плюс свободный член: $w^{T}{x} + b$. При этом __вы можете использовать базовые математические операции для преобразования признаков__: np.exp, np.log, np.pow (полный список доступен в [документации](https://numpy.org/doc/stable/reference/routines.math.html)), а также линейные операции над ними (сумма, умножение на число и пр.). Для преобразования признаков вам будет необходимо написать функцию `my_transformation`. __Кол-во параметров (весов) используемых второй моделью не должно превышать 15 (включая свободный член).__

Настоятельно рекомендуем написать код "с нуля", лишь поглядывая на готовые примеры, а не просто "скопировать-вставить". Это поможет вам в будущем писать код более уверенно





### Модель №2
Функция `my_transformation` принимает на вход матрицу объект-признак (`numpy.ndarray` типа `np.float`) и преобразует ее в новую матрицу. Данная функция может использовать только numpy-операции, а также арифметические действия.

Для примера доступна функция ниже. Она лишь добавляет новый признак, представляющий собой произведение первого и второго исходных признаков (считая с нуля).

In [11]:
import os
import json

import plotly
import plotly.graph_objs as go
import plotly.express as px
from plotly.subplots import make_subplots

import numpy as np
from matplotlib import pyplot as plt
from sklearn.linear_model import Ridge
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

from sklearn.linear_model import Lasso

In [441]:
assert os.path.exists('hw_final_open_data.npy'), 'Please, download `hw_final_open_data.npy` and place it in the working directory'
assert os.path.exists('hw_final_open_target.npy'), 'Please, download `hw_final_open_target.npy` and place it in the working directory'

data = np.load('hw_final_open_data.npy', allow_pickle=False)
target = np.load('hw_final_open_target.npy', allow_pickle=False)

In [425]:
mean = np.mean(data, axis = 0)
std = np.std(data, axis = 0)
new_data = (data - mean) / std

In [922]:
data = np.load('hw_final_open_data.npy', allow_pickle=False)
target = np.load('hw_final_open_target.npy', allow_pickle=False)

def my_transformation(feature_matrix: np.ndarray):
    
    new_feature_matrix = np.zeros((feature_matrix.shape[0], 3))

    new_feature_matrix[:, 0] = feature_matrix[:, 0]
    new_feature_matrix[:, 1] = feature_matrix[:, 1]
    
    mean = np.mean(new_feature_matrix[:, [0,1]], axis = 0)
    std = np.std(new_feature_matrix[:, [0,1]], axis = 0)
    new_feature_matrix[:, [0,1]] = (new_feature_matrix[:, [0,1]] - mean) / std

    new_feature_matrix[:, 2] = - np.cos(new_feature_matrix[:, 1] ** 2 * 8 ) / 10
    
#     ind = np.where(new_data[:, 1] < -1.40)
#     # new_feature_matrix[ind, 2] = new_feature_matrix[ind, 2] + (0.01 - new_feature_matrix[ind, 2])
#     new_feature_matrix[ind, 2] = new_feature_matrix[ind, 2][::-1] + 0.1
# #     new_feature_matrix[ind, 2] = abs(new_feature_matrix[new_feature_matrix[ind, 2]][2])
    
    return new_feature_matrix

new_data = my_transformation(data)

In [923]:
import numpy as np

arr = new_data
# получаем индексы отсортированного массива по первому столбику
sorted_indices = np.argsort(arr[:, 0])

# используем отсортированные индексы для получения отсортированного массива
sorted_arr = arr[sorted_indices]

print(sorted_arr)

[[-2.60330302 -1.48683292 -0.03955049]
 [-2.58765574 -1.48493191 -0.03536052]
 [-2.57214513 -1.48302238 -0.03108465]
 ...
 [ 1.28308109  1.91663279  0.04415093]
 [ 1.28484208  1.92164542  0.02987296]
 [ 1.28660132  1.92666004  0.01484285]]


In [947]:
px.scatter

fig = go.Figure()
# for i in range(7):
#     fig.add_trace(go.Scatter(x = new_data[:, i], y = target, mode='markers'))

# fig.add_trace(go.Scatter(x = new_data[:, 1], y = target, mode='markers'))
# fig.add_trace(go.Scatter(x = np.exp(new_data[:, 0]) + new_data[:, 0], y = target, mode='markers'))

# x = np.arange(new_data.shape[0])
# y = np.sort(new_data[:, 0])
# x = (x - np.mean(x)) / np.std(x)
# fig.add_trace(go.Scatter(x = x, y = y, mode='markers', name = "new_data[:, 0]"))

# x = np.arange(new_data.shape[0])
# y =  sorted_arr[:, 1]
# x = (x - np.mean(x)) / np.std(x)
# fig.add_trace(go.Scatter(x = x, y = y, mode='markers', name = "new_data[:, 1]"))

# x = np.arange(sorted_arr.shape[0])
# x = (x - np.mean(x)) / np.std(x)
# y = sorted_arr[:, 0]
# fig.add_trace(go.Scatter(x = x, y = y, mode='markers', name = "new_data[:, 0]"))

# x = np.arange(sorted_arr.shape[0])
# x = (x - np.mean(x)) / np.std(x)
# y = sorted_arr[:, 1]
# fig.add_trace(go.Scatter(x = x, y = y, mode='markers', name = "new_data[:, 1]"))

x = np.arange(sorted_arr.shape[0])
x = (x - np.mean(x)) / np.std(x)
y = sorted_arr[:, 2]
fig.add_trace(go.Scatter(x = x, y = y, mode='markers', name = "new_data[:, 2]"))

# x = np.arange(new_data.shape[0])
# y = np.sort(target)
# x = (x - np.mean(x)) / np.std(x)
# fig.add_trace(go.Scatter(x = x, y = y, mode='markers', name = "target"))

# w_submission = [0.2242, 1.9461]
# b_submission = 3.6323
# w_submission = np.array([w_submission])
# x = np.arange(new_data.shape[0])
# x = (x - np.mean(x)) / np.std(x)
# y = (w_submission @ new_data[:, [0,1]].T + b_submission)[0]
# y = np.sort(y) # - np.sort(target)
# fig.add_trace(go.Scatter(x = x, y = y, mode='markers', name='w_2^T x + b'))

# w_submission = [0.2244, 1.9456, 0.0605]
# b_submission = 3.7225
# w_submission = np.array([w_submission])
# x = np.arange(new_data.shape[0])
# x = (x - np.mean(x)) / np.std(x)
# y = (w_submission @ new_data.T + b_submission)[0]
# y = np.sort(y) - np.sort(target)
# fig.add_trace(go.Scatter(x = x, y = y, mode='markers', name='ERROR 3'))

w_submission = [0.2242, 1.9461]
b_submission = 3.6323
w_submission = np.array([w_submission])
x = np.arange(new_data.shape[0])
x = (x - np.mean(x)) / np.std(x)
y = (w_submission @ new_data[:, [0,1]].T + b_submission)[0]
y = np.sort(y) - np.sort(target)
fig.add_trace(go.Scatter(x = x, y = y, mode='markers', name='ERROR'))

x = np.arange(sorted_arr.shape[0])
x = (x - np.mean(x)) / np.std(x)
y = sorted_arr[:, 2].copy()

ind = np.where(sorted_arr[:, 1] < -1.40)[0]
for i in range(len(ind)-2, -1, -1):
    y[ind[i]] = y[ind[i-1]] + 0.01

ind = np.where(sorted_arr[:, 1] > 1.78)[0]
for i in range(1,len(ind)):
    y[ind[i]] = y[ind[i-1]] - 0.01
    
fig.add_trace(go.Scatter(x = x, y = y, mode='markers', name = "new_data[:, 2] new"))


fig.show()

In [763]:
data = np.load('hw_final_open_data.npy', allow_pickle=False)
target = np.load('hw_final_open_target.npy', allow_pickle=False)

mse_lr = 0
mse_ridge = 0

for i in range(100):
    train_x, valid_x, train_y, valid_y = train_test_split(data, target, test_size=0.3)
    transformed_train_x = my_transformation(train_x)
    
    ridge = Ridge()
    ridge.fit(transformed_train_x, train_y)
    mse_ridge += mean_squared_error(ridge.predict(my_transformation(valid_x)), valid_y)
    
    lr = LinearRegression()
    lr.fit(transformed_train_x, train_y)
    mse_lr += mean_squared_error(lr.predict(my_transformation(valid_x)), valid_y)

print(mse_ridge / 100)   
w_list = list(np.round(ridge.coef_, 4))
print(f'w_submission = {list(np.round(ridge.coef_, 4))}\nb_submission = {np.round(ridge.intercept_, 4)}')
print()

print(mse_lr / 100) 
w_list = list(np.round(lr.coef_, 4))
print(f'w_submission = {list(np.round(lr.coef_, 4))}\nb_submission = {np.round(lr.intercept_, 4)}')
print()


0.1173562266436662
w_submission = [0.2314, 1.9715, -0.1173]
b_submission = 3.7753

0.11721535833842081
w_submission = [0.2054, 1.9993, -0.1744]
b_submission = 3.7748



Обращаем ваше внимание, что параметры линейной модели будут округляться до __четырех знаков после запятой__. Это не должно сильно повлиять на качество предсказаний:

In [19]:
original_predictions = lr.predict(transformed_train_x)
rounded_predictions = transformed_train_x.dot(np.round(lr.coef_, 4)) + np.round(lr.intercept_, 4)


assert np.allclose(original_predictions, rounded_predictions, atol=1e-3)

Параметры вашей модели:

In [20]:
w_list = list(np.round(lr.coef_, 4))
print(f'w = {list(np.round(lr.coef_, 4))}\nb = {np.round(lr.intercept_, 4)}')

w = [829953764.257, 26.5509, -416487743.5206, -1.3291, -107597466.0827, -305869170.9152]
b = 3.5702


Напоминаем, ваша модель не должна использовать более 15 параметров (14 весов плюс свободный член).

In [21]:
assert len(w_list) + 1 <= 15

##### Сдача второй части соревнования
Для сдачи вам достаточно отправить функцию `my_transformation` и параметры вашей модели в контест в задачу №2. Пример посылки доступен ниже

In [22]:
# __________example_submission_start__________

def my_transformation(feature_matrix: np.ndarray):
    new_feature_matrix = np.zeros((feature_matrix.shape[0], feature_matrix.shape[1]+1))
    new_feature_matrix[:, :feature_matrix.shape[1]] = feature_matrix
    new_feature_matrix[:, -1] = feature_matrix[:, 0
    ] * feature_matrix[:, 1]
    return new_feature_matrix

w_submission = [-0.0027, -0.2637, 0.0, -0.1134, -0.0165, -0.9329, 0.0, 0.1293]
b_submission = 1.1312
# __________example_submission_end__________

На этом задание завершено. Поздравляем!

### Идеи, заметки, hint-ы

1. random_state - https://scikit-learn.ru/10-3-controlling-randomness/
2. Графики для анализа фичей (вид зависимости таргета от фичей и их комбинаций) + корреляции признаков друг с другом - https://www.kaggle.com/code/prashant111/comprehensive-guide-on-feature-selection
3.Нормализация/стандартизация данных - https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html без дата ликов + посмотреть на аномалии в таргете и фичах
4. XGBoost - https://xgboost.readthedocs.io/en/stable/ + shap values - https://shap.readthedocs.io/en/latest/example_notebooks/overviews/An%20introduction%20to%20explainable%20AI%20with%20Shapley%20values.html
для важности признаков и предпосылок
5. Подумайте над методами оптимизации гиперпараметров помимо GridSearchCV
6. Подумать на stacking-ом в пункте 1 (какие модельки взят?)
7. Как отбирать топ фичей после генерации новых? точно не Brute-force - https://dataaspirant.com/stepwise-regression/