## Как программно устроить конкуренцию среди алгоритмов?
Для проведения конкурса алгоритмов сходства вам необходимо иметь набор данных для обучения и тестирования, а также метрику для оценки качества работы алгоритма.
Общий алгоритм проведения конкурса может выглядеть следующим образом:
Разделите набор данных на обучающую и тестовую выборки.
Для каждого алгоритма сходства выполните следующие шаги:
– Обучите алгоритм на обучающей выборке.
– Оцените качество работы алгоритма на тестовой выборке, используя выбранную метрику.

Выберите алгоритм с наилучшей метрикой.
Важно отметить, что для проведения конкурса необходимо выбрать несколько алгоритмов сходства, чтобы была возможность сравнивать их результаты.
Ниже приведен пример реализации конкурса алгоритмов на Python 
с использованием библиотеки scikit-learn.

В этом примере проводится конкурс трех алгоритмов регрессии: линейной регрессии, дерева решений и случайного леса. В качестве метрики используется средняя квадратичная ошибка. В результате выбирается модель с наименьшей ошибкой - RandomForestRegressor.

In [4]:
# загрузка необходимых библитек
import pandas as pd

from sklearn.datasets import fetch_california_housing # датасет
from sklearn.model_selection import train_test_split # метод для разделения данных
from sklearn.metrics import mean_squared_error # метрика
from sklearn.preprocessing import StandardScaler # нормализация данных
from sklearn.pipeline import make_pipeline

from sklearn.dummy import DummyRegressor #случайный регрессов - базовый уровень (проверка на случайное предсказание)
from sklearn.linear_model import LinearRegression  # }
from sklearn.tree import DecisionTreeRegressor     # } Модели Регрессии
from sklearn.ensemble import RandomForestRegressor # }
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import LassoLars
from sklearn.linear_model import BayesianRidge
from sklearn.linear_model import TweedieRegressor

In [13]:


# Загрузка набора данных
housing = fetch_california_housing()
X, y = housing.data, housing.target

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

# Подготовка данных
scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

models = [
("DummyRegression", DummyRegressor()),    
("LinearRegression", LinearRegression()),
("DecisionTreeRegressor", DecisionTreeRegressor()),
("RandomForestRegressor", RandomForestRegressor())
]
best_model = None
best_score = None
results = []
for name, model in models:
    # Обучение модели
    model.fit(X_train_scaled, y_train)
    # Оценка качества работы модели
    y_pred = model.predict(X_test_scaled)
    score = mean_squared_error(y_test, y_pred)
    results +=[(name,score)]
    if not best_model or score < best_score:
        best_model = name
        best_score = score
    
print(f"Лучшая модель: {best_model}")
print(f"Средняя квадратичная ошибка: {best_score:.2f}")
results

Лучшая модель: RandomForestRegressor
Средняя квадратичная ошибка: 0.26


[('DummyRegression', 1.3326257277946882),
 ('LinearRegression', 0.5369686543372464),
 ('DecisionTreeRegressor', 0.5437500819300646),
 ('RandomForestRegressor', 0.25989100522038694)]

## Другой вариант

In [5]:
# Загрузка данных
data = pd.read_csv('data//apartments.csv')
data

Unnamed: 0,distance_to_city_center,rooms,size,price
0,2.4,1.0,19.35,191.565
1,2.4,2.0,13.08,221.568
2,5.0,1.0,24.66,185.936
3,1.9,1.0,24.82,275.502
4,1.9,1.0,25.39,241.205
...,...,...,...,...
71,5.4,2.0,41.31,325.000
72,3.0,2.0,41.94,373.088
73,11.3,1.0,34.18,177.702
74,4.0,2.0,34.30,264.110


In [29]:
# Разделение данных на признаки (X) и целевую переменную (y)
X = data[['distance_to_city_center','rooms','size']]
y = data['price']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание и обучение регрессионных моделей
models = [
("DummyRegression", DummyRegressor()),   
("LinearRegression", LinearRegression()),
("DecisionTreeRegressor", DecisionTreeRegressor()),
("RandomForestRegressor", RandomForestRegressor()),
("KNeighborsRegressor", KNeighborsRegressor()),
("Ridge", Ridge()),
("Lasso", Lasso()),    
("LassoLars", LassoLars()),
("BayesianRidge", BayesianRidge()),    
("TweedieRegressor", TweedieRegressor())
]

res = {}
for name, model in models:
    # Обучение модели
    model.fit(X_train, y_train)
    # Прогнозирование значений на тестовой выборке
    y_pred = model.predict(X_test)
    # Оценка точности предсказания модели
    accuracy = model.score(X_test, y_test)
    res[name] = [round(accuracy,2)]
    print(f'Точность модели {name}:', accuracy)   

Точность модели DummyRegression: -0.018647068775397235
Точность модели LinearRegression: 0.9595755063081544
Точность модели DecisionTreeRegressor: 0.9390763060660249
Точность модели RandomForestRegressor: 0.9263293478240732
Точность модели KNeighborsRegressor: 0.8257309185359102
Точность модели Ridge: 0.9599433741038697
Точность модели Lasso: 0.9607894018216823
Точность модели LassoLars: 0.9607872272095548
Точность модели BayesianRidge: 0.9610936980767817
Точность модели TweedieRegressor: 0.9628799085719367


In [30]:
res

{'DummyRegression': [-0.02],
 'LinearRegression': [0.96],
 'DecisionTreeRegressor': [0.94],
 'RandomForestRegressor': [0.93],
 'KNeighborsRegressor': [0.83],
 'Ridge': [0.96],
 'Lasso': [0.96],
 'LassoLars': [0.96],
 'BayesianRidge': [0.96],
 'TweedieRegressor': [0.96]}

## Стандартизация данных

In [31]:

# Разделение данных на признаки (X) и целевую переменную (y)
X = data[['distance_to_city_center','rooms','size']]
y = data['price']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Инициализация объекта StandardScaler и применение его на обучающем наборе данных
scaler = StandardScaler()
X_train_std = scaler.fit_transform(X_train)

# Применение стандартизованных данных для предсказаний (на тестовом и будущем датасетах)
X_test_std = scaler.fit_transform(X_test)

# Создание и обучение регрессионных моделей
models = [
("DummyRegression", DummyRegressor()),   
("LinearRegression", LinearRegression()),
("DecisionTreeRegressor", DecisionTreeRegressor()),
("RandomForestRegressor", RandomForestRegressor()),
("KNeighborsRegressor", KNeighborsRegressor()),
("Ridge", Ridge()),
("Lasso", Lasso()),    
("LassoLars", LassoLars()),
("BayesianRidge", BayesianRidge()),    
("TweedieRegressor", TweedieRegressor())
]


for name, model in models:
    # Обучение модели на стандартизированной тренировочной выборке
    model.fit(X_train_std, y_train)
    # Прогнозирование значений на стандартизированной тестовой выборке
    y_pred = model.predict(X_test_std)
    # Оценка точности предсказания модели
    accuracy = model.score(X_test_std, y_test)
    res[name].append(round(accuracy,2))
    print(f'Точность модели {name}:', accuracy)   

Точность модели DummyRegression: -0.018647068775397235
Точность модели LinearRegression: 0.9267014203337706
Точность модели DecisionTreeRegressor: 0.9554285920281078
Точность модели RandomForestRegressor: 0.9200657609895038
Точность модели KNeighborsRegressor: 0.8720704139414222
Точность модели Ridge: 0.9254463449895094
Точность модели Lasso: 0.9274609631523436
Точность модели LassoLars: 0.9274571269434694
Точность модели BayesianRidge: 0.926690750549542
Точность модели TweedieRegressor: 0.7494994156436324


In [32]:
df = pd.DataFrame(res, index = ['original','std'])
df = df.T
df

Unnamed: 0,original,std
DummyRegression,-0.02,-0.02
LinearRegression,0.96,0.93
DecisionTreeRegressor,0.94,0.96
RandomForestRegressor,0.93,0.92
KNeighborsRegressor,0.83,0.87
Ridge,0.96,0.93
Lasso,0.96,0.93
LassoLars,0.96,0.93
BayesianRidge,0.96,0.93
TweedieRegressor,0.96,0.75


In [33]:
df['diff'] = df['std'] - df['original']

In [34]:
df

Unnamed: 0,original,std,diff
DummyRegression,-0.02,-0.02,0.0
LinearRegression,0.96,0.93,-0.03
DecisionTreeRegressor,0.94,0.96,0.02
RandomForestRegressor,0.93,0.92,-0.01
KNeighborsRegressor,0.83,0.87,0.04
Ridge,0.96,0.93,-0.03
Lasso,0.96,0.93,-0.03
LassoLars,0.96,0.93,-0.03
BayesianRidge,0.96,0.93,-0.03
TweedieRegressor,0.96,0.75,-0.21
