# Библиотека функций

## Функции для задачи регрессии

### №1 Функция для подсчета метрик качества регрессионной модели K ближайших соседей

In [None]:
import numpy as np
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

def evaluate_regression_model(model_name, X_train, y_train, y_test, y_pred):
    """
    Функция для подсчета метрик качества модели регрессии.

    Параметры:
    model_name : str
        Название модели.
    X_train : array-like
        Матрица признаков для тренировочных данных.
    y_train : array-like
        Настоящие значения целевой переменной для тренировочных данных.
    y_test : array-like
        Настоящие значения целевой переменной для тестовых данных.
    y_pred : array-like
        Предсказанные значения целевой переменной для тестовых данных.

    Возвращает:
    metrics : dict
        Словарь с названием модели, а также метрик и их значениями.
    """
    metrics = {}
    metrics['Model'] = model_name

    # Считаем метрики для тренировочных данных
    r2_test = r2_score(y_test, y_pred)

    # Считаем метрики для тестовых данных
    mse_test = mean_squared_error(y_test, y_pred)
    mae_test = mean_absolute_error(y_test, y_pred)
    mape_test = mean_absolute_percentage_error(y_test, y_pred)
    rmse_test = np.sqrt(mean_squared_error(y_test, y_pred))

    # Добавляем метрики в словарь
    metrics['Train R^2 Score'] = r2_test
    metrics['Test Mean Squared Error'] = mse_test
    metrics['Test Mean Absolute Error'] = mae_test
    metrics['Test Mean Absolute Percentage Error'] = mape_test
    metrics['Test Root Mean Squared Error'] = rmse_test

    return metrics

# Пример использования функции
if __name__=="__main__":

    # Создаем случайные данные
    np.random.seed(0)
    X = np.random.rand(100, 1)
    y = X + np.random.randn(100, 1) * 0.1

    # Разделяем данные на тренировочные и тестовые
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Создаем модель линейной регрессии
    model = LinearRegression()

    # Обучаем модель на тренировочных данных
    model.fit(X_train, y_train)

    # Предсказываем значения для тестовых данных
    y_pred = model.predict(X_test)

    # Пример использования функции
    model_name = "Linear Regression Model"

    # Вызываем функцию для оценки модели
    model_metrics = evaluate_regression_model(model_name, X_train, y_train, y_test, y_pred)

    # Выводим результаты
    for metric, value in model_metrics.items():
        print(f"{metric}: {value}")

Model: Linear Regression Model
Train R^2 Score: 0.84532077766097
Test Mean Squared Error: 0.00917753246971429
Test Mean Absolute Error: 0.08014554834253332
Test Mean Absolute Percentage Error: 0.6816571214299292
Test Root Mean Squared Error: 0.09579943877557055


### №2 Функция разбиения на контроль данных с возможностью нормализации данных для регрессионной модели K ближайших соседей

In [None]:
import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler


def split_and_normalize_data(X, y, test_size=0.3, normalization='none', random_state=None):
    """
    Функция для разбиения на контрольные данные с возможностью нормализации.

    Параметры:
    X : array-like
        Матрица признаков.
    y : array-like
        Вектор целевой переменной.
    test_size : float, optional (default=0.3)
        Размер тестового набора данных.
    normalization : str, optional (default='none')
        Тип нормализации ('none', 'standard', 'minmax').
    random_state : int or None, optional (default=None)
        Случайное начальное значение для воспроизводимости.

    Возвращает:
    X_train : array-like
        Матрица признаков для тренировочных данных.
    X_test : array-like
        Матрица признаков для тестовых данных.
    y_train : array-like
        Вектор целевой переменной для тренировочных данных.
    y_test : array-like
        Вектор целевой переменной для тестовых данных.
    """

    # Разбиваем данные на тренировочные и тестовые
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=random_state)

    # Нормализуем данные, если указано
    if normalization == 'standard':
        scaler = StandardScaler()
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.fit_transform(X_test)
    elif normalization == 'minmax':
        scaler = MinMaxScaler()
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.fit_transform(X_test)

    return X_train, X_test, y_train, y_test

# Пример использования функции
if __name__=="__main__":

    # Загрузим набор данных Diabetes
    diabetes = load_diabetes()
    X = diabetes.data
    y = diabetes.target

    # Вызовем функцию для разбиения данных на тренировочные и тестовые с нормализацией
    X_train, X_test, y_train, y_test = split_and_normalize_data(X, y, test_size=0.2, normalization='standard', random_state=42)

    print(X,'\n',y)
    print('-----------------------------------------------------------------------------------------------------------------------------------------')
    print( X_train,'\n','------------','\n', X_test,'\n','------------','\n', y_train,'\n','------------','\n', y_test)

[[ 0.03807591  0.05068012  0.06169621 ... -0.00259226  0.01990749
  -0.01764613]
 [-0.00188202 -0.04464164 -0.05147406 ... -0.03949338 -0.06833155
  -0.09220405]
 [ 0.08529891  0.05068012  0.04445121 ... -0.00259226  0.00286131
  -0.02593034]
 ...
 [ 0.04170844  0.05068012 -0.01590626 ... -0.01107952 -0.04688253
   0.01549073]
 [-0.04547248 -0.04464164  0.03906215 ...  0.02655962  0.04452873
  -0.02593034]
 [-0.04547248 -0.04464164 -0.0730303  ... -0.03949338 -0.00422151
   0.00306441]] 
 [151.  75. 141. 206. 135.  97. 138.  63. 110. 310. 101.  69. 179. 185.
 118. 171. 166. 144.  97. 168.  68.  49.  68. 245. 184. 202. 137.  85.
 131. 283. 129.  59. 341.  87.  65. 102. 265. 276. 252.  90. 100.  55.
  61.  92. 259.  53. 190. 142.  75. 142. 155. 225.  59. 104. 182. 128.
  52.  37. 170. 170.  61. 144.  52. 128.  71. 163. 150.  97. 160. 178.
  48. 270. 202. 111.  85.  42. 170. 200. 252. 113. 143.  51.  52. 210.
  65. 141.  55. 134.  42. 111.  98. 164.  48.  96.  90. 162. 150. 279.
  92.  83

## Функция для задачи классификации

### №3 Функция для подсчета метрик качества модели классификации

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, roc_auc_score, precision_score, recall_score, f1_score, confusion_matrix

def calculate_classification_metrics(y_true, y_pred, y_pred_proba, model_name):
    """
    Функция для подсчета метрик качества модели классификации.

    Аргументы:
    y_true -- истинные значения целевой переменной
    y_pred -- предсказанные значения целевой переменной
    y_pred_proba -- вероятности предсказаний (для бинарной классификации)
    model_name -- название модели

    Возвращает словарь с названиями метрик и их значениями.
    """
    metrics = {'Model': model_name}

    if len(np.unique(y_true)) == 2:  # Бинарная классификация
        metrics['Accuracy'] = accuracy_score(y_true, y_pred)
        metrics['ROC AUC'] = roc_auc_score(y_true, y_pred_proba[:, 1])
        metrics['Precision'] = precision_score(y_true, y_pred)
        metrics['Recall'] = recall_score(y_true, y_pred)
        metrics['F1 Score'] = f1_score(y_true, y_pred)
        metrics['Confusion Matrix'] = confusion_matrix(y_true, y_pred).tolist()
    else:  # Многоклассовая классификация
        metrics['Accuracy'] = accuracy_score(y_true, y_pred)
        metrics['Precision (Micro)'] = precision_score(y_true, y_pred, average='micro')
        metrics['Recall (Micro)'] = recall_score(y_true, y_pred, average='micro')
        metrics['F1 Score (Micro)'] = f1_score(y_true, y_pred, average='micro')
        metrics['Precision (Macro)'] = precision_score(y_true, y_pred, average='macro')
        metrics['Recall (Macro)'] = recall_score(y_true, y_pred, average='macro')
        metrics['F1 Score (Macro)'] = f1_score(y_true, y_pred, average='macro')
        metrics['Confusion Matrix'] = confusion_matrix(y_true, y_pred).tolist()

    return metrics

# Пример использования функции
if __name__ == "__main__":

    # Генерация случайных данных для бинарной классификации
    np.random.seed(42)
    X = np.random.randn(1000, 5)  # 1000 объектов, 5 признаков
    y = np.random.randint(0, 2, size=1000)  # Метки классов (2 класса)

    # Разделение данных на обучающий и тестовый наборы
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Стандартизация признаков
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # Обучение модели (логистическая регрессия для примера)
    model = LogisticRegression()
    model.fit(X_train_scaled, y_train)

    # Получение предсказаний модели на тестовых данных
    y_pred = model.predict(X_test_scaled)
    y_pred_proba = model.predict_proba(X_test_scaled)

    # Вызов функции для расчета метрик качества для двух классов
    metrics = calculate_classification_metrics(y_test, y_pred, y_pred_proba, 'Logistic Regression (2 classes)')

    # Вывод результатов
    print("\nМетрики качества модели бинарной классификации:")
    for metric, value in metrics.items():
        print(f"{metric}: {value}")
    print('----------------------------------------------------------------------------')
    # Генерация случайных данных для многоклассовой классификации
    np.random.seed(42)
    X = np.random.randn(1000, 5)  # 1000 объектов, 5 признаков
    y = np.random.randint(0, 3, size=1000)  # Метки классов (3 класса)

    # Разделение данных на обучающий и тестовый наборы
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Стандартизация признаков
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # Обучение модели (логистическая регрессия для примера)
    model = LogisticRegression()
    model.fit(X_train_scaled, y_train)

    # Получение предсказаний модели на тестовых данных
    y_pred = model.predict(X_test_scaled)
    y_pred_proba = model.predict_proba(X_test_scaled)

    # Вызов функции для расчета метрик качества для трех классов
    metrics = calculate_classification_metrics(y_test, y_pred, y_pred_proba, 'Logistic Regression (3 classes)')

    # Вывод результатов
    print("Метрики качества модели многоклассовой классификации:")
    for metric, value in metrics.items():
        print(f"{metric}: {value}")


Метрики качества модели бинарной классификации:
Model: Logistic Regression (2 classes)
Accuracy: 0.485
ROC AUC: 0.48649459783913557
Precision: 0.49557522123893805
Recall: 0.5490196078431373
F1 Score: 0.5209302325581394
Confusion Matrix: [[41, 57], [46, 56]]
----------------------------------------------------------------------------
Метрики качества модели многоклассовой классификации:
Model: Logistic Regression (3 classes)
Accuracy: 0.35
Precision (Micro): 0.35
Recall (Micro): 0.35
F1 Score (Micro): 0.35
Precision (Macro): 0.34256651017214396
Recall (Macro): 0.3559633340148572
F1 Score (Macro): 0.3298500796069363
Confusion Matrix: [[33, 19, 8], [32, 28, 13], [34, 24, 9]]
