Построить модель машинного обучения, позволяющую предсказать, является ли цветок цветком класса Ирис-Вирджиния или нет.

План решения:

Из библиотеки scikit-learn подгрузите данные. Мы уже работали с ними в рамках Темы 1.

Сформируйте новое поле target_virginica, которое будет равно из 0, если цветок не является классом 2, иначе  — 1. Убедитесь, что разметка выполнена корректно, рассчитав количество объектов каждого класса по новой целевой переменной target_virginica.

Обучите библиотечную модель логистической регрессии на обучающей части данных.

Оцените качество обученной на предыдущем шаге модели, выведя матрицу ошибок для прогнозов обученной моделью на тестовой части данных.

Сконструируйте свой класс MyLogisticRegression, решающий задачу логистической регрессии методом градиентного спуска.

Он должен инициализироваться величиной шага градиентного спуска и количеством итераций градиентного спуска.

Должен содержать метод fit для обучения модели, на вход которой будут подаваться обучающие данные. Чтобы реализовать функцию sigmoid, можно воспользоваться библиотечной функцией np.exp. Для расчета градиента необходимо использовать формулу, приведенную в курсе в блоке «Логистическая регрессия для решения задачи бинарной классификации».

Должен содержаться метод predict, который будет возвращать лейбл 0/1. Лейбл должен рассчитываться из вероятности принадлежности классу 1. Вероятность должна рассчитываться как сигмоида от результата произведения матрицы фичей X и вектора весов модели w.

Обучите модель с помощью реализованного класса с произвольными параметрами градиентного спуска.

Оцените качество модели, обученной с помощью класса MyLogisticRegression, выведя матрицу ошибок для прогнозов обученной моделью на тестовой части данных.

Подберите такие параметры градиентного спуска, чтобы разделение получилось не хуже, чем  у библиотечной модели.

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, confusion_matrix
from sklearn import tree
import numpy as np

from matplotlib import pyplot as plt

import pandas as pd

Загрузка данных и создание целевой переменной target_virginica

In [None]:
# Загрузка данных
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

# Создание целевой переменной target_virginica
#определяем условие, что целевая переменная равна 1, если метка класса в исходных данных равна 2 (Ирис-Вирджиния), и 0 в противном случае
df['target_virginica'] = (iris.target == 2).astype(int)

# Проверка баланса классов
class_counts = df['target_virginica'].value_counts()
print("Количество объектов в каждом классе (0 - не Ирис-Вирджиния, 1 - Ирис-Вирджиния):\n", class_counts)

Количество объектов в каждом классе (0 - не Ирис-Вирджиния, 1 - Ирис-Вирджиния):
 0    100
1     50
Name: target_virginica, dtype: int64


In [None]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target_virginica
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


Обучение библиотечной модели логистической регрессии на обучающей части данных.

In [None]:
x=iris.data
y=iris.target

In [None]:
# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(df.drop('target_virginica', axis=1), df['target_virginica'], test_size=0.3, random_state=42)

# Обучение библиотечной модели логистической регрессии
lr_model = LogisticRegression()
lr_model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred_lr = lr_model.predict(X_test)

# Оценка качества модели с помощью матрицы ошибок
confusion_lr = confusion_matrix(y_test, y_pred_lr)
print("Матрица ошибок (Logistic Regression):\n", confusion_lr)

Матрица ошибок (Logistic Regression):
 [[32  0]
 [ 0 13]]


MyLogisticRegression обучение


In [None]:
class MyLogisticRegression:
    def __init__(self, learning_rate=0.01, n_iterations=1000):
        self.learning_rate = learning_rate
        self.n_iterations = n_iterations

    def sigmoid(self, z):
        return 1 / (1 + np.exp(-z))

    def fit(self, X, y):
        m, n = X.shape
        self.theta = np.zeros(n)

        for _ in range(self.n_iterations):
            z = np.dot(X, self.theta)
            h = self.sigmoid(z)
            gradient = np.dot(X.T, (h - y)) / m
            self.theta -= self.learning_rate * gradient

    def predict(self, X):
        z = np.dot(X, self.theta)
        h = self.sigmoid(z)
        return (h >= 0.5).astype(int)

# Обучение модели собственной логистической регрессии
my_lr_model = MyLogisticRegression(learning_rate=0.1, n_iterations=10000)
my_lr_model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred_my_lr = my_lr_model.predict(X_test)

# Оценка качества модели с помощью матрицы ошибок
confusion_my_lr = confusion_matrix(y_test, y_pred_my_lr)
print("Матрица ошибок (My Logistic Regression):\n", confusion_my_lr)

Матрица ошибок (My Logistic Regression):
 [[31  1]
 [ 1 12]]


Подбор параметров для MyLogisticRegression


In [None]:
# Подбор параметров для MyLogisticRegression
best_accuracy = 0
best_lr = None
best_n_iter = None

for lr in [0.1, 0.01, 0.001]:
    for n_iter in [1000, 5000, 10000]:
        my_lr_model = MyLogisticRegression(learning_rate=lr, n_iterations=n_iter)
        my_lr_model.fit(X_train, y_train)
        y_pred_my_lr = my_lr_model.predict(X_test)
        accuracy = np.mean(y_pred_my_lr == y_test)

        if accuracy > best_accuracy:
            best_accuracy = accuracy
            best_lr = lr
            best_n_iter = n_iter

print(f"Лучшие параметры: learning_rate = {best_lr}, n_iterations = {best_n_iter}, accuracy = {best_accuracy}")


Лучшие параметры: learning_rate = 0.1, n_iterations = 1000, accuracy = 1.0


Модель Logistic Regression до обучения совершила идеальные предсказания, но это может быть связано с недостаточным объемом данных в тестовой выборке, где было всего 13 объектов класса 1 (Ирис-Вирджиния).
Модель My Logistic Regression после обучения допустила 2 ошибки: 1 ложно положительное и 1 ложно отрицательное предсказание. Это может быть результатом влияния параметров обучения модели, их настройки могут повлиять на качество предсказаний.

In [None]:
import numpy as np

# Создаем два вектора
vector1 = np.arange(1, 101)
vector2 = np.arange(100, 0, -1)

# Рассчитываем Евклидово расстояние
euclidean_distance = np.sqrt(np.sum((vector1 - vector2) ** 2))

print("Евклидово расстояние между векторами:", euclidean_distance)


Евклидово расстояние между векторами: 577.3214009544423
