In [1]:
import pandas as pd 
import numpy as np 
from sklearn.datasets import make_classification 

In [175]:
X, y = make_classification(n_samples=400, n_features=4)
X = pd.DataFrame(X, columns=['f1', 'f2', 'f3', 'f4'])
y = pd.Series(y)

Нужно написать метод fit и выводить loss на обучении

In [257]:
class MyLogReg():
    def __init__(self, n_iter=10, learning_rate=0.1, weights=None):
        self.n_iter = n_iter 
        self.learning_rate = learning_rate
        self.weights = weights
        
    def __repr__(self):
        return f'MyLogReg class: n_iter={self.n_iter}, learning_rate={self.learning_rate}'
        
    def __log_training_step(self, iteration: int, X: np.array, y: np.array, proba: np.array):
        """Логирует процесс обучения (итерацию, веса, функцию потерь).
    
        Параметры:
        iteration: int - номер итерации
        X: np.array - матрица признаков
        y: np.array - вектор истинных меток (0 или 1)
        proba: np.array - предсказанные вероятности класса 1
        """
        eps = 1e-15
        loss = -np.mean(y*np.log(proba+eps) + (1-y)*(np.log(1-proba+eps))) 
        print(f'{iteration} | loss: {loss:0.2f}')
        
    def fit(self, X: pd.DataFrame, y: pd.Series, verbose=False):
        """
        Метод обучает модель Логистической регресси 
        Входные параметры:
        X: pd.DataFrame
        y: pd.Series
        verbose: bool
        """
        X_copy = X.copy()                                     # копируем матрицу признаков, чтобы не изменить оригинальный 
        X_copy.insert(0, 'base', 1)                           # добавляем столбик для свободного члена, заполним его 1
        X_copy = X_copy.to_numpy()  
        self.weights = np.ones(X_copy.shape[1])               # создаем вектор весов, заполненный 1

        # Цикл обучения
        for i in range(self.n_iter):
            pred = X_copy.dot(self.weights)                    # делаем предсказание модели
            proba = 1 / (1 + np.exp(-pred))                    # переводим предсказания в вероятности через функцию сигмоиды
            grad = (1/len(y))*(proba - y).dot(X_copy)          # вычисляем градиент LogLoss
            self.weights -= self.learning_rate * grad          # делаем шаг обучения

            if verbose and (i % 10 == 0 or i == self.n_iter-1):
                self.__log_training_step(i, X_copy, y, proba)
                
    def get_coef(self):
        return np.array(self.weights[1:])


In [259]:
model = MyLogReg(n_iter=100)

In [261]:
model

MyLogReg class: n_iter=100, learning_rate=0.1

In [263]:
model.fit(X, y, verbose=True)

0 | loss: 0.48
10 | loss: 0.41
20 | loss: 0.37
30 | loss: 0.35
40 | loss: 0.33
50 | loss: 0.32
60 | loss: 0.31
70 | loss: 0.31
80 | loss: 0.30
90 | loss: 0.30
99 | loss: 0.29


In [265]:
model.get_coef()

array([0.69680626, 1.11418627, 1.8421044 , 1.22016325])

In [267]:
model.weights

array([0.22936499, 0.69680626, 1.11418627, 1.8421044 , 1.22016325])