In [1]:
import numpy as np
import pandas as pd
from sklearn.metrics import roc_auc_score

In [2]:
data = pd.read_csv('C:/Users/1/Data/LogReg/data-logistic.csv', header = None)

In [3]:
data.head()

Unnamed: 0,0,1,2
0,-1,-0.663827,-0.138526
1,1,1.994596,2.468025
2,-1,-1.247395,0.749425
3,1,2.309374,1.899836
4,1,0.849143,2.40775


In [4]:
X = data.iloc[:, [1, 2]].values
X.shape

(205, 2)

In [5]:
Y = data[0].values
Y.shape

(205,)

In [6]:
class LogReg:
    
    def __init__(self, C = 0, k = 0.1, min_change = 10**-5, n_iter = 10000):
        self.C = C # коэффициент регуляризации
        self.k = k # длина градиентного шага   
        self.min_change = min_change # величина минимального изменения весов
        self.n_iter = n_iter # количество итераций обучения
    
    def fit(self, X, Y):
        self.lenth = X.shape[0] # количество объектов обучающей выборки
        self.weights = np.zeros(X.shape[1]) # инициализация весов (на старте веса нулевые)
        
        for step in range(self.n_iter): 
            prev_weights = np.copy(self.weights) # веса на предыдущей итерации
            
            Margin = X.dot(self.weights) * Y # рассчитываем отступ 
            prob = self.sigmoid(Margin) # рассчитываем апостериорную вероятность принадлежности к классу

            grad = self.gradient(X, Y, prob) # рассчитываем градиент
                     
            weight_delta = self.k * grad
            self.weights -= weight_delta # обновляем веса
            
            # проверяем евклидово расстояние между векторами весов на соседних итерациях
            dist = np.sqrt(np.sum(np.square(self.weights - prev_weights)))
            if dist <= self.min_change:
                print(f'Алгоритм сошелся на {step} итерации')
                break
            
        return self
    
    def predict(self, X):
        dot_prod = X.dot(self.weights)
        pred = self.sigmoid(dot_prod)
        return pred
        
    def sigmoid(self, dot_prod):
        return 1 / (1 + np.exp(-dot_prod))
    
    def gradient(self, X, Y, prob):
        grad = np.zeros(X.shape[1])
        for i in range(X.shape[1]):
            grad[i] = - np.sum(Y * X[:, i] * (1 - prob)) / self.lenth + self.C * self.weights[i]
        return grad

In [7]:
clf = LogReg()
clf.fit(X, Y)
pred = clf.predict(X)

Алгоритм сошелся на 243 итерации


array([0.44922586, 0.69020649, 0.42798423, 0.6983426 , 0.61440485,
       0.58839854, 0.70203837, 0.52888936, 0.41971211, 0.59584612,
       0.4997746 , 0.49906568, 0.47920412, 0.59768339, 0.64958906,
       0.5687875 , 0.47086925, 0.62138228, 0.66983526, 0.74475216,
       0.54577233, 0.01543129, 0.41544251, 0.44921358, 0.61272547,
       0.53710786, 0.69773006, 0.75864364, 0.47126841, 0.58722554,
       0.46196938, 0.48523066, 0.78569546, 0.7499381 , 0.51786719,
       0.660825  , 0.70493808, 0.66732057, 0.58362091, 0.69606071,
       0.64785173, 0.44015592, 0.59468979, 0.46013921, 0.53033774,
       0.64207864, 0.8042442 , 0.47228757, 0.55307849, 0.55490638,
       0.65095744, 0.58562266, 0.57476233, 0.70849238, 0.43468645,
       0.4709801 , 0.50374559, 0.70893964, 0.57090302, 0.70239483,
       0.6692237 , 0.65309035, 0.6969174 , 0.7260847 , 0.53189639,
       0.64652243, 0.53656743, 0.00550396, 0.56367596, 0.66559481,
       0.64259021, 0.51360061, 0.75324991, 0.45684737, 0.43295

In [8]:
Y_true = list(map(lambda y: 0 if y < 0 else 1 , Y))

In [9]:
round(roc_auc_score(Y_true, pred), 3)

0.927

In [10]:
clf2 = LogReg(C=10)
clf2.fit(X, Y)
pred2 = clf2.predict(X)

Алгоритм сошелся на 7 итерации


array([0.49440255, 0.529496  , 0.4957368 , 0.52822771, 0.52096641,
       0.50626044, 0.53008234, 0.50861803, 0.48873776, 0.51757601,
       0.50191648, 0.50154946, 0.49341161, 0.50558998, 0.52228362,
       0.50434259, 0.4929596 , 0.5191125 , 0.52195573, 0.53489214,
       0.50218015, 0.38131965, 0.48731919, 0.49206967, 0.51203573,
       0.50395002, 0.53069129, 0.54107763, 0.49839379, 0.5135726 ,
       0.4945121 , 0.50247534, 0.54600482, 0.53262053, 0.5073897 ,
       0.51378546, 0.53417603, 0.52300976, 0.50720322, 0.52383035,
       0.51828015, 0.49704681, 0.51270112, 0.49238438, 0.50703299,
       0.51972797, 0.54388304, 0.49726854, 0.50568197, 0.51436456,
       0.51874495, 0.52003243, 0.50555806, 0.53033633, 0.48905037,
       0.50576537, 0.50555325, 0.53182041, 0.50860904, 0.53190478,
       0.52459388, 0.51539334, 0.52853379, 0.53113754, 0.50373856,
       0.52590253, 0.5046051 , 0.31746315, 0.50827102, 0.53065557,
       0.51182656, 0.50893571, 0.54016531, 0.49300493, 0.48959

In [11]:
round(roc_auc_score(Y_true, pred2), 3)

0.936