# Programming Assignment: Logistic regression 

In this assignment we will work with **logistic regression**, **l2-regularisation** and **gradient descent**. Main point of this task is to show how different parameters affect training.  
Original seven tasks will be presented in Russian.

**Tasks will be duplicated in english further in this assignment**

1. Загрузите данные из файла data-logistic.csv. Это двумерная выборка, целевая переменная на которой принимает значения -1 или 1.
2. Убедитесь, что выше выписаны правильные формулы для градиентного спуска. Обратите внимание, что мы используем полноценный градиентный спуск, а не его стохастический вариант!
3. Реализуйте градиентный спуск для обычной и L2-регуляризованной (с коэффициентом регуляризации 10) логистической регрессии. Используйте длину шага k=0.1. В качестве начального приближения используйте вектор (0, 0).
4. Запустите градиентный спуск и доведите до сходимости (евклидово расстояние между векторами весов на соседних итерациях должно быть не больше 1e-5). Рекомендуется ограничить сверху число итераций десятью тысячами.
5. Какое значение принимает AUC-ROC на обучении без регуляризации и при ее использовании? Эти величины будут ответом на задание. В качестве ответа приведите два числа через пробел. Обратите внимание, что на вход функции roc_auc_score нужно подавать оценки вероятностей, подсчитанные обученным алгоритмом. Для этого воспользуйтесь сигмоидной функцией: a(x) = 1 / (1 + exp(-w1 x1 - w2 x2)). 
6. Попробуйте поменять длину шага. Будет ли сходиться алгоритм, если делать более длинные шаги? Как меняется число итераций при уменьшении длины шага?
7. Попробуйте менять начальное приближение. Влияет ли оно на что-нибудь?

In [1]:
import numpy as np
from sklearn.metrics import roc_auc_score
import pandas
import math

## Task №1
*Ru*: Загрузите данные из файла data-logistic.csv. Это двумерная выборка, целевая переменная на которой принимает значения -1 или 1.

*En:* Load data from data-logistic.csv file. This is a two-dimensional dataframe, the target variable takes values -1 or 1.


In [2]:
df = pandas.read_csv('data-logistic.csv', header=None)
df.head()

Unnamed: 0,0,1,2
0,-1,-0.663827,-0.138526
1,1,1.994596,2.468025
2,-1,-1.247395,0.749425
3,1,2.309374,1.899836
4,1,0.849143,2.40775


In [3]:
X = df[[1, 2]]
y = df[0]

## Task №2
*Ru*: Убедитесь, что выше выписаны правильные формулы для градиентного спуска. Обратите внимание, что мы используем полноценный градиентный спуск, а не его стохастический вариант!

*En:* Make sure the formulas, that are written above, are correct for gradient descent. Please note that we are using full gradient descent, not it's stochastic version! 

I won't rewrite formulas here. They will appear in the next task in python code anyway

## Task №3
*Ru*: Реализуйте градиентный спуск для обычной и L2-регуляризованной (с коэффициентом регуляризации 10) логистической регрессии. Используйте длину шага k=0.1. В качестве начального приближения используйте вектор (0, 0).

*En:* Implement gradient descent for logistic regression with L2-regularized and without it (with a regularization factor of 10) . Use stride length k = 0.1. Use the vector (0, 0) as an initial guess. 

In [4]:
def grad_step(w1, w2, x, y, k, C):
    sum_1 = 0
    sum_2 = 0
    l = len(y)
    
    for i in range(1, len(y)):
        denominator = 1.0 + math.exp(-y[i]*(w1*x[1][i]+w2*x[2][i]))
        sum_1 +=y[i]*x[1][i]*(1.0 - 1.0/ denominator)
        sum_2 +=y[i]*x[2][i]*(1.0 - 1.0/ denominator)
    w1 = w1 + k/l*sum_1 - k*C*w1
    w2 = w2 + k/l*sum_2 - k*C*w2
    return w1, w2

In [5]:
def grad(w1, w2, X, y, k=0.1, C=0.0, i_max = 10000):
    i = 0
    e = 1
    w1_prev, w2_prev = w1, w2
    while i < i_max: 

        w1, w2 = grad_step(w1, w2, X, y, k, C)
        i = i + 1
        e = math.sqrt((w1 - w1_prev) **2 + (w2 - w2_prev) ** 2)

        if i >= i_max or e <= err:
            print("stopped at", i,"-th step; error:", e)
            break
            
        w1_prev, w2_prev = w1, w2
    return w1, w2

## Task №4
*Ru*: Запустите градиентный спуск и доведите до сходимости (евклидово расстояние между векторами весов на соседних итерациях должно быть не больше 1e-5). Рекомендуется ограничить сверху число итераций десятью тысячами.

*En:* Start gradient descent and bring it to convergence (the Euclidean distance between the weight vectors at adjacent iterations should be no more than 1e-5). We strongly recommend to limit the number of iterations from above to ten thousand. 

In [6]:
k=0.1
#C = 10
err=1e-5

In [7]:
w1 = 0.0 
w2 = 0.0
w1, w2 = grad(w1, w2, X, y, C=10)

stopped at 8 -th step; error: 4.756507634923105e-06


## Task №5
*Ru*:  Какое значение принимает AUC-ROC на обучении без регуляризации и при ее использовании? Эти величины будут ответом на задание. В качестве ответа приведите два числа через пробел. Обратите внимание, что на вход функции roc_auc_score нужно подавать оценки вероятностей, подсчитанные обученным алгоритмом. Для этого воспользуйтесь сигмоидной функцией: a(x) = 1 / (1 + exp(-w1 x1 - w2 x2)).

*En:* What is the value of AUC-ROC in learning without regularization and when using it? These values will be the answer to the task. Give two numbers separated by spaces as your answer. Please note that the input to the roc_auc_score function must be fed with the probability estimates calculated by the trained algorithm. To do this, use the sigmoid function: a (x) = 1 / (1 + exp (-w1 x1 - w2 x2)). 

In [8]:
w1_no_reg = 0.0 
w2_no_reg = 0.0
w1_no_reg, w2_no_reg = grad(w1_no_reg, w2_no_reg, X, y)#, i_max = 100)

stopped at 242 -th step; error: 9.976423992396325e-06


In [9]:
def sigmoid(x1, x2, w1, w2):
    return 1.0 / (1.0 + np.exp(-w1 * x1 - w2 * x2))

In [10]:
y_score = []
y_score_no_reg = []
for i in range(len(X[1][:])):
    y_score.append(sigmoid(X[1][i],X[2][i], w1, w2))
    y_score_no_reg.append(sigmoid(X[1][i],X[2][i], w1_no_reg, w2_no_reg))
#y_score

In [11]:
#y_score_no_reg

In [12]:
auc = roc_auc_score(y, y_score)
auc

0.9362857142857142

In [13]:
auc_no_reg = roc_auc_score(y, y_score_no_reg)
auc_no_reg

0.9270476190476189

## Task №6
*Ru*: Попробуйте поменять длину шага. Будет ли сходиться алгоритм, если делать более длинные шаги? Как меняется число итераций при уменьшении длины шага?

*En:* Try changing your stride length. Will the algorithm converge if you take longer steps? How does the number of iterations change with decreasing step length? 

In [14]:
k_list = [0.001, 0.002, 0.005, 0.01, 0.05, 0.08]

In [15]:
for i in k_list:
    w1, w2 = 0, 0
    y_score = []
    
    w1, w2 = grad(w1, w2, X, y, k=i, C=10)
    for j in range(len(X[1][:])):
        y_score.append(sigmoid(X[1][j],X[2][j], w1, w2))
    auc = roc_auc_score(y, y_score)
    print("with k=",i, "AUC-ROC is", auc, "\n")

stopped at 305 -th step; error: 9.90183826733714e-06
with k= 0.001 AUC-ROC is 0.936095238095238 

stopped at 179 -th step; error: 9.959682035765849e-06
with k= 0.002 AUC-ROC is 0.936190476190476 

stopped at 85 -th step; error: 9.935920467591153e-06
with k= 0.005 AUC-ROC is 0.936190476190476 

stopped at 47 -th step; error: 9.657902365290397e-06
with k= 0.01 AUC-ROC is 0.9362857142857142 

stopped at 10 -th step; error: 4.231489041175181e-06
with k= 0.05 AUC-ROC is 0.9362857142857142 

stopped at 5 -th step; error: 3.2925590680663877e-06
with k= 0.08 AUC-ROC is 0.9362857142857142 



**Сonclusion**: The smaller the stride length, the more steps the algorithm needs 

## Task №7
*Ru*: Попробуйте менять начальное приближение. Влияет ли оно на что-нибудь?

*En:* Try changing the initial approximation. Does it affect anything? 

In [16]:
w_list = [0.001, 0.002, 0.005, 0.01, 0.05, 0.08, 0.1, 0.3, 0.6, 1, 5, 10]

In [17]:
for w in w_list:
    y_score = []
    
    w1, w2 = grad(w, w, X, y, C=10)
    for j in range(len(X[1][:])):
        y_score.append(sigmoid(X[1][j],X[2][j], w1, w2))
    auc = roc_auc_score(y, y_score)
    print("with w=",w, "AUC-ROC is", auc, "\n")


stopped at 8 -th step; error: 4.57587911795355e-06
with w= 0.001 AUC-ROC is 0.9362857142857142 

stopped at 8 -th step; error: 4.395026667578739e-06
with w= 0.002 AUC-ROC is 0.9362857142857142 

stopped at 8 -th step; error: 3.851524963260124e-06
with w= 0.005 AUC-ROC is 0.9362857142857142 

stopped at 8 -th step; error: 2.9449397162643e-06
with w= 0.01 AUC-ROC is 0.9362857142857142 

stopped at 8 -th step; error: 3.855519586940872e-06
with w= 0.05 AUC-ROC is 0.9362857142857142 

stopped at 8 -th step; error: 7.990169957742937e-06
with w= 0.08 AUC-ROC is 0.9362857142857142 

stopped at 9 -th step; error: 2.751839531089911e-06
with w= 0.1 AUC-ROC is 0.9362857142857142 

stopped at 9 -th step; error: 6.587731633752266e-06
with w= 0.3 AUC-ROC is 0.9362857142857142 

stopped at 9 -th step; error: 9.219093788554277e-06
with w= 0.6 AUC-ROC is 0.9362857142857142 

stopped at 10 -th step; error: 2.7999164799843753e-06
with w= 1 AUC-ROC is 0.9362857142857142 

stopped at 10 -th step; error: 3.0

**Сonclusion:** Seems that the initial approximation does not really affect anything 