# Logistic Regression

![Logistic Regression](https://drive.google.com/uc?export=view&id=1_zRhqUmMdznHJNGWQuH050wvr-5n_2WS)

**[Click Here](https://youtu.be/l8VEth6leXA) Fajne YT video.**

W statystyce regresja logistyczna służy do modelowania prawdopodobieństwa wystąpienia określonej klasy lub zdarzenia. 

Regresja logistyczna jest podobna do regresji liniowej, ponieważ obie polegają na oszacowaniu wartości parametrów użytych w równaniu predykcji na podstawie danych uczących. Regresja liniowa przewiduje wartość pewnej ciągłej zmiennej zależnej. Podczas gdy regresja logistyczna przewiduje prawdopodobieństwo zdarzenia lub klasy zależnej od innych czynników. Zatem wynik regresji logistycznej zawsze mieści się w przedziale od 0 do 1. Ze względu na tę właściwość jest powszechnie używany do celów klasyfikacji.


## Logistic Model
Mając zmienne *x<sub>1</sub>, x<sub>2</sub>, x<sub>3</sub> … x<sub>n</sub>*. 

Niech wyjście binarne oznaczymy przez *Y*, które może przyjmować wartości 0 lub 1.
Niech *p* będzie prawdopodobieństwem *Y = 1*, możemy to oznaczyć jako *p = P(Y=1)*.
Matematyczny związek między tymi zmiennymi można zapisać jako:


$$ ln(\frac{p}{1-p}) = b_0 + b_1x_1 + b_2x_2 + b_3x_3 ... b_nx_n $$

Termin $\frac{p}{1-p}$ jest znany jako *odds/szanse* i oznacza prawdopodobieństwo zajścia zdarzenia.

Jednak $ln(\frac{p}{1-p})$ jest znany jako *log odds/logarytm szans* i jest po prostu używany do odwzorowania prawdopodobieństwa, które leży między 0 a 1, na zakres pomiędzy  $(-\infty, +\infty)$. Wyrażenia $b_0, b_1, b_2 ...$ to parametry (lub wagi), które będziemy oszacować podczas treningu.

To to tylko podstawowa matematyka kryjąca się za tym, co zamierzamy zrobić. Interesuje nas prawdopodobieństwo *p* w tym równaniu. Upraszczamy więc równanie, aby otrzymać wartość p:


1. Termin logarytm $ln$ mozna usunac podnoszac do potegi  $e$:  
$$ \frac{p}{1-p}  = e^{b_0 + b_1x_1 + b_2x_2 + b_3x_3 ... b_nx_n} $$
2. Teraz możemy łatwo uprościć, aby uzyskać wartość $p$:  
$$ p = \frac{e^{b_0 + b_1x_1 + b_2x_2 + b_3x_3 ... b_nx_n}}{1 + e^{b_0 + b_1x_1 + b_2x_2 + b_3x_3 ... b_nx_n}} $$
$$ albo $$
$$ p = \frac{1}{1 + e^{-(b_0 + b_1x_1 + b_2x_2 + b_3x_3 ... b_nx_n)}} $$   

W rzeczywistości okazuje się, że jest to równanie *funkcji sigmoidalnej*, która jest szeroko stosowana w innych aplikacjach uczenia maszynowego. *Funkcja sigmoidalna* jest dana wzorem:
$$ S(x) = \frac{1}{1+e^{-x}} $$

Teraz będziemy używać powyższego równania wyprowadzonego do naszych przewidywań. Wcześniej wytrenujemy nasz model, aby uzyskać wartości naszych parametrów $b_0, b_1, b_2 ...$, które dają najmniejszy błąd. W tym miejscu pojawia się funkcja błędu lub straty.

## Funkcja straty
Strata (koszt)  jest w zasadzie błędem w naszej przewidywanej wartości. Innymi słowy, jest to różnica między naszą przewidywaną wartością a rzeczywistą wartością. Do obliczenia błędu użyjemy [funkcji utraty L2](https://afteracademy.com/blog/what-are-l1-and-l2-loss-functions). Teoretycznie możesz użyć dowolnej funkcji do obliczenia błędu. Funkcję tę można rozłożyć jako:
1. Niech rzeczywista wartość będzie $y_i$. Niech wartość przewidywana za pomocą naszego modelu będzie oznaczona jako $\bar{y_i}$. Znajdź różnicę między rzeczywistą a przewidywaną wartością.
2. Podnieś tę różnicę do kwadratu.
3. Znajdź sumę wszystkich wartości w danych treningowych.
$$ L = \sum_{i = 1}^n(y_i - \bar{y_i})^2 $$

Teraz, gdy mamy błąd, musimy zaktualizować wartości naszych parametrów, aby zminimalizować ten błąd. W tym miejscu faktycznie ma miejsce „uczenie się”, ponieważ nasz model aktualizuje się na podstawie swoich poprzednich danych wyjściowych, aby uzyskać dokładniejsze dane wyjściowe w następnym kroku. Będziemy używać *Algorytmu opadania gradientu* do oszacowania naszych parametrów. Innym powszechnie stosowanym algorytmem jest [Oszacowanie maksymalnego prawdopodobieństwa](https://en.wikipedia.org/wiki/Maximum_likelihood_estimation).


## Algorytm gradient descent

Pochodna cząstkowa funkcji przy jej minimalnej wartości jest równa 0. Tak więc metoda spadku gradientu zasadniczo wykorzystuje tę koncepcję do oszacowania parametrów lub wag naszego modelu poprzez minimalizację funkcji straty. [Kliknij tutaj](https://www.youtube.com/watch?v=4PHI11lX11I), aby uzyskać bardziej szczegółowe wyjaśnienie, jak działa opadanie gradientu.
Dla uproszczenia załóżmy, że nasze wyjście zależy tylko od jednej cechy $x$. Możemy więc przepisać nasze równanie jako:
$$ \bar{y_i} = p = \frac{1}{1 + e^{-(b_0 + b_1x_i)}} $$
W związku z tym musimy oszacować wartości wag $b_0$ i $b_1$ na podstawie naszych danych treningowych.
1. Początkowo niech $b_0=0$ i $b_1=0$. Niech $L$ będzie współczynnikiem uczenia się. Szybkość uczenia się kontroluje, o ile wartości $b_0$ i $b_1$ są aktualizowane na każdym etapie procesu uczenia się. Niech $L = 0,001 $.
2. Oblicz pochodną cząstkową względem $b_0$ i $b_1$. Wartość pochodnej cząstkowej powie nam, jak daleko jest funkcja straty od jej wartości minimalnej. Jest to miara tego, jak bardzo nasze wagi muszą zostać zaktualizowane, aby osiągnąć minimalny lub idealnie 0 błąd. Jeśli masz więcej niż jedną cechę, musisz obliczyć pochodną cząstkową dla każdej wagi $b_0$, $b_1$ ... $b_n$, gdzie $n$ to liczba cech. 

## Implementing the Model

In [None]:
# Importing libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from math import exp
plt.rcParams["figure.figsize"] = (10, 6)

# Load the data
data = pd.read_csv("Social_Network_Ads.csv")
data.head()

In [None]:
# Visualizing the dataset
plt.scatter(data['Age'], data['Purchased'])
plt.show()

# Divide the data to training set and test set
X_train, X_test, y_train, y_test = train_test_split(data['Age'], data['Purchased'], test_size=0.20)

In [None]:
# Creating the logistic regression model

# Helper function to normalize data
def normalize(X):
    return X - X.mean()

# Method to make predictions
def predict(X, b0, b1):
    return np.array([1 / (1 + exp(-1*b0 + -1*b1*x)) for x in X])

# Method to train the model
def logistic_regression(X, Y):

    X = normalize(X)

    # Initializing variables
    b0 = 0
    b1 = 0
    L = 0.001
    epochs = 300

    for epoch in range(epochs):
        y_pred = predict(X, b0, b1)
        D_b0 = -2 * sum((Y - y_pred) * y_pred * (1 - y_pred))  # pochodna funkcji straty dla  b0
        D_b1 = -2 * sum(X * (Y - y_pred) * y_pred * (1 - y_pred))  # pochodna funkcji straty dla b1
        b0 = b0 - L * D_b0
        b1 = b1 - L * D_b1
    
    return b0, b1

In [None]:
# Training the model
b0, b1 = logistic_regression(X_train, y_train)

# Making predictions
# X_test = X_test.sort_values()  # Sorting values is optional only to see the line graph
X_test_norm = normalize(X_test)
y_pred = predict(X_test_norm, b0, b1)
y_pred = [1 if p >= 0.5 else 0 for p in y_pred]

plt.clf()
plt.scatter(X_test, y_test)
plt.scatter(X_test, y_pred, c="red")
# plt.plot(X_test, y_pred, c="red", linestyle='-', marker='o') # Only if values are sorted
plt.show()

# The accuracy
accuracy = 0
for i in range(len(y_pred)):
    if y_pred[i] == y_test.iloc[i]:
        accuracy += 1
print(f"Accuracy = {accuracy / len(y_pred)}")

In [None]:
# Making predictions using scikit learn
from sklearn.linear_model import LogisticRegression

# Create an instance and fit the model 
lr_model = LogisticRegression()
lr_model.fit(X_train.values.reshape(-1, 1), y_train.values.reshape(-1, 1))

# Making predictions
y_pred_sk = lr_model.predict(X_test.values.reshape(-1, 1))
plt.clf()
plt.scatter(X_test, y_test)
plt.scatter(X_test, y_pred_sk, c="red")
plt.show()

# Accuracy
print(f"Accuracy = {lr_model.score(X_test.values.reshape(-1, 1), y_test.values.reshape(-1, 1))}")