## Przygotowanie

Przed rozpoczęciem pracy z notatnikiem proszę zmienić jego nazwę dodając na początku numer albumu, imię i nazwisko.
{nr_albumu}\_{imię}\_{nazwisko}\_{nazwa}

Po wykonaniu wszystkich zadań proszę przesłać wypełniony notatnik przez platformę ELF za pomocą formularza "Prześlij projekt" w odpowiedniej sekcji. 

## Regresja logistyczna z wielomianowymi cechami

Poznaliśmy dwa algorytmy służące do rozwiązywania problemów klasyfikacji binarnej. Oba z nich bazowały na budowie sztucznego neuronu. Pierwszym z nich był prosty perceptron liniowy, który wykorzystywał skokową funkcję aktywacji do mapowania ważonej sumy wejść na odpowiedź będącą $0$ lub $1$. Algorytm ten wykorzystywał również dedykowaną metodę uczenia, zwaną metodą perceptronową. Drugim poznanym algorytmem była regresja logistyczna, w której funkcja aktywacji została zamieniona ze skokowej na nieliniową funkcję sigmoidalną. Zamiana funkcji aktywacji na funkcję ciągłą otworzyło możliwości na optymalizacje algorytmu z wykorzystaniem metod gradientowych. Takie podejście do optymalizacji wyglądało bardzo podobnie jak w przypadku modelu regresji liniowej. Oba algorytmy miały jeden duży mankament - były w stanie stworzyć liniową granicę decyzyjną. Oznacza to, że w przypadku dwuwymiarowym granicą decyzyjną była prosta, w trójwymiarowym płaszczyzna, a $n$-wymiarowym ($n>3$) hiperpłaszczyzna. Przez to ograniczenie algorytmy nigdy nie będą zbieżne, jeśli zbiór danych nie będzie liniowo separowalny. Takie działanie jest mocno ograniczające, ponieważ bardzo rzadko będziemy mieć do czynienia ze zbiorem idealnie liniowo rozdzielnym.

Nietrudno wyobrazić sobie sytuację, gdy próbki z przeciwnych klas formują przeróżne kształty. Weźmy przykładowo zbiór danych, w którym próbki z dwóch klas formują dwa oddzielne okręgi - wewnętrzny i zewnętrzny.

![circle_data.png](attachment:circle_data.png)

W takim przypadku nasz algorytm będzie próbował rozwiązać ten problem za pomocą liniowej granicy decyzyjnej, co oczywiście nigdy nie da dobrego wyniku.

![circle_data_linear_decision_boundary.png](attachment:circle_data_linear_decision_boundary.png)

Czy można zmodyfikować wykorzystywane przez nas algorytmy, tak aby były w stanie rozwiązać powyższy problem i podobne problemy z natury nieliniowo separowalnych? Odpowiedź brzmi tak i z pomocą przychodzi mechanizm poznany przy okazji regresji liniowej.

### Wielomianowe cechy

Algorytm regresji wielomianowej polegał na dodaniu nowych, wielomianowych cech do zestawu danych. Dzięki temu zabiegowi można było stworzyć nieliniową funkcję regresji. Okazuje się, że ta sama sztuczka zadziała w przypadku klasyfikacji. Sam algorytm nie zmieni się, jeśli implementacja została stworzona w taki sposób, by obsługiwać dowolną ilość cech. Jedyne co trzeba wykonać przed podaniem zestawu danych na wejście algorytmu to dodanie nowych cech, które są potęgami i kombinacją oryginalnych cech.

Przykłady rozszerzenia cech dla kolejnych stopni:

* stopień 2 $[a, b] -> [1, a^1, b^1, a^2, a^1b^1, b^2]$
* stopień 3 $[a, b] -> [1, a^1, b^1, a^2, a^1b^1, b^2, a^3, a^2b^1, a^1b^2, b^3]$
* stopień 4 $[a, b] -> [1, a^1, b^1, a^2, a^1b^1, b^2, a^3, a^2b^1, a^1b^2, b^3, a^4, a^3b^1, a^2b^2, a^1b^3, b^4]$

Zwiększanie stopnia potęgi powoduje wygenerowanie większej ilości cech, które pozwalają tworzyć bardziej skomplikowane granice decyzyjne i lepiej dopasować się do danych treningowych. Niesie to jednak ryzyko przetrenowania, co w rezultacie przełoży się na słabe wyniki na danych testowych.

_W naszym przypadku, ze względu na walory dydaktyczne i wizualne, będziemy zajmować się przypadkiem z dwoma cechami (x) w oryginalnym zestawie danych. Jednak to podejście jest ogólne i może być zastosowane dla większej ilości cech._

### Efekt dodania wielomianowych cech

Już rozszerzenie cech dla drugiej potęgi powoduje, że możliwe staje się rozwiązanie problemu klasyfikacji przedstawionego wyżej.

![circle_data_circle_decision_boundary.png](attachment:circle_data_circle_decision_boundary.png)

### Wizualizacja granicy decyzyjnej

Wizualizacja nieliniowej granicy decyzyjnej jest bardziej skomplikowana niż w przypadku prostej separującej dwie klasy. Aby stworzyć prostą, wystarczyło skorzystać ze wzoru na prostą i wykorzystać zwrócone przez model wagi. W przypadku, gdy tworzona jest nieliniowa granica decyzyjna, lepiej jest wykorzystać inne podejście. Należy wygenerować sobie punkty z zakresu, który chcemy przedstawić, a następnie stworzyć wszystkie kombinacje tych punktów, do tego właśnie służy funkcja 'np.meshgrid()' [(Wyjaśnienie działania z przykładami).](https://stackoverflow.com/questions/36013063/what-is-the-purpose-of-meshgrid-in-python-numpy) Następnie dla każdego punktu należy wykonać predykcje naszym wytrenowanym klasyfikatorem. Należy pamiętać o uprzednim przetransformowaniu cech do postaci wielomianowej.

Przykładowy kod, który tworzy wykres danych wraz z granicą decyzyjną. W tym przypadku obszar wykresu został ograniczony do wartości od $-1.5$ do $1.5$. Oczywiście można to robić lepiej, na podstawie zakresu danych wejściowych.

```python
def plot_data_with_decision_boundary(X, Y, degree, clf):
u = np.linspace(-1.5, 1.5, 1000)
v = np.linspace(-1.5, 1.5, 1000)

U, V = np.meshgrid(u, v)

X_poly = mapFeature(U.ravel(), V.ravel(), degree)
Z = clf.predict(X_poly)

# reshape U, V, Z back to matrix
U = U.reshape((len(u), len(v)))
V = V.reshape((len(u), len(v)))
Z = Z.reshape((len(u), len(v)))

# plot data
plt.scatter(X[:, 0], X[:, 1], c=Y)

# plot decision boundary
plt.contour(U, V, Z, levels=[0.5], cmap="Greys_r")

plt.show()
```

### Zadanie 1

Wczytaj zbiór danych znajdujący się w pliku `circles.csv` i stwórz wykres próbek, oznaczając różne klasy. Następnie wykorzystaj zaimplementowany algorytm regresji logistycznej do znalezienia granicy decyzyjnej. Narysuj stworzoną granicę decyzyjną. Jaki jest wniosek?

In [129]:
class LogisticRegression:
    weights = []
    error = []

    def start_weights(self, X, start_value):
        weights = []
        for i in range(len(X[0])):
            weights.append([start_value])
        return np.array(weights)

    def sumator(self, X, weights):
        return X @ weights

    def sigmoid(self, total_sums):
        return np.array([[1 / (1 + math.exp(-local_sum))] for [local_sum] in total_sums])

    def count_error(self, f_x, y):
        cost = -y * np.log(f_x) - ((1 - y) * np.log(1 - f_x))
        final_cost = sum(cost) / len(cost)
        return final_cost

    def count_new_weights(self, f_x, X, Y, weights, alpha):
        derivative = np.array((np.sum((f_x - Y) * X, axis=0) / len(X)))
        derivative = np.array([derivative]).T
        new_weights = weights - (alpha * derivative)
        return new_weights

    def fit(self, X, Y, epochs=1000, alpha=0.01, weights_start_value=0.5):
        current_weights = self.start_weights(X, weights_start_value)
        error = []
        weights = []
        for i in range(epochs):
            total_sum = self.sumator(X, current_weights)
            f_x = self.sigmoid(total_sum)
            current_weights = self.count_new_weights(f_x, X, Y, current_weights, alpha)
            current_error = self.count_error(f_x, Y)
            error.append(current_error)
            weights.append(current_weights)
        self.weights = weights
        self.error = error
        return weights, error

    def predict(self, X):
        print(self.weights[-1])
        return self.sigmoid(self.sumator(X, self.weights[-1])) > 0.5


def plot_data_with_decision_boundary(X, Y, degree, clf):
    u = np.linspace(-0.5, 1.5, 1000)
    v = np.linspace(-0.5, 1.5, 1000)

    U, V = np.meshgrid(u, v)

    X_poly = mapFeature(U.ravel(), V.ravel(), degree)
    Z = clf.predict(X_poly)

    # reshape U, V, Z back to matrix
    U = U.reshape((len(u), len(v)))
    V = V.reshape((len(u), len(v)))
    Z = Z.reshape((len(u), len(v)))

    # plot data
    plt.scatter(X[:, 1], X[:, 2], c=Y)

    # plot decision boundary
    plt.contour(U, V, Z, levels=[0.5], cmap="Greys_r")

    plt.show()


def normalize(X):
    scaler = MinMaxScaler()
    scaler.fit(X)
    X = scaler.transform(X)
    return X

### Zadanie 2

Stwórz funkcje, `map_features(x1, x2, degree)`, która dla dwóch cech stworzy wszystkie wielomianowe kombinacje tych cech aż do potęgi określonej za pomocą zmiennej `degree`. Są dwie możliwości implementacji tej funkcji. Może przyjmować dwie liczby i zwracać wektor (1-wymiarową tablicę) lub przyjmować dwa wektory i zwracać macierz (2-wymiarową tablicę).  

Przykłady rozszerzenia cech dla kolejnych stopni:

* `degree = 2` $[a, b] -> [1, a^1, b^1, a^2, a^1b^1, b^2]$
* `degree = 3` $[a, b] -> [1, a^1, b^1, a^2, a^1b^1, b^2, a^3, a^2b^1, a^1b^2, b^3]$
* `degree = 4` $[a, b] -> [1, a^1, b^1, a^2, a^1b^1, b^2, a^3, a^2b^1, a^1b^2, b^3, a^4, a^3b^1, a^2b^2, a^1b^3, b^4]$

_Wartość $1$, która znajduje się na początku, to wyraz wolny i jest dodana dla wagi $w_0$. W przypadku, gdy w algorytmie waga $w_0$ aktualizowana jest osobno, można ją pominąć._

In [130]:
def mapFeature(X, X2, degree):
    X = np.column_stack((X, X2))
    X = [[1, *x] for x in X]
    X = np.array(X)
    for i in range(2, degree + 1):
        temp_a_index = i
        temp_b_index = 0
        for j in range(i + 1):
            new_a_column = np.power(X[:, 1], temp_a_index)
            new_b_column = np.power(X[:, 2], temp_b_index)
            new_column = np.multiply(new_a_column, new_b_column)
            X = np.column_stack((X, new_column))
            temp_a_index -= 1
            temp_b_index += 1
    return X

### Zadanie 3

Wykorzystaj napisaną w zadaniu 2 funkcję do stworzenia dodatkowych cech w zestawie danych `circles.csv`. Tak zmieniony zestaw danych podaj na wejście klasyfikatora regresji logistycznej. Stwórz wykres z narysowaną granicą decyzyjną.

Powtórz tą czynność dla różnych wartości `degree` i porównaj wykresy ze sobą.

In [133]:
df = pd.read_csv('circles.csv', sep=',')
X = df[['x1', 'x2']].values
y = df['y'].values.reshape(df['y'].shape[0], 1)

X = normalize(X)
X = [[1, *x] for x in X]

X = np.array(X)
Y = np.array(y)

logistic_regression = LogisticRegression()

X = mapFeature(X[:, 1], X[:, 2], 2)

counted_weights, errors = logistic_regression.fit(X, Y, epochs=10000, alpha=0.1, weights_start_value=1)

print(logistic_regression.weights[-1])


[[-0.86501982]
 [ 4.34705114]
 [ 4.34859548]
 [-5.86507895]
 [ 2.62556633]
 [-5.86370083]]


Z niewiadomych przyczyn, narysowanie w Jupyter Notebook'u nie chce się wykonać pomimo identycznego kodu jak w PyCharm. Dlatego dodaję tutaj same wizualizacje dla kolejnych stopni wielomianu.
Stopnia 2:
![poly_2.png](attachment:poly_2.png)
Stopnia 3:
![poly_3.png](attachment:poly_3.png)
Stopnia 4:
![poly_4.png](attachment:poly_4.png)

Da się zauważyć, że dokładność rośnie dla kolejnych stopni, dla stopnia 5 różnica jest niemal niezauważalna. Na podstawie rysunku można stwierdzić, że wagi jeszcze nie są w najbardziej optymalnych wartościach.