#  Wprowadzenie do głębokiego uczenia (Deep Learning), perceptronu, MLP




﻿![](https://datascientest.com/en/files/2021/01/Machine-learning-def-.png)




W tych zajęciach wprowadzimy pojęcia związane z głębokim uczeniem, począwszy od pojedynczego perceptronu, aż po wielowarstwowe sieci neuronowe typu MLP (Multi-Layer Perceptron). Poznamy podstawy sieci neuronowych, rolę funkcji aktywacji, ideę wielowarstwowych architektur, a także koncepcję gradientu i wstecznej propagacji błędów (backpropagation) – oczywiście bez wchodzenia w skomplikowane równania matematyczne.


## **Czym jest Deep Learning?**

- Deep Learning to poddziedzina uczenia maszynowego, która osiągnęła w ostatnich latach spektakularne wyniki w wielu dziedzinach, takich jak rozpoznawanie obrazów, tłumaczenie maszynowe, analiza tekstu czy sterowanie grami.
- Głębokie sieci neuronowe składają się z wielu warstw przetwarzających dane, co pozwala im hierarchicznie wyodrębniać wzorce o rosnącej złożoności.
- W przeciwieństwie do tradycyjnego uczenia maszynowego, deep learning często eliminuje konieczność ręcznego tworzenia cech (feature engineering), pozwalając modelom "nauczyć się" optymalnych reprezentacji bezpośrednio z danych.
- Postępy w deep learningu doprowadziły do powstania modeli, które dorównują lub przewyższają możliwości ludzkich ekspertów w wielu złożonych zadaniach.

---



## **Perceptron i jednostka liniowa (The Linear Unit)**

### Podstawy perceptronu
Perceptron to najprostszy model neuronu w sztucznej sieci neuronowej. Przyjmuje pewne wejścia, mnoży je przez odpowiednie wagi, dodaje obciążenie (bias) i wylicza sumę liniową.



**Jednostka liniowa: 𝑦 = 𝑤𝑥 + 𝑏**

- Wejście: x  
- Waga: w  
- Obciążenie (bias): b  
- Wyjście: y = w*x + b

W ten sposób pojedynczy perceptron jest modelem liniowym. Może reprezentować proste zależności, takie jak równanie prostej na wykresie.

![Untitled%207f31d7e7baa34ad182834df4a6f789de/Untitled.png](https://i.ibb.co/jGQrQDX/Untitled.png)

W tym przykładzie widzimy pojedynczy neuron z jednym wejściem x. Waga w oraz bias b pozwalają regulować nachylenie i położenie prostej.



## **Przykład: jednostka liniowa jako model**

Rozważmy zbiór danych dotyczący płatków śniadaniowych (80 Cereals). Jeśli nasz model miałby przewidywać kaloryczność na podstawie zawartości cukru, uzyskamy równanie w stylu:

kalorie = w*(cukier) + b

Jeżeli w = 2,5 a b = 90, to dla 5 gramów cukru model da kalorie = 2,5*5 + 90 = 102,5. To nadal model liniowy. Dodając inne cechy, np. błonnik czy białko, neuron będzie miał więcej wag, ale nadal pozostanie liniowy.

![Untitled](https://i.ibb.co/xhC1X7k/Untitled-1.png)

In [3]:
import pandas as pd

cereal = pd.read_csv('data/cereal.csv')


display(cereal.head(),cereal[['sugars','calories' ]].head())

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
0,100% Bran,N,C,70,4,1,130,10.0,5.0,6,280,25,3,1.0,0.33,68.402973
1,100% Natural Bran,Q,C,120,3,5,15,2.0,8.0,8,135,0,3,1.0,1.0,33.983679
2,All-Bran,K,C,70,4,1,260,9.0,7.0,5,320,25,3,1.0,0.33,59.425505
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.5,93.704912
4,Almond Delight,R,C,110,2,2,200,1.0,14.0,8,-1,25,3,1.0,0.75,34.384843


Unnamed: 0,sugars,calories
0,6,70
1,8,120
2,5,70
3,0,50
4,8,110


### **Jednostki liniowe w Kerasie**

Najprostszym sposobem na stworzenie modelu w Kerasie jest użycie funkcji **`keras.Sequential`**, która tworzy sieć neuronową jako stos warstw. Możemy tworzyć modele podobne do tych pokazanych powyżej, używając gęstej warstwy (o której dowiemy się więcej w następnej lekcji).

Możemy zdefiniować liniowy model, który przyjmuje trzy cechy wejściowe ("cukry", "błonnik" i "białko") i generuje pojedyncze wyjście ("kalorie"), w następujący sposób:

```python
from tensorflow import keras
from tensorflow.keras import layers

# Utwórz sieć z 1 jednostką liniową
model = keras.Sequential([
    layers.Dense(units=1, input_shape=[3])
])
```

Przy pomocy pierwszego argumentu, **`units`**, określamy, jakie wyjście chcemy otrzymać. W tym przypadku wybieramy tylko "kalorie" i używamy **`units=1`**.

W drugim argumencie, **`input_shape`**, informujemy Kerasa o wymiarach wejść. Ustawienie **`input_shape=[3]`** oznacza, że model będzie przyjmował trzy cechy jako wejście ("cukry", "błonnik" i "białko").





### Dlaczego **`input_shape`** jest listą w Pythonie?

Powyższe cechy są ułożone w kolumnach, więc zawsze będziemy mieli **`input_shape=[liczba_kolumn]`**. Keras używa listy tutaj, aby umożliwić użycie bardziej złożonych zestawów danych. Dane obrazowe, na przykład, mogą wymagać trzech wymiarów: **`[wysokość, szerokość, kanały]`**.

Zestaw danych 80 Cereals charakteryzuje się znacznie większą liczbą cech niż tylko "cukry". Jeśli zdecydujemy się na rozwinięcie modelu o dodatkowe cechy, takie jak zawartość błonnika lub białka, będzie to proste do zrealizowania. Wystarczy dodać więcej połączeń wejściowych do neuronu, jeden dla każdej dodatkowej cechy. Aby uzyskać wynik, pomnożymy każde wejście przez wagę jego połączenia, a następnie dodamy wszystkie wyniki razem, co jest bardzo proste.

Mamy trzy połączenia wejściowe: x0, x1 i x2, wraz z obciążeniem.

![Untitled](https://i.ibb.co/YT5ZywK/Untitled-2.png)

Równanie dla tego neuronu to 𝑦 = 𝑤0𝑥0 + 𝑤1𝑥1 + 𝑤2𝑥2 + 𝑏. Jednostka liniowa z dwoma wejściami pasuje do płaszczyzny, a jednostka z więcej wejściami niż to będzie pasować do hiperpłaszczyzny.


### Wiele wejść

Jeśli chcemy wykorzystać więcej cech wejściowych (x0, x1, x2 ...), dodajemy więcej wag i sumujemy ich iloczyny z odpowiednimi wejściami. Dla dwóch wejść mielibyśmy: y = w0*x0 + w1*x1 + b, co reprezentuje równanie płaszczyzny.

Przy większej liczbie wejść powstaje hiperpłaszczyzna w wielowymiarowej przestrzeni cech.



## **Przeskok do wielu warstw – MLP**

### Idea MLP

MLP (Multi-Layer Perceptron) to sieć neuronowa złożona z wielu warstw:

- Warstwa wejściowa (input)
- Jedna lub więcej warstw ukrytych (hidden layers)
- Warstwa wyjściowa (output)
Każda warstwa składa się z wielu neuronów (jednostek liniowych), a pomiędzy warstwami wprowadzamy nieliniowość poprzez funkcje aktywacji.


Sieci neuronowe zazwyczaj organizują swoje neurony w warstwy. Kiedy zbieramy razem jednostki liniowe, które mają wspólny zbiór wejść, otrzymujemy gęstą warstwę.

![Untitled](https://i.ibb.co/3TJjL14/Untitled-3.png)

Można rozważać każdą warstwę w sieci neuronowej jako przeprowadzającą stosunkowo prostą transformację. Dzięki stosowaniu wielu warstw, sieć neuronowa może przetwarzać swoje wejście w coraz bardziej złożonych sposobach. W dobrze wytrenowanej sieci neuronowej każda warstwa to transformacja, która przybliża nas trochę bardziej do rozwiązania.

### Warstwy ukryte i reprezentacje wewnętrzne

Gdy łączymy wiele warstw, pierwsze warstwy wyodrębniają proste wzorce, a kolejne, bardziej ukryte warstwy łączą je w coraz bardziej złożone reprezentacje. W efekcie MLP potrafi modelować nieliniowe i skomplikowane zależności.

---

## **Funkcje aktywacji**

Bez funkcji aktywacji dwie warstwy liniowe składają się nadal na model liniowy. Funkcja aktywacji wprowadza nieliniowość, np. ReLU (Rectified Linear Unit):

ReLU: max(0, x)

Funkcja ReLU "prostuje" ujemne wartości do zera, a dla wartości dodatnich rośnie liniowo. Dzięki temu sieć może dopasowywać skomplikowane, krzywoliniowe zależności.

![Untitled](https://i.ibb.co/mF55Qcd/Untitled-5.png)

W praktyce stosuje się też inne funkcje aktywacji, np. sigmoid, tanh czy softmax (dla zadań klasyfikacji).



Połączenie jednostki liniowej z prostownikiem daje jednostkę liniową prostowaną (ReLU). Z tego powodu funkcję prostownikową często nazywa się funkcją ReLU. Zastosowanie aktywacji ReLU do jednostki liniowej oznacza, że wynik jest równy max(0, w * x + b)

![Untitled](https://i.ibb.co/DM5x0q9/Untitled-6.png)

## **Architektura MLP**

MLP to sieć w pełni połączonych warstw (dense layers). Każda warstwa to zbiór neuronów, a każdy neuron w warstwie jest połączony ze wszystkimi neuronami warstwy poprzedniej.

![Untitled](https://i.ibb.co/C0MFmx6/Untitled-7.png)

Warstwy ukryte zawierają funkcje aktywacji, warstwa wyjściowa może być liniowa (regresja) lub mieć inną aktywację (np. softmax dla klasyfikacji wieloklasowej).



## Budowanie modeli sekwencyjnych

Model sekwencyjny, który używaliśmy, łączy ze sobą listę warstw w kolejności od pierwszej do ostatniej. Pierwsza warstwa otrzymuje wejście, a ostatnia warstwa produkuje wyjście. Powstaje w ten sposób model przedstawiony na powyższym diagramie.

```
from tensorflow import keras
from tensorflow.keras import layers

model = keras.Sequential([
    # the hidden ReLU layers
    layers.Dense(units=4, activation='relu', input_shape=[2]),
    layers.Dense(units=3, activation='relu'),
    # the linear output layer
    layers.Dense(units=1),
])

```


## **Koncepcja gradientu i backpropagation**

### Gradient i minimalizacja straty

- Sieć neuronowa jest trenowana poprzez minimalizację funkcji straty, która mierzy różnicę między predykcjami a wartościami docelowymi.
- Gradient funkcji straty względem wag mówi nam, w jakim kierunku powinniśmy zmieniać wagi, aby zmniejszyć błąd.
- Spadek gradientu (Gradient Descent) polega na iteracyjnym dostosowywaniu wag w kierunku przeciwnym do gradientu, co prowadzi do minimalizacji straty.


## **Optymalizator - Stochastyczny spadek gradientu**

W uczeniu maszynowym do optymalizacji wag sieci używa się algorytmów nazywanych optymalizatorami. Najczęściej stosowaną rodziną algorytmów optymalizacji jest Stochastyczny Spadek Gradientu (SGD).

SGD to iteracyjny algorytm, który trenuje sieć w krokach. W każdym kroku:

- Wybierana jest próbka danych treningowych, przez którą sieć przetwarza predykcję.
- Obliczana jest różnica między predykcją a prawdziwymi wartościami.
- Wagi sieci są dostosowywane, aby zminimalizować stratę.

Proces ten jest powtarzany, aż wartość straty będzie wystarczająco mała (lub do momentu, gdy przestanie się dalej zmniejszać).

[https://i.imgur.com/rFI1tIk.mp4](https://i.imgur.com/rFI1tIk.mp4)


### Backpropagation

Backpropagation to algorytm, który oblicza gradienty dla wszystkich wag w sieci poprzez propagację błędu od warstwy wyjściowej do warstw wejściowych.

Choć matematycznie złożony, koncepcyjnie działa tak:
- Oblicz stratę na wyjściu sieci (różnicę między przewidywaną wartością a wartością rzeczywistą).
- Rozłóż ten błąd warstwa po warstwie, obliczając wpływ każdej wagi na końcową stratę.
- Na podstawie tego wpływu (gradientu) dostosuj wagi, aby w kolejnej iteracji wynik był bliższy oczekiwanemu.
m

## **Funkcje Straty i Optymalizacja**

Aby trenować sieć, potrzebujemy:
- Funkcji straty (loss function), np. MSE (Mean Squared Error) dla regresji, lub Cross-Entropy dla klasyfikacji.
- Optymalizatora, np. Adam, RMSProp czy klasyczny Stochastic Gradient Descent, który na podstawie obliczonych gradientów aktualizuje wagi w kierunku minimalizacji straty.



Powszechną funkcją straty dla problemów regresji jest średni błąd bezwzględny lub MAE. Dla każdej predykcji **`y_pred`**, MAE mierzy różnicę między prawdziwą wartością docelową **`y_true`** a przewidywaną przez model wartością **`abs(y_true - y_pred)`**.

Łączna funkcja straty MAE na zbiorze danych to średnia z tych bezwzględnych różnic.

Oprócz MAE, inne funkcje straty, które możesz spotkać dla problemów regresji, to średni błąd kwadratowy (MSE) lub straty Hubera (obie dostępne w Keras).

![VDcvkZN.png](https://i.ibb.co/9WCzNXk/VDcvkZN.png)

Podczas treningu modelu funkcja straty jest wykorzystywana jako wskazówka do znalezienia poprawnych wartości wag (niższa wartość straty jest lepsza). Innymi słowy, funkcja straty mówi sieci, jaki jest jej cel.



## **Dodawanie funkcji straty i optymalizatora**

Po zdefiniowaniu modelu można dodać funkcję straty i optymalizatora za pomocą metody kompilacji modelu:

```
model.compile(
    optimizer="adam",
    loss="mae",
)

```

Możemy określić funkcję straty i optymalizatora za pomocą tylko jednego łańcucha znaków. Można też uzyskać do nich bezpośredni dostęp przez API Keras - jeśli chcielibyśmy np. dostosować parametry - ale dla nas domyślne wartości będą działać dobrze..



![Untitled](https://i.ibb.co/7r9PLt4/Untitled-8.png)

## **Podsumowanie**

- Deep learning opiera się na głębokich sieciach neuronowych, zdolnych do modelowania nieliniowych i złożonych zależności.
- Podstawą jest perceptron (jednostka liniowa): y = w*x + b.
- Aby wyjść poza liniowość, dodajemy warstwy i funkcje aktywacji, tworząc MLP.
- Backpropagation i optymalizacja (spadek gradientu) pozwalają sieci uczyć się wag, które minimalizują funkcję straty.
- MLP jest podstawowym przykładem sieci neuronowej, stanowiąc fundament do poznania bardziej zaawansowanych architektur głębokiego uczenia.


