# Sieci neuronowe

## Czym one właściwie są?
Sieć neuronowa to taka funkcja, która uczy się zmieniać **rozkład jednej dystrybucji w rozkład drugiej**.

---
## Czemu są fajne?

* **Uniwersalny aproksymator** - nawet z jedną warstwą ukrytą potrafi w teorii przybliżyć dowolną funkcję ciągłą.
* **Automatyczne uczenie cech** - sieć sama odkrywa hierarchię reprezentacji (piksele -> krawędzie -> kształty -> obiekty).
* **Transfer learning** - modele wstępnie wytrenowane można szybko dostosować do nowych zadań.


---
## Gdzie wady?
* **Głodne danych i energii** - duże modele wymagają milionów przykładów i znacznych zasobów energetycznych.
* **Wrażliwość на adversarial** - niewielkie perturbacje wejścia mogą drastycznie zmienić wynik.
* **Reprodukcja bias** - jeśli dane są stronnicze, sieć skaluje niesprawiedliwość (np. rozpoznawanie twarzy).
* **Ryzyko przeuczenia i wysoki próg sprzętowy** - nie zawsze opłacalne przy małych zbiorach.

---
# Trochę historii
## Szalone lata 50-te
Są lata 50-te (1958) i **Frank Rosenblatt** wydaje paper o tytule *The Perceptron: A Probabilistic Model*
O tym jak reprezentować dane tak jak są one w mózgu (w postaci połączeń, a nie danych typu zdjęcia).

## Początki sieci komputerowych, ale koniec neuronowych?
1969 - Powstaje pierwsza sieć komputerowa - ARPANET, a **Marvin Minsky i Seymour Papert** wydają książkę *Perceptrons: An Introduction to Computational Geometry*, która w głównej mierze krytykowała model perceptronu jako słaby (nie potrafi nawet odwzorować funkcji XOR). Po wydaniu tej książki hype na perceptrony się zatrzymał...

## Backpropagation
1974 - **Paul Werbos** napisał artykuł o tym jak zrobić algorytm *backpropagation* - kluczowy algorytm dzięki któremu mogliśmy aktualizować wagi szybciej i lepiej.

# Perceptron

Dobra ale na czym to polega?

![](https://miro.medium.com/v2/resize:fit:720/format:webp/1*dsVvCeoxlU4GZ1y701Mo8g.png)

Ale jak go napisać w kodzie? Nic prostszego!

In [1]:
import math

def activation_function(x):
    return 1 / (1 + math.exp(-x))


class Perceptron:
    def __init__(self, w1=0.0, w2=0.0, b=0.0, activation_function=lambda x: x):
        self.w = [w1, w2]  # wagi
        self.b = b         # bias
        self.act_fun = activation_function

    def predict(self, x):
        z = self.w[0] * x[0] + self.w[1] * x[1] + self.b
        return self.act_fun(z)

perceptron = Perceptron(2, 1, 2, activation_function)
perceptron.predict(x=[-4,2])

0.01798620996209156

# Multilayer Perceptron (MLP)

Co to takiego? Jest to warstwa złożona z wielu małych perceptronów ułożonych w postacji warstw (ang. layers) w pełni połączonych (każdy element wejścia jest brany pod uwagę do każdej wagi sieci)

![](https://blog.kakaocdn.net/dn/cDjlb7/btrZNJLs9Y1/LvUe42WG9Ry8NYOmhpMI2k/img.png)