# Machine Learning – wprowadzenie

![image.png](attachment:image.png)

Źródło: https://vas3k.com/blog/machine_learning/

**Sztuczna inteligencja**

Zdolność systemu do interpretowania danych i podejmowania decyzji na podstawie tych danych oraz zgromadzonej wiedzy. Przykładami sztucznej inteligencji są np. algorytmy uczenia maszynowego czy algorytmy ewolucyjne.

---

**Uczenie maszynowe**

Obszar sztucznej inteligencji poświęcony algorytmom, które tworzą matematyczny model problemu, którego dotyczą. Następnie na podstawie wytworzonego modelu oraz danych wejściowych podejmują decyzje poprzez wyliczenie jakiejś wartości (lub zestawu wartości) liczbowej. 

---

**Algorytmy klasyczne**

Algorytmy oparte o proste modele statystyczne, które nie wymagają dużych ilości danych ani mocy obliczeniowych do rozwiązania problemu.

---

**Sieci neuronowe**

Klasa różnych modeli ML, które charakteryzują się przetwarzaniem danych za pomocą tzw. sztucznych neuronów, które zgrupowane są w warstwach. Dane wejściowe przechodzą przez kolejne warstwy ulegającym kolejnym przekształceniom. Sieci neuronowe charakteryzują się sporą ilością parametrów modelu. Często wymagają dużej ilości danych do poprawnego wytrenowania.

---

**Głębokie sieci neuronowe**

Sieci neuronowe, które mają wiele warstw.

---

![image.png](attachment:image.png)

## Algorytmy nadzorowane vs. nienadzorowane (*supervised, unsupervised learning*)

![image.png](attachment:image.png)


**Supervised learning**

W procesie trenowania modelu pokazujemy mu dane wejściowe oraz oczekiwany output. Model uczy się dostrzegać zależności między danymi wejściowymi a wyjściowymi.

*Przykłady:*
- Algorytm do weryfikacji wiarygodności kredytobiorcy
- Algorytm do wyceny domu / samochodu na podstawie jego parametrów
- Klasyfikacja obrazu - detekcja czy znajduje się na nim kot czy pies

---
---

**Unsupervised learning**

Oprócz danych wejściowych nie przekazujemy do modelu oczekiwanego outputu. Algorytm sam wyłapuje odpowiednie zależności w danych i zwraca nam właściwą informację.

*Przykłady:*
- Segmentacja klientów - podział ich na odrębne grupy
- Analiza skupień - odnalezienie skupisk punktów w przestrzeni N-wymiarowej

---
---

**Reinforcement learning**

Modelujemy środowisko, w którym znajduje się tzw. agent. Wykonuje on początkowo losowe ruchy / decyzje, ale te które prowadzą go do właściwego rezultatu są utrwalane poprzez system nagród i kar.

*Przykłady:*
- Inteligentne boty do gier (np. flappy bird)
- Silniki szachowe

## Regresja, klasyfikacja, klasteryzacja

![image.png](attachment:image.png)

**Regresja**

Na podstawie danych wejściowych wyznaczamy liczbę o rozkładzie ciągłym (np. cena)

---

**Klasyfikacja**

Do każdej obserwacji w danych wejściowych przypisujemy kategorię. Jeżeli istnieją dwie kategorie (0 / 1) to mamy do czynienia z klasyfikacją binarną. Jeżeli jest ich więcej mówimy o klasyfikacji wieloklasowej

---

**Klasteryzacja**

Otrzymujemy na wejściu zbiór obserwacji (punktów). Zadanie polega na przypisaniu każdej obserwacji do jednego z klastrów na podstawie analizy ich skupień

## Podstawowe pojęcia

**Obserwacja** - najmniejsza jednostka danych. Może to być np. wiersz w tabeli albo jeden obrazek (klasyfikacja obrazu) lub wyodrębniony kawałek tekstu (klasyfikacja tekstu).

**Cecha** - jednostka informacji wejściowej na temat obserwacji. W przypadku danych tabelarycznych cecha odpowiada kolumnie. Cecha bywa również nazywana *zmienną niezależną*, *zmienną objaśniającą* albo *predyktorem*.

**Zmienna (niezależna / zależna)** - pojęcie zmiennej jest bardziej ogólne od cechy. Może nią być zarówno pojedyncza informacja wejściowa jak i wyjściowa. Przykładowo dla modelu do wyceny samochodów zarówno rok produkcji czy typ paliwa może być zmienną (niezależną) jak również cena auta może nią być (zmienna niezależna). Zmienna niezależna to inaczej *zmienna objaśniająca*, *predyktor*, *cecha* lub *input* a zmienna zależna to inaczej *zmienna objaśniana*, *docelowa*, *output*, *label* lub *target*.

**Dane uczące i testowe** - w przypadku uczenia nadzorowanego zbiór danych zwykle dzielimy na część treningową (uczącą) oraz testową. Ta pierwsza służy do nauczenia modelu zależności między zmiennymi objaśniającymi (inputami) a zmienną objaśnianą (outputem). Druga część (testowa) służy do ewaluacji modelu czyli sprawdzenia jak radzi sobie z obserwacjami, których wcześniej nie widział.

**Trenowanie modelu** - model ML można wyobrazić sobie jako bardzo złożoną funkcję wielu zmiennych (cech) która zwraca pewną liczbę (target) a do tego posiada zbiór parametrów, czyli współczynników, które mogą przyjąć dowolne wartości. Trenowanie modelu polega na dostrajaniu wartości parametrów modelu tak aby model zwracał wyniki możliwie zbliżone do oczekiwanych.

Przykład:

Wyobraźmy sobie funkcję trzech zmiennych ($x_1$, $x_2$, $x_3$) o następującej postaci:

$y(x_1, x_2, x_3) = a_0 + a_1 \cdot x_1 + a_2 \cdot x_2 + a_3 \cdot x_3$

Załóżmy, że cenę samochodu można w przybliżeniu wyrazić jako kombinację liniową jego wieku, poziomu spalania oraz przebiegu w następujący sposób:

$cena = a_0 - a_1 \cdot age - a_2 \cdot combustion - a_3 \cdot mileage$

Pokazując modelowi wiele obserwacji (przykładowych aut) możemy nauczyć go zależności między zmiennymi objaśniającymi a zmienną objaśnianą. Model w taki sposób dobierze sobie wartości parametrów, żeby wzór jak najlepiej oddawał to co widzi w danych.

Jeśli nauczymy ten sam model innymi danymi jego parametry przyjmą inne wartości a więc wycena, której będzie dokonywać ulegnie zmianie.


**Wagi** - fachowa nazwa na powyższe współczynniki

## Podstawowe modele ML

### Regresja 
- Regresja liniowa - bardzo prosty, dobry do nauki ML, ale w praktyce nieużywany
- Decision Tree Regressor
- Random Forest Regressor

### Klasyfikacja
- Regresja logistyczna - bardzo prosta, dobra do nauki ML, ale w praktyce nieużywana
- Decision Tree Classifier
- Random Forest Classifier
- K Nearest Neighbours
- SVM

### Klasteryzacja
- K Means clustering
- Klasteryzacja hierarchiczna
- DBSCAN

## ZADANIA

**1. Dla poniższych problemów określ jaką grupą algorytmów ML można je rozwiązać:**

> uczenie nadzorowane / uczenie nienadzorowane

> regresja / klasyfikacja / klasteryzacja

- przewidywanie wielkości zbiorów zboża na podstawie danych pogodowych
- filtry antyspamowe w skrzynkach mailowych
- określenie wysokości wypłaty dla nowego pracownika w firmie
- przewidywanie którzy klienci zrezygnują z usług naszej firmy
- optymalizacja lokalizacji budek z kebabem ([podpowiedź](https://i.vas3k.ru/7w6.jpg))

**2. Dla powyższych problemów zastanów się co będzie:**
- obserwacją
- cechami
- zmienną zależną