# Machine Learning

_Leszek Frąś, Mikołaj Leszczuk_

![](https://carlolepelaars.nl/wp-content/uploads/2018/10/frabz-Machine-Learning-What-society-thinks-I-do-What-my-friends-thinks-f0e58e-700x510.jpg)

## Konspekt

* Czym jest uczenie maszynowe?
* Dlaczego warto korzystać z uczenia maszynowego?
* Rodzaje systemów uczenia maszynowego
* Jak rozróżnić?
* Precision i recall

## Czym jest uczenie maszynowe?

"Uczenie maszynowe to dziedzina nauki dająca komputerom możliwość uczenia się bez konieczności ich jawnego programowania..." Arthur Samuel, 1959.

A bardziej technicznie:

"Mówimy ze program komputerowy uczy się na podstawie doświadczenia $E$ w odniesieniu do jakiegoś zadania $T$ i pewnej miary wydajności $P$, jeśli jego wydajność (mierzona przez $P$) wobec zadania $T$ wzrasta z nabywaniem doświadczenia $E$...", Tom Mitchell, 1997.

## Dlaczego warto korzystać z uczenia maszynowego?

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/ml1.png)

Zadanie: napisać filtr spamu, przy pomocy tradydycyjnych technik programistycznych
1. Zastanowienie jak wygląda klsyczny spam - powtarzające się wyrażenia: okazja, darmowe, bonus, promocja, gratis, bez limitów. Występowanie: temat wiadomości
2. Napisanie algorytmu wykrywającego każdy z zaobserwowanych szablonów. Program oznaczałby wiadomość jako spam, jeśli wykryłby jeden z kilku określonych wzorców.
3. Testowanie programu, ciągłe powtarzanie kroków 1. i 2.

=> a co jeśli spamerzy zauważyli by blokowanie algorytmu wykrywającego nieporządane mejle?

Próby omijania filtrów: wkomponowywanie białych znaków, znaków specjalnych

=> należy non stop uwzględniać nowe zmiany poprzez dopisywanie nowych reguł...

Najlepsze rozwiązanie?

Stworzenie samouczącego się algorytmu, na podstawie przykładów i kombinacji z nim związanych.

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/ml2.png)

Wykorzystanie technik uczenia maszynowego do analizowania olbrzymich ilości danych może pomóc w wykrywaniem nieoczywistych wzorców. Proces nazywa się wydobywaniem danych (data mining).

Uczenie maszynowe nadaje się do:
1. Problemów, które wymagają częstego dostrajania algorytmu lub korzystania z długich list reguł
2. Złożonych problemów, trudnych do rozwiązania tradycyjnymi metodami.
3. Zmiennych środowisk wpływających na problematykę.
4. Pomagania człowiekowu w analizowaniu skomplikowanych zagadnień i olbrzymich ilości danych.

## Rodzaje systemów uczenia maszynowego

### Uczenie nadzorowane

=> dane są oznakowane, jest zbiór uczący oraz zbiór weryfikacyjny

* metoda k-najbliższych sąsiadów
* regresja liniowa
* regresja logistyczna
* maszyna wektorów nośnych
* drzewa decyzyjne i losowe lasy
* sieci neuronowe

### Uczenie nienadzorowane

=> dane uczące są nieoznakowane; program uczy się bez nauczyciela

* metoda k-średnich lub centroidów (ang. _k-means_)
* hierarchiczna analiza skupień (ang. _Hierarchical Cluster Analysis_, HCA)
* wykrywawenie anomali i nowości (ang. _anomaly detection and novelety detection_)
* wizualiacja i redukcje wymiarowości

## Jak rozróżnić?

Dobry przykładem jest analiza skupień...

(źródło: Uczenie maszynowe z użyciem Scikit-Learn i Tensorflow, Aureilen Geron, 2020, Gliwice)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/ml3.jpeg)

lub wykrywanie anomalii:

(źródło: Uczenie maszynowe z użyciem Scikit-Learn i Tensorflow, Aureilen Geron, 2020, Gliwice)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/ml4.jpeg)

Oczywiście jest wiele innych rodzajów "uczenia" maszynowego:

* Uczenie przez wzmacnianie (ang. _reinforcement learning_):

System uczący (zwany agentem) obserwuje środowisko i na tej podstawie wykonuje pewne czynności, a take odbiera nagrody lub kary.

(źródło: Uczenie maszynowe z użyciem Scikit-Learn i Tensorflow, Aureilen Geron, 2020, Gliwice)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/ml5_0.png)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/ml5_1.png)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/ml5_2.png)

* Uczenie wsadowe:

Do nauki rozpoznawanie (klasyfikacji) wykorzystywane są wszystkie dostępne dane. System nie jest w stanie trenować przyrostowo, do jego nauki poświęca się dużej ilości czasu i zasobów.

* Uczenie przyrostowe:

System jest trenowany na bieżąco przez sekwencyjnie dostarczane dane, które mogą być pojedyncze lub przyjmować postać minipakietów (niewielkich zbiorów).

## Precision i recall

W **rozpoznawaniu wzorców**, **odzyskiwaniu** i **klasyfikowaniu informacji (uczeniu maszynowym)**, **precision** i **recall** to metryki wydajności, które mają zastosowanie do danych pobieranych z **kolekcji**, **korpusu** lub **przestrzeni próbek**.

**Precision** (nazywana również **dodatnią wartością predykcyjną**) to ułamek odpowiednich instancji wśród pobranych instancji, natomiast **recall** (znane również jako **czułość**) to ułamek istotnych instancji, które zostały pobrane. Zarówno precyzja, jak i przypomnienie są zatem oparte na **trafności**.

![](https://upload.wikimedia.org/wikipedia/commons/2/26/Precisionrecall.svg)

## Las losowy

### Wstęp teoretyczny 

**Las losowy**, losowy las decyzyjny – metoda zespołowa uczenia maszynowego dla **klasyfikacji**, **regresji** i innych zadań, która polega na konstruowaniu wielu **drzew decyzyjnych** w czasie uczenia i generowaniu klasy, która jest **dominantą** klas (klasyfikacja) lub przewidywaną średnią (regresja) poszczególnych drzew. Losowe lasy decyzyjne poprawiają tendencję drzew decyzyjnych do **nadmiernego dopasowywania** się do zestawu treningowego.

Schemat losowego lasu decyzyjnego:

![Schemat losowego lasu decyzyjnego](https://upload.wikimedia.org/wikipedia/commons/7/76/Random_forest_diagram_complete.png)

### Budowanie modelu klasyfikacji dla zbioru danych "**_Iris_**"

(źródło: Chanin Nantasenamat, <i>Data Professor YouTube channel, http://youtube.com/dataprofessor </i>)

W tym notatniku Jupytera będziemy budować model klasyfikacji dla zbioru danych "**_Iris_**" (kosaciec, irys) przy użyciu algorytmu losowego lasu.

![](https://upload.wikimedia.org/wikipedia/commons/thumb/4/4c/Iris_sibirica_060603.jpg/672px-Iris_sibirica_060603.jpg)

#### Importowanie bibliotek

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

#### Załadowanie zestawu danych "**_Iris_**"

In [None]:
iris = datasets.load_iris()

#### Funkcje wejściowe


Zestaw danych "**_Iris_**" zawiera 4 cechy wejściowe i 1 zmienną wyjściową (etykieta klasy).

##### Funkcje wejściowe

In [None]:
print(iris.feature_names)

```python
[
    'długość kielicha (cm)',
    'szerokość kielicha (cm)',
    'długość płatka (cm)',
    'szerokość płatka (cm)'
]
```

##### Funkcje wyjściowe

In [None]:
print(iris.target_names)

###### _Iris setosa_

![](https://upload.wikimedia.org/wikipedia/commons/thumb/a/a7/Irissetosa1.jpg/800px-Irissetosa1.jpg)

###### _Iris versicolor_

![](https://upload.wikimedia.org/wikipedia/commons/thumb/2/27/Blue_Flag%2C_Ottawa.jpg/600px-Blue_Flag%2C_Ottawa.jpg)

###### _Iris virginica_

![](https://upload.wikimedia.org/wikipedia/commons/thumb/f/f8/Iris_virginica_2.jpg/600px-Iris_virginica_2.jpg)

#### Spojrzenie na dane

##### Funkcje wejściowe

In [None]:
iris.data

##### Zmienna wyjściowa (etykieta klasy)

In [None]:
iris.target

### 4.3. Assigning *input* and *output* variables
Let's assign the 4 input variables to X and the output variable (class label) to Y

In [None]:
X = iris.data
Y = iris.target

### 4.3. Let's examine the data dimension

In [None]:
X.shape

In [None]:
Y.shape

## 5. Build Classification Model using Random Forest

In [None]:
clf = RandomForestClassifier()

In [None]:
clf.fit(X, Y)

## 6. Feature Importance

In [None]:
print(clf.feature_importances_)

## 7. Make Prediction

In [None]:
X[0]

In [None]:
print(clf.predict([[5.1, 3.5, 1.4, 0.2]]))

In [None]:
print(clf.predict(X[[0]]))

In [None]:
print(clf.predict_proba(X[[0]]))

In [None]:
clf.fit(iris.data, iris.target_names[iris.target])

## 8. Data split (80/20 ratio)

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

In [None]:
X_train.shape, Y_train.shape

In [None]:
X_test.shape, Y_test.shape

## 9. Rebuild the Random Forest Model

In [None]:
clf.fit(X_train, Y_train)

### 9.1. Performs prediction on single sample from the data set

In [None]:
print(clf.predict([[5.1, 3.5, 1.4, 0.2]]))

In [None]:
print(clf.predict_proba([[5.1, 3.5, 1.4, 0.2]]))

### 9.2. Performs prediction on the test set

#### *Predicted class labels*

In [None]:
print(clf.predict(X_test))

#### *Actual class labels*

In [None]:
print(Y_test)

## 10. Model Performance

In [None]:
print(clf.score(X_test, Y_test))