# Strojové učení
Zdroj: [Jiří Pešík. *Python pro data science.*](https://github.com/pesikj/PythonProDataScience)
(upraveno)

In [None]:
# Instalace potřebných modulů
%pip install pandas
%pip install matplotlib
%pip install seaborn
%pip install scikit-learn
%pip install statsmodels


## Úvod do strojového učení

Strojové učení (angl. _machine learning_) pod sebou sdružuje všechny systémy, které se učí z dat bez toho, aby potřebovali explicitní instrukce nebo pravidla. Informace, které se tyto systémy naučí z dat, umí pak generalizovat na nová, neznámá data. 

Když z analýzy dat našeho e-shopu zjistíme, že mladí studenti z Brna nakupují často boty přes internet a nabídneme proto všem budoucím uživatelům z Brna s věkem pod 26 let slevu na online nákup bot, tak to není strojové učení. Jedná se o jednoduché pravidlo, které jsme odvodili sami (i když třeba s využitím nějakých nástrojů datové analýzy).

Když náš chatbot telefonního operátora při detekování slova "tarif" vždy odpoví tak, že pošle odkaz na přehled všech tarifů, tak to také není strojové učení. Zase se jedná jen o nějaké pravidlo. 

V oblasti strojového učení panuje mírné zmatení pojmů, které se v různých odvětvích vykládají různě. Neberte proto definice z tohoto kurzu jako úplně závazné :-)

Strojové učení je podoblast umělé inteligence. Pojem umělé inteligence je často zaměňován právě za strojové učení. Můžete se také setkat s pojmem _deep learning_ nebo s pojmem _hluboké neuronové sítě_. Ty označují podskupinu algoritmů strojového učení, které vzrostly v popularitě a zájmu veřejnosti i akademiků z důvodu výrazně lepších a zobecnitelnějších výsledků než takzvané klasické strojové učení. Vyžadují ale velký výpočetní výkon (větší než má běžný osobní počítač), a také větší objem dat.

V tomto kurzu se "hlubokému" strojovému učení věnovat nebudeme. Pro pochopení jak neuronová síť funguje bychom potřebovali i podstatnou část matematiky, konkrétně lineární algebru. Základní principy jsou ale stejné jako pro klasické strojové učení, a to je důležité si uvědomit. 

![ai-ml-dl-smaller.png](images/ai-ml-dl-smaller.png)

### Příklady využití strojového učení

- Detekce podvodů v bankovnictví: Strojové učení se používá k analýze transakcí a určení, zda jsou některé z nich podezřelé a mohou představovat podvod.
- Doporučovací systémy: Firmy jako Netflix a Amazon používají strojové učení k doporučení filmů, televizních pořadů nebo produktů založených na chování uživatelů.
- Rozpoznávání obličeje: Strojové učení se používá k vytvoření systémů rozpoznávání obličeje, které mohou být použity v mobilních telefonech pro odemykání nebo v bezpečnostních systémech.
- Autonomní vozidla: Strojové učení je klíčové pro vývoj autonomních vozidel, které se učí navigovat na základě analýzy obrazu a dalších senzorických dat.
- Prediktivní údržba: Výrobní společnosti mohou používat strojové učení k předvídání, kdy bude pravděpodobně potřeba údržba strojů a zařízení, což umožňuje minimalizovat dobu odstávky.
- Zdravotnictví a medicína: Strojové učení se využívá pro diagnostiku chorob, předvídání výsledků léčby a vývoj nových léků. Může také analyzovat obrazové data, například rentgenové snímky nebo snímky z magnetické rezonance.
- Zpracování přirozeného jazyka (NLP): Strojové učení se používá pro automatický překlad jazyků, generování textu, rozpoznávání hlasu a další úkoly spojené se zpracováním a generováním přirozeného jazyka.
- Bezpečnostní systémy: Strojové učení se také využívá k detekci neobvyklých aktivit nebo útoků na počítačové systémy a sítě.
- Energetika: Strojové učení může pomoci optimalizovat výrobu a distribuci energie, předvídat spotřebu energie a výkon solárních panelů.
- Marketing a prodej: Strojové učení se využívá pro segmentaci zákazníků, předpověď chování zákazníků a personalizaci reklamních kampaní.
- Zemědělství: Strojové učení může pomoci předpovědět úrodu, optimalizovat zavlažování a detekovat nemoci rostlin.
- Hudba a umění: Algoritmy strojového učení mohou generovat hudbu nebo umělecká díla a také doporučovat obsah na základě uživatelských preferencí.
- Meteorologie: Strojové učení se může využít k předpovědi počasí a klimatických změn.
- Social media: Strojové učení je hojně využíváno v social mediích pro filtraci a personalizaci obsahu, rozpoznávání a sledování trendů, detekci hate speech, fake news, a další.
- Realitní trh: Strojové učení může být využito k odhadu cen nemovitostí na základě různých faktorů, jako je umístění, velikost, stáří a další.
- Hry: V oblasti herního průmyslu se strojové učení používá k vytváření inteligentních NPC (non-player characters), k návrhu nových úrovní nebo k optimalizaci herních strategií.

### Obecný postup při využití strojového učení
Pokud chceme nějakou otázku zodpovědět pomocí strojového učení, můžeme následovat obecný postup, který je společný pro všechny algoritmy. Podobný postup jsme měli i u testování hypotéz.

1. V první řadě je potřeba si **definovat, čím se zabýváme, a jaký je problém, který řešíme**. Typicky budeme chtít získat nějaké předpovědi nebo odhady na základě dat. Také je dobré si rozmyslet, jestli vůbec strojové učení potřebujeme. Není náš problém řešitelný nějakým jednodušším způsobem?
1. Následně potřebujeme **získat data**, s pomocí kterých budeme naší úlohu řešit. Data musíme takzvaně připravit. Je potřeba se rozhodnout, co budeme dělat v případě chybějících hodnot, zamyslet se nad případnou normalizací dat (co když jsou některé záznamy o vzdálenosti v kilometrech a jiné v mílích?) a také data náhodně rozdělit na trénovací a testovací sadu.
1. Když máme připravená data, můžeme si **vybrat jeden nebo více algoritmů** strojového učení. Algoritmus vybereme podle typu úlohy a charakteru dat.
1. Teď už můžeme takzvaně **"natrénovat"** (*train*) náš model. Spustíme algoritmus na sadu trénovacích dat a výsledkem je natrénovaný nebo naučený model.
1. Na základě validační sady dat **ověříme**, jak dobře umí náš model předvídat na datech, která nezná. 
1. Podle výsledků evaluace můžeme **upravit některé parametry modelu**. V tom případě jdeme zpět na krok trénování modelu, a takto postupujeme v cyklu, dokud nejsme s výsledky spokojení.
1. Na závěr spustíme náš model na **závěrečnou testovací sadu dat**. Tuto sadu algoritmus neviděl při trénování, ale ani jsme jí nepoužívali na upravování parametrů. Výsledky, které dostaneme pro tuto sadu dat by měly být ty, které napíšeme do akademického článku, do pracovní prezentace, nebo do zprávy o našem projektu.

Pro účely kurzu budeme často využívat jen dvě sady dat: trénovací a testovací.

![ml-schema-postupu.png](images/ml-schema-postupu.png)

## Kategorizace typů strojového učení
![image-2.png](images/image-2.png)

Zdroj: [Types of Machine Learning Algorithms You Should Know](https://towardsdatascience.com/types-of-machine-learning-algorithms-you-should-know-953a08248861)

### Supervised learning

Existuje velká třída úloh, kterým se říká "supervised learning", nebo "s učitelem". Existují dvě velké podtřídy těchto úloh.

#### Klasifikační úlohy

Cílem klasifikační úlohy (*classification*) je rozdělit data do dvou či více skupin.

Příklady klasifikačních úloh jsou:

- Detekce spamu: Model strojového učení je natrénován na detekci spamových e-mailů na základě předchozích zkušeností. E-maily mohou být klasifikovány jako "spam" nebo "ne-spam".
- Diagnostika nemocí: Na základě různých diagnostických testů může být model strojového učení použit k diagnostice různých typů nemocí. Například na základě snímků z magnetické rezonance mohou být pacienti klasifikováni jako "má rakovinu" nebo "nemá rakovinu".
- Rozpoznávání ručně psaných číslic: Klasickým příkladem je MNIST dataset ručně psaných číslic, kde úkolem je klasifikovat obrázky do 10 tříd odpovídajících číslicím 0 až 9.
- Predikce úvěrové bonity: Model může být vytvořen pro klasifikaci jednotlivců do kategorií "dobrý úvěrový riziko" a "špatné úvěrové riziko" na základě finančních a osobních údajů.
- Klasifikace genů: V bioinformatice může být model použit k třídění genů do různých tříd na základě sekvence DNA.
- Detekce sociálních botů: Na sociálních médiích může být model použit k rozpoznání účtů, které jsou pravděpodobně ovládány boty, na základě jejich chování a vzorců aktivity.

#### Regresní úlohy

Cílem regresní (*regression*) úlohy je predikce číselné hodnoty. Strojové učení nabízí algoritmy podobné klasické regresi i řadu jiných.

Příklady regresních úloh jsou:

- Predikce spotřeby energie: Model může být natrénován na předpovědění spotřeby energie budov nebo celých měst na základě historických dat a různých vlivů, jako je počasí, doba dne, atd.
- Predikce akciových cen: I když je tato úloha velmi obtížná kvůli nestabilitě trhů, modely strojového učení mohou být použity pro předpovědění trendů akciových cen.
- Predikce délky hospitalizace: V zdravotnictví může být model použit k předpovědění doby, po kterou bude pacient potřebovat hospitalizaci.
- Predikce teploty: Modely mohou být využity pro předpovědění teploty v konkrétních časových úsecích nebo lokalitách na základě historických dat a vzorců.

## Strojové učení v Pythonu

V našem kurzu budeme pracovat s modulem [`scikit-learn`](https://scikit-learn.org/stable/). Tento modul je velice často využíván v takzvaném klasickém strojovém učení (tj. strojové učení, které _nevyužívá_ hlubokých neuronových sítí). Používá se jak pro výuku (má k dispozici [velké množství tutoriálů a příkladů](https://scikit-learn.org/stable/auto_examples/index.html)), tak pro praktické využití v akademickém nebo soukromém sektoru.

## Čtení na doma: Vyhodnocení přesnosti klasifikačního modelu

Existuje mnoho metrik, podle kterých můžeme měřit úspěšnost klasifikačního modelu. Základem jsou čtyři veličiny vyjadřující správnost klasifikace pomocí modelu.

| Terminologie      | Popis |
| ----------- | ----------- |
| True Positives (**TP**)  | Počet záznamů, které model správně označil jako pozitivní.      |
| True Negatives (**TN**)   | Počet záznamů, které model správně označil jako negativní.       |
| False Positives (**FP**) | Počet záznamů, které model chybně označil jako pozitivní, ale ve skutečnosti jsou negativní.        |
| False Negatives (**FN**) | Počet záznamů, které model chybně označil jako negativní, ale ve skutečnosti jsou pozitivní.        |

Veličiny lze graficky vyjádřit pomocí tzv. confusion matrix, kterou získáme metodou `sklearn.metrics.confusion_matrix(y_test, y_pred)`. Například takto může matice vypadat při hodnocení klasifikace emailů jako spamu:
![spam.png](images/spam.png)

Zdroj: [How to interpret a confusion matrix for a machine learning model](https://www.evidentlyai.com/classification-metrics/confusion-matrix)


Jak spočítat úspěšnost modelu? Nabízí se několik metrik:

* _Accuracy_: Poměr správně klasifikovaných záznamů oproti celku.
  * $A = \frac{TP+TN}{TP+TN+FP+FN}$
  * Metoda scikit-learn: `sklearn.metrics.accuracy_score(y_test, y_pred)`
* _Precision_: Tato metrika **penalizuje** označení **negativního záznnamu za pozitivní**. Čím více negativních záznamů označíme za pozitivní, tím má metrika menší hodnotu. Metrika nepočítá s tím, kolik pozitivních záznamů jsme označili za negativní.
  * $P = \frac{TP}{TP+FP}$
  * Metoda scikit-learn: `sklearn.metrics.precision_score(y_test, y_pred)`
* _Recall_: Tato metrika **penalizuje** označení **pozitivního záznnamu za negativní**. Čím více pozitivních záznamů označíme za negativní, tím má metrika menší hodnotu. Metrika nepočítá s tím, kolik negativních záznamů jsme označili za pozitivní.
  * $R = \frac{TP}{TP+FN}$
  * Metoda scikit-learn: `sklearn.metrics.recall_score(y_test, y_pred)`
* _F1 Score_: Metrika, která zohlední jak Precision, tak Recall.
  * $R = \frac{2*TP}{2*TP+FN+FN}$
  * Metoda scikit-learn: `sklearn.metrics.f1_score(y_test, y_pred)`

## Neuronová síť: jeden neuron

![neuron.png](images/neuron.png)

Zdroj: [Power of a Single Neuron](https://towardsdatascience.com/power-of-a-single-neuron-perceptron-c418ba445095)
