# Rekurentné neurónové siete

<img src="https://databricks.com/wp-content/uploads/2019/02/neural1.jpg" alt="rnn" width="500" height="250" >  

<img src="https://miro.medium.com/max/4136/1*SKGAqkVVzT6co-sZ29ze-g.png" alt="rnn" width="650" height="250" >  

<img src="https://miro.medium.com/max/700/1*kShd8wKAsE-i5FQ8nkI_QA.png" alt="rnn" width="650" height="250" >  


- Základné neurónové siete, ale aj napríklad CNN dokážu spracovať len dáta, ktoré majú stálu veľkosť. Zároveň keď ich spracovávajú, tak vykonávajú predom daný počet výpočetných krokov
- Na vstupe je vektor (slovo), nad ktorým vykonáme určitú transformáciu. Táto transformácie reprezentuje pre daný moment vnútorný stav siete, na základe ktorého produkujeme výstup, ale využívame ho aj v ďalšom kroku, kedy zpracovávame ďalší vstup

<img src="https://karpathy.github.io/assets/rnn/diags.jpeg" alt="rnn" width="650" height="250" >  

- červená = input, modrá = output, zelená = RNN (reprezentuje vnútorný stav)  
- Zľava, doprava 
    - klasická neurónová sieť bez rekurencie
    - viacnásobný output, jeden výstup - napríklad popis obrázku. Ako vstup máme obrázok a ako výstup máme ľubolné množstvo slov
    - viacnásobný vstup, jeden výstup - napríklad analýza sentimentu. Ako vstup máme vetu a ako výstup máme jej sentiment
    - viacnásobný vstup, viacnásobný výstup - napríklad strojový preklad
    - synchronizované sekvencie medzi vstupmi a výstupmi - napríklad klasifikácia videa, kde na vstupe máme jeden frame a na výstupe jeho klasifikovanie do kategórie
- Vstup ľubovoľnej dĺžky nakoľko rekurentná transformácie (zelená) je vždy jedna a tá istá

## Problém

- Ak máme dlhú sekvenciu, tak každým ďalším krokom strácame informácie o tom, čo sa spracovávalo na začiatku
- Miznúci alebo explodivný gradient pri učení

## LSTM a GRU

- Neurónové siete LSTM (long short term memory) a GRU (gated recurrent units) riešia tento problém
- Bez matimeckého popisu sa ťažko popisuje, ako eliminujú tento problém
- V skratke, siete obsahujú takzvané brány (LSTM majú 3 a GRU 1), ktoré sa starajú o to, že čo sieť pošle ďalej bez transformácie a teda informácia bude zachovaná, čo sa transformuje a čo sa úplne zabudne
- obe fungujú a dlho sa myslelo, že sú si ekvivalentné. Nakoľko GRU je jednoduchšia, tak sa používala relatívne viac
- neskôr sa zistilo, že LSTM produkuje o čosi lepšie výsledky 

<img src="https://www.tutorialexample.com/wp-content/uploads/2020/07/LSTM-Vs-GRU-Network-Which-Has-better-Performance-660x279.png" alt="rnn" width="600" height="300" >  


## seq2seq

- sequence to sequence
- napríklad strojový preklad, sumarizácia, oprava chýb ...
- dve RNN
- jedna enkóduje zdrojový text - enkóder
- druhá dekóduje zakódovaný text z enkódera - dekóder

<img src="https://github.com/bentrevett/pytorch-seq2seq/raw/d876a1dcacd7aeeeeeaff2c9b806d23116df048f/assets/seq2seq1.png" alt="rnn" width="600" height="300" >  






In [None]:
!pip install --upgrade fastpunct

Collecting fastpunct
  Downloading https://files.pythonhosted.org/packages/8e/dd/4d7c811e797d63be8b238f75d40919a84936894934ccb39a40225f17fd94/fastpunct-1.0.2-py3-none-any.whl
Collecting pydload
  Downloading https://files.pythonhosted.org/packages/88/08/001d390cb7b246a1265d9f1a24f9b08637c37fb9b0cfcb55f528d2aeb4c5/pydload-1.0.9-py2.py3-none-any.whl
Installing collected packages: pydload, fastpunct
Successfully installed fastpunct-1.0.2 pydload-1.0.9


In [None]:
from fastpunct import FastPunct
# The default language is 'en'
fastpunct = FastPunct('en')
fastpunct.punct(["oh i thought you were here", "in theory everyone knows what a comma is", "hey how are you doing", "my name is sheela i am in love with hrithik"], batch_size=32)

['Oh, I thought you were here.',
 'In theory, everyone knows what a comma is.',
 'Hey, how are you doing?',
 'My name is Sheela, I am in love with Hrithik.']

príklad seq2seq v pytorch - slovo_slovo

## Problém

- kontextový vektor je vyprodukovaný až na konci enkódera
- vzdialené informácie nemusia byť malé vďaka LSTM, ale množstvo informácii je obmedzené veľkosťou vektora - tento vektor nedokáže obsiahnuť všetky informácie
- riešenie - attention

<img src="https://www.tensorflow.org/images/seq2seq/attention_mechanism.jpg" alt="rnn" width="600" height="300" >  


príklad attn decoder - dots

## Problém

- vstup spracovávam sekvenčne. Nemôžem využiť paralelizáciu počas výpočtu
- riešenie - transformer sieť

<img src="https://cdn.analyticsvidhya.com/wp-content/uploads/2019/06/Screenshot-from-2019-06-17-20-01-32.png" alt="rnn" width="500" height="600" >  

- dokážeme spracovávať celý input naraz
- nepoužívame v sieti vektory, ale len attention váhy, ktoré sú vypočítané pri učení
- dekóder si vyberie, ktoré attention použije pri dekódovaní


## Modely

- skladajú sa z viacerých transformerov
- učia sa na špecifickej úlohe - klasifikácia napríklad
- váhy sa zdielajú v komunite
- tieto váhy môžu byť použité na úpravu modelu tak, aby vykonával čo chceme my
- rôzne modely robia rôzne veci

Najnovší model - GPT3  
https://www.youtube.com/watch?v=1tSr2nCjZjE  
https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3

## Pre bežných smrteľníkov

https://huggingface.co/

<img src="https://www.sigmoid.com/wp-content/uploads/2020/08/sigmoid_gpt-3_models_comparision.png" alt="rnn" width="600" height="500" > 