# Wstęp
Zadanie 10 stanowi drugi z trzech etapów zajęć poświęconych sieciom rekurencyjnym i predykcji z wykorzystaniem danych multimodalnych. Efektem wszystkich trzech etapów będzie sieć rekurencyjna z warstwą atencji do predykcji kursu kryptowaluty [Bitcoin](https://en.wikipedia.org/wiki/Bitcoin) (BTC) w oparciu o dane z giełdy oraz o wyniki analizy emocji komunikatów z mediów społecznościowych, do których również należy utworzyć dedykowany model sieci rekurencyjnej. Plan realizacji etapów wygląda następująco:

1.   EmoTweet - model sieci rekurencyjnej do analizy emocji 
2.   MultiBTC - multimodalny model sieci rekurencyjnej do predykcji kursu BTC
3.   AttEmoTweet & AttMultiBTC - rozszerzenie modeli EmoTweet i MultiBTC o warstwę atencji 

Każdy etap jest traktowany jako oddzielna lista na laboratorium, za którą można otrzymać 10 punktów. 

# Cel ćwiczenia

Celem drugiego etapu prac jest wykorzystanie sieci rekurencyjnej LSTM do przewidywania kolejnego elementu sekwencji pod warunkiem wcześniejszych obserwacji. Dopuszczalne jest rozwiązanie, które działa podobnie jak klasyfikator z poprzedniego zadania, przy czym w tym wypadku skonstruowany zostanie regresor, a zmienną predykowaną będzie np. średni kurs w następnym dniu pod warunkiem obserwacji z dni poprzednich. 

# Warunki zaliczenia

Do zaliczenia drugiego etapu należy wykonać następujące kroki:

1.   Klasyfikacja zbioru tweetów przy pomocy 2 modeli EmoTweet opracowanych w etapie nr 1 (gdyby sieci LSTM były zbyt wolne, można użyć modeli opartych o fastText).
2.   Przygotowanie modelu LSTM, dla którego każdy element sekwencji będzie multimodalny, tj. będzie opisany cechami pochodzącymi z różnych źródeł:
   * Dane z giełdy kryptowalutowej
   * Zagregowane wartości emocji z tweetów
3.   Trenowanie modelu oraz ewaluacja predykcji dla scenariusza godzinnego oraz dziennego, z uwzględnieniem wpływu:
 * wybranych hiperparametrów 
 * dodatkowych kroków wstępnego przetwarzania danych
 * wymiarów afektywnych

# Zbiór tweetów

Zbiór tweetów pochodzi z serwisu [Twitter](https://twitter.com/) i jest podzbiorem 2 milionów wiadomości dotyczących [Bitcoina](https://en.wikipedia.org/wiki/Bitcoin) z okresu od stycznia 2018 do maja 2020 roku. 
## Pobranie

In [1]:
!wget http://jankocon.clarin-pl.eu/share/bitcoin_tweets_2M.csv.7z

--2021-05-11 08:07:11--  http://jankocon.clarin-pl.eu/share/bitcoin_tweets_2M.csv.7z
Resolving jankocon.clarin-pl.eu (jankocon.clarin-pl.eu)... 156.17.135.34
Connecting to jankocon.clarin-pl.eu (jankocon.clarin-pl.eu)|156.17.135.34|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 97590055 (93M) [application/x-7z-compressed]
Saving to: ‘bitcoin_tweets_2M.csv.7z’


2021-05-11 08:07:52 (2.32 MB/s) - ‘bitcoin_tweets_2M.csv.7z’ saved [97590055/97590055]



## Rozpakowanie

In [2]:
!7za x bitcoin_tweets_2M.csv.7z


7-Zip (a) [64] 16.02 : Copyright (c) 1999-2016 Igor Pavlov : 2016-05-21
p7zip Version 16.02 (locale=en_US.UTF-8,Utf16=on,HugeFiles=on,64 bits,2 CPUs AMD EPYC 7B12 (830F10),ASM,AES-NI)

Scanning the drive for archives:
  0M Scan         1 file, 97590055 bytes (94 MiB)

Extracting archive: bitcoin_tweets_2M.csv.7z
--
Path = bitcoin_tweets_2M.csv.7z
Type = 7z
Physical Size = 97590055
Headers Size = 146
Method = LZMA2:24
Solid = -
Blocks = 1

  0%      2% - bitcoin_tweets_2M.csv                              5% - bitcoin_tweets_2M.csv                              9% - bitcoin_tweets_2M.csv                             13% - bitcoin_tweets_2M.csv                             16% - bitcoin_tweets_2M.csv                  

## Zawartość
Dane zawierają następujące kolumny:
* `timestamp` - data wysłania wiadomości
* `likes` - liczba polubień wiadomości
* `retweets` - liczba przekazań dalej wiadomości
* `username` - nick użytkownika
* `text` - tekst tweeta "zanonimizowany" przy pomocy metody [`preprocess`](https://github.com/cardiffnlp/tweeteval/blob/main/TweetEval_Tutorial.ipynb), która była użyta przy tworzeniu zbioru [TweetEval](https://github.com/cardiffnlp/tweeteval)

In [2]:
import pandas as pd
tweets_data = pd.read_csv('bitcoin_tweets_2M.csv')
tweets_data

Unnamed: 0,timestamp,likes,retweets,username,text
0,2018-01-01 00:00:03,0,0,ANDRO1711,"From the future of bitcoin to Facebook, 2018 i..."
1,2018-01-01 00:00:04,2,3,BitcoinAverage - Cryptocurrency Exchange Rates,BitcoinAverage - bitcoin price index - ($ 1394...
2,2018-01-01 00:00:09,0,0,Jimmyhoshi,Singapore bar offers bitcoin New Year party pa...
3,2018-01-01 00:00:16,0,0,BTC Bros,how the Chinese bitcoin market collapsed in 20...
4,2018-01-01 00:00:26,1,1,SBIYP,Cryptocurrency Craze! #bitcoin #ethereum #dash...
...,...,...,...,...,...
2454286,2020-05-29 23:57:21,1,0,𝙂𝙧𝙞𝙢,"All good till now man, hope all is well there ..."
2454287,2020-05-29 23:57:48,0,0,Digital Asset Controller,It’s just used as a wedge to divid the people ...
2454288,2020-05-29 23:58:10,0,0,(CEO of MONEY PRINTERS),is this sweat... oh wait just underwater with ...
2454289,2020-05-29 23:58:43,2,0,luke,The whole timing of this virus is very suspici...


# Dane z giełdy [Bitstamp](https://www.bitstamp.net/)
Zbiór pochodzi z serwisu Bitstamp i zawiera informacje o kursie Bitcoina od stycznia 2017 roku do kwietnia 2021 roku, zarówno w interwałach jednodniowych (24h), jak też godzinowych (1h).

## Pobranie 


In [4]:
!wget http://jankocon.clarin-pl.eu/share/bitstamp.7z

--2021-05-11 08:09:40--  http://jankocon.clarin-pl.eu/share/bitstamp.7z
Resolving jankocon.clarin-pl.eu (jankocon.clarin-pl.eu)... 156.17.135.34
Connecting to jankocon.clarin-pl.eu (jankocon.clarin-pl.eu)|156.17.135.34|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 773846 (756K) [application/x-7z-compressed]
Saving to: ‘bitstamp.7z’


2021-05-11 08:09:42 (367 KB/s) - ‘bitstamp.7z’ saved [773846/773846]



## Rozpakowanie

In [5]:
!7za x bitstamp.7z


7-Zip (a) [64] 16.02 : Copyright (c) 1999-2016 Igor Pavlov : 2016-05-21
p7zip Version 16.02 (locale=en_US.UTF-8,Utf16=on,HugeFiles=on,64 bits,2 CPUs AMD EPYC 7B12 (830F10),ASM,AES-NI)

Scanning the drive for archives:
  0M Scan         1 file, 773846 bytes (756 KiB)

Extracting archive: bitstamp.7z
--
Path = bitstamp.7z
Type = 7z
Physical Size = 773846
Headers Size = 221
Method = LZMA2:3m
Solid = +
Blocks = 1

  0%    Everything is Ok

Files: 2
Size:       3036393
Compressed: 773846


## Zawartość
Kwoty są podane w dolarach amerykańskich (kurs BTC/USD). Daty wyznaczają moment zamknięcia, a momentem otwarcia jest godzina wstecz (wariant 1h) lub dzień wstecz (wariant 24h). Każdy ze zbiorów zawiera następujące kolumny:
* `timestamp` - data w [formacie Unix](https://www.epochconverter.com/) 
* `date` - j.w. w formacie YYYY-MM-DD HH:MM:SS
* `open` - kurs otwarcia 
* `high` - najwyższa wartość 
* `low` - najniższa wartość 
* `close` - kurs zamknięcia
* `volume` - wolumen obrotu BTC

Interwał godzinowy:



In [6]:
bitstamp_data_1h = pd.read_csv('Bitstamp_BTCUSD_1h_2017_2018_2019_2020_2021-04-08.csv')
bitstamp_data_1h

Unnamed: 0,timestamp,date,open,high,low,close,volume
0,1483228800,2017-01-01 00:00:00,966.34,966.99,964.60,966.60,102.484806
1,1483232400,2017-01-01 01:00:00,966.60,966.60,962.54,963.87,149.025554
2,1483236000,2017-01-01 02:00:00,964.35,965.75,961.99,963.97,94.267396
3,1483239600,2017-01-01 03:00:00,963.88,964.71,960.53,962.83,77.619667
4,1483243200,2017-01-01 04:00:00,960.61,963.64,960.60,963.46,46.810220
...,...,...,...,...,...,...,...
37387,1617822000,2021-04-07 19:00:00,55832.62,56127.66,55441.93,56127.66,289.995730
37388,1617825600,2021-04-07 20:00:00,56075.95,56242.37,55690.00,56204.82,175.990086
37389,1617829200,2021-04-07 21:00:00,56243.09,56401.40,56053.20,56199.64,281.857236
37390,1617832800,2021-04-07 22:00:00,56160.72,56549.00,56111.13,56449.54,117.778871


Interwał dzienny:

In [7]:
bitstamp_data_24h = pd.read_csv('Bitstamp_BTCUSD_24h_2017_2018_2019_2020_2021-04-08.csv')
bitstamp_data_24h

Unnamed: 0,timestamp,date,open,high,low,close,volume
0,1483228800,2017-01-01 00:00:00,966.34,1005.00,960.53,997.75,6850.593309
1,1483315200,2017-01-02 00:00:00,997.75,1032.00,990.01,1012.54,8167.381030
2,1483401600,2017-01-03 00:00:00,1011.44,1039.00,999.99,1035.24,9089.658025
3,1483488000,2017-01-04 00:00:00,1035.51,1139.89,1028.56,1114.92,21562.456972
4,1483574400,2017-01-05 00:00:00,1114.38,1136.72,885.41,1004.74,36018.861120
...,...,...,...,...,...,...,...
1553,1617408000,2021-04-03 00:00:00,58967.61,59801.39,56922.00,57064.42,1663.268353
1554,1617494400,2021-04-04 00:00:00,57064.13,58501.00,56466.25,58212.18,1440.631820
1555,1617580800,2021-04-05 00:00:00,58213.69,59280.00,56800.00,59125.00,2402.437135
1556,1617667200,2021-04-06 00:00:00,59135.36,59473.90,57216.00,58018.30,2711.397847


# Realizacja zadania

Szczegółowa realizacja zadania powinna zawierać następujące etapy:

## Przygotowanie danych


1.   Wykorzystać modele utworzone w etapie 1 do opisania wymiarami afektywnymi (ZJAWISKO_1 oraz ZJAWISKO_2) zbioru tweetów `tweets_data`.
2.   Wyodrębnić podzbiór danych `bitstamp_data_*` z okresu dla którego są dostępne tweety.
3.   Dokonać agregacji informacji afektywnej dla interwału godzinowego oraz interwału dziennego. Przykładowo, jeżeli rozpatruję interwał dzienny, to dla kursu z daty zamknięcia 2017-01-02 00:00:00 agreguję informację afektywną z tweetów pojawiających się pomiędzy 2017-01-01 00:00:00 a 2017-01-02 00:00:00. Dodatkowo dokonać agregacji dodatkowych metadanych opisujących tweety, tj. `likes` oraz `retweets`. Metoda agregacji jest dowolna. Przykładowe możliwości:
 * suma
 * średnia
 * histogram
4.   Dokonać podziału danych na zbiór uczący (80%), walidacyjny (10%) oraz testowy (10%) poprzez wyznaczenie 2 punktów podziału na osi czasu (dane są ułożone chronologicznie). Innymi słowy, uczenie i strojenie modelu odbywa się na danych historycznych, a testowanie na aktualnych. 


## Budowanie modeli

Model ma służyć do przewidywania kursu **w przyszłości** na podstawie danych **historycznych**. W każdym badaniu w sekcji **Ewaluacja modeli** należy sprawdzić jakość predykcji na 2 typach modeli:
1. **Model dzienny** - model, który w chwili T przewiduje (do wyboru jedna z opcji):
 * kurs zamknięcia w chwili T+1
 * średni kurs dla okresu od T do T+1 (wymaga obliczenia na podstawie danych godzinowych)
2. **Model godzinowy** - model, który w chwili T przewiduje kurs zamknięcia dla okresu T+1. 

## Ewaluacja modeli

### Hiperparametry

W zadaniu tym istnieje szereg ustawień hiperparametrów, które mogą mieć istotny wpływ na jakość predykcji. Należy wybrać jeden z nich i zbadać jego wpływ dla 3 wybranych wartości. 

1. Długość sekwencji w modelu LSTM.
2. Liczba jednostek w warstwie ukrytej. 
3. Optymalizator i jego parametry (np. `learning rate`).
4. Użycie dodatkowej warstwy Dropout (parametr: `probability`) przed warstwą z wynikiem predykcji.

### Przetwarzanie wstępne

Jednocześnie istotny wpływ mogą mieć dodatkowe elementy przetwarzania wstępnego danych. Należy wybrać jeden z nich i porównać z wariantem bez przetwarzania:
1. Normalizacja wartości (sprowadzenie konkretnych kwot do wartości z zakresu 0-1).
2. Zamiana wartości liczbowej na procentową zmianę względem poprzedniego kursu.

### Wymiary afektywne 

Ostatnim aspektem jest zbadanie wpływu wymiarów afektywnych. Dla najlepszej otrzymanej konfiguracji należy porównać wyniki z modelem, który wykorzystuje wyłącznie dane z giełdy.

### Ogólne uwagi końcowe

Wszystkie wyniki proszę podać z wykorzystaniem 2 miar jakości predykcji:
1. [Mean squared error](https://en.wikipedia.org/wiki/Mean_squared_error)
2. [R2-score](https://en.wikipedia.org/wiki/Coefficient_of_determination)

Przy każdej procedurze uczenia należy wykorzystywać zbiór walidacyjny w taki sposób, by po każdej epoce uczenia sprawdzać jakość predykcji na tym zbiorze. Należy zapamiętać ten model, którego jakość była najlepsza na zbiorze walidacyjnym i na tym modelu dopiero robić ostateczną ewaluację z wykorzystaniem zbioru testowego. Proszę obserwować proces uczenia. Spadek jakości na zbiorze walidacyjnym w dalszych epokach uczenia (po wcześniejszym wzrastaniu w poprzednich epokach) może oznaczać, że model przeuczył się na zbiorze uczącym i można przerwać trenowanie. Często definiuje się w tym celu dodatkowy parametr tzw. **cierpliwości** (ang. patience), który określa, przez ile epok możemy kontynuować uczenie bez otrzymania wyniki lepszego niż dotychczasowy najlepszy.


Powodzenia! `To the moon 🚀`

In [12]:
start_date_tweets = min(tweets_data['timestamp'])
end_date_tweets = max(tweets_data['timestamp'])

In [15]:
bitstamp_data_1h_bound = bitstamp_data_1h[(bitstamp_data_1h['date'] >= start_date_tweets) & (bitstamp_data_1h['date'] <= end_date_tweets)]
bitstamp_data_24h_bound = bitstamp_data_24h[(bitstamp_data_24h['date'] >= start_date_tweets) & (bitstamp_data_24h['date'] <= end_date_tweets)]

In [33]:
!gdown --id 1EuxrgESjumDS4XxKfdkvxF5-QYRzdlfg
!7za x lstm.7z

Downloading...
From: https://drive.google.com/uc?id=1EuxrgESjumDS4XxKfdkvxF5-QYRzdlfg
To: /content/lstm.7z
  0% 0.00/1.79M [00:00<?, ?B/s]100% 1.79M/1.79M [00:00<00:00, 56.6MB/s]

7-Zip (a) [64] 16.02 : Copyright (c) 1999-2016 Igor Pavlov : 2016-05-21
p7zip Version 16.02 (locale=en_US.UTF-8,Utf16=on,HugeFiles=on,64 bits,2 CPUs AMD EPYC 7B12 (830F10),ASM,AES-NI)

Scanning the drive for archives:
  0M Scan         1 file, 1786732 bytes (1745 KiB)

Extracting archive: lstm.7z
--
Path = lstm.7z
Type = 7z
Physical Size = 1786732
Headers Size = 177
Method = LZMA2:21
Solid = +
Blocks = 1

  0%    
Would you like to replace the existing file:
  Path:     ./net_emo.pth
  Size:     31461 bytes (31 KiB)
  Modified: 2021-05-11 08:34:45
with the file from archive:
  Path:     net_emo.pth
  Size:     971941 bytes (950 KiB)
  Modified: 2021-05-11 08:58:08
? (Y)es / (N)o / (A)lways / (S)kip all / A(u)to rename all / (Q)uit? A

 58% - net_emo.pth           

In [5]:
from torch import nn
import torch
class LSTMNet(nn.Module):

    def __init__(self, embedding_dim, hidden_dim, classes):
        super(LSTMNet, self).__init__()
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.hidden = nn.Linear(hidden_dim, classes)


    def forward(self, sentence, lengths):
        sentence = torch.nn.utils.rnn.pack_padded_sequence(sentence, lengths, enforce_sorted=False, batch_first=True)
        _, (hn, cn) = self.lstm(sentence)
        return self.hidden(hn.squeeze(dim=0))

In [6]:
net_emo = LSTMNet(100, 200, 4)
net_off = LSTMNet(100, 200, 2)

In [7]:
net_emo.load_state_dict(torch.load('net_emo.pth'))
net_off.load_state_dict(torch.load('net_off.pth'))

<All keys matched successfully>

In [38]:
!wget http://jankocon.clarin-pl.eu/share/fasttext_tweetmodel_btc_sg_100_en.bin

--2021-05-11 09:17:16--  http://jankocon.clarin-pl.eu/share/fasttext_tweetmodel_btc_sg_100_en.bin
Resolving jankocon.clarin-pl.eu (jankocon.clarin-pl.eu)... 156.17.135.34
Connecting to jankocon.clarin-pl.eu (jankocon.clarin-pl.eu)|156.17.135.34|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1740570138 (1.6G) [application/octet-stream]
Saving to: ‘fasttext_tweetmodel_btc_sg_100_en.bin’


2021-05-11 09:19:45 (11.1 MB/s) - ‘fasttext_tweetmodel_btc_sg_100_en.bin’ saved [1740570138/1740570138]



In [1]:
!pip install fasttext



In [3]:
import fasttext
MODEL_PATH = 'fasttext_tweetmodel_btc_sg_100_en.bin'
model = fasttext.load_model(MODEL_PATH)



In [6]:
import numpy as np


In [4]:
from tqdm.auto import tqdm
import numpy as np


In [None]:
preprocessed_tweets = []
off_preds = torch.tensor([])
emo_preds = torch.tensor([])
with torch.no_grad():
  for batch in tqdm(np.array_split(tweets_data['text'], 100)):
    lengths = torch.tensor([len(fasttext.tokenize(x)) for x in batch])
    batch_embs = []
    for tweet in batch:
      tweet_emb = []
      for word in fasttext.tokenize(tweet):
        tweet_emb.append(torch.tensor(model.get_word_vector(word).reshape(1, -1)))
      batch_embs.append(torch.cat(tweet_emb))
    batch_embs = torch.nn.utils.rnn.pad_sequence(batch_embs, batch_first = True)
    emo_preds = torch.cat([emo_preds, net_emo(batch_embs, lengths)])
    off_preds = torch.cat([off_preds, net_off(batch_embs, lengths)])

  


HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))

KeyboardInterrupt: ignored









In [None]:
def prepare_lstm_data(dataset, label_path):
  texts = pd.read_csv(tweets_path, sep='\t', header=None)
  labels = pd.read_csv(label_path, sep='\t', header=None)

  lengths = torch.tensor([len(fasttext.tokenize(x)) for x in texts[0]])

  assert len(texts) == len(labels)

  training_data = []

  for tweet in texts[0].tolist():
    tweet_emb = []
    for word in fasttext.tokenize(tweet):
      tweet_emb.append(torch.tensor(model.get_word_vector(word).reshape(1, -1)))
  
    training_data.append(torch.cat(tweet_emb))
  training_data_padded = torch.nn.utils.rnn.pad_sequence(training_data, batch_first = True)
  print(training_data_padded.shape)

  labels_ints = torch.tensor([int(str_label[-1]) for  str_label in labels[0]])

  return training_data_padded, lengths, labels_ints