# Bevezetés #


A szakdolgozatom célja, hogy a klasszikus idősor-elemzési módszereket ötvözve a modern természetes nyelvfeldolgozás (NLP) eszköztárával, új megközelítést kínáljak a részvényárfolyamok előrejelzésére. A részvénypiacok mozgásának előrejelzése mindig is kihívást jelentett, mivel azok volatilitását számos tényező befolyásolja, legyen szó makrogazdasági eseményekről, vállalati hírekről vagy akár a befektetők érzelmeiről. Az elmúlt években a mesterséges intelligencia, különösen az NLP fejlődése új kapukat nyitott meg a pénzügyi adatelemzésben, lehetővé téve a piacot befolyásoló hírek és szöveges tartalmak automatizált feldolgozását és értelmezését.

A részvényárak előrejelzésére hagyományosan alkalmazott technikai elemzés számszerű múltbeli adatokra épít. Ugyanakkor a kutatások rámutattak, hogy a kizárólag technikai elemzésre támaszkodó megközelítések nem mindig vezetnek kielégítő eredményekhez, különösen a befektetői érzelmek és a hírek hatásának figyelmen kívül hagyása miatt. A pénzügyi hírek szöveges tartalmának elemzése azonban értékes információkat nyújthat, amelyeket kiegészítve a numerikus adatokkal pontosabb előrejelzések érhetők el.

A szakdolgozatom keretében különös figyelmet fordítok a BERT (Bidirectional Encoder Representations from Transformers) modell alapú NLP technikákra, amelyek lehetővé teszik a pénzügyi hírek és közlemények precíz elemzését. Az idősor-elemzés hagyományos statisztikai modelljeit pedig viszonyítási alapként használom a kísérleti eredmények kiértékeléséhez.

Informatikusként hiszem, hogy a mesterséges intelligencia és az természetes nyelvfeldolgozás integrációja a pénzügyi elemzésbe nemcsak a befektetési döntések gyorsaságát és pontosságát javíthatja, hanem hozzájárulhat a piacok átláthatóságához is. Ezért választottam a részvényárfolyamok előrejelzését az NLP módszereinek segítségével szakdolgozatom témájának, hiszen ez egy olyan terület, amely az innováció és a technológiai fejlődés határmezsgyéjén helyezkedik el. Az elvégzett kutatás reményeim szerint új perspektívát nyújthat a pénzügyi elemzések világában, és hozzájárulhat a befektetési döntéshozatal hatékonyságának növeléséhez.

# Elméleti háttér

## Idősorok elemzésének alapjai

Az idősor-elemzés az időben egymást követő adatok elemzésének tudománya, amelyet gyakran alkalmaznak a pénzügyben, gazdasági előrejelzések készítésében, meteorológiában és számos más tudományágban. Egy idősor elemzése során az a cél, hogy azonosítsuk a megfigyelt mintázatokat, megértjük azok struktúráját, és előrejelezzük a jövőbeli értékeket. Az idősorok megértéséhez elengedhetetlen a trendek, szezonális komponensek és véletlen zajok azonosítása és elemzése.


### Az idősorok jellemzői

Az idősorok különböző összetevői az adatok dinamikus viselkedését tükrözik. Ezek megértése kulcsfontosságú a helyes modellalkotáshoz és előrejelzéshez.

#### Trend ($T_t$)

A trend az idősor hosszú távú irányultságát jelenti, amely lehet növekvő, csökkenő vagy stagnáló. Például egy GDP-alapú gazdasági előrejelzés lehet alapul tapasztalható növekedési trendre mutat.

Matematikailag a trendet egyszerű lineáris formában is leírhatjuk:

$$T_t = \beta_0 + \beta_1 t$$

ahol $\beta_0$ az idősor kezdeti értéke, $\beta_1$ pedig a növekedés sebességét jelenti. Amennyiben a növekedés nem lineáris, polinomiális formát alkalmazhatunk:

$$T_t = \beta_0 + \beta_1 t + \beta_2 t^2$$

A trendek azonosítása és modellezése kulcsfontosságú, mivel a véletlen idősor viselkedése gyakran rejt maga a rövid távú ingadozások mellett.

#### Szezonalitás ($S_t$)

A szezonalitás az adatok rendszeresen ismétlődő mintázatát jelenti, amelyet tipikusan az évszakok, hónapok vagy napok okoznak. Például a kiskereskedelmi forgalomban a decemberi hónap kiemelt értékeket mutat az ünnepi vásárlások miatt.

A szezonalitás matematikai leírása gyakran trigonometrikus függvényekkel történik:

$$S_t = A \sin\left(\frac{2\pi t}{P}\right) + B \cos\left(\frac{2\pi t}{P}\right)$$

ahol $A$ és $B$ az amplitúdók, $P$ pedig a periódus. A szezonális hatások felismerése érdekében sokszor grafikus módszereket alkalmazunk, például a szezonális bontást, amely az idősor komponensekre bontását célozza.

#### Ciklikusság ($C_t$)

A ciklikus komponensek az idősorban hosszabb időközönként visszatérő mintázatokat jelentenek, amelyek nem feltétlenül szabályos időközönként ismétlődnek. A gazdasági ciklusok például ilyen ciklikus jelenségek.

Egy ciklus azonosítása érdekében gyakran az autokorrelációs függvényt (ACF) használják. Az autokorrelációs függvény az idősor múltbeli értékeit és az aktuális értékeit közötti kapcsolatot vizsgálja, és segít az ismétlődő minták detektálásában.

#### Véletlen zaj ($\epsilon_t$)

A véletlen zaj az idősor azon komponense, amely nem magyarázható a fent említett összetevők egyikével sem. Ez a rész véletlen fluktuációkat tartalmaz, amelyeket gyakran normális eloszlásúnak feltételezünk, az alábbi alakban:

$$\epsilon_t \sim \mathcal{N}(0, \sigma^2)$$

ahol $\sigma^2$ a zaj varianciája. A véletlen zaj figyelembevétele különösen fontos a modellépítés során, mivel a tüzött zaj "tüllesztett" eredményekhez, ami rontja az előrejelzések pontosságát.


### Idősorok stacionaritása

A stacionaritás az idősor statisztikai tulajdonságainak állandóságát jelenti időben. Ez az elemzési feladat ellengedhetetlen az olyan klasszikus modellek alkalmazásához, mint az ARIMA.

#### Matematikai definíció

Egy idősor $\{Y_t\}$ stacioner, ha:
* Az idősor várható értéke konstans: $\mathbb{E}[Y_t] = \mu$
* Az idősor varianciája állandó: $\text{Var}[Y_t] = \sigma^2$
* Az idősor autokorrelációja csak az időeltolódástól függ: $\text{Cov}[Y_t, Y_{t-k}] = \gamma(k)$.

Ha az idősor nem stacioner, a modellezés előtt gyakran differenciálást alkalmazunk:

$$\Delta Y_t = Y_t - Y_{t-1}$$

A differenciálás során a trend eltávolítható, és az idősor stacionáriussá tehető.

#### Stacionaritás tesztelése

Különböző statisztikai tesztek használatosak a stacionaritás ellenőrzésére:

1. Augmented Dickey-Fuller (ADF) teszt: Ez a teszt a nullhipotézisként feltételezi, hogy az idősor nem stacioner. A p-érték alapján eldönthető, hogy elutasítjuk-e a hipotézist.
2. Kwiatkowski-Phillips-Schmidt-Shin (KPSS) teszt: Ez a teszt a stacionaritást vizsgálja mint nullhipotézist, és ellenőrzést ad arra, hogy az idősor tartalmaz-e trendkomponenseket.


### Idősorok elemzésének modelljei

#### Mozgóátlag modellek (MA)
A mozgóátlag modellek a múltbeli hibák súlyozott átlagára alapján becsülik meg az idősor aktuális értékét. Egy $q$-rendű MA modell általános formája:

$$Y_t = \mu + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \cdots + \theta_q \epsilon_{t-q}$$

ahol $\mu$ az idősor átlaga, $\theta_i$ pedig a múltbeli hibák súlyai.

#### Autoregresszív modellek (AR)
Az autoregresszív modellek az idősor jövőbeli értékét a múltbeli értékek lineáris kombinációjaként becsülik meg. Egy $p$-rendű AR($p$) modell matematikai formája a következőképpen írható fel:

$$Y_t = \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \cdots + \phi_p Y_{t-p} + \epsilon_t$$

ahol:
* $Y_t$ az idősor aktuális értéke,
* $\phi_1, \phi_2, \ldots, \phi_p$ a múltbeli értékek súlyai (autoregressziós paraméterek),
* $\epsilon_t$ a véletlen zaj, amely $\epsilon_t \sim \mathcal{N}(0, \sigma^2)$ feltételezéssel írunk le.

##### Az autoregresszív modellek tulajdonságai:
1. Lineáris előrejelzés: Az AR($p$) modell a múltbeli értékek egyenes arányban befolyásolják a jövőt. A súlyok nagysága és előjele meghatározza, hogy az egyes múltbeli értékek mennyire erősen és milyen irányban hatnak az aktuális értékre.
2. Rend ($p$) meghatározása: Az autoregresszív modell rendjét az adatok viselkedésének és az autokorrelációs függvény (ACF) elemzésével határozhatjuk meg. Az ACF megmutatja, hogy az idősor korábbi értékei hogyan függnek össze a korábbi értékekkel.
3. Stacionaritási követelmény: Az AR($p$) modellek csak akkor működnek helyesen, ha az idősor stacioner. Az AR-paraméterek abszolútértékének összege egy adott feltétel szerint korlátozott:

$$\sum_{i=1}^p |\phi_i| < 1$$

##### Példa egy AR(1) modellre:
Egy $p = 1$-rendű autoregresszív modell (AR(1)) a legegyszerűbb forma, amely a következőként írható fel:

$$Y_t = \phi_1 Y_{t-1} + \epsilon_t$$

Ebben az esetben az aktuális érték kizárólag az előző időpont értékétől függ. Ha $\phi_1 > 0$, akkor a múltbeli értékek pozitívan korrelálnak az aktuális értékkel, míg $\phi_1 < 0$ esetén a kapcsolat inverz.

#### ARIMA modellek

Az Autoregresszív Integrált Mozgóátlag (ARIMA) modellek az idősor elemzésének és előrejelzésének széles körben alkalmazott eszközei. Az ARIMA modellek az autoregressziót (AR), a differenciálást (I) és a mozgóátlagot (MA) kombinálják.

##### Az ARIMA modell általános formája

Az ARIMA modell matematikai egyenlete így írható fel:

$$\Phi_p(B)(1 - B)^dY_t = \Theta_q(B)\epsilon_t$$

ahol:
* $\Phi_p(B) = 1 - \phi_1 B - \phi_2 B^2 - \cdots - \phi_p B^p$ az autoregresszív komponens,
* $(1 - B)^d$ az integrálási (differenciálási) operátor a trend eltávolítására,
* $\Theta_q(B) = 1 + \theta_1 B + \theta_2 B^2 + \cdots + \theta_q B^q$ a mozgóátlag komponens,
* $B$ az eltoló operátor, amelyet $Y_t = Y_{t-1}$ definícióval használunk.

##### Paraméterek $(p, d, q)$ jelentése
1. $p$ - autoregresszív (AR) komponens rendje: Az idősor aktuális értékét a múltbeli értékek száma alapján becsüli.
2. $d$ - differenciálás mértéke: Az idősor stacionaritását biztosító differenciálások száma.
3. $q$ - mozgóátlag (MA) komponens rendje: Az idősor aktuális értékét a múltbeli hibák alapján becsüli.

##### Az ARIMA modellépítés lépései
1. Adatok stacionaritásának vizsgálata: Augmented Dickey-Fuller (ADF) teszttel ellenőrizzük, hogy az idősor stacioner-e. Ha nem, differenciálást végzünk.
2. Paraméterek meghatározása: Az ACF és a parciális autokorrelációs függvény (PACF) elemzésével meghatározzuk az optimális $p, d$ és $q$ értékeket.
3. Modell illesztése: A kapott paraméterek alapján felépítjük az ARIMA modellt.
4. Diagnosztikai vizsgálat: A modell maradékai (reziduálisokat) vizsgáljuk, hogy megfelelnek-e a fehér zaj tulajdonságainak.

#### SARIMA modellek

A SARIMA modellek az ARIMA kiterjesztett változatai, amelyek a szezonális mintázatokat is kezelik. Az általános modell neve: Szezonális Autoregresszív Integrált Mozgóátlag.

##### SARIMA modell általános formája

$$\Phi_p(B)\Phi_P(B^s)(1 - B)^d(1 - B^s)^DY_t = \Theta_q(B)\Theta_Q(B^s)\epsilon_t$$

ahol:
* $\Phi_P(B^s)$ és $\Theta_Q(B^s)$ a szezonális AR és MA komponensek,
* $D$ a szezonális differenciálás mértéke,
* $s$ a szezonális periódus.

A SARIMA modellek különösen alkalmasak az olyan idősorokra, amelyek egyaránt tartalmaznak trendeket és szezonális mintázatokat, például havi eladási adatokra.


## Természetes nyelvfeldolgozás (NLP)

### NLP alapfogalmak és technikák
A természetes nyelvfeldolgozás (Natural Language Processing, NLP) az a terület, amelynek célja az emberi nyelv számítógépes feldolgozása és megértése. Az NLP a mesterséges intelligencia feladatkörében helyezkedik el, és olyan feladatokat old meg, mint a szövegelemzés, gépi fordítás, nyelgenerálás és beszédfelismerés.

#### Előfeldolgozási lépések
Az NLP folyamatának első lépése az adat előkészítése, amely kulcsfontosságú a pontos elemzéshez és modellépítéshez. Az alábbi lépéseket tartalmazza:

1. Tokenizálás:
A szöveget kisebb egységekre, úgynevezett tokenekre bontjuk, amelyek lehetnek szavak, számok vagy egyéb jelek. Például: "Ez", "egy", "példa".
A tokenizálás alapvető célja, hogy az elemzések számára strukturált adatokat biztosítson.

2. Lemmatizálás és szótövezés:
Ezek az eljárások a szavakat az alapformájukra redukálják. A lemmatizálás figyelembe veszi a szavak nyelvtani szerepét, míg a szótövezés (stemming) egyszerű egygyökű szabályokat használ.
Például a "futott", "futva" és "futás" szavakat a "fut" alapformára hozza.

3. Stop szavak eltávolítása:
Az olyan gyakori szavak, mint "a", "ez", "vagy", "is", általában nem hordoznak értékes információt, így ezeket gyakran kiszűrik az elemzés során.

4. Zajszűrés:
A szövegből az irreleváns karakterek, jelek eltávolítják az elemzés során.

#### Szövegreprezentációs módszerek

Az NLP modelljei számára a nyelvi adatok számok formájában történő megjelenítése szükséges. Az alábbiakban néhány elterjed módszert ismertetünk:

1. Bag of Words (BoW):
A szöveget szavak halmazaként reprezentálja, ahol az egyes szavak előfordulásának gyakorisága rögzíti. Hátránya, hogy figyelmen kívül hagyja a szavak sorrendjét és kontextusát.

2. Term Frequency-Inverse Document Frequency (TF-IDF):
Ez a módszer a szavak relatív fontosságát méri egy dokumentumban, figyelembe véve, hogy egy adott szó milyen gyakran fordul elő az összes dokumentumban. A TF-IDF képlete:

$$\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)$$

ahol:
* $\text{TF}(t, d)$: a $t$ szó gyakorisága a $d$ dokumentumban,
* $\text{IDF}(t, D) = \log \frac{|D|}{1 + |\{d \in D : t \in d\}|}$: az inverz dokumentumfrekvencia.

3. Word embeddings (Word2Vec, GloVe):
Ezek a módszerek a szavak sűrű vektorreprezentációját állítják elő, amely figyelembe veszi a szavak kontextusát és hasonlóságát. A Word2Vec például a szavak n-dimenziós térben történő elhelyezésével nyeri ki a szavak vektori közötti kapcsolatokat.

4. Kontextuális embeddings (BERT, GPT):
Ezek az új generációs modellek nemcsak a szavak jelentését veszik figyelembe, hanem azok környezetét is. A BERT (Bidirectional Encoder Representations from Transformers) például pontosabb kontextusba ágyazott szóvektorokat biztosít.

#### Szemantikai elemzés

Az NLP-ben a szemantikai elemzés az emberi nyelv jelentésének feltárását célozza. Az alábbiakban a legfontosabb alkalmazásokat ismertetjük:

1. Sentiment analízis:
Ez a technika a szöveg érzelmi tónusának (pozitív, semleges, negatív) azonosítására irányul. Alkalmazása elterjed a közösségi médiaelemzésekben és a vásárlói visszajelzések feldolgozásában.

2. Névelem-felismerés (NER):
A szövegben szereplő entitások (személyek, helyek, dátumok) automatikus felismerése és osztályozása. Például egy "Google" entitást vállalatként azonosítja.

3. Témamodellezés:
Az LDA (Latent Dirichlet Allocation) segítségével a szövegből különböző témák automatikus kinyerése valósítható meg. Az LDA feltételezi, hogy a dokumentumok kevert témákat tartalmaznak, és minden téma adott szavak halmazát reprezentálja.

### Modern NLP architektúrák
#### Transformer architektúra
A Transformer modell a természetes nyelvfeldolgozás forradalmiszemközének, amely figyfyelmi (self-attention) alapú. Az architektúra alapegyenlete:

$$Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}}),V$$

ahol:
* Q: a lekérdezési mátrix (queries),
* K: a kulcsok mátrixa (keys),
* V: az értékek mátrixa (values),
* $d_k$: a kulcsmátrix dimenziója.

#### Előtanított nyelvi modellek
A BERT (Bidirectional Encoder Representations from Transformers) az evolúziót, mint például a FinBERT - jelentős szerepet játszanak a pénzügyi szövegek feldolgozásában. A FinBERT + kifejezetten pénzügyi adatokra finomhangolható, így hatékonyabb szentiméntelemzésre és piacokkal kapcsolatos szövegek feldolgozására.


## Pénzügyi piacok elemzése
### Piaci hatékonyság és előrejelezhetőség
A pénzügyi piacok hatékonysága és előrejelezhetősége kulcsfontosságú kérdés a modern közgazdaságtanban és pénzügyi elemzésben. Az Efficient Market Hypothesis (EMH), vagyis a hatékony piacok elmélete, Eugene Fama nevéhez kötődik, aki 1970-ben alkotta meg az elmélet alapjait. Az elmélet szerint a piacok olyan hatékonyak, hogy minden releváns információ azonnal és teljes mértékben tükröződik az eszközök árában.

#### Piaci hatékonyság típusai
Az EMH három fő formát különböztet meg:

1. Gyenge forma:
   Ez azt állítja, hogy az árfolyamok csak a múltbeli adatokat és volumeneiket tükrözik. Ennek következménye, hogy a technikai elemzés nem nyújt előnyt az árba. Matematikailag szempontból a piaci árfolyamokat véletlenszerű (randomwalk) modellezzük:

   $$P_t = P_{t-1} + \epsilon_t$$

   ahol:
   * $P_t$: az árfolyam t időpontban,
   * $\epsilon_t$: független és azonos eloszlású véletlen zaj.

2. Közepes forma:
   Ez azt állítja, hogy az árfolyamok nemcsak a múltbeli adatokat, hanem az összes nyilvánosan elérhető információt is tartalmazzák. Ebben beletartoznak a vállalati jelentések, gazdasági hírek és politikai események. Ez az állítás megkérdőjelezi a fundamentális elemzés hatékonyságát.

3. Erős forma:
   Ez a forma állítja, hogy az árák minden információt tükröznek, beleértve a nyilvános és a bennfentes információkat is. Ha ez igaz lenne, senki sem tudna tartósan felülteljesíteni a piacot, még a bennfentes információk felhasználásával sem.

#### Piaci anomáliák
Bár az EMH széles körben elfogadott, számos kutatás mutatott ki anomáliákat, amelyek az elmélet gyengeségeire utalnak:

* Hét napja hatás: Bizonyos napokon (például pénteken) az árfolyamok szisztematikusan eltérnek az átlagtól.
* Január hatás: Az év első hónapjában gyakran magasabb hozamok figyelhetők meg.
* Bennfentes kereskedelem: A bennfentes információk használata előnyt jelenthet, különösen az erős formájú piacok esetében.

#### Piaci szentiméntés és viselkedési pénzügyek
A piaci szentiméntés, vagyis a befektetők általános érzelmi állapota, jelentős hatással van az árfolyamokra. A viselkedési pénzügyek (behavioral finance) ezen hatásokat próbálja megérteni és modellezni.

#### Befektetői hangulat mérése
1. Közvetlen mérési módszerek:
   A befektetők körében végzett felmérések és kérdőívek segítségével közvetlenül mérhetjük a piaci szentiméntet. Például az AAII Investor Sentiment Survey az amerikai befektetők optimizmusát és semlegességét méri.

2. Közvetett indikátorok:
   A piaci mutatók, például a VIX index (volatility index), a piaci kockázatvállalást és szentiméntet közvetett módon mérésére szolgálnak. Magas VIX-értékek jellemzően félelmet jeleznek a piacokon.

3. Média alapú szentiméntés:
   A hírek, közösségi média bejegyzések és pénzügyi elemzések automatikus szövegelemzése segítségével a piaci hangulat kvantitatív módon mérhető. Az NLP és szentiméntanalízis, például a FinBERT modell segítségével, fontos szerepet játszanak e folyamatban.

#### Viselkedési torzítások
A befektetők döntéseit gyakran irracionalitási tényezők befolyásolják, amelyek torzítják a piacok működését:

1. Nyájhatás (herding effect):
   A befektetők hajlamosak mások viselkedését követni, különösen bizonytalan környezetben. Ez jelentős árfolyam-ingadozást okozhat.

2. Túlzott magabiztosság (overconfidence):
   A befektetők túlbecsülik saját tudásukat és képességeiket, ami gyakran túlzott kockázatvállaláshoz vezet.

3. Lehorgonyzás (anchoring):
   Az árfolyamok elemzése során az emberek gyakran túl nagy jelentőséget tulajdonítanak egy korábbi értéknek vagy eseménynek, ami befolyásolja döntéseiket.


## Hibrid modellezési megközelítések
### Idősoros és szöveges adatok integrálása
A különböző adatforrások egyesítése a pénzügyi modellezés új dimenzióját nyitja meg. Az idősorelemzés és az NLP együttes alkalmazása a strukturált (árfolyamok) és strukturálatlan (szövegek) adatok integrálására.

#### Feature engineering
Az adatokból kinyert jellemzők (features) alapvető szerepet játszanak az integrált modellek teljesítményében:

1. Idősor jellemzők:
   Az idősorokból statisztikai mutatókat nyerhetünk ki, mint például a mozgóátlagok, volatilitás, maximumok és minimumok.

2. Szöveges jellemzők:
   A szentiméntanalízis eredményeit, a TF-IDF értékeket vagy a szóbeágyazásokat kombinálhatjuk az idősorokkal. Például egy hír szentiméntjét és a hozzá kapcsolódó árfolyamváltozást egyaránt modellezhetjük.

3. Jellemzők kombinálása:
   Az idősor- és szöveges jellemzők egyesítése lehetővé teszi a komplex összefüggések feltárását.

#### Modell architektúrák
Az integrált adatelemzés különböző modellarchitektúrákat igényel:

1. Párhuzamos feldolgozás:
   Az idősor- és szöveges adatokat külön modellekben dolgozzák fel, majd az eredményeket kombinálják.

2. Kaszkád modellek:
   Az egyik modell eredményeit felhasználják egy másik modell számára.

3. Ensemble módszerek:
   Több modell eredményeinek kombinálásával növelhető az előrejelzések pontossága.

### Mély tanulási alapú megoldások

A mély tanulási (Deep Learning) módszerek az utóbbi években forradalmasították a pénzügyi előrejelzést és a természetes nyelvfeldolgozást. Az idősorok és szöveges adatok integrációjában különösen fontos szerepet játszanak az olyan modellek, amelyek képesek a komplex, nemlineáris kapcsolatok azonosítására.

#### Rekurrens neurális hálózatok (RNN)

Az RNN-ek alkalmasak az idősorok adatok modellezésére, mivel képesek kezelni a függőségeket képesek kezelni. Az alap RNN-ek azonban hosszú távú függőségekkel nem tudnak hatékonyan megbirkózni, ezért fejlesztették ki a következő speciális változatokat:

1. LSTM (Long Short-Term Memory):
   Az LSTM egységek képesek a hosszú távú függőségek kezelésére, mivel a memóriakap szabályozzák, hogy az információ hogyan áramlik a hálózaton keresztül:

   $$f_t = \sigma(W_f[h_{t-1}, x_t] + b_f),\quad i_t = \sigma(W_i[h_{t-1}, x_t] + b_i),$$

   ahol:
   * $f_t$: felejtési kapu,
   * $i_t$: beviteli kapu,
   * $\sigma$: aktivációs függvény,
   * $W$ és $b$: súlyok és bias paraméterek.

2. GRU (Gated Recurrent Unit):
   A GRU egy egyszerűbb alternatíva az LSTM-hez, amely kevesebb paramétert használ. Gyakrabban tanulást biztosít.

#### Konvolúciós neurális hálózatok (CNN)

A CNN-ek hagyományosan képfeldolgozásra lettek kifejlesztve, de időbeli mintázatok felismerésére is alkalmazhatók az idősor-elemzés során. A konvolúciós rétegek képesek a rövid távú mintázatok (például időben változások) azonosítására:

$$z_{i,j} = \sigma\left(\sum_{m,n} x_{i+m,j+n} \cdot w_{m,n} + b\right),$$

ahol:
* $x$: bementi adatok,
* $w$: konvolúciós súlyok,
* $b$: bias,
* $\sigma$: aktivációs függvény.

#### Hibrid modellek

A CNN és RNN kombinációja lehetővé teszi az idősorok és szöveges adatok egységes feldolgozását. A CNN-ek az időbeli mintázatokat, míg az LSTM vagy GRU az időbeli függőségeket azonosítják.

1. CNN-LSTM:
   A CNN-ek az idősorosadatok jellemzőinek kinyerésére, az LSTM pedig a hosszú távú kapcsolatok felismerésére használhatók. Ez különösen hasznos, ha az idősoradat-jellemzőket az árfolyam-előrejelzéshez kombinálják.

2. Attention mechanizmus:
   Az attention mechanizmus lehetővé teszi a modell számára, hogy az adatok releváns részeire fókuszáljon. Ez különösen hasznos, ha egy szöveg bizonyos része vagy egy időbeli árfolyammérték nagyobb jelentőséggel bír:

   $$Attention(Q,K,V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V,$$

   ahol:
   * Q: lekérdezés (query) mátrix,
   * K: kulcs (key) mátrix,
   * V: érték (value) mátrix,
   * $d_k$: dimenzióméret.

3. Transformer alapú megoldások:
   A Transformer architektúra önmagában is használható az idősorok és szöveges adatok elemzésére. A self-attention mechanizmus révén hatékonyan dolgozza fel az adatokat, és képes a hosszú távú kapcsolatok azonosítására is.

## Teljesítményértékelés és validáció

### Előrejelzési metrikák
A modellek értékelésére többféle mutató is alkalmazható, amelyek lehetővé teszik a pontosság és a gyakorlati használhatóság megítélését.

#### Statisztikai metrikák

1. Mean Absolute Error (MAE):
   Az abszolút hibák átlaga, amely a modellek általános pontosságát méri:

   $$MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|,$$

   ahol:
   * $y_i$: valódi érték,
   * $\hat{y}_i$: előrejelzett érték.

2. Root Mean Square Error (RMSE):
   Az RMSE nagyobb súlyt ad a nagyobb hibáknak, ezért jobbán kiemeli a modell nagyobb tévedéseit.

   $$RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2}.$$

3. Mean Absolute Percentage Error (MAPE):
   Az előrejelzési hibák relatív arányát méri:

   $$MAPE = \frac{1}{n} \sum_{i=1}^n \left|\frac{y_i - \hat{y}_i}{y_i}\right| \cdot 100.$$

#### Pénzügyi metrikák

1. Sharpe-ráta:
   A hozam és kockázat arányát méri:

   $$S = \frac{\bar{R} - R_f}{\sigma},$$

   ahol:
   * $\bar{R}$: portfólió átlaghozama,
   * $R_f$: kockázatmentes hozam,
   * $\sigma$: portfólió szórása.

2. Maximum drawdown:
   A legnagyobb csökkenés egy csúcsról egy mélypontra:

   $$MDD = \frac{\text{Peak Value} - \text{Trough Value}}{\text{Peak Value}}.$$

3. Profit és veszteség (P&L):
   Az előrejelzések alapján végrehajtott stratégiák nyereségességét méri.

#### Validációs stratégiák
A model robusztusságának és megbízhatóságának tesztelése kritikus fontosságú:

1. Időbeli keresztvalidáció:
   Az idősorosadatok időbeli függősége miatt hagyományos keresztvalidáció nem használható.
   Az időbeli keresztvalidáció lépései:
   * A múltbeli adatokból tanul a modell.
   * A jövőbeli adatokon teszteli magát.

2. Backtesting:
   A történeti szimulációk révén a modell előrejelzését valós pénzi adatok alapján tesztelik.
   Fontos figyelembe venni a tranzakciós költségeket és a piaci körülményeket.


# Fejlesztői Dokumentáció és Implementáció

## Python nyelv és eszközeinek áttekintése

A Python az egyik legszélesebb körben használt programozási nyelv a mesterséges intelligencia, gépi tanulás, adatelemzés és pénzügyi modellezés területén. A nyelv egyszerű szintaxisa, széles körű könyvtárainak ökoszisztémája és interaktív eszközei miatt ideális választás a szakdolgozathoz kapcsolódó idősor-elemzés és természetes nyelvfeldolgozási (NLP) feladatokhoz.

A Python erőssége az eszközök egyszerű integrációjában rejlik. Az idősor-elemzés és NLP kombinációja érdekében az adatok előkészítésétől kezdve a modellezésen át az értékelésig lehetőség van egyetlen keretrendszerben lehet dolgozni.

    1. Adatintegráció és előfeldolgozás:
    A Pandas és a NumPy használható az idősorok előkészítésére, míg a szöveges adatok tisztításához az NLTK alkalmazható.

    2. Modellezés:
    A Scikit-learn és a TensorFlow eszközei lehetővé teszik a klasszikus és mélytanulási modellek egyidejű fejlesztését.

    4. Validáció és értékelés:
    Az idősoros validációhoz a Scikit-learn, míg a pénzügyi metrikák kiszámításához a NumPy és Pandas eszközök használhatók.

## Használt könyvtárak

### ast

Az ast modul a Python beépített könyvtára, amely az absztrakt szintaxisfák (AST) kezelését támogatja.


In [None]:
import ast

### numpy

A NumPy a Python egyik legfontosabb könyvtára a numerikus számításokhoz. Széleskörű támogatást nyújt tömbműveletekhez, lineáris algebrához és statisztikai számításokhoz.

In [None]:
import numpy as np

### pandas

A Pandas könyvtár adatok kezelésére és elemzésére szolgál. A DataFrame struktúrája ideális táblázatos adatok manipulációjára.

In [None]:
import pandas as pd

### transformers

Transformers könyvtár

A Hugging Face Transformers könyvtár a modern NLP-modellek, például a BERT vagy GPT alkalmazását teszi lehetővé.

#### Modulok bemutatása:
* AutoTokenizer: Szövegek tokenizálásához használható.

In [None]:
from transformers import AutoTokenizer

* AutoModelForSequenceClassification: Előtanított modellek betöltése osztályozási feladatokhoz.

In [None]:
from transformers import AutoModelForSequenceClassification

* pipeline: Egyszerűsített interfész különböző NLP-feladatokhoz, például szentimentelemzéshez.

In [None]:
from transformers import pipeline

### matplotlib és plotly

A Matplotlib az egyik legszélesebb körben használt adatvizualizációs könyvtár.

In [None]:
import matplotlib.pyplot as plt
from matplotlib.dates import DateFormatter
plt.style.use('ggplot')

A Plotly interaktív adatvizualizációs könyvtár.

In [None]:
import plotly.graph_objects as go

### yfinance

A yfinance könyvtár egyszerű és gyors hozzáférést biztosít a Yahoo Finance API-jához, ami elérhetővé teszi a tőzsdei adatok lekérdezését.

In [None]:
import yfinance as yf

### backtrader

A backtrader egy tőzsdei kereskedési stratégiák szimulálására alkalmas könyvtár.

In [None]:
import backtrader as bt

### tqdm

A tqdm egy egyszerű, de hatékony eszköz a Python programok futási állapotának vizualizálására.

In [None]:
from tqdm.notebook import tqdm

## NLP modellek

A Huggingface honlapján találkható előre betanított modellek lekérése és felhasználása egy transformers pipeline létrehozásához.

### DistilRoBERTa

Ez a modell a RoBERTa-bázismodell desztillált változata a Financial PhraseBank adat gyűjteményén finomhangolva.
A modell kis- és nagybetű-érzékeny, továbbá 6 réteggel, 768 dimenzióval és 12 fejjel rendelkezik, összesen 82M paraméterrel.

https://huggingface.co/mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis

In [None]:
model_DistRoBERTa = f"mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis"


_sentiment_analysis_DistRoBERTa = pipeline("sentiment-analysis",
                                           model= AutoModelForSequenceClassification.from_pretrained(
                                               model_DistRoBERTa,
                                               num_labels=3),
                                           tokenizer=AutoTokenizer.from_pretrained(model_DistRoBERTa),
                                           top_k=None, padding=True, truncation=True
                                           )

### FinBERT

A FinBERT egy előre betanított NLP modell (BERT nyelvi modell továbbképzése) pénzügyi szövegek hangulatának elemzésére.
Ez a modell is a Financial PhraseBank adat gyűjteményen lett finomhangolva.

https://huggingface.co/ProsusAI/finbert

In [None]:
model_FinBERT = "ProsusAI/finbert"
_sentiment_analysis_FinBERT = pipeline("sentiment-analysis",
                                       model=AutoModelForSequenceClassification.from_pretrained(
                                           model_FinBERT,
                                           num_labels=3
                                       ),
                                       tokenizer=AutoTokenizer.from_pretrained(model_FinBERT),
                                       top_k=None, padding=True, truncation=True
                                       )

### DeBERTa

A DeBERTa a BERT és a RoBERTa modelleket javítja a szétválasztott figyelem és a továbbfejlesztett maszkdekóder használatával.
Ezzel a két fejlesztéssel a DeBERTa 80 GB képzési adatmennyiséggel az NLU-feladatok többségében felülmúlja a RoBERTa-t.

https://huggingface.co/mrm8488/deberta-v3-ft-financial-news-sentiment-analysis

In [None]:
model_DeBERTa = f"mrm8488/deberta-v3-ft-financial-news-sentiment-analysis"
_sentiment_analysis_DeBERTa = pipeline("sentiment-analysis",
                                       model=AutoModelForSequenceClassification.from_pretrained(
                                           model_DeBERTa,
                                           num_labels=3),
                                       tokenizer=AutoTokenizer.from_pretrained(model_DeBERTa),
                                       top_k=None, padding=True)

## Használt adatok

## Függvények

### Adatok előkészítése

In [None]:
def preprocess_data(input_file, ticker=""):
    """
    Process stock data by combining news data with Yahoo Finance price data.
    Missing stock data is filled using linear interpolation: i/(n+1) where n is the number
    of missing days and i is the current position in the gap.

    Parameters:
    - input_file: Path to the input CSV file containing news data
    - ticker: Ticker symbol of the stock
    """
    try:
        # Read the CSV file
        data = pd.read_csv(input_file)

        # Remove unnamed columns
        data.drop(data.columns[data.columns.str.contains('unnamed', case=False)], axis=1, inplace=True)

        # Filter data for specific ticker
        data = data[data['stock'] == ticker].copy()

        # Convert date to datetime with UTC timezone
        data['date'] = pd.to_datetime(data['date'], utc=True)

        # Convert UTC time to local time and extract date
        local_dates = data['date'].dt.tz_localize(None).dt.date

        # Create a datetime index for the news data
        news_data = data.groupby(local_dates)['title'].apply(lambda x: ' | '.join(x.dropna())).reset_index()
        news_data.rename(columns={'title': 'News', 'date': 'Date'}, inplace=True)

        # Convert Date column to datetime without timezone
        news_data['Date'] = pd.to_datetime(news_data['Date'])

        # Get date range for stock data (using localized dates)
        start_date = local_dates.min()
        end_date = local_dates.max()

        # Fetch stock data from Yahoo Finance
        stock = yf.download(ticker, start=start_date, end=end_date, progress=False)
        stock = stock.reset_index()
        stock['Date'] = pd.to_datetime(stock['Date'])  # Yahoo data comes without timezone

        # Flatten multi-level columns if they exist
        stock.columns = [col[0] if isinstance(col, tuple) else col for col in stock.columns]

        # Create a complete date range including weekends
        date_range = pd.date_range(start=start_date, end=end_date, freq='D')
        complete_dates = pd.DataFrame({'Date': date_range})

        # Merge stock data with complete date range
        stock_full = pd.merge(complete_dates, stock, on='Date', how='left')

        def interpolate_gaps(series):
            """
            Custom interpolation function that uses i/(n+1) formula for gaps
            """
            result = series.copy()
            mask = series.isna()

            if not mask.any():  # No NaNs to fill
                return result

            # Find consecutive NaN sequences
            gaps = mask.ne(mask.shift()).cumsum()[mask]

            for gap_idx in gaps.unique():
                gap_mask = gaps == gap_idx
                gap_size = gap_mask.sum()

                # Find values before and after gap
                before_idx = series.index[series.index < gaps[gap_mask].index[0]][-1] if any(series.index < gaps[gap_mask].index[0]) else None
                after_idx = series.index[series.index > gaps[gap_mask].index[-1]][0] if any(series.index > gaps[gap_mask].index[-1]) else None

                if before_idx is not None and after_idx is not None:
                    # Regular gap with values on both sides
                    start_val = series[before_idx]
                    end_val = series[after_idx]
                    gap_values = [start_val + (end_val - start_val) * (i / (gap_size + 1))
                                for i in range(1, gap_size + 1)]
                    result.iloc[gaps[gap_mask].index] = gap_values
                elif before_idx is not None:
                    # Gap at the end - use last known value
                    result.iloc[gaps[gap_mask].index] = series[before_idx]
                elif after_idx is not None:
                    # Gap at the start - use first known value
                    result.iloc[gaps[gap_mask].index] = series[after_idx]

            return result

        # Apply custom interpolation to each numeric column
        numeric_columns = ['Adj Close', 'Close', 'High', 'Low', 'Open', 'Volume']
        for col in numeric_columns:
            stock_full[col] = interpolate_gaps(stock_full[col])

        # Merge with news data
        final_data = pd.merge(stock_full, news_data, on='Date', how='left')

        # Sort by date
        final_data = final_data.sort_values('Date')

        # Convert Date back to date (not datetime) for final output
        final_data['Date'] = final_data['Date'].dt.date

        # Save the processed data
        output_file = f"/tmp/pycharm_project_520/src/data/input/processed/source/{ticker}.csv"
        final_data.to_csv(output_file, index=False)

        return final_data

    except FileNotFoundError:
        print(f"Error: The file '{input_file}' was not found.")
        return None

### Sentiment értékek

In [None]:
def get_sentiment_scores_test(df, news, model):
    """
    Performs sentiment analysis using a specified pipeline and calculates sentiment scores.

    Args:
        df (pd.DataFrame): DataFrame containing the text data.
        news (str): Column name for the news headlines or text to analyze.
        model (str): The model to use for sentiment analysis ('DistRoBERTa', 'FinBERT', 'DeBERTa').

    Returns:
        pd.DataFrame: DataFrame with calculated sentiment scores.
    """
    # Create a copy of the DataFrame to avoid SettingWithCopyWarning
    df = df.copy()

    # Select the appropriate model pipeline
    if model == "DistRoBERTa":
        sent_pipeline = _sentiment_analysis_DistRoBERTa
    elif model == "FinBERT":
        sent_pipeline = _sentiment_analysis_FinBERT
    elif model == "DeBERTa":
        sent_pipeline = _sentiment_analysis_DeBERTa
    else:
        raise ValueError("Invalid model name. Choose 'DistRoBERTa', 'FinBERT', 'DeBERTa'.")

    res = {}
    fail = {}
    n = 0

    # Process each row in the DataFrame
    for i, row in tqdm(df.iterrows(), total=len(df), disable=True):
        text = row[news]
        try:
            if pd.isna(text):
                result = [[
                    {'label': 'neutral', 'score': 1.0},
                    {'label': 'negative', 'score': 0},
                    {'label': 'positive', 'score': 0}
                ]]
            else:
                result = sent_pipeline(text)

        except (IndexError, RuntimeError):
            if pd.isna(text):
                fail[n] = str(i)
            else:
                fail[n] = text
                n += 1
            result = [[
                {'label': 'neutral', 'score': 1.0},
                {'label': 'negative', 'score': 0},
                {'label': 'positive', 'score': 0}
            ]]
            pass
        res[i] = result[0]  # Extract the first list

    # Create a new column with the sentiment score
    sentiment_score_col = f"{model}_sentiment_scores"
    df[sentiment_score_col] = res

    return df

In [None]:
def sentiment_vector(df, scores, model):
    """
    Creates a sentiment vector column based on sentiment scores.
    (Neutral, Positive, Negative)

    Parameters:
    - df: DataFrame containing the stock data.
    - scores: Column name for the sentiment scores.
    - model: Name of the model.
    - debug: If True, prints debugging information.
    """
    df = df.copy()

    # Function to extract scores and create a sentiment vector
    def extract_scores(row):
        # If row is a string, convert it to a Python object
        if isinstance(row, str):
            row = ast.literal_eval(row)  # Safely evaluate the string to a Python object
        # Extract scores for neutral, positive, and negative in the correct order
        dimensions = {item['label']: item['score'] for item in row}
        return dimensions['neutral'], dimensions['positive'], dimensions['negative']

    # Apply the function to the column
    sentiment_vector_col = f"{model}_sentiment_vector"
    df[sentiment_vector_col] = df[scores].apply(extract_scores)

    return df

In [None]:
def adjust_scores(df, vectors, model):
    """Calculate adjusted sentiment scores from vector column."""
    df = df.copy()

    def calculate_normalized_score(vector):
        neutral, positive, negative = vector
        total = positive + negative #+ neutral
        return (positive - negative) / total if total > 0 else 0

    def calculate_raw_score(vector):
        neutral, positive, negative = vector
        return positive if positive > negative else (-1*negative) if negative > positive else 0


    df[f"{model}_adjusted_score"] = df[vectors].apply(calculate_normalized_score)
    df[f"{model}_raw_score"] = df[vectors].apply(calculate_raw_score)

    return df

### Kapott és jósolt adatok összehasonlítása

In [None]:
def add_trend(df, close, day=1):
    """
    Calculates the trend of a stock price.

    Parameters:
    - df: DataFrame containing the stock data.
    - close: Column name for the close price.
    - day: Number of days to calculate the trend.
    """
    try:
        # Calculate the trend
        tend_col = f"trend_{day}d"
        df[tend_col] = df[close].pct_change(periods=day).shift(-1)

        return df

    except KeyError as e:
        print(f"KeyError: {str(e)}")
        return df

In [None]:
def add_volatility(df, close, window=5, trading_days=252):
    """
    Calculate rolling volatility for a DataFrame's close price column.

    Parameters:
    -----------
    df : pandas.DataFrame
        Input DataFrame containing price data
    close : str
        Name of the column containing closing prices
    window : int, optional
        Rolling window size for volatility calculation (default: 5)
    trading_days : int, optional
        Annual trading days for annualized volatility (default: 252)

    Returns:
    --------
    pandas.DataFrame
        Original DataFrame with added volatility columns
    """
    # Create a copy of the DataFrame to avoid modifying the original
    result = df.copy()

    # Calculate log returns
    result['log_returns'] = np.log(result[close] / result[close].shift(1))

    # Calculate rolling standard deviation of log returns (annualized)
    result[f'volatility_{window}d'] = (
        result['log_returns']
        .rolling(window=window)
        .std()
        * np.sqrt(trading_days)
    )

    return result

In [None]:
def validate_predictions(df, tar, sco, vol, model, score_type, target_factor=0.15, score_factor = 0.5):
    """
    Validate prediction based on adaptive volatility-based threshold for neutrality.

    Args:
        df (pd.DataFrame): DataFrame containing stock data with calculated volatility.
        tar (str): Column name for the target price change (e.g., 'Daily Return').
        sco (str): Column name for the sentiment score.
        vol (str): Column name for the volatility.
        model (str): Model name to include in the predictions column.
        score_type (str): Type of sentiment score (e.g., 'adjusted', 'raw').
        target_factor (float): Multiplier for volatility to define the neutral threshold for the target.
        score_factor (float): Threshold for neutral sentiment score.

    Returns:
        pd.DataFrame: DataFrame with predictions and success/failure of predictions.
    """
    predict_dict = {}

    # Validate input columns exist
    required_cols = [tar, sco, vol]
    missing_cols = [col for col in required_cols if col not in df.columns]
    if missing_cols:
        raise ValueError(f"Missing required columns: {missing_cols}")

    # Calculate adaptive volatility threshold and predictions
    for i, row in tqdm(df.iterrows(), total=len(df), disable=True):
        try:
            target = row[tar]
            score = row[sco]

            # Handle NaN values
            if pd.isna(target) or pd.isna(score) or pd.isna(row[vol]):
                predict_dict[i] = 0  # or another default value for NaN cases
                continue


            neu_target_threshold = abs(row[vol] * target_factor) if abs(row[vol] * target_factor) <= 1 else 1 # Add abs() for safety

            #neu_score_threshold = abs(row[vol] * score_factor) if abs(row[vol] * score_factor) <= 1 else 1 # Add abs() for safety
            neu_score_threshold = score_factor

            # Improved prediction logic
            if abs(target) > neu_target_threshold and abs(score) > neu_score_threshold:
                # Only evaluate directional accuracy when both target and score are non-zero
                if target != 0 and score != 0:
                    predict_dict[i] = 1 if (target * score) > 0 else 0  # Simplified comparison
                else:
                    predict_dict[i] = 0  # Case where either value is zero
            else:
                # Modified neutral case logic
                predict_dict[i] = 1 if abs(score) < neu_score_threshold and abs(target) < neu_target_threshold else 0

        except Exception as e:
            print(f"KeyError at index {i}: {str(e)}")
            predict_dict[i] = 0

    # Create the predictions DataFrame more efficiently
    predictions = pd.Series(predict_dict, name=f"{model}_{score_type}_predictions")

    # Update the DataFrame more efficiently
    if predictions.name in df.columns:
        df = df.drop(columns=[predictions.name])
    df = df.join(predictions)

    return df

### Adatok feldolgozása

In [None]:
def process_data(input_file, ticker="", models=('DistRoBERTa', 'FinBERT', 'DeBERTa')):
    """
    Process stock data

    Parameters:
    - input_file: Path to the input CSV file containing news data
    - ticker: Ticker symbol of the stock
    - models: Tuple of model names to process.
    """
    preprocess_data(input_file, ticker=ticker)

    data = pd.read_csv(f'/tmp/pycharm_project_520/src/data/input/processed/source/{ticker}.csv')

    data = add_trend(data, "Close")
    data = add_volatility(data, 'Close')
    for model in models:
        data = get_sentiment_scores_test(data, 'News', model=model)
        data = sentiment_vector(data, f'{model}_sentiment_scores', model)
        data = adjust_scores(data, f'{model}_sentiment_vector', model)
        data = validate_predictions(data, 'trend_1d', f'{model}_adjusted_score', 'volatility_5d', model, 'adjusted')
        data = validate_predictions(data, 'trend_1d', f'{model}_raw_score', 'volatility_5d', model, 'raw')

    data.to_csv(f'/tmp/pycharm_project_520/src/data/output/{ticker}_sentiment.csv', index=False)

    print(f"DeBERTa Accuracy:\nRaw: {(sum((data['DeBERTa_raw_predictions'])) / len(data.index))},\tAdjusted: {(sum((data['DeBERTa_adjusted_predictions'])) / len(data.index))}")
    print(f"FinBERT Accuracy:\nRaw: {(sum((data['FinBERT_raw_predictions'])) / len(data.index))},\tAdjusted: {(sum((data['FinBERT_adjusted_predictions'])) / len(data.index))}")
    print(f"DistRoBERTa Accuracy:\nRaw: {(sum((data['DistRoBERTa_raw_predictions'])) / len(data.index))},\tAdjusted: {(sum((data['DistRoBERTa_adjusted_predictions'])) / len(data.index))}")

    return data

### Adatok vizualizálása

In [None]:
def create_sentiment_plot(df, data_name, size=4):
    fig = go.Figure()

    # Define color schemes for each model: (true_color, false_color)
    color_schemes = {
        'DistRoBERTa': ('#2ecc71', '#a9dfbf'),  # Green shades
        'FinBERT': ('#3498db', '#aed6f1'),      # Blue shades
        'DeBERTa': ('#9b59b6', '#d7bde2')       # Purple shades
    }

    sentiment_models = [
        ('DistRoBERTa', 'DistRoBERTa_adjusted_score', 'DistRoBERTa_predictions'),
        ('FinBERT', 'FinBERT_adjusted_score', 'FinBERT_predictions'),
        ('DeBERTa', 'DeBERTa_adjusted_score', 'DeBERTa_predictions')
    ]

    for model_name, score_col, pred_col in sentiment_models:
        # Get color scheme for this model
        true_color, false_color = color_schemes[model_name]

        # Create scatter plot for each prediction value (0 and 1)
        for pred_value in [0, 1]:
            mask = df[pred_col] == pred_value

            fig.add_trace(
                go.Scatter(
                    x=df[mask]['Date'],
                    y=df[mask][score_col],
                    name=f'{model_name} (Prediction={pred_value.__bool__()})',
                    mode='markers',  # Removed 'lines' to show only markers
                    marker=dict(
                        color=true_color if pred_value == 1 else false_color,
                        size=10,
                        symbol='circle'
                    )
                )
            )

    fig.update_layout(
        title=f'{data_name} Sentiment Scores Over Time by Model',
        xaxis_title='Date',
        yaxis_title='Sentiment Score',
        template='plotly_white',
        hovermode='x unified',
        legend=dict(
            orientation="h",
            yanchor="bottom",
            y=1.02,
            xanchor="right",
            x=1
        ),
        xaxis=dict(showgrid=True),
        yaxis=dict(showgrid=True)
    )
    fig.update_traces(marker=dict(size=size))
    return fig

In [None]:
def plot_sentiment_and_stock(data, model_name, ticker):
    """
    Plot sentiment scores and stock price changes over time.

    Parameters:
    - data: DataFrame containing sentiment and stock data.
    - model_name: String, name of the sentiment analysis model (e.g., 'DeBERTa').
    """

    plot_data = data.copy()

    plot_data.dropna(inplace=True)
    plot_data.dropna(inplace=True)

    something_unique, ax1 = plt.subplots(figsize=(22, 6))

    # Plot adjusted sentiment score moving average
    adjusted_score_col = f"{model_name}_adjusted_score_ma"
    ax1.plot(plot_data.index, plot_data[adjusted_score_col], color='blue', label=f'{model_name} Adjusted Score MA')
    ax1.set_title(f"{ticker}'s {model_name} Sentiment Scores Over Time by Model")
    ax1.set_xlabel('Date')
    ax1.set_ylabel('Adjusted Sentiment Score', color='blue')
    ax1.tick_params(axis='y', labelcolor='blue')

    ax1.xaxis.set_major_locator(plt.MaxNLocator(12))
    ax1.xaxis.set_major_formatter(DateFormatter('%y-%m-%d'))

    # Add stock price change on secondary y-axis
    ax2 = ax1.twinx()
    ax2.plot(plot_data.index, plot_data['close_diff'], color='red', label='Close Price Change')
    ax2.set_ylabel('Price Change', color='red')
    ax2.tick_params(axis='y', labelcolor='red')

    # Add raw sentiment score moving average on another y-axis
    ax3 = ax1.twinx()
    raw_score_col = f"{model_name}_raw_score_ma"
    ax3.plot(plot_data.index, plot_data[raw_score_col], color='orange', label=f'{model_name} Raw Score MA')
    ax3.set_ylabel('Raw Sentiment Score', color='orange')
    ax3.tick_params(axis='y', labelcolor='orange')

    # Combine legends
    lines1, labels1 = ax1.get_legend_handles_labels()
    lines2, labels2 = ax2.get_legend_handles_labels()
    lines3, labels3 = ax3.get_legend_handles_labels()
    ax1.legend(lines1 + lines2 + lines3, labels1 + labels2 + labels3, loc='upper left', fontsize=12)

    plt.show()

In [None]:
def organize_data_for_plot(data, models=('DistRoBERTa', 'FinBERT', 'DeBERTa'), stock_window=120, sentiment_window=90, resample='D'):
    """
    Organizes the data for plotting.

    Parameters:
    - data: DataFrame containing the data to organize.
    - models: Tuple of model names to process.
    - stock_window: Rolling window size for stock prices.
    - sentiment_window: Rolling window size for sentiment scores.
    - resample: Resampling frequency (e.g., 'D' for daily).

    Returns:
    - DataFrame organized for plotting.
    """
    # Create a copy of the data
    plot_data = data.copy()

    # Ensure the 'Date' column is converted to datetime if it exists
    if 'Date' in plot_data.columns:
        plot_data['Date'] = pd.to_datetime(plot_data['Date'], errors='coerce')
        plot_data.set_index('Date', inplace=True)  # Set 'Date' as the index
    else:
        raise ValueError("The DataFrame must contain a 'Date' column.")

    # Drop unnecessary columns
    plot_data.drop(columns=['High', 'Low', 'Open', 'Volume', 'Adj Close', 'News', 'log_returns'], inplace=True, errors='ignore')

    # Drop model-specific columns
    for model in models:
        model_columns = [f'{model}_sentiment_scores', f'{model}_sentiment_vector', f'{model}_predictions']
        plot_data.drop(columns=model_columns, inplace=True, errors='ignore')

    # Resample the data and interpolate missing values
    plot_data = plot_data.resample(resample).mean()
    plot_data.interpolate(method='linear', inplace=True)

    # Calculate rolling averages for sentiment scores
    for model in models:
        if f'{model}_adjusted_score' in plot_data.columns:
            plot_data[f'{model}_adjusted_score_ma'] = plot_data[f'{model}_adjusted_score'].rolling(window=sentiment_window, center=False).mean()
        if f'{model}_raw_score' in plot_data.columns:
            plot_data[f'{model}_raw_score_ma'] = plot_data[f'{model}_raw_score'].rolling(window=sentiment_window, center=False).mean()

    # Calculate rolling averages and differences for stock prices
    if 'Close' in plot_data.columns:
        plot_data['close_ma'] = plot_data['Close'].rolling(window=stock_window, center=False).mean()
        plot_data['close_diff'] = plot_data['Close'] - plot_data['close_ma']

    return plot_data

### Visszatesztelés

In [None]:
def process_sentiment_data(data, model, score_type, window, resample):
    """
    Parameters:
    - data: DataFrame containing the sentiment data.
    - model: Name of the model.
    - score_type: Type of sentiment score (e.g., 'adjusted', 'raw').
    - window: Size of the rolling window for calculating the mean and rolling average.
    - resample: Resampling frequency (e.g., 'D' for daily).

    Returns:
    - processed_df: DataFrame with processed sentiment data.
    """
    # Convert the string representation of list to actual list and extract positive sentiment
    df = data.copy()
    df['sentiment'] = df[f'{model}_{score_type}_score']

    # Select and rename required columns
    processed_df = df.loc[:, ['Date', 'Close', 'High', 'Low', 'Open', 'Volume', 'sentiment']]
    processed_df['Date'] = pd.to_datetime(processed_df['Date'])
    processed_df.set_index('Date', inplace=True)
    processed_df['sentiment'] = processed_df['sentiment'].resample(resample).mean()
    processed_df['sentiment'] = processed_df['sentiment'].rolling(window=window, center=False).mean()
    processed_df.interpolate(method='linear', inplace=True)
    processed_df.fillna(0, inplace=True)
    return processed_df

In [None]:
class PandasSent(bt.feeds.PandasData):
    """
    Custom PandasData feed for backtesting.
    """
    lines = ('sentiment',)
    params = (
        ('datetime', None),
        ('open', 'Open'),
        ('high', 'High'),
        ('low', 'Low'),
        ('close', 'Close'),
        ('volume', 'Volume'),
        ('sentiment', 'sentiment'),
    )

In [None]:
def run_backtest(df, model='FinBERT', score_type='raw', window=5, resample='D'):
    """
    Parameters:
    - df: DataFrame containing the sentiment data.
    - model: Name of the model.
    - score_type: Type of sentiment score (e.g., 'adjusted', 'raw').
    - window: Size of the rolling window for calculating the mean and rolling average.
    - resample: Resampling frequency (e.g., 'D' for daily). Default is 'D'.

    Returns:
    - results: Backtest results.
    - cerebro: Backtesting cerebro.
    """
    processed_data = process_sentiment_data(df, model, score_type, window, resample)
    data_feed = PandasSent(dataname=processed_data)
    cerebro = bt.Cerebro()
    cerebro.addstrategy(SentimentStrategy)
    cerebro.adddata(data_feed)
    cerebro.broker.setcash(100000.0)
    cerebro.broker.setcommission(commission=0.01)  # 0.1% commission
    cerebro.addanalyzer(bt.analyzers.PyFolio, _name='PyFolio')
    start_value = cerebro.broker.getvalue()
    results = cerebro.run()
    final_value = cerebro.broker.getvalue()
    print('Starting Portfolio Value: %.2f' % start_value)
    print('Final Portfolio Value: %.2f' % final_value)
    print('Return: %.2f%%' % ((final_value - start_value) / start_value * 100))

    return results, cerebro

In [None]:
class SentimentStrategy(bt.Strategy):
    """
    Custom strategy for backtesting.
    """
    params = (
        ('exitbars', 7),
    )

    def log(self, txt, dt=None):
        dt = dt or self.datas[0].datetime.date(0)
        print(f'{dt.isoformat()}: {txt}')

    def __init__(self):
        self.dataclose = self.datas[0].close
        self.datasentiment = self.datas[0].sentiment
        self.order = None
        self.buyprice = None
        self.buycomm = None

    def notify_order(self, order):
        if order.status in [order.Submitted, order.Accepted]:
            return

        if order.status in [order.Completed]:
            if order.isbuy():
                self.log(
                    f"BUY EXECUTED, Price: {order.executed.price:.2f}, "
                    f"Cost: {order.executed.value:.2f}, "
                    f"Comm: {order.executed.comm:.2f}"
                )
                self.buyprice = order.executed.price
                self.buycomm = order.executed.comm
            else:
                self.log(
                    f"SELL EXECUTED, Price: {order.executed.price:.2f}, "
                    f"Cost: {order.executed.value:.2f}, "
                    f"Comm: {order.executed.comm:.2f}"
                )

            self.bar_executed = len(self)

        elif order.status in [order.Canceled, order.Margin, order.Rejected]:
            self.log(f"Order Canceled/Margin/Rejected")

        self.order = None

    def notify_trade(self, trade):
        if not trade.isclosed:
            return

        self.log(f"OPERATION PROFIT, GROSS: {trade.pnl:.2f}, NET: {trade.pnlcomm:.2f}")

    def next(self):
        self.log(f"Close: {self.dataclose[0]:.2f}, Sentiment: {self.datasentiment[0]:.3f}")

        if self.order:
            return

        if not self.position:
            # Modified condition to use positive sentiment as buy signal
            if self.datasentiment[0] > 0.1:
                self.log(f'BUY CREATE, {self.dataclose[0]:.2f}')
                self.order = self.buy(size=self.datasentiment[0] * 10000)
            if self.datasentiment[0] < -6:
                self.log(f'BUY CREATE, {self.dataclose[0]:.2f}')
                self.order = self.buy(size=10000)

        else:
            if self.datasentiment[0] < -1 and len(self) >= (self.bar_executed + self.params.exitbars):
                self.log(f'SELL CREATE, {self.dataclose[0]:.2f}')
                self.order = self.sell()

In [None]:
class CustomPlotter:
    """
    Custom plotter for backtesting.
    """
    def __init__(self, cerebro_instance):
        self.cerebro = cerebro_instance

    def plot_results(self):
        """
        Plot the cerebro trading results including:
        - Price and sentiment data
        - Portfolio value over time
        """
        # Get the first strategy from the cerebro
        strategy = self.cerebro.runstrats[0][0]

        # Create figure and axis objects with a single subplot
        fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(15, 10), height_ratios=[2, 1])

        # Get the data from the data feed
        datas = strategy.datas[0]

        # Convert dates to list for x-axis
        dates = [bt.num2date(x) for x in datas.lines.datetime.plot()]

        # Plot close prices
        ax1.plot(dates, datas.lines.close.plot(), label='Close Price', color='blue')
        ax1.set_title('MSFT Price and Trading Activity')
        ax1.set_ylabel('Price')
        ax1.grid(True)
        ax1.legend()

        # Plot sentiment scores if available
        if hasattr(datas.lines, 'deberta_sentiment_scores'):
            ax2.plot(dates, datas.lines.deberta_sentiment_scores.plot(),
                    label='Sentiment Score', color='green')
            ax2.set_title('Sentiment Scores')
            ax2.set_ylabel('Score')
            ax2.grid(True)
            ax2.legend()

        # Format x-axis
        for ax in [ax1, ax2]:
            ax.tick_params(axis='x', rotation=45)

        # Add buy/sell markers if available in the strategy
        if hasattr(strategy, 'buy_points') and hasattr(strategy, 'sell_points'):
            for point in strategy.buy_points:
                ax1.plot(bt.num2date(point[0]), point[1], '^',
                        color='green', markersize=10, label='Buy')
            for point in strategy.sell_points:
                ax1.plot(bt.num2date(point[0]), point[1], 'v',
                        color='red', markersize=10, label='Sell')

        # Adjust layout and display
        plt.tight_layout()
        return fig

In [None]:
def plot_backtest(cerebro_instance):
    """
    Wrapper function to create and show the plot
    """
    plotter = CustomPlotter(cerebro_instance)
    fig = plotter.plot_results()
    return fig

## Sentiment Analízis

### NVDA

#### Process Data ####

In [None]:
NVDA_data = process_data("/tmp/pycharm_project_520/src/data/input/raw/source/analyst_ratings_processed.csv", ticker="NVDA")

#### Plot Data ####

In [None]:
NVDA_data.plot.line(y="Close", x='Date', figsize=(22, 6))

In [None]:
NVDA_data.plot.line(y="trend_1d", x='Date', figsize=(22, 6))

In [None]:
NVDA_data.plot.line(y="volatility_5d", x='Date', figsize=(22, 6))

In [None]:
NVDA_plot_data = organize_data_for_plot(NVDA_data, resample='D', sentiment_window=3, stock_window=3)

In [None]:
plot_sentiment_and_stock(NVDA_plot_data, 'DeBERTa', 'NVDA')

In [None]:
plot_sentiment_and_stock(NVDA_plot_data, 'FinBERT', 'NVDA')

In [None]:
plot_sentiment_and_stock(NVDA_plot_data, 'DistRoBERTa', 'NVDA')

#### Correlation ####

In [None]:
NVDA_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=5, center=False).mean().corr(method='spearman')

In [None]:
NVDA_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=5, center=False).mean().corr()

In [None]:
NVDA_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=5, center=False).mean().corr(method='spearman')

In [None]:
NVDA_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=5, center=False).mean().corr()

### O

#### Process Data ####

In [None]:
O_data = process_data("/tmp/pycharm_project_520/src/data/input/raw/source/analyst_ratings_processed.csv", ticker="O")

#### Plot Data ####

In [None]:
O_data.plot.line(y="Close", x='Date', figsize=(22, 6))

In [None]:
O_data.plot.line(y="trend_1d", x='Date', figsize=(22, 6))

In [None]:
O_data.plot.line(y="volatility_5d", x='Date', figsize=(22, 6))

In [None]:
O_plot_data = organize_data_for_plot(O_data, resample='D', sentiment_window=3, stock_window=3)

In [None]:
plot_sentiment_and_stock(O_plot_data, 'DeBERTa', 'O')

In [None]:
plot_sentiment_and_stock(O_plot_data, 'FinBERT', 'O')

In [None]:
plot_sentiment_and_stock(O_plot_data, 'DistRoBERTa', 'O')

#### Correlation ####

In [None]:
O_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
O_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

In [None]:
O_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
O_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

### MU

#### Process Data ####

In [None]:
MU_data = process_data("/tmp/pycharm_project_520/src/data/input/raw/source/analyst_ratings_processed.csv", ticker="MU")

#### Plot Data ####

In [None]:
MU_data.plot.line(y="Close", x='Date', figsize=(22, 6))

In [None]:
MU_data.plot.line(y="trend_1d", x='Date', figsize=(22, 6))

In [None]:
MU_data.plot.line(y="volatility_5d", x='Date', figsize=(22, 6))

In [None]:
MU_plot_data = organize_data_for_plot(MU_data, resample='D', sentiment_window=3, stock_window=3)

In [None]:
plot_sentiment_and_stock(MU_plot_data, 'DeBERTa', 'MU')

In [None]:
plot_sentiment_and_stock(MU_plot_data, 'FinBERT', 'MU')

In [None]:
plot_sentiment_and_stock(MU_plot_data, 'DistRoBERTa', 'MU')

#### Correlation ####

In [None]:
MU_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
MU_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

In [None]:
MU_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
MU_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

### MS

#### Process Data ####

In [None]:
MS_data = process_data("/tmp/pycharm_project_520/src/data/input/raw/source/analyst_ratings_processed.csv", ticker="MS")

#### Plot Data ####

In [None]:
MS_data.plot.line(y="Close", x='Date', figsize=(22, 6))

In [None]:
MS_data.plot.line(y="trend_1d", x='Date', figsize=(22, 6))

In [None]:
MS_data.plot.line(y="volatility_5d", x='Date', figsize=(22, 6))

In [None]:
MS_plot_data = organize_data_for_plot(MS_data, resample='D', sentiment_window=3, stock_window=3)

In [None]:
plot_sentiment_and_stock(MS_plot_data, 'DeBERTa', 'MS')

In [None]:
plot_sentiment_and_stock(MS_plot_data, 'FinBERT', 'MS')

In [None]:
plot_sentiment_and_stock(MS_plot_data, 'DistRoBERTa', 'MS')

#### Correlation ####

In [None]:
MS_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
MS_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

In [None]:
MS_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
MS_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

### GOOG

#### Process Data ####

In [None]:
GOOG_data = process_data("/tmp/pycharm_project_520/src/data/input/raw/source/analyst_ratings_processed.csv", ticker="GOOG")

#### Plot Data ####

In [None]:
GOOG_data.plot.line(y="Close", x='Date', figsize=(22, 6))

In [None]:
GOOG_data.plot.line(y="trend_1d", x='Date', figsize=(22, 6))

In [None]:
GOOG_data.plot.line(y="volatility_5d", x='Date', figsize=(22, 6))

In [None]:
GOOG_plot_data = organize_data_for_plot(GOOG_data, resample='D', sentiment_window=3, stock_window=3)

In [None]:
plot_sentiment_and_stock(GOOG_plot_data, 'DeBERTa', 'GOOG')

In [None]:
plot_sentiment_and_stock(GOOG_plot_data, 'FinBERT', 'GOOG')

In [None]:
plot_sentiment_and_stock(GOOG_plot_data, 'DistRoBERTa', 'GOOG')

#### Correlation ####

In [None]:
GOOG_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
GOOG_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

In [None]:
GOOG_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
GOOG_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

### MRK

#### Process Data ####

In [None]:
MRK_data = process_data("/tmp/pycharm_project_520/src/data/input/raw/source/analyst_ratings_processed.csv", ticker="MRK")

#### Plot Data ####

In [None]:
MRK_data.plot.line(y="Close", x='Date', figsize=(22, 6))

In [None]:
MRK_data.plot.line(y="trend_1d", x='Date', figsize=(22, 6))

In [None]:
MRK_data.plot.line(y="volatility_5d", x='Date', figsize=(22, 6))

In [None]:
MRK_plot_data = organize_data_for_plot(MRK_data, resample='D', sentiment_window=3, stock_window=3)

In [None]:
plot_sentiment_and_stock(MRK_plot_data, 'DeBERTa', 'MRK')

In [None]:
plot_sentiment_and_stock(MRK_plot_data, 'FinBERT', 'MRK')

In [None]:
plot_sentiment_and_stock(MRK_plot_data, 'DistRoBERTa', 'MRK')

#### Correlation ####

In [None]:
MRK_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
MRK_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

In [None]:
MRK_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
MRK_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

### QQQ

#### Process Data ####

In [None]:
QQQ_data = process_data("/tmp/pycharm_project_520/src/data/input/raw/source/analyst_ratings_processed.csv", ticker="QQQ")

#### Plot Data ####

In [None]:
QQQ_data.plot.line(y="Close", x='Date', figsize=(22, 6))

In [None]:
QQQ_data.plot.line(y="trend_1d", x='Date', figsize=(22, 6))

In [None]:
QQQ_data.plot.line(y="volatility_5d", x='Date', figsize=(22, 6))

In [None]:
QQQ_plot_data = organize_data_for_plot(QQQ_data, resample='D', sentiment_window=3, stock_window=3)

In [None]:
plot_sentiment_and_stock(QQQ_plot_data, 'DeBERTa', 'QQQ')

In [None]:
plot_sentiment_and_stock(QQQ_plot_data, 'FinBERT', 'QQQ')

In [None]:
plot_sentiment_and_stock(QQQ_plot_data, 'DistRoBERTa', 'QQQ')

#### Correlation ####

In [None]:
QQQ_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
QQQ_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

In [None]:
QQQ_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
QQQ_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

### MSFT

#### Process Data ####

In [None]:
MSFT_data = process_data("/tmp/pycharm_project_520/src/data/input/raw/source/MicrosoftNews.csv", ticker="MSFT")

#### Plot Data ####

In [None]:
MSFT_data.plot.line(y="Close", x='Date', figsize=(22, 6))

In [None]:
MSFT_data.plot.line(y="trend_1d", x='Date', figsize=(22, 6))

In [None]:
MSFT_data.plot.line(y="volatility_5d", x='Date', figsize=(22, 6))

In [None]:
MSFT_plot_data = organize_data_for_plot(MSFT_data, resample='D', sentiment_window=3, stock_window=3)

In [None]:
plot_sentiment_and_stock(MSFT_plot_data, 'DeBERTa', 'MSFT')

In [None]:
plot_sentiment_and_stock(MSFT_plot_data, 'FinBERT', 'MSFT')

In [None]:
plot_sentiment_and_stock(MSFT_plot_data, 'DistRoBERTa', 'MSFT')

#### Correlation ####

In [None]:
MSFT_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
MSFT_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

In [None]:
MSFT_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
MSFT_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

### AAPL

#### Process Data ####

In [None]:
AAPL_data = process_data("/tmp/pycharm_project_520/src/data/input/raw/source/AAPL.csv", ticker="AAPL")

#### Plot Data ####

In [None]:
AAPL_data.plot.line(y="Close", x='Date', figsize=(22, 6))

In [None]:
AAPL_data.plot.line(y="trend_1d", x='Date', figsize=(22, 6))

In [None]:
AAPL_data.plot.line(y="volatility_5d", x='Date', figsize=(22, 6))

In [None]:
AAPL_plot_data = organize_data_for_plot(AAPL_data, resample='D', sentiment_window=3, stock_window=3)

In [None]:
plot_sentiment_and_stock(AAPL_plot_data, 'DeBERTa', 'AAPL')

In [None]:
plot_sentiment_and_stock(AAPL_plot_data, 'FinBERT', 'AAPL')

In [None]:
plot_sentiment_and_stock(AAPL_plot_data, 'DistRoBERTa', 'AAPL')

#### Correlation ####

In [None]:
AAPL_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
AAPL_data[['DeBERTa_adjusted_score', 'FinBERT_adjusted_score', 'DistRoBERTa_adjusted_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

In [None]:
AAPL_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr(method='spearman')

In [None]:
AAPL_data[['DeBERTa_raw_score', 'FinBERT_raw_score', 'DistRoBERTa_raw_score', 'trend_1d']].rolling(window=28, center=False).mean().corr()

## TO DO ##

Histogram Equalization
3d megbízhatóság számolás

### Plot Sentiment Scores ###

In [None]:
aapl_fig = create_sentiment_plot(AAPL_data, "Apple", size=4)
aapl_fig.show()

In [None]:
msft_fig = create_sentiment_plot(MSFT_data, "Microsoft", size=4)
msft_fig.show()

## Visszatesztelés

In [None]:
MU_data = pd.read_csv('/tmp/pycharm_project_520/src/data/output/MU_sentiment.csv')

In [None]:
results, cerebro = run_backtest(MS_data, 'DeBERTa', 'adjusted', window=30, resample='D')

In [None]:
fig = plot_backtest(cerebro)
plt.show()

# Összefoglalás

# Summary

# Irodalomjegyzék