# Bevezetés #


A szakdolgozatom célja, hogy a klasszikus idősor-elemzési módszereket ötvözve a modern természetes nyelvfeldolgozás (NLP) eszköztárával, új megközelítést kínáljak a részvényárfolyamok előrejelzésére. A részvénypiacok mozgásának előrejelzése mindig is kihívást jelentett, mivel azok volatilitását számos tényező befolyásolja, legyen szó makrogazdasági eseményekről, vállalati hírekről vagy akár a befektetők érzelmeiről. Az elmúlt években a mesterséges intelligencia, különösen az NLP fejlődése új kapukat nyitott meg a pénzügyi adatelemzésben, lehetővé téve a piacot befolyásoló hírek és szöveges tartalmak automatizált feldolgozását és értelmezését.

A részvényárak előrejelzésére hagyományosan alkalmazott technikai elemzés számszerű múltbeli adatokra épít. Ugyanakkor a kutatások rámutattak, hogy a kizárólag technikai elemzésre támaszkodó megközelítések nem mindig vezetnek kielégítő eredményekhez, különösen a befektetői érzelmek és a hírek hatásának figyelmen kívül hagyása miatt. A pénzügyi hírek szöveges tartalmának elemzése azonban értékes információkat nyújthat, amelyeket kiegészítve a numerikus adatokkal pontosabb előrejelzések érhetők el.

A szakdolgozatom keretében különös figyelmet fordítok a BERT (Bidirectional Encoder Representations from Transformers) modell alapú NLP technikákra, amelyek lehetővé teszik a pénzügyi hírek és közlemények precíz elemzését. Az idősor-elemzés hagyományos statisztikai modelljeit pedig viszonyítási alapként használom a kísérleti eredmények kiértékeléséhez.

Informatikusként hiszem, hogy a mesterséges intelligencia és az természetes nyelvfeldolgozás integrációja a pénzügyi elemzésbe nemcsak a befektetési döntések gyorsaságát és pontosságát javíthatja, hanem hozzájárulhat a piacok átláthatóságához is. Ezért választottam a részvényárfolyamok előrejelzését az NLP módszereinek segítségével szakdolgozatom témájának, hiszen ez egy olyan terület, amely az innováció és a technológiai fejlődés határmezsgyéjén helyezkedik el. Az elvégzett kutatás reményeim szerint új perspektívát nyújthat a pénzügyi elemzések világában, és hozzájárulhat a befektetési döntéshozatal hatékonyságának növeléséhez.

# Elméleti háttér

## Idősorok elemzésének alapjai

Az idősor-elemzés az időben egymást követő adatok elemzésének tudománya, amelyet gyakran alkalmaznak a pénzügyben, gazdasági előrejelzések készítésében, meteorológiában és számos más tudományágban. Egy idősor elemzése során az a cél, hogy azonosítsuk a megfigyelt mintázatokat, megértjük azok struktúráját, és előrejelezzük a jövőbeli értékeket. Az idősorok megértéséhez elengedhetetlen a trendek, szezonális komponensek és véletlen zajok azonosítása és elemzése.


### Az idősorok jellemzői

Az idősorok különböző összetevői az adatok dinamikus viselkedését tükrözik. Ezek megértése kulcsfontosságú a helyes modellalkotáshoz és előrejelzéshez.

#### Trend ($T_t$)

A trend az idősor hosszú távú irányultságát jelenti, amely lehet növekvő, csökkenő vagy stagnáló. Például egy GDP-alapú gazdasági előrejelzés lehet alapul tapasztalható növekedési trendre mutat.

Matematikailag a trendet egyszerű lineáris formában is leírhatjuk:

$$T_t = \beta_0 + \beta_1 t$$

ahol $\beta_0$ az idősor kezdeti értéke, $\beta_1$ pedig a növekedés sebességét jelenti. Amennyiben a növekedés nem lineáris, polinomiális formát alkalmazhatunk:

$$T_t = \beta_0 + \beta_1 t + \beta_2 t^2$$

A trendek azonosítása és modellezése kulcsfontosságú, mivel a véletlen idősor viselkedése gyakran rejt maga a rövid távú ingadozások mellett.

#### Szezonalitás ($S_t$)

A szezonalitás az adatok rendszeresen ismétlődő mintázatát jelenti, amelyet tipikusan az évszakok, hónapok vagy napok okoznak. Például a kiskereskedelmi forgalomban a decemberi hónap kiemelt értékeket mutat az ünnepi vásárlások miatt.

A szezonalitás matematikai leírása gyakran trigonometrikus függvényekkel történik:

$$S_t = A \sin\left(\frac{2\pi t}{P}\right) + B \cos\left(\frac{2\pi t}{P}\right)$$

ahol $A$ és $B$ az amplitúdók, $P$ pedig a periódus. A szezonális hatások felismerése érdekében sokszor grafikus módszereket alkalmazunk, például a szezonális bontást, amely az idősor komponensekre bontását célozza.

#### Ciklikusság ($C_t$)

A ciklikus komponensek az idősorban hosszabb időközönként visszatérő mintázatokat jelentenek, amelyek nem feltétlenül szabályos időközönként ismétlődnek. A gazdasági ciklusok például ilyen ciklikus jelenségek.

Egy ciklus azonosítása érdekében gyakran az autokorrelációs függvényt (ACF) használják. Az autokorrelációs függvény az idősor múltbeli értékeit és az aktuális értékeit közötti kapcsolatot vizsgálja, és segít az ismétlődő minták detektálásában.

#### Véletlen zaj ($\epsilon_t$)

A véletlen zaj az idősor azon komponense, amely nem magyarázható a fent említett összetevők egyikével sem. Ez a rész véletlen fluktuációkat tartalmaz, amelyeket gyakran normális eloszlásúnak feltételezünk, az alábbi alakban:

$$\epsilon_t \sim \mathcal{N}(0, \sigma^2)$$

ahol $\sigma^2$ a zaj varianciája. A véletlen zaj figyelembevétele különösen fontos a modellépítés során, mivel a tüzött zaj "tüllesztett" eredményekhez, ami rontja az előrejelzések pontosságát.


### Idősorok stacionaritása

A stacionaritás az idősor statisztikai tulajdonságainak állandóságát jelenti időben. Ez az elemzési feladat ellengedhetetlen az olyan klasszikus modellek alkalmazásához, mint az ARIMA.

#### Matematikai definíció

Egy idősor $\{Y_t\}$ stacioner, ha:
* Az idősor várható értéke konstans: $\mathbb{E}[Y_t] = \mu$
* Az idősor varianciája állandó: $\text{Var}[Y_t] = \sigma^2$
* Az idősor autokorrelációja csak az időeltolódástól függ: $\text{Cov}[Y_t, Y_{t-k}] = \gamma(k)$.

Ha az idősor nem stacioner, a modellezés előtt gyakran differenciálást alkalmazunk:

$$\Delta Y_t = Y_t - Y_{t-1}$$

A differenciálás során a trend eltávolítható, és az idősor stacionáriussá tehető.

#### Stacionaritás tesztelése

Különböző statisztikai tesztek használatosak a stacionaritás ellenőrzésére:

1. Augmented Dickey-Fuller (ADF) teszt: Ez a teszt a nullhipotézisként feltételezi, hogy az idősor nem stacioner. A p-érték alapján eldönthető, hogy elutasítjuk-e a hipotézist.
2. Kwiatkowski-Phillips-Schmidt-Shin (KPSS) teszt: Ez a teszt a stacionaritást vizsgálja mint nullhipotézist, és ellenőrzést ad arra, hogy az idősor tartalmaz-e trendkomponenseket.


### Idősorok elemzésének modelljei

#### Mozgóátlag modellek (MA)
A mozgóátlag modellek a múltbeli hibák súlyozott átlagára alapján becsülik meg az idősor aktuális értékét. Egy $q$-rendű MA modell általános formája:

$$Y_t = \mu + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \cdots + \theta_q \epsilon_{t-q}$$

ahol $\mu$ az idősor átlaga, $\theta_i$ pedig a múltbeli hibák súlyai.

#### Autoregresszív modellek (AR)
Az autoregresszív modellek az idősor jövőbeli értékét a múltbeli értékek lineáris kombinációjaként becsülik meg. Egy $p$-rendű AR($p$) modell matematikai formája a következőképpen írható fel:

$$Y_t = \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \cdots + \phi_p Y_{t-p} + \epsilon_t$$

ahol:
* $Y_t$ az idősor aktuális értéke,
* $\phi_1, \phi_2, \ldots, \phi_p$ a múltbeli értékek súlyai (autoregressziós paraméterek),
* $\epsilon_t$ a véletlen zaj, amely $\epsilon_t \sim \mathcal{N}(0, \sigma^2)$ feltételezéssel írunk le.

##### Az autoregresszív modellek tulajdonságai:
1. Lineáris előrejelzés: Az AR($p$) modell a múltbeli értékek egyenes arányban befolyásolják a jövőt. A súlyok nagysága és előjele meghatározza, hogy az egyes múltbeli értékek mennyire erősen és milyen irányban hatnak az aktuális értékre.
2. Rend ($p$) meghatározása: Az autoregresszív modell rendjét az adatok viselkedésének és az autokorrelációs függvény (ACF) elemzésével határozhatjuk meg. Az ACF megmutatja, hogy az idősor korábbi értékei hogyan függnek össze a korábbi értékekkel.
3. Stacionaritási követelmény: Az AR($p$) modellek csak akkor működnek helyesen, ha az idősor stacioner. Az AR-paraméterek abszolútértékének összege egy adott feltétel szerint korlátozott:

$$\sum_{i=1}^p |\phi_i| < 1$$

##### Példa egy AR(1) modellre:
Egy $p = 1$-rendű autoregresszív modell (AR(1)) a legegyszerűbb forma, amely a következőként írható fel:

$$Y_t = \phi_1 Y_{t-1} + \epsilon_t$$

Ebben az esetben az aktuális érték kizárólag az előző időpont értékétől függ. Ha $\phi_1 > 0$, akkor a múltbeli értékek pozitívan korrelálnak az aktuális értékkel, míg $\phi_1 < 0$ esetén a kapcsolat inverz.

#### ARIMA modellek

Az Autoregresszív Integrált Mozgóátlag (ARIMA) modellek az idősor elemzésének és előrejelzésének széles körben alkalmazott eszközei. Az ARIMA modellek az autoregressziót (AR), a differenciálást (I) és a mozgóátlagot (MA) kombinálják.

##### Az ARIMA modell általános formája

Az ARIMA modell matematikai egyenlete így írható fel:

$$\Phi_p(B)(1 - B)^dY_t = \Theta_q(B)\epsilon_t$$

ahol:
* $\Phi_p(B) = 1 - \phi_1 B - \phi_2 B^2 - \cdots - \phi_p B^p$ az autoregresszív komponens,
* $(1 - B)^d$ az integrálási (differenciálási) operátor a trend eltávolítására,
* $\Theta_q(B) = 1 + \theta_1 B + \theta_2 B^2 + \cdots + \theta_q B^q$ a mozgóátlag komponens,
* $B$ az eltoló operátor, amelyet $Y_t = Y_{t-1}$ definícióval használunk.

##### Paraméterek $(p, d, q)$ jelentése
1. $p$ - autoregresszív (AR) komponens rendje: Az idősor aktuális értékét a múltbeli értékek száma alapján becsüli.
2. $d$ - differenciálás mértéke: Az idősor stacionaritását biztosító differenciálások száma.
3. $q$ - mozgóátlag (MA) komponens rendje: Az idősor aktuális értékét a múltbeli hibák alapján becsüli.

##### Az ARIMA modellépítés lépései
1. Adatok stacionaritásának vizsgálata: Augmented Dickey-Fuller (ADF) teszttel ellenőrizzük, hogy az idősor stacioner-e. Ha nem, differenciálást végzünk.
2. Paraméterek meghatározása: Az ACF és a parciális autokorrelációs függvény (PACF) elemzésével meghatározzuk az optimális $p, d$ és $q$ értékeket.
3. Modell illesztése: A kapott paraméterek alapján felépítjük az ARIMA modellt.
4. Diagnosztikai vizsgálat: A modell maradékai (reziduálisokat) vizsgáljuk, hogy megfelelnek-e a fehér zaj tulajdonságainak.

#### SARIMA modellek

A SARIMA modellek az ARIMA kiterjesztett változatai, amelyek a szezonális mintázatokat is kezelik. Az általános modell neve: Szezonális Autoregresszív Integrált Mozgóátlag.

##### SARIMA modell általános formája

$$\Phi_p(B)\Phi_P(B^s)(1 - B)^d(1 - B^s)^DY_t = \Theta_q(B)\Theta_Q(B^s)\epsilon_t$$

ahol:
* $\Phi_P(B^s)$ és $\Theta_Q(B^s)$ a szezonális AR és MA komponensek,
* $D$ a szezonális differenciálás mértéke,
* $s$ a szezonális periódus.

A SARIMA modellek különösen alkalmasak az olyan idősorokra, amelyek egyaránt tartalmaznak trendeket és szezonális mintázatokat, például havi eladási adatokra.


## Természetes nyelvfeldolgozás (NLP)

### NLP alapfogalmak és technikák
A természetes nyelvfeldolgozás (Natural Language Processing, NLP) az a terület, amelynek célja az emberi nyelv számítógépes feldolgozása és megértése. Az NLP a mesterséges intelligencia feladatkörében helyezkedik el, és olyan feladatokat old meg, mint a szövegelemzés, gépi fordítás, nyelgenerálás és beszédfelismerés.

#### Előfeldolgozási lépések
Az NLP folyamatának első lépése az adat előkészítése, amely kulcsfontosságú a pontos elemzéshez és modellépítéshez. Az alábbi lépéseket tartalmazza:

1. Tokenizálás:
A szöveget kisebb egységekre, úgynevezett tokenekre bontjuk, amelyek lehetnek szavak, számok vagy egyéb jelek. Például: "Ez", "egy", "példa".
A tokenizálás alapvető célja, hogy az elemzések számára strukturált adatokat biztosítson.

2. Lemmatizálás és szótövezés:
Ezek az eljárások a szavakat az alapformájukra redukálják. A lemmatizálás figyelembe veszi a szavak nyelvtani szerepét, míg a szótövezés (stemming) egyszerű egygyökű szabályokat használ.
Például a "futott", "futva" és "futás" szavakat a "fut" alapformára hozza.

3. Stop szavak eltávolítása:
Az olyan gyakori szavak, mint "a", "ez", "vagy", "is", általában nem hordoznak értékes információt, így ezeket gyakran kiszűrik az elemzés során.

4. Zajszűrés:
A szövegből az irreleváns karakterek, jelek eltávolítják az elemzés során.

#### Szövegreprezentációs módszerek

Az NLP modelljei számára a nyelvi adatok számok formájában történő megjelenítése szükséges. Az alábbiakban néhány elterjed módszert ismertetünk:

1. Bag of Words (BoW):
A szöveget szavak halmazaként reprezentálja, ahol az egyes szavak előfordulásának gyakorisága rögzíti. Hátránya, hogy figyelmen kívül hagyja a szavak sorrendjét és kontextusát.

2. Term Frequency-Inverse Document Frequency (TF-IDF):
Ez a módszer a szavak relatív fontosságát méri egy dokumentumban, figyelembe véve, hogy egy adott szó milyen gyakran fordul elő az összes dokumentumban. A TF-IDF képlete:

$$\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)$$

ahol:
* $\text{TF}(t, d)$: a $t$ szó gyakorisága a $d$ dokumentumban,
* $\text{IDF}(t, D) = \log \frac{|D|}{1 + |\{d \in D : t \in d\}|}$: az inverz dokumentumfrekvencia.

3. Word embeddings (Word2Vec, GloVe):
Ezek a módszerek a szavak sűrű vektorreprezentációját állítják elő, amely figyelembe veszi a szavak kontextusát és hasonlóságát. A Word2Vec például a szavak n-dimenziós térben történő elhelyezésével nyeri ki a szavak vektori közötti kapcsolatokat.

4. Kontextuális embeddings (BERT, GPT):
Ezek az új generációs modellek nemcsak a szavak jelentését veszik figyelembe, hanem azok környezetét is. A BERT (Bidirectional Encoder Representations from Transformers) például pontosabb kontextusba ágyazott szóvektorokat biztosít.

#### Szemantikai elemzés

Az NLP-ben a szemantikai elemzés az emberi nyelv jelentésének feltárását célozza. Az alábbiakban a legfontosabb alkalmazásokat ismertetjük:

1. Sentiment analízis:
Ez a technika a szöveg érzelmi tónusának (pozitív, semleges, negatív) azonosítására irányul. Alkalmazása elterjed a közösségi médiaelemzésekben és a vásárlói visszajelzések feldolgozásában.

2. Névelem-felismerés (NER):
A szövegben szereplő entitások (személyek, helyek, dátumok) automatikus felismerése és osztályozása. Például egy "Google" entitást vállalatként azonosítja.

3. Témamodellezés:
Az LDA (Latent Dirichlet Allocation) segítségével a szövegből különböző témák automatikus kinyerése valósítható meg. Az LDA feltételezi, hogy a dokumentumok kevert témákat tartalmaznak, és minden téma adott szavak halmazát reprezentálja.

### Modern NLP architektúrák
#### Transformer architektúra
A Transformer modell a természetes nyelvfeldolgozás forradalmiszemközének, amely figyfyelmi (self-attention) alapú. Az architektúra alapegyenlete:

$$Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}}),V$$

ahol:
* Q: a lekérdezési mátrix (queries),
* K: a kulcsok mátrixa (keys),
* V: az értékek mátrixa (values),
* $d_k$: a kulcsmátrix dimenziója.

#### Előtanított nyelvi modellek
A BERT (Bidirectional Encoder Representations from Transformers) az evolúziót, mint például a FinBERT - jelentős szerepet játszanak a pénzügyi szövegek feldolgozásában. A FinBERT + kifejezetten pénzügyi adatokra finomhangolható, így hatékonyabb szentiméntelemzésre és piacokkal kapcsolatos szövegek feldolgozására.


## Pénzügyi piacok elemzése
### Piaci hatékonyság és előrejelezhetőség
A pénzügyi piacok hatékonysága és előrejelezhetősége kulcsfontosságú kérdés a modern közgazdaságtanban és pénzügyi elemzésben. Az Efficient Market Hypothesis (EMH), vagyis a hatékony piacok elmélete, Eugene Fama nevéhez kötődik, aki 1970-ben alkotta meg az elmélet alapjait. Az elmélet szerint a piacok olyan hatékonyak, hogy minden releváns információ azonnal és teljes mértékben tükröződik az eszközök árában.

#### Piaci hatékonyság típusai
Az EMH három fő formát különböztet meg:

1. Gyenge forma:
   Ez azt állítja, hogy az árfolyamok csak a múltbeli adatokat és volumeneiket tükrözik. Ennek következménye, hogy a technikai elemzés nem nyújt előnyt az árba. Matematikailag szempontból a piaci árfolyamokat véletlenszerű (randomwalk) modellezzük:

   $$P_t = P_{t-1} + \epsilon_t$$

   ahol:
   * $P_t$: az árfolyam t időpontban,
   * $\epsilon_t$: független és azonos eloszlású véletlen zaj.

2. Közepes forma:
   Ez azt állítja, hogy az árfolyamok nemcsak a múltbeli adatokat, hanem az összes nyilvánosan elérhető információt is tartalmazzák. Ebben beletartoznak a vállalati jelentések, gazdasági hírek és politikai események. Ez az állítás megkérdőjelezi a fundamentális elemzés hatékonyságát.

3. Erős forma:
   Ez a forma állítja, hogy az árák minden információt tükröznek, beleértve a nyilvános és a bennfentes információkat is. Ha ez igaz lenne, senki sem tudna tartósan felülteljesíteni a piacot, még a bennfentes információk felhasználásával sem.

#### Piaci anomáliák
Bár az EMH széles körben elfogadott, számos kutatás mutatott ki anomáliákat, amelyek az elmélet gyengeségeire utalnak:

* Hét napja hatás: Bizonyos napokon (például pénteken) az árfolyamok szisztematikusan eltérnek az átlagtól.
* Január hatás: Az év első hónapjában gyakran magasabb hozamok figyelhetők meg.
* Bennfentes kereskedelem: A bennfentes információk használata előnyt jelenthet, különösen az erős formájú piacok esetében.

#### Piaci szentiméntés és viselkedési pénzügyek
A piaci szentiméntés, vagyis a befektetők általános érzelmi állapota, jelentős hatással van az árfolyamokra. A viselkedési pénzügyek (behavioral finance) ezen hatásokat próbálja megérteni és modellezni.

#### Befektetői hangulat mérése
1. Közvetlen mérési módszerek:
   A befektetők körében végzett felmérések és kérdőívek segítségével közvetlenül mérhetjük a piaci szentiméntet. Például az AAII Investor Sentiment Survey az amerikai befektetők optimizmusát és semlegességét méri.

2. Közvetett indikátorok:
   A piaci mutatók, például a VIX index (volatility index), a piaci kockázatvállalást és szentiméntet közvetett módon mérésére szolgálnak. Magas VIX-értékek jellemzően félelmet jeleznek a piacokon.

3. Média alapú szentiméntés:
   A hírek, közösségi média bejegyzések és pénzügyi elemzések automatikus szövegelemzése segítségével a piaci hangulat kvantitatív módon mérhető. Az NLP és szentiméntanalízis, például a FinBERT modell segítségével, fontos szerepet játszanak e folyamatban.

#### Viselkedési torzítások
A befektetők döntéseit gyakran irracionalitási tényezők befolyásolják, amelyek torzítják a piacok működését:

1. Nyájhatás (herding effect):
   A befektetők hajlamosak mások viselkedését követni, különösen bizonytalan környezetben. Ez jelentős árfolyam-ingadozást okozhat.

2. Túlzott magabiztosság (overconfidence):
   A befektetők túlbecsülik saját tudásukat és képességeiket, ami gyakran túlzott kockázatvállaláshoz vezet.

3. Lehorgonyzás (anchoring):
   Az árfolyamok elemzése során az emberek gyakran túl nagy jelentőséget tulajdonítanak egy korábbi értéknek vagy eseménynek, ami befolyásolja döntéseiket.


## Hibrid modellezési megközelítések
### Idősoros és szöveges adatok integrálása
A különböző adatforrások egyesítése a pénzügyi modellezés új dimenzióját nyitja meg. Az idősorelemzés és az NLP együttes alkalmazása a strukturált (árfolyamok) és strukturálatlan (szövegek) adatok integrálására.

#### Feature engineering
Az adatokból kinyert jellemzők (features) alapvető szerepet játszanak az integrált modellek teljesítményében:

1. Idősor jellemzők:
   Az idősorokból statisztikai mutatókat nyerhetünk ki, mint például a mozgóátlagok, volatilitás, maximumok és minimumok.

2. Szöveges jellemzők:
   A szentiméntanalízis eredményeit, a TF-IDF értékeket vagy a szóbeágyazásokat kombinálhatjuk az idősorokkal. Például egy hír szentiméntjét és a hozzá kapcsolódó árfolyamváltozást egyaránt modellezhetjük.

3. Jellemzők kombinálása:
   Az idősor- és szöveges jellemzők egyesítése lehetővé teszi a komplex összefüggések feltárását.

#### Modell architektúrák
Az integrált adatelemzés különböző modellarchitektúrákat igényel:

1. Párhuzamos feldolgozás:
   Az idősor- és szöveges adatokat külön modellekben dolgozzák fel, majd az eredményeket kombinálják.

2. Kaszkád modellek:
   Az egyik modell eredményeit felhasználják egy másik modell számára.

3. Ensemble módszerek:
   Több modell eredményeinek kombinálásával növelhető az előrejelzések pontossága.

### Mély tanulási alapú megoldások

A mély tanulási (Deep Learning) módszerek az utóbbi években forradalmasították a pénzügyi előrejelzést és a természetes nyelvfeldolgozást. Az idősorok és szöveges adatok integrációjában különösen fontos szerepet játszanak az olyan modellek, amelyek képesek a komplex, nemlineáris kapcsolatok azonosítására.

#### Rekurrens neurális hálózatok (RNN)

Az RNN-ek alkalmasak az idősorok adatok modellezésére, mivel képesek kezelni a függőségeket képesek kezelni. Az alap RNN-ek azonban hosszú távú függőségekkel nem tudnak hatékonyan megbirkózni, ezért fejlesztették ki a következő speciális változatokat:

1. LSTM (Long Short-Term Memory):
   Az LSTM egységek képesek a hosszú távú függőségek kezelésére, mivel a memóriakap szabályozzák, hogy az információ hogyan áramlik a hálózaton keresztül:

   $$f_t = \sigma(W_f[h_{t-1}, x_t] + b_f),\quad i_t = \sigma(W_i[h_{t-1}, x_t] + b_i),$$

   ahol:
   * $f_t$: felejtési kapu,
   * $i_t$: beviteli kapu,
   * $\sigma$: aktivációs függvény,
   * $W$ és $b$: súlyok és bias paraméterek.

2. GRU (Gated Recurrent Unit):
   A GRU egy egyszerűbb alternatíva az LSTM-hez, amely kevesebb paramétert használ. Gyakrabban tanulást biztosít.

#### Konvolúciós neurális hálózatok (CNN)

A CNN-ek hagyományosan képfeldolgozásra lettek kifejlesztve, de időbeli mintázatok felismerésére is alkalmazhatók az idősor-elemzés során. A konvolúciós rétegek képesek a rövid távú mintázatok (például időben változások) azonosítására:

$$z_{i,j} = \sigma\left(\sum_{m,n} x_{i+m,j+n} \cdot w_{m,n} + b\right),$$

ahol:
* $x$: bementi adatok,
* $w$: konvolúciós súlyok,
* $b$: bias,
* $\sigma$: aktivációs függvény.

#### Hibrid modellek

A CNN és RNN kombinációja lehetővé teszi az idősorok és szöveges adatok egységes feldolgozását. A CNN-ek az időbeli mintázatokat, míg az LSTM vagy GRU az időbeli függőségeket azonosítják.

1. CNN-LSTM:
   A CNN-ek az idősorosadatok jellemzőinek kinyerésére, az LSTM pedig a hosszú távú kapcsolatok felismerésére használhatók. Ez különösen hasznos, ha az idősoradat-jellemzőket az árfolyam-előrejelzéshez kombinálják.

2. Attention mechanizmus:
   Az attention mechanizmus lehetővé teszi a modell számára, hogy az adatok releváns részeire fókuszáljon. Ez különösen hasznos, ha egy szöveg bizonyos része vagy egy időbeli árfolyammérték nagyobb jelentőséggel bír:

   $$Attention(Q,K,V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V,$$

   ahol:
   * Q: lekérdezés (query) mátrix,
   * K: kulcs (key) mátrix,
   * V: érték (value) mátrix,
   * $d_k$: dimenzióméret.

3. Transformer alapú megoldások:
   A Transformer architektúra önmagában is használható az idősorok és szöveges adatok elemzésére. A self-attention mechanizmus révén hatékonyan dolgozza fel az adatokat, és képes a hosszú távú kapcsolatok azonosítására is.

## Teljesítményértékelés és validáció

### Előrejelzési metrikák
A modellek értékelésére többféle mutató is alkalmazható, amelyek lehetővé teszik a pontosság és a gyakorlati használhatóság megítélését.

#### Statisztikai metrikák

1. Mean Absolute Error (MAE):
   Az abszolút hibák átlaga, amely a modellek általános pontosságát méri:

   $$MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|,$$

   ahol:
   * $y_i$: valódi érték,
   * $\hat{y}_i$: előrejelzett érték.

2. Root Mean Square Error (RMSE):
   Az RMSE nagyobb súlyt ad a nagyobb hibáknak, ezért jobbán kiemeli a modell nagyobb tévedéseit.

   $$RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2}.$$

3. Mean Absolute Percentage Error (MAPE):
   Az előrejelzési hibák relatív arányát méri:

   $$MAPE = \frac{1}{n} \sum_{i=1}^n \left|\frac{y_i - \hat{y}_i}{y_i}\right| \cdot 100.$$

#### Pénzügyi metrikák

1. Sharpe-ráta:
   A hozam és kockázat arányát méri:

   $$S = \frac{\bar{R} - R_f}{\sigma},$$

   ahol:
   * $\bar{R}$: portfólió átlaghozama,
   * $R_f$: kockázatmentes hozam,
   * $\sigma$: portfólió szórása.

2. Maximum drawdown:
   A legnagyobb csökkenés egy csúcsról egy mélypontra:

   $$MDD = \frac{\text{Peak Value} - \text{Trough Value}}{\text{Peak Value}}.$$

3. Profit és veszteség (P&L):
   Az előrejelzések alapján végrehajtott stratégiák nyereségességét méri.

#### Validációs stratégiák
A model robusztusságának és megbízhatóságának tesztelése kritikus fontosságú:

1. Időbeli keresztvalidáció:
   Az idősorosadatok időbeli függősége miatt hagyományos keresztvalidáció nem használható.
   Az időbeli keresztvalidáció lépései:
   * A múltbeli adatokból tanul a modell.
   * A jövőbeli adatokon teszteli magát.

2. Backtesting:
   A történeti szimulációk révén a modell előrejelzését valós pénzi adatok alapján tesztelik.
   Fontos figyelembe venni a tranzakciós költségeket és a piaci körülményeket.


# Fejlesztői Dokumentáció és Implementáció

## Python nyelv és eszközeinek áttekintése

A Python az egyik legszélesebb körben használt programozási nyelv a mesterséges intelligencia, gépi tanulás, adatelemzés és pénzügyi modellezés területén. A nyelv egyszerű szintaxisa, széles körű könyvtárainak ökoszisztémája és interaktív eszközei miatt ideális választás a szakdolgozathoz kapcsolódó idősor-elemzés és természetes nyelvfeldolgozási (NLP) feladatokhoz.

A Python erőssége az eszközök egyszerű integrációjában rejlik. Az idősor-elemzés és NLP kombinációja érdekében az adatok előkészítésétől kezdve a modellezésen át az értékelésig lehetőség van egyetlen keretrendszerben lehet dolgozni.

1. Adatintegráció és előfeldolgozás:
A Pandas és a NumPy használható az idősorok előkészítésére, míg a szöveges adatok tisztításához az NLTK alkalmazható.

2. Modellezés:
A Scikit-learn és a TensorFlow eszközei lehetővé teszik a klasszikus és mélytanulási modellek egyidejű fejlesztését.

4. Validáció és értékelés:
Az idősoros validációhoz a Scikit-learn, míg a pénzügyi metrikák kiszámításához a NumPy és Pandas eszközök használhatók.

## Használt könyvtárak

### ast

Az ast modul a Python beépített könyvtára, amely az absztrakt szintaxisfák (AST) kezelését támogatja.


In [14]:
import ast

### numpy

A NumPy a Python egyik legfontosabb könyvtára a numerikus számításokhoz. Széleskörű támogatást nyújt tömbműveletekhez, lineáris algebrához és statisztikai számításokhoz.

In [15]:
import numpy as np

### pandas

A Pandas könyvtár adatok kezelésére és elemzésére szolgál. A DataFrame struktúrája ideális táblázatos adatok manipulációjára.

In [16]:
import pandas as pd

### transformers

Transformers könyvtár

A Hugging Face Transformers könyvtár a modern NLP-modellek, például a BERT vagy GPT alkalmazását teszi lehetővé.

#### Modulok bemutatása:
* AutoTokenizer: Szövegek tokenizálásához használható.

In [17]:
from transformers import AutoTokenizer

* AutoModelForSequenceClassification: Előtanított modellek betöltése osztályozási feladatokhoz.

In [18]:
from transformers import AutoModelForSequenceClassification

* pipeline: Egyszerűsített interfész különböző NLP-feladatokhoz, például szentimentelemzéshez.

In [19]:
from transformers import pipeline

### matplotlib és plotly

A Matplotlib az egyik legszélesebb körben használt adatvizualizációs könyvtár.

In [20]:
import matplotlib.pyplot as plt
from matplotlib.dates import DateFormatter
plt.style.use('ggplot')

A Plotly interaktív adatvizualizációs könyvtár.

In [21]:
import plotly.graph_objects as go

### yfinance

A yfinance könyvtár egyszerű és gyors hozzáférést biztosít a Yahoo Finance API-jához, ami elérhetővé teszi a tőzsdei adatok lekérdezését.

In [22]:
import yfinance as yf

### backtrader

A backtrader egy tőzsdei kereskedési stratégiák szimulálására alkalmas könyvtár.

In [23]:
import backtrader as bt

### tqdm

A tqdm egy egyszerű, de hatékony eszköz a Python programok futási állapotának vizualizálására.

In [24]:
from tqdm.notebook import tqdm

## NLP modellek

A Huggingface honlapján találkható előre betanított modellek lekérése és felhasználása egy transformers pipeline létrehozásához.

### DistilRoBERTa

Ez a modell a RoBERTa-bázismodell desztillált változata a Financial PhraseBank adat gyűjteményén finomhangolva.
A modell kis- és nagybetű-érzékeny, továbbá 6 réteggel, 768 dimenzióval és 12 fejjel rendelkezik, összesen 82M paraméterrel.

https://huggingface.co/mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis

In [25]:
model_DistRoBERTa = f"mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis"


_sentiment_analysis_DistRoBERTa = pipeline("sentiment-analysis",
                                           model= AutoModelForSequenceClassification.from_pretrained(
                                               model_DistRoBERTa,
                                               num_labels=3),
                                           tokenizer=AutoTokenizer.from_pretrained(model_DistRoBERTa),
                                           top_k=None, padding=True, truncation=True
                                           )

### FinBERT

A FinBERT egy előre betanított NLP modell (BERT nyelvi modell továbbképzése) pénzügyi szövegek hangulatának elemzésére.
Ez a modell is a Financial PhraseBank adat gyűjteményen lett finomhangolva.

https://huggingface.co/ProsusAI/finbert

In [11]:
model_FinBERT = "ProsusAI/finbert"
_sentiment_analysis_FinBERT = pipeline("sentiment-analysis",
                                       model=AutoModelForSequenceClassification.from_pretrained(
                                           model_FinBERT,
                                           num_labels=3
                                       ),
                                       tokenizer=AutoTokenizer.from_pretrained(model_FinBERT),
                                       top_k=None, padding=True, truncation=True
                                       )

### DeBERTa

A DeBERTa a BERT és a RoBERTa modelleket javítja a szétválasztott figyelem és a továbbfejlesztett maszkdekóder használatával.
Ezzel a két fejlesztéssel a DeBERTa 80 GB képzési adatmennyiséggel az NLU-feladatok többségében felülmúlja a RoBERTa-t.

https://huggingface.co/mrm8488/deberta-v3-ft-financial-news-sentiment-analysis

In [12]:
model_DeBERTa = f"mrm8488/deberta-v3-ft-financial-news-sentiment-analysis"
_sentiment_analysis_DeBERTa = pipeline("sentiment-analysis",
                                       model=AutoModelForSequenceClassification.from_pretrained(
                                           model_DeBERTa,
                                           num_labels=3),
                                       tokenizer=AutoTokenizer.from_pretrained(model_DeBERTa),
                                       top_k=None, padding=True)

## Használt adatok

## Függvények

# Összefoglalás

# Summary

# Irodalomjegyzék