# **Témamodellezés (Topic modeling)**

A témamodellezés (topic modeling) egy automatizált szövegelemzési módszer, amely képes a dokumentumokban rejlő, tematikusan összefüggő csoportokat, azaz témákat azonosítani és rendszerezni. Az egyik legismertebb és leggyakrabban alkalmazott technika az **LDA (Latent Dirichlet Allocation)**. Az LDA egy valószínűségi modell, amely a dokumentumokban előforduló szavak és témák közötti kapcsolatokat elemzi, és megállapítja, hogy mely szavak tartoznak az egyes témákhoz, valamint milyen mértékben kapcsolódik egy dokumentum egy-egy témához.


In [6]:
import pandas as pd
import numpy as np

pd.set_option('display.max_colwidth', None)

In [7]:
from sklearn.datasets import fetch_20newsgroups

# Töltsük le a 20 Newsgroups adathalmazt
newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

# Az 'data' attribútum tartalmazza a nyers szöveges dokumentumokat
# A 'target' attribútum tartalmazza a címkéket (kategóriákat)
print(f"Dokumentumok száma: {len(newsgroups.data)}")
print(f"Kategóriák száma: {len(newsgroups.target_names)}")

# Példa dokumentum
print("\nPélda dokumentum:")
print(newsgroups.data[0])

# A megfelelő kategória
print(f"Kategória: {newsgroups.target_names[newsgroups.target[0]]}")



Dokumentumok száma: 18846
Kategóriák száma: 20

Példa dokumentum:


I am sure some bashers of Pens fans are pretty confused about the lack
of any kind of posts about the recent Pens massacre of the Devils. Actually,
I am  bit puzzled too and a bit relieved. However, I am going to put an end
to non-PIttsburghers' relief with a bit of praise for the Pens. Man, they
are killing those Devils worse than I thought. Jagr just showed you why
he is much better than his regular season stats. He is also a lot
fo fun to watch in the playoffs. Bowman should let JAgr have a lot of
fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final
regular season game.          PENS RULE!!!


Kategória: rec.sport.hockey


### **Feladat: Adatok kiválasztása és kiírása kategóriák szerint**

A 20 Newsgroups adatbázis 20 különböző kategóriába sorolt dokumentumokat tartalmaz. A feladatod, hogy véletlenszerűen válassz ki 5 dokumentumot kategóriánként, és jelenítsd meg őket.

#### **Elvárás:**
- A betöltött adatokat a `df` DataFrame-ben találod, amely tartalmazza a dokumentumokat (`text` oszlop) és a hozzájuk tartozó kategóriákat (`target_group` oszlop).
- A kategóriák nevei a `target_group` oszlop alapján találhatóak.
- Kategóriánként válassz ki véletlenszerűen **5 dokumentumot** (ha a kategóriában kevesebb mint 5 dokumentum található, akkor az összes dokumentumot válaszd ki).
- Jelenítsd meg a kiválasztott dokumentumokat kategóriánként.
- A dokumentumokat és azok kategóriáját **úgy jelenítsd meg, hogy minden kategória alatt a kiválasztott dokumentumok láthatóak legyenek**.

#### **Segítség:**
- A `sample()` függvényt használhatod a dokumentumok véletlenszerű kiválasztásához kategóriánként.
- A kódot úgy írd meg, hogy minden kategória alatt jelenjen meg a kiválasztott 5 dokumentum.
- Az egyes kategóriák közötti elválasztáshoz egy `=` karakterekből készült sort is kiírhatsz.


In [None]:
df = pd.DataFrame({
    'text': newsgroups.data,  # A dokumentumok szövege
    'target_group': [newsgroups.target_names[target] for target in newsgroups.target],  # A célkategóriák
    'target_group_encoded': [target for target in newsgroups.target]  # A kategóriák kódolt értékei
})

In [None]:
sample_size = 5

for category in df['target_group'].unique():
    #TODO: Megoldás
    pass

### **Feladat: Szöveg előfeldolgozása**

A feladatod, hogy végezz el egy alapvető előfeldolgozást a 20 Newsgroups adatbázis dokumentumain. Az előfeldolgozás során az alábbi műveleteket kell végrehajtani:

#### **Elvárás:**
- Az adatokat a `df` DataFrame tartalmazza, amelynek a `text` oszlopában találhatóak a dokumentumok.
- Az előfeldolgozás során az alábbi műveleteket hajtsd végre:
  - **Kisbetűsítés**: Minden szöveget alakíts át kisbetűsre.
  - **Extra szóközök eltávolítása**: A szövegben lévő többszörös szóközöket egyetlen szóközre cseréld.
  - **Speciális karakterek eltávolítása**: Távolítsd el a nem betűket és szóközöket (például számokat és írásjeleket).

#### **Segítség:**
- A fenti műveletekhez használj reguláris kifejezéseket (`re` modul) a Pythonban.
- A szöveg előfeldolgozásának eredményét tárold egy új oszlopban, amelyet nevezz el `preprocessed_text`-nek.

#### **Példa:**
- Eredeti szöveg: `"Hello! This is an example... text 123."`
- Előfeldolgozott szöveg: `"hello this is an example text"`


In [None]:
import re

# TODO: Definiálj egy függvényt az alapvető szöveg előfeldolgozáshoz
def preprocess(text):
    # Alakítsd át kisbetűssé
    text = # IDE KELL A KÓD
    
    # Távolítsd el a fölösleges szóközöket
    text = # IDE KELL A KÓD
    
    # Távolítsd el a speciális karaktereket (minden, ami nem betű vagy szóköz)
    text = # IDE KELL A KÓD
    
    return text

# Alkalmazd az előfeldolgozó függvényt a 'text' oszlopra
df['preprocessed_text'] = df['text'].apply(preprocess)

# Az előfeldolgozott szövegekkel rendelkező DataFrame megjelenítése
df


### **Mi az a TF-IDF?**

A **TF-IDF** (Term Frequency-Inverse Document Frequency) egy olyan módszer, amely a szövegek jellemzőinek (kifejezéseinek) fontosságát méri egy dokumentumgyűjteményben. Két tényezőt vesz figyelembe:
1. **TF (Term Frequency)**: Egy kifejezés előfordulásának gyakorisága egy adott dokumentumban.
2. **IDF (Inverse Document Frequency)**: A kifejezés ritkasága a dokumentumgyűjteményben. Minél ritkábban fordul elő egy kifejezés, annál nagyobb súlyt kap.

A TF-IDF segítségével azokat a kifejezéseket emeljük ki, amelyek egy adott dokumentumban gyakran előfordulnak, de ritkán a többi dokumentumban, így jelezve, hogy ezek a kifejezések valószínűleg fontosabbak a dokumentumban

### **Feladat: TF-IDF vektorozás alkalmazása**

A célod, hogy alkalmazz egy **TF-IDF** (Term Frequency-Inverse Document Frequency) vektorizálást a szövegekhez, és megvizsgáld az eredményül kapott mátrixot.

#### **Elvárás:**
1. Alkalmazz egy **TF-IDF vektorozót** a `preprocessed_text` oszlopra, hogy a szövegeket vektorokká alakítsd.
2. A `TfidfVectorizer`-t az alábbi paraméterekkel kell használni:
   - `stop_words='english'` – az angol nyelvű gyakori szavakat (stop szavakat) távolítsd el.
   - `max_features=10000` – maximalizáld a kinyert jellemzők számát 10,000-ra.
3. A vektorozás eredményeként egy **TF-IDF mátrixot** kell létrehozni, amit az `X` változóban tárolsz.
4. Vizsgáld meg a TF-IDF mátrix formáját és az összes jellemző (kifejezés) nevét.
5. A kinyert jellemzők neveit tárold a `feature_names` változóban.

#### **Segítség:**
- A `TfidfVectorizer` segít a szövegek vektorokká alakításában a TF-IDF súlyozás segítségével.
- A `get_feature_names_out()` függvénnyel lekérheted az összes kifejezést, amelyet a vektorozó használt.


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Create the TF-IDF vectorizer
vectorizer = TfidfVectorizer(stop_words='english',max_features=10000)
X = vectorizer.fit_transform(df['preprocessed_text'])

# Inspect the TF-IDF matrix
print(X.shape)  # Number of documents x number of terms
print(vectorizer.get_feature_names_out())  # List of terms (features)


feature_names = vectorizer.get_feature_names_out()

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = None #TODO: Hozd létre a vektorózot

### **Mi a célja a feladatnak?**

A feladat célja, hogy meghatározd az egyes kategóriák legfontosabb jellemzőit (kifejezéseit) a **TF-IDF** módszer alkalmazásával, majd rendezd őket az átlagos TF-IDF pontszámuk alapján.

### **Feladat: Legfontosabb jellemzők meghatározása kategóriánként**

#### **Elvárás:**
1. **Adatok betöltése**:
   - Használj egy **TF-IDF mátrixot** (`X`), amely a szövegeket jellemzővé alakítja.
   - Az adatokat tartalmazó DataFrame `df_features` oszlopainak tartalmaznia kell a következőket:
     - `feature_names` – a jellemzők nevei (kifejezések).
     - `target` – az egyes dokumentumok kategóriái.
   
2. **Legfontosabb kifejezések kiszámítása**:
   - Válassz ki egy **Top N** számú kifejezést (10 kifejezés például) minden kategória számára a **TF-IDF pontszám** alapján. A kifejezéseket az átlagos TF-IDF pontszámuk szerint kell rendezni csökkenő sorrendben.
   
3. **Kategóriák legfontosabb jellemzőinek tárolása**:
   - A kategóriák legfontosabb kifejezéseit tárold egy **szótárban** (`top_features_per_group`), ahol a kulcs a kategória neve, az érték pedig a kifejezések listája.

4. **Eredmény megjelenítése**:
   - Hozz létre egy új oszlopot a `df_features` DataFrame-ben, amely az egyes kategóriákhoz tartozó **legfontosabb kifejezéseket** mutatja.
   - A végső DataFrame-nek az alábbi oszlopokat kell tartalmaznia:
     - `category_name` – a kategória neve.
     - `top_features` – a kategóriához tartozó legfontosabb kifejezések listája.

#### **Segítség:**
- A `mean()` függvény segítségével kiszámíthatod az egyes kifejezések átlagos TF-IDF pontszámát minden kategóriánál.
- A `sort_values()` függvénnyel rendezheted a kifejezéseket csökkenő sorrendbe.
- A `map()` és `apply()` függvények segítségével hozzárendelheted a kategóriák neveit és a legfontosabb kifejezéseket a DataFrame-hez.

#### **Eredmény:**
A feladat végén egy DataFrame-et kell kapnod, amely tartalmazza az egyes kategóriák legfontosabb kifejezéseit, valamint a hozzájuk tartozó kategóriák neveit.


In [None]:
df_features = pd.DataFrame(X.toarray(), columns=feature_names)
df_features['target'] = newsgroups.target  # Célcsoportok (kategóriák) hozzáadása

# Definiáljuk, hány legfontosabb kifejezést szeretnénk kategóriánként
top_n = 10  

# Létrehozunk egy szótárat, hogy tároljuk a legfontosabb N kifejezést minden kategóriához
top_features_per_group = {}

# Végigmegyünk az összes kategórián
for category_idx, category_name in enumerate(newsgroups.target_names):
    pass

print(df_features[['category_name', 'top_features']].head())

### **Mi az az LDA (Latent Dirichlet Allocation)?**

Az **LDA (Latent Dirichlet Allocation)** egy gépi tanulási algoritmus, amely segít a dokumentumok témákra bontásában. Az LDA célja, hogy egy nagy szöveges adatbázisból **rejtett témákat találjon**, és hozzárendelje a dokumentumokat ezekhez a témákhoz. 

#### **Hogyan működik?**
- Az LDA úgy képzeli el a dokumentumokat, mint **témák keverékét**.
- Minden téma egy adott szavak összességéből áll, és minden dokumentumnak van egy olyan **témakeveréke**, ami meghatározza, hogy melyik témák dominálnak benne.
- Az algoritmus megpróbálja **megtalálni a legfontosabb szavakat** minden témához, és ez alapján csoportosítja a dokumentumokat.

#### **Miért hasznos?**
- Segít **automatikusan kategorizálni** a dokumentumokat a témáik szerint.
- Lehetővé teszi a **szövegek elemzését** és a **rejtett minták** felfedezését nagy adathalmazokban.

### **Feladat: Témamodellezés LDA-val**

A feladat célja, hogy alkalmazzuk a Latent Dirichlet Allocation (LDA) modellt a dokumentumok témáinak (topics) felfedezésére. Az LDA célja, hogy minden dokumentumból kinyerjenek a hozzájuk tartozó rejtett témákat.

#### **Elvárások:**
1. Alkalmazz LDA modellt a dokumentumokra, és állítsd be a kívánt számú témát (`n_topics`). Használj 20 témát.
2. A LDA alkalmazása után az **`doc_topic_distribution`** változóban tárold a dokumentumokhoz tartozó témák valószínűségeit.
3. Az **`lda.components_`** tartalmazza az egyes témákhoz tartozó szóeloszlásokat.
4. Minden témához jelenítsd meg a legfontosabb 10 szót, amelyek a témához tartoznak. A legfontosabb szavak kiválasztásához használd a `topic.argsort()` funkciót.
5. A legfontosabb szavak megjelenítése során a következő információkat tartsd szem előtt:
   - Minden téma esetében írd ki a legnagyobb súllyal rendelkező szavakat.
   - A szavakat a **TF-IDF**-val rendelkező szavak sorrendjében jelenítsd meg.

In [None]:
from sklearn.decomposition import LatentDirichletAllocation

n_topics = 20

#TODO: Hozd létre az LDA modellt

doc_topic_distribution = None 

### **Feladat: A témák legfontosabb szavainak vizualizálása**

A **Latent Dirichlet Allocation (LDA)** segítségével témákat alkottunk a dokumentumokból. Az a feladat, hogy vizualizáljuk a legfontosabb szavakat minden egyes témához. 

#### **Elvárások:**
1. A **TF-IDF** modellezés alapján határozd meg a legfontosabb szavakat minden témához.
2. A **matplotlib** könyvtár segítségével készíts egy oszlopdiagramot, amely megjeleníti az egyes témák legfontosabb szavait és azok fontosságát (TF-IDF értékét).
3. Az oszlopdiagramon a legfontosabb szavak legyenek a **y-tengelyen**, és a szavak fontossága (TF-IDF érték) jelenjen meg az **x-tengelyen**.
4. Az **y-tengely** legyen **fordított**, hogy a legfontosabb szó legyen felül.
5. A grafikon címében jelenjen meg a téma száma, például: "A 10 legfontosabb szó a 1. témában".
6. Készíts diagramot minden témához, de csak az elsőt jelenítsd meg.

#### **A feladathoz szükséges változók:**
- **`lda.components_`**: Az LDA modell komponensei, melyek tartalmazzák a szavak és témák közötti kapcsolatokat.
- **`vectorizer.get_feature_names_out()`**: A szavak listája, amelyet a TF-IDF modellezés hozott létre.
- **`n_top_words`**: A legfontosabb szavak száma, amelyeket meg szeretnél jeleníteni a diagramon.

#### **Követelmények:**
- Használj **`matplotlib`** könyvtárat a grafikon elkészítéséhez.
- Az oszlopdiagram a témák legfontosabb szavait kell, hogy megjelenítse a TF-IDF értékeikkel együtt.
- Gondoskodj róla, hogy az oszlopok a legfontosabb szavak szerint legyenek rendezve.


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# A téma legfontosabb szavainak száma
n_top_words = 10

# A jellemzők nevei (szavak) lekérése
feature_names = vectorizer.get_feature_names_out()

# Készítsünk oszlopdiagramot a legfontosabb szavakhoz minden témához
for topic_idx, topic in enumerate(lda.components_):
    # A legfontosabb szavak indexeinek lekérése (rendezett sorrendben)
    top_words_idx = topic.argsort()[-n_top_words:][::-1]
    top_words = [feature_names[i] for i in top_words_idx]
    top_word_scores = topic[top_words_idx]

    #TODO: Készítsd el a diagramot
    
    break



### **Feladat: Kategóriák arányának vizualizálása**

A feladat célja, hogy vizualizáljuk a dokumentumok arányát a különböző kategóriák (target_group) között a **df** adatkeretben.

#### **Elvárások:**
1. Számold ki a dokumentumok arányát minden egyes kategóriában (target_group) a `value_counts(normalize=True)` segítségével.
2. Készíts egy oszlopdiagramot, amely a kategóriák (target_group) arányát mutatja a dokumentumok között.
3. A diagram **x-tengelyén** a kategóriák nevei szerepeljenek, míg az **y-tengelyen** azok az arányok, amelyeket a kategóriák dokumentumainak száma alapján számoltál ki.
4. Az oszlopdiagramon a kategóriák neveit **forgasd el 90 fokkal**, hogy jól olvashatóak legyenek.
5. A diagram címeként tüntesd fel: "Kategóriák arányai a dokumentumok között".

#### **A feladathoz szükséges változók:**
- **`df['target_group']`**: A dokumentumok kategóriáját tartalmazó oszlop.
- **`value_counts(normalize=True)`**: A dokumentumok arányának kiszámítása kategóriánként.

#### **Követelmények:**
- Használj **`matplotlib`** könyvtárat a diagram elkészítéséhez.
- Az y-tengelyen a dokumentumok kategóriák szerinti arányát kell megjeleníteni, százalékban.


In [None]:
# Számold ki a dokumentumok arányát kategóriánként (target_group)
target_group_proportions = df['target_group'].value_counts(normalize=True)

#TODO: Ábrázold a kategóriák arányait

### **Feladat: Téma arányok vizualizálása**

Miután alkalmaztad a Latent Dirichlet Allocation (LDA) modellt, a feladat célja, hogy megjelenítsd a témák eloszlását a dokumentumok között.

#### **Elvárások:**
1. Az **`doc_topic_distribution`** változó tartalmazza a dokumentumokhoz rendelt témák eloszlását.
2. Számítsd ki a témák átlagos arányait a **`topic_proportions`** változóban.
3. Ábrázold a témák arányát egy oszlopdiagramon. Minden téma arányát jelenítsd meg a diagramon.
4. Az X-tengelyen a témák számát jelenítsd meg (pl. T1, T2, ..., T20).
5. Az Y-tengelyen a témák dokumentumokban való arányát jelenítsd meg (százalékban).
6. A grafikon címét és az Y-tengely címét magyarul add meg:
   - Cím: "Téma arányok a dokumentumok között"
   - Y-tengely: "Dokumentumok aránya"

#### **A feladathoz szükséges változók:**
- **`doc_topic_distribution`**: A dokumentumokhoz tartozó témák eloszlása.
- **`topic_proportions`**: A témák átlagos aránya, amit kiszámítasz a dokumentumok eloszlása alapján.
- **`n_topics`**: A témák száma.

#### **Követelmények:**
- Használj **`matplotlib`** könyvtárat az ábra elkészítéséhez.
- A diagram oszlopai a témák arányait mutassák, és a címek és tengelyek legyenek megfelelőek.


In [None]:
topic_proportions = doc_topic_distribution.mean(axis=0)

# TODO: Téma arányok ábrázolása