In [1]:
from data_loader.data_loader import GreekPMDataloader
import pandas as pd

In [34]:
ds = GreekPMDataloader()
cats_df = ds.load_categories("speeches", "statements")

Cached data found for speeches, loading CSV...
Cached data found for statements, loading CSV...


In [40]:
for category, df in cats_df.items():
    df['category'] = category
all_data = pd.concat(cats_df.values())
all_data = all_data.reset_index(drop=True)
all_data.head()

Unnamed: 0,date,id,url,title,text,category
0,2024-03-29,33935,https://www.primeminister.gr/2024/03/29/33935,Ομιλία του Πρωθυπουργού Κυριάκου Μητσοτάκη στη...,"Κύριε Πρόεδρε, κυρίες και κύριοι βουλευτές, Πρ...",speeches
1,2024-03-26,33928,https://www.primeminister.gr/2024/03/26/33928,Ομιλία του Πρωθυπουργού Κυριάκου Μητσοτάκη σε ...,Ο Πρωθυπουργός παρέστη και μίλησε σε ομογενεια...,speeches
2,2024-03-26,33923,https://www.primeminister.gr/2024/03/26/33923,Συζήτηση του Πρωθυπουργού Κυριάκου Μητσοτάκη μ...,Nik Nanos: Είχαμε δύο υπέροχες ηλιόλουστες ημέ...,speeches
3,2024-03-25,33916,https://www.primeminister.gr/2024/03/25/33916,Ομιλία του Πρωθυπουργού Κυριάκου Μητσοτάκη σε ...,Ο Πρωθυπουργός Κυριάκος Μητσοτάκης έλαβε μέρος...,speeches
4,2024-03-20,33866,https://www.primeminister.gr/2024/03/20/33866,"Παρέμβαση του Πρωθυπουργού Κυριάκου Μητσοτάκη,...","Συνάδελφοι, αγαπητοί φίλοι, είναι τιμή που μου...",speeches


## Spacy processing

In [41]:
all_data['text'] = all_data['text'].astype(str)

In [42]:
import spacy
import advertools as adv
from spacy.lang.el.examples import sentences 

nlp = spacy.load("el_core_news_sm")

stopwords = adv.stopwords['greek']

def preprocess_text(text):
    if isinstance(text, str):
        doc = nlp(text)
        tokens = [token.lemma_.lower() for token in doc if not token.is_punct and not token.is_space and token.text.lower() not in stopwords]
        return tokens
    else:
        return []
    

In [43]:
all_data['processed_text'] = all_data['text'].apply(preprocess_text)
all_data.head()

Unnamed: 0,date,id,url,title,text,category,processed_text
0,2024-03-29,33935,https://www.primeminister.gr/2024/03/29/33935,Ομιλία του Πρωθυπουργού Κυριάκου Μητσοτάκη στη...,"Κύριε Πρόεδρε, κυρίες και κύριοι βουλευτές, Πρ...",speeches,"[κύριος, πρόεδρος, κυρία, κύριος, βουλευτής, π..."
1,2024-03-26,33928,https://www.primeminister.gr/2024/03/26/33928,Ομιλία του Πρωθυπουργού Κυριάκου Μητσοτάκη σε ...,Ο Πρωθυπουργός παρέστη και μίλησε σε ομογενεια...,speeches,"[πρωθυπουργός, παρέστη, μίλησε, ομογενειακός, ..."
2,2024-03-26,33923,https://www.primeminister.gr/2024/03/26/33923,Συζήτηση του Πρωθυπουργού Κυριάκου Μητσοτάκη μ...,Nik Nanos: Είχαμε δύο υπέροχες ηλιόλουστες ημέ...,speeches,"[nik, nanos, δύο, υπέροχος, ηλιόλουστα, ημέρα,..."
3,2024-03-25,33916,https://www.primeminister.gr/2024/03/25/33916,Ομιλία του Πρωθυπουργού Κυριάκου Μητσοτάκη σε ...,Ο Πρωθυπουργός Κυριάκος Μητσοτάκης έλαβε μέρος...,speeches,"[πρωθυπουργός, κυριάκος, μητσοτάκης, λαμβάνω, ..."
4,2024-03-20,33866,https://www.primeminister.gr/2024/03/20/33866,"Παρέμβαση του Πρωθυπουργού Κυριάκου Μητσοτάκη,...","Συνάδελφοι, αγαπητοί φίλοι, είναι τιμή που μου...",speeches,"[συνάδελφος, αγαπητός, φίλος, τιμή, δίνω, ευκα..."


In [46]:
all_data = all_data.drop(columns=['url', 'text'])

Unnamed: 0,date,id,title,category,processed_text
0,2024-03-29,33935,Ομιλία του Πρωθυπουργού Κυριάκου Μητσοτάκη στη...,speeches,"[κύριος, πρόεδρος, κυρία, κύριος, βουλευτής, π..."
1,2024-03-26,33928,Ομιλία του Πρωθυπουργού Κυριάκου Μητσοτάκη σε ...,speeches,"[πρωθυπουργός, παρέστη, μίλησε, ομογενειακός, ..."
2,2024-03-26,33923,Συζήτηση του Πρωθυπουργού Κυριάκου Μητσοτάκη μ...,speeches,"[nik, nanos, δύο, υπέροχος, ηλιόλουστα, ημέρα,..."
3,2024-03-25,33916,Ομιλία του Πρωθυπουργού Κυριάκου Μητσοτάκη σε ...,speeches,"[πρωθυπουργός, κυριάκος, μητσοτάκης, λαμβάνω, ..."
4,2024-03-20,33866,"Παρέμβαση του Πρωθυπουργού Κυριάκου Μητσοτάκη,...",speeches,"[συνάδελφος, αγαπητός, φίλος, τιμή, δίνω, ευκα..."
