In [31]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import nltk
import spacy
from nltk.corpus import stopwords 
# nltk.download('stopwords')
from collections import Counter
from sklearn import model_selection
from sklearn.model_selection import train_test_split, KFold, StratifiedKFold
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

Import data set:

In [32]:
pd.options.mode.chained_assignment = None

col_list = ['text', 'class']
df_full = pd.read_csv('data/data_set.csv', usecols=col_list)
df = df_full[['text']]

df["text"] = df["text"].astype(str)
df_full.head()
df.head()

Unnamed: 0,text
0,"""Μ.Βεργ. Έναν μήνα αφότου η Τουρκία αποχώρησε ..."
1,"""Μέχρι να αποκαλυφθεί η γυναικοκτονία της Καρο..."
2,"""Γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν..."
3,"""Στον ανακριτή οδηγούνται σήμερα οι δράστες τη..."
4,"""Συνέβη ξανά. Την περασμένη εβδομάδα ένα σπορ ..."


# Text preprocessing:

## lower casing:

In [33]:

df["text_lower"] = df["text"].str.lower()
df.head()
# drop the new column created in last cell
# df.drop(["text_lower"], axis=1, inplace=True)


Unnamed: 0,text,text_lower
0,"""Μ.Βεργ. Έναν μήνα αφότου η Τουρκία αποχώρησε ...","""μ.βεργ. έναν μήνα αφότου η τουρκία αποχώρησε ..."
1,"""Μέχρι να αποκαλυφθεί η γυναικοκτονία της Καρο...","""μέχρι να αποκαλυφθεί η γυναικοκτονία της καρο..."
2,"""Γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...","""γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν..."
3,"""Στον ανακριτή οδηγούνται σήμερα οι δράστες τη...","""στον ανακριτή οδηγούνται σήμερα οι δράστες τη..."
4,"""Συνέβη ξανά. Την περασμένη εβδομάδα ένα σπορ ...","""συνέβη ξανά. την περασμένη εβδομάδα ένα σπορ ..."


## remove punctuation

In [34]:
punctuation = '«!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~»'
PUNCT_TO_REMOVE = punctuation

def remove_punctuation(text):
    """custom function to remove the punctuation"""
    return text.translate(str.maketrans('', '', PUNCT_TO_REMOVE))

df["text_wo_punct"] = df["text_lower"].apply(lambda text: remove_punctuation(text))
df.head()

Unnamed: 0,text,text_lower,text_wo_punct
0,"""Μ.Βεργ. Έναν μήνα αφότου η Τουρκία αποχώρησε ...","""μ.βεργ. έναν μήνα αφότου η τουρκία αποχώρησε ...",μβεργ έναν μήνα αφότου η τουρκία αποχώρησε από...
1,"""Μέχρι να αποκαλυφθεί η γυναικοκτονία της Καρο...","""μέχρι να αποκαλυφθεί η γυναικοκτονία της καρο...",μέχρι να αποκαλυφθεί η γυναικοκτονία της καρολ...
2,"""Γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...","""γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...",γεμάτο υποθέσεις που συγκλόνισαν την κοινή γνώ...
3,"""Στον ανακριτή οδηγούνται σήμερα οι δράστες τη...","""στον ανακριτή οδηγούνται σήμερα οι δράστες τη...",στον ανακριτή οδηγούνται σήμερα οι δράστες της...
4,"""Συνέβη ξανά. Την περασμένη εβδομάδα ένα σπορ ...","""συνέβη ξανά. την περασμένη εβδομάδα ένα σπορ ...",συνέβη ξανά την περασμένη εβδομάδα ένα σπορ αυ...


## remove stopwords:

In [35]:
STOPWORDS_GREEK = set(stopwords.words('greek'))

def import_additional_greek_stopwords(STOPWORDS_GREEK):
    STOPWORDS_GREEK.add('της')
    STOPWORDS_GREEK.add('από')
    STOPWORDS_GREEK.add('είναι')
    STOPWORDS_GREEK.add('έχει')
    STOPWORDS_GREEK.add('σας')
    STOPWORDS_GREEK.add('τους')
    STOPWORDS_GREEK.add('τη')
    STOPWORDS_GREEK.add('μας')
    STOPWORDS_GREEK.add('στα')
    STOPWORDS_GREEK.add('στις')
    STOPWORDS_GREEK.add('στους')
    STOPWORDS_GREEK.add('μου')
    STOPWORDS_GREEK.add('σου')
    return STOPWORDS_GREEK

STOPWORDS_GREEK = import_additional_greek_stopwords(STOPWORDS_GREEK)

def remove_stopwords(text):
    """custom function to remove the stopwords"""
    return " ".join([word for word in str(text).split() if word not in STOPWORDS_GREEK])

df["text_wo_stop"] = df["text_wo_punct"].apply(lambda text: remove_stopwords(text))
df.head()

Unnamed: 0,text,text_lower,text_wo_punct,text_wo_stop
0,"""Μ.Βεργ. Έναν μήνα αφότου η Τουρκία αποχώρησε ...","""μ.βεργ. έναν μήνα αφότου η τουρκία αποχώρησε ...",μβεργ έναν μήνα αφότου η τουρκία αποχώρησε από...,μβεργ έναν μήνα αφότου τουρκία αποχώρησε σύμβα...
1,"""Μέχρι να αποκαλυφθεί η γυναικοκτονία της Καρο...","""μέχρι να αποκαλυφθεί η γυναικοκτονία της καρο...",μέχρι να αποκαλυφθεί η γυναικοκτονία της καρολ...,μέχρι αποκαλυφθεί γυναικοκτονία καρολάιν κράου...
2,"""Γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...","""γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...",γεμάτο υποθέσεις που συγκλόνισαν την κοινή γνώ...,γεμάτο υποθέσεις συγκλόνισαν κοινή γνώμη δικασ...
3,"""Στον ανακριτή οδηγούνται σήμερα οι δράστες τη...","""στον ανακριτή οδηγούνται σήμερα οι δράστες τη...",στον ανακριτή οδηγούνται σήμερα οι δράστες της...,ανακριτή οδηγούνται σήμερα δράστες άγριας δολο...
4,"""Συνέβη ξανά. Την περασμένη εβδομάδα ένα σπορ ...","""συνέβη ξανά. την περασμένη εβδομάδα ένα σπορ ...",συνέβη ξανά την περασμένη εβδομάδα ένα σπορ αυ...,συνέβη ξανά περασμένη εβδομάδα ένα σπορ αυτοκί...


## remove intonation:

In [36]:
def remove_intonation(text):

    rep = {"ά": "α", "έ": "ε", "ή": "η", "ί": "ι", "ό": "ο", "ύ": "υ", "ώ": "ω", "ϊ": "ι",
           "ἀ": "α", "ἐ": "ε", "ἤ": "η", "ἰ": "ι", "ἄ": "α", "ὐ": "υ", "ὡ": "ω", "ὦ": "ω",
           'ὖ': 'υ', 'ὅ': 'ο', 'ῆ': 'η', 'ῇ': 'η', 'ῦ': 'υ', 'ὁ': 'ο', 'ὑ': 'υ', 'ὲ': 'ε',
           'ὺ': 'υ', 'ἂ': 'α', 'ἵ': 'ι', 'ὴ': 'η', 'ὰ': 'α', 'ἅ': 'α', 'ὶ': 'ι', 'ἴ': 'ι',
           'ὸ': 'ο', 'ἥ': 'η', 'ἡ': 'η', 'ὕ': 'υ', 'ἔ': 'ε', 'ἳ': 'ι', 'ὗ': 'υ', 'ἃ': 'α',
           'ὃ': 'ο', 'ὥ': 'ω', 'ὔ': 'υ', 'ῖ': 'ι', 'ἣ': 'η', 'ἷ': 'ι', 'ἑ': 'ε', 'ᾧ': 'ω',
           'ἢ': 'η'}

    rep = dict((nltk.re.escape(k), v) for k, v in rep.items())
    pattern = nltk.re.compile("|".join(rep.keys()))
    text = pattern.sub(lambda m: rep[nltk.re.escape(m.group(0))], text)

    return text

df["text_wo_intonation"] = df["text_wo_stop"].apply(lambda text: remove_intonation(text))
df.head()

Unnamed: 0,text,text_lower,text_wo_punct,text_wo_stop,text_wo_intonation
0,"""Μ.Βεργ. Έναν μήνα αφότου η Τουρκία αποχώρησε ...","""μ.βεργ. έναν μήνα αφότου η τουρκία αποχώρησε ...",μβεργ έναν μήνα αφότου η τουρκία αποχώρησε από...,μβεργ έναν μήνα αφότου τουρκία αποχώρησε σύμβα...,μβεργ εναν μηνα αφοτου τουρκια αποχωρησε συμβα...
1,"""Μέχρι να αποκαλυφθεί η γυναικοκτονία της Καρο...","""μέχρι να αποκαλυφθεί η γυναικοκτονία της καρο...",μέχρι να αποκαλυφθεί η γυναικοκτονία της καρολ...,μέχρι αποκαλυφθεί γυναικοκτονία καρολάιν κράου...,μεχρι αποκαλυφθει γυναικοκτονια καρολαιν κραου...
2,"""Γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...","""γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...",γεμάτο υποθέσεις που συγκλόνισαν την κοινή γνώ...,γεμάτο υποθέσεις συγκλόνισαν κοινή γνώμη δικασ...,γεματο υποθεσεις συγκλονισαν κοινη γνωμη δικασ...
3,"""Στον ανακριτή οδηγούνται σήμερα οι δράστες τη...","""στον ανακριτή οδηγούνται σήμερα οι δράστες τη...",στον ανακριτή οδηγούνται σήμερα οι δράστες της...,ανακριτή οδηγούνται σήμερα δράστες άγριας δολο...,ανακριτη οδηγουνται σημερα δραστες αγριας δολο...
4,"""Συνέβη ξανά. Την περασμένη εβδομάδα ένα σπορ ...","""συνέβη ξανά. την περασμένη εβδομάδα ένα σπορ ...",συνέβη ξανά την περασμένη εβδομάδα ένα σπορ αυ...,συνέβη ξανά περασμένη εβδομάδα ένα σπορ αυτοκί...,συνεβη ξανα περασμενη εβδομαδα ενα σπορ αυτοκι...


## remove frequent words:

### get most frequent words:

In [37]:
cnt = Counter()
for text in df["text_wo_intonation"].values:
    for word in text.split():
        cnt[word] += 1

# show ten more frequent elements:        
cnt.most_common(10)

[('οτι', 969),
 ('ειχε', 564),
 ('μια', 515),
 ('ηταν', 427),
 ('συμφωνα', 374),
 ('ενω', 365),
 ('ενα', 356),
 ('αλλα', 356),
 ('δυο', 327),
 ('οπως', 325)]

### remove most frequent words:

In [38]:
FREQWORDS = set([w for (w, wc) in cnt.most_common(10)])
def remove_freqwords(text):
    """custom function to remove frequent words"""
    return " ".join([word for word in str(text).split() if word not in FREQWORDS])

df["text_wo_freq"] = df["text_wo_intonation"].apply(lambda text: remove_freqwords(text))
df.head()

Unnamed: 0,text,text_lower,text_wo_punct,text_wo_stop,text_wo_intonation,text_wo_freq
0,"""Μ.Βεργ. Έναν μήνα αφότου η Τουρκία αποχώρησε ...","""μ.βεργ. έναν μήνα αφότου η τουρκία αποχώρησε ...",μβεργ έναν μήνα αφότου η τουρκία αποχώρησε από...,μβεργ έναν μήνα αφότου τουρκία αποχώρησε σύμβα...,μβεργ εναν μηνα αφοτου τουρκια αποχωρησε συμβα...,μβεργ εναν μηνα αφοτου τουρκια αποχωρησε συμβα...
1,"""Μέχρι να αποκαλυφθεί η γυναικοκτονία της Καρο...","""μέχρι να αποκαλυφθεί η γυναικοκτονία της καρο...",μέχρι να αποκαλυφθεί η γυναικοκτονία της καρολ...,μέχρι αποκαλυφθεί γυναικοκτονία καρολάιν κράου...,μεχρι αποκαλυφθει γυναικοκτονια καρολαιν κραου...,μεχρι αποκαλυφθει γυναικοκτονια καρολαιν κραου...
2,"""Γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...","""γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...",γεμάτο υποθέσεις που συγκλόνισαν την κοινή γνώ...,γεμάτο υποθέσεις συγκλόνισαν κοινή γνώμη δικασ...,γεματο υποθεσεις συγκλονισαν κοινη γνωμη δικασ...,γεματο υποθεσεις συγκλονισαν κοινη γνωμη δικασ...
3,"""Στον ανακριτή οδηγούνται σήμερα οι δράστες τη...","""στον ανακριτή οδηγούνται σήμερα οι δράστες τη...",στον ανακριτή οδηγούνται σήμερα οι δράστες της...,ανακριτή οδηγούνται σήμερα δράστες άγριας δολο...,ανακριτη οδηγουνται σημερα δραστες αγριας δολο...,ανακριτη οδηγουνται σημερα δραστες αγριας δολο...
4,"""Συνέβη ξανά. Την περασμένη εβδομάδα ένα σπορ ...","""συνέβη ξανά. την περασμένη εβδομάδα ένα σπορ ...",συνέβη ξανά την περασμένη εβδομάδα ένα σπορ αυ...,συνέβη ξανά περασμένη εβδομάδα ένα σπορ αυτοκί...,συνεβη ξανα περασμενη εβδομαδα ενα σπορ αυτοκι...,συνεβη ξανα περασμενη εβδομαδα σπορ αυτοκινητο...


## remove most rare words:

In [39]:
for text in df["text_wo_intonation"].values:
    for word in text.split():
        cnt[word] += 1

# show ten least frequent elements:        
cnt.most_common()[:-10-1:-1]

[('νικι', 2),
 ('αναπαυσου', 2),
 ('ραγιζει', 2),
 ('αντζελα', 2),
 ('αξιζες', 2),
 ('γνωρισεις', 2),
 ('γλυκος', 2),
 ('αξιοπιστος', 2),
 ('σκληρα', 2),
 ('σιμι', 2)]

In [40]:
# Drop the two columns which are no more needed 
df.drop(["text_wo_punct", "text_wo_stop", "text_lower"], axis=1, inplace=True)

n_rare_words = 10
RAREWORDS = set([w for (w, wc) in cnt.most_common()[:-n_rare_words-1:-1]])
def remove_rarewords(text):
    """custom function to remove rare words"""
    return " ".join([word for word in str(text).split() if word not in RAREWORDS])

df["text_wo_rare"] = df["text_wo_freq"].apply(lambda text: remove_rarewords(text))
df.head()

Unnamed: 0,text,text_wo_intonation,text_wo_freq,text_wo_rare
0,"""Μ.Βεργ. Έναν μήνα αφότου η Τουρκία αποχώρησε ...",μβεργ εναν μηνα αφοτου τουρκια αποχωρησε συμβα...,μβεργ εναν μηνα αφοτου τουρκια αποχωρησε συμβα...,μβεργ εναν μηνα αφοτου τουρκια αποχωρησε συμβα...
1,"""Μέχρι να αποκαλυφθεί η γυναικοκτονία της Καρο...",μεχρι αποκαλυφθει γυναικοκτονια καρολαιν κραου...,μεχρι αποκαλυφθει γυναικοκτονια καρολαιν κραου...,μεχρι αποκαλυφθει γυναικοκτονια καρολαιν κραου...
2,"""Γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...",γεματο υποθεσεις συγκλονισαν κοινη γνωμη δικασ...,γεματο υποθεσεις συγκλονισαν κοινη γνωμη δικασ...,γεματο υποθεσεις συγκλονισαν κοινη γνωμη δικασ...
3,"""Στον ανακριτή οδηγούνται σήμερα οι δράστες τη...",ανακριτη οδηγουνται σημερα δραστες αγριας δολο...,ανακριτη οδηγουνται σημερα δραστες αγριας δολο...,ανακριτη οδηγουνται σημερα δραστες αγριας δολο...
4,"""Συνέβη ξανά. Την περασμένη εβδομάδα ένα σπορ ...",συνεβη ξανα περασμενη εβδομαδα ενα σπορ αυτοκι...,συνεβη ξανα περασμενη εβδομαδα σπορ αυτοκινητο...,συνεβη ξανα περασμενη εβδομαδα σπορ αυτοκινητο...


## Lemmatization:

In [44]:
# Drop the columns which are no more needed 
df.drop(["text_wo_intonation", "text_wo_freq"], axis=1, inplace=True)

nlp = spacy.load("el_core_news_sm")
# nlp.remove_pipe("tagger")

def lemmatize_words(text):
    """custom function to lemmatize text"""
    doc = nlp(text)
    # pos_tagged_text = text.pos
    return " ".join([token.lemma_ for token in doc])


df["text_lemmatized"] = df["text_wo_rare"].apply(lambda text: lemmatize_words(text))
df.head()

Unnamed: 0,text,text_wo_rare,text_lemmatized
0,"""Μ.Βεργ. Έναν μήνα αφότου η Τουρκία αποχώρησε ...",μβεργ εναν μηνα αφοτου τουρκια αποχωρησε συμβα...,μβεργ εναν μηνα αφοτος τουρκιας αποχωρώ συμβασ...
1,"""Μέχρι να αποκαλυφθεί η γυναικοκτονία της Καρο...",μεχρι αποκαλυφθει γυναικοκτονια καρολαιν κραου...,μεχρι αποκαλυφθω γυναικοκτονιας καρολαιν κραου...
2,"""Γεμάτο υποθέσεις που συγκλόνισαν την κοινή γν...",γεματο υποθεσεις συγκλονισαν κοινη γνωμη δικασ...,γεματος υποθεση συγκλονομαι κοινη γνωμη δικαστ...
3,"""Στον ανακριτή οδηγούνται σήμερα οι δράστες τη...",ανακριτη οδηγουνται σημερα δραστες αγριας δολο...,ανακριτη οδηγουνται σημερα δραστες αγρια δολοφ...
4,"""Συνέβη ξανά. Την περασμένη εβδομάδα ένα σπορ ...",συνεβη ξανα περασμενη εβδομαδα σπορ αυτοκινητο...,συνεβη ξανας περασμενη εβδομαδας σπορ αυτοκινη...


## Put labels to the pre-processed df:

In [46]:
# Drop the columns which are no more needed 
df.drop(["text", "text_wo_rare"], axis=1, inplace=True)

df['label'] = df_full['class']
df.head()

Unnamed: 0,text_lemmatized,label
0,μβεργ εναν μηνα αφοτος τουρκιας αποχωρώ συμβασ...,Ανθρωποκτονία
1,μεχρι αποκαλυφθω γυναικοκτονιας καρολαιν κραου...,Γυναικοκτονία
2,γεματος υποθεση συγκλονομαι κοινη γνωμη δικαστ...,Γυναικοκτονία
3,ανακριτη οδηγουνται σημερα δραστες αγρια δολοφ...,Ανθρωποκτονία
4,συνεβη ξανας περασμενη εβδομαδας σπορ αυτοκινη...,Ανθρωποκτονία


ML :-

In [42]:
# class_distribution = (df['class'].value_counts() * 100) / 346
# plt.bar(class_distribution.index, class_distribution)
# plt.show()

# print(class_distribution)

# See missing values:
# print(df.isna().sum())


# Split data set to train and test
# training_data, testing_data = train_test_split(df, test_size=0.2, random_state=25)
# print(f"No. of training examples: {training_data.shape[0]}")
# print(f"No. of testing examples: {testing_data.shape[0]}")

# stop_words = stopwords.words('greek')


# TODO: split train data set test validation set: Idecide whether this will happen on the train data set)

# X=training_data['text']
# y=training_data['class']

# X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, random_state=1)
# kf = KFold(n_splits=2)
# kf.get_n_splits(X_train)
# for train_index, test_index in kf.split(X):
#     print("TRAIN:", train_index, "TEST:", test_index)
#     X_train, X_test = X[train_index], X[test_index]
#     y_train, y_test = y[train_index], y[test_index]
