In [470]:
import pandas as pd

In [471]:
# data model
from enum import Enum

class Publishers(Enum):
    KATHIMERINI = 'ΚΑΘΗΜΕΡΙΝΗ'
    EFSYN = 'ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ'
    NAFTEMPORIKI = 'ΝΑΥΤΕΜΠΟΡΙΚΗ'
    THE_GUARDIAN = 'THE GUARDIAN'

class DataModel(Enum):
    ARTICLE_PUBLISHER = 'Publisher'
    ARTICLE_TAG = 'Tag'
    ARTICLE_URL = 'Article url'
    ARTICLE_HEADING = 'Heading'
    ARTICLE_TEXT = 'Text'
    ARTICLE_ABSTRACT = 'Summary'
    ARTICLE_DATE_TIME = 'Date Formatted'
    ARTICLE_IMAGE_URL = 'Image url'
    ARTICLE_IMAGE_CAPTION = 'image caption'
    ARTICLE_HAS_COMMENTS = 'Comments exist'
    ARTICLE_COMMENT_COUNT = 'Comments count'
    ARTICLE_COMMENT_API_KEY = 'Comments api key'
    ARTICLE_COMMENT_URL = 'Comments url'
    ARTICLE_LANG = 'Lang'
    ARTICLE_DATE_FORMAT_READY = 'Date Formatted'

class ArticleModel:
    publisher =  DataModel.ARTICLE_PUBLISHER.value
    date = DataModel.ARTICLE_DATE_FORMAT_READY.value
    comments = DataModel.ARTICLE_HAS_COMMENTS.value
    commentApiKey = DataModel.ARTICLE_COMMENT_API_KEY.value
    commentsCount = DataModel.ARTICLE_COMMENT_COUNT.value
    commentsUrl = DataModel.ARTICLE_COMMENT_URL.value
    lang = DataModel.ARTICLE_LANG.value
    url = DataModel.ARTICLE_URL.value
    heading = DataModel.ARTICLE_HEADING.value
    summary = DataModel.ARTICLE_ABSTRACT.value
    tag = DataModel.ARTICLE_TAG.value
    text = DataModel.ARTICLE_TEXT.value
    imageUrl = DataModel.ARTICLE_IMAGE_URL.value


print(ArticleModel.publisher)

Publisher


## kathimerini

In [472]:
kathimerini_df = pd.read_csv('../data/raw/kathimerini/kathimerini-polemos-stin-oukrania.csv', index_col=[0])

In [473]:
kathimerini_df.head()

Unnamed: 0,url,heading,summary,tag,full_text,dateUTC,date
0,https://www.kathimerini.gr/world/561942142/mpo...,Μπορέλ: O Πούτιν πρέπει να επιλέξει «ανάμεσα σ...,"Οι κυρώσεις, που έχουν επιβληθεί στην Ρωσία σε...",ΚΟΣΜΟΣ,"Οι κυρώσεις, που έχουν επιβληθεί στην Ρωσία σε...",2022-07-05T18:12:04+03:00,05.07.2022 18:12
1,https://www.kathimerini.gr/world/561942133/mar...,Μαριούπολη: Οι φιλορώσοι αυτονομιστές κατέσχεσ...,Πρόκειται για τις πρώτες τέτοιες ενέργειες σε ...,ΠΟΛΕΜΟΣ ΣΤΗΝ ΟΥΚΡΑΝΙΑ,Οι φιλορώσοι αυτονομιστές κατέλαβαν δύο πλοία ...,2022-07-05T17:52:12+03:00,05.07.2022 17:52
2,https://www.kathimerini.gr/economy/internation...,Πρόβλεψη για αύξηση του εμπορίου μεταξύ Ρωσίας...,Ο εμπορικός τζίρος μεταξύ Τουρκίας και Ρωσίας ...,ΔΙΕΘΝΗΣ ΟΙΚΟΝΟΜΙΑ,Ο εμπορικός τζίρος μεταξύ Τουρκίας και Ρωσίας ...,2022-07-05T12:09:12+03:00,05.07.2022 12:09
3,https://www.kathimerini.gr/politics/561941488/...,Σακελλαροπούλου σε Ζελένσκι: Είμαστε και θα εί...,«Το απαραβίαστο των συνόρων είναι η βάση της σ...,ΠΟΛΙΤΙΚΗ,«Το απαραβίαστο των συνόρων είναι η βάση της σ...,2022-07-05T10:32:34+03:00,05.07.2022 10:32
4,https://www.kathimerini.gr/world/561941377/oyk...,Ουκρανία: Το ρωσοκρατούμενο πυρηνικό εργοστάσι...,"Ο μεγαλύτερος πυρηνικός σταθμός της Ευρώπης, μ...",ΚΟΣΜΟΣ,"Ο μεγαλύτερος πυρηνικός σταθμός της Ευρώπης, μ...",2022-07-05T08:53:05+03:00,05.07.2022 08:53


In [474]:
kathimerini_df.memory_usage(deep=True).sum()

30792373

In [475]:
# date series to string type
kathimerini_df.astype({'date': 'string'}).dtypes

url          object
heading      object
summary      object
tag          object
full_text    object
dateUTC      object
date         string
dtype: object

In [476]:
import re
def extractDateFromDatetime(string: str) -> str:
    try:
        match = re.search(r'\d{2}(?:.|-|/)\d{2}(?:.|-|/)\d{4}', string)
        date = match.group() \
            .replace(".", "-") \
            .replace("/", "-")
    except:
        date = None
    finally:
        return date

# Create new column with universal date format for further analysis
kathimerini_df[ArticleModel.date] = kathimerini_df['date'].apply(extractDateFromDatetime)

In [477]:
kathimerini_df.insert(0, ArticleModel.publisher, Publishers.KATHIMERINI.value)

In [478]:
# create comments col as type Boolean
kathimerini_df.insert(0, ArticleModel.comments, False)

In [479]:
# create comment count property with default value of 0
kathimerini_df.insert(0, ArticleModel.commentsCount, 0)

In [480]:
# create comment key property
kathimerini_df.insert(0, ArticleModel.commentApiKey, None)

In [481]:
# create lang property
kathimerini_df.insert(0, ArticleModel.lang, 'el')

In [482]:
kathimerini_df.astype({ArticleModel.comments: 'bool'}).dtypes

Lang                object
Comments api key    object
Comments count       int64
Comments exist        bool
Publisher           object
url                 object
heading             object
summary             object
tag                 object
full_text           object
dateUTC             object
date                object
Date Formatted      object
dtype: object

In [483]:
kathimerini_df.keys()

Index(['Lang', 'Comments api key', 'Comments count', 'Comments exist',
       'Publisher', 'url', 'heading', 'summary', 'tag', 'full_text', 'dateUTC',
       'date', 'Date Formatted'],
      dtype='object')

In [484]:
# reshape DF to match the ArticleModel properties
kathimerini_df.rename(
    columns={"url": ArticleModel.url,
             "heading": ArticleModel.heading,
             "summary": ArticleModel.summary,
             "tag": ArticleModel.tag,
             "full_text": ArticleModel.text
             },
    inplace=True
            )

In [485]:
kathimerini_df.head()

Unnamed: 0,Lang,Comments api key,Comments count,Comments exist,Publisher,Article url,Heading,Summary,Tag,Text,dateUTC,date,Date Formatted
0,el,,0,False,ΚΑΘΗΜΕΡΙΝΗ,https://www.kathimerini.gr/world/561942142/mpo...,Μπορέλ: O Πούτιν πρέπει να επιλέξει «ανάμεσα σ...,"Οι κυρώσεις, που έχουν επιβληθεί στην Ρωσία σε...",ΚΟΣΜΟΣ,"Οι κυρώσεις, που έχουν επιβληθεί στην Ρωσία σε...",2022-07-05T18:12:04+03:00,05.07.2022 18:12,05-07-2022
1,el,,0,False,ΚΑΘΗΜΕΡΙΝΗ,https://www.kathimerini.gr/world/561942133/mar...,Μαριούπολη: Οι φιλορώσοι αυτονομιστές κατέσχεσ...,Πρόκειται για τις πρώτες τέτοιες ενέργειες σε ...,ΠΟΛΕΜΟΣ ΣΤΗΝ ΟΥΚΡΑΝΙΑ,Οι φιλορώσοι αυτονομιστές κατέλαβαν δύο πλοία ...,2022-07-05T17:52:12+03:00,05.07.2022 17:52,05-07-2022
2,el,,0,False,ΚΑΘΗΜΕΡΙΝΗ,https://www.kathimerini.gr/economy/internation...,Πρόβλεψη για αύξηση του εμπορίου μεταξύ Ρωσίας...,Ο εμπορικός τζίρος μεταξύ Τουρκίας και Ρωσίας ...,ΔΙΕΘΝΗΣ ΟΙΚΟΝΟΜΙΑ,Ο εμπορικός τζίρος μεταξύ Τουρκίας και Ρωσίας ...,2022-07-05T12:09:12+03:00,05.07.2022 12:09,05-07-2022
3,el,,0,False,ΚΑΘΗΜΕΡΙΝΗ,https://www.kathimerini.gr/politics/561941488/...,Σακελλαροπούλου σε Ζελένσκι: Είμαστε και θα εί...,«Το απαραβίαστο των συνόρων είναι η βάση της σ...,ΠΟΛΙΤΙΚΗ,«Το απαραβίαστο των συνόρων είναι η βάση της σ...,2022-07-05T10:32:34+03:00,05.07.2022 10:32,05-07-2022
4,el,,0,False,ΚΑΘΗΜΕΡΙΝΗ,https://www.kathimerini.gr/world/561941377/oyk...,Ουκρανία: Το ρωσοκρατούμενο πυρηνικό εργοστάσι...,"Ο μεγαλύτερος πυρηνικός σταθμός της Ευρώπης, μ...",ΚΟΣΜΟΣ,"Ο μεγαλύτερος πυρηνικός σταθμός της Ευρώπης, μ...",2022-07-05T08:53:05+03:00,05.07.2022 08:53,05-07-2022


In [487]:
#save as csv to intermediate stage
kathimerini_df.to_csv('../data/intermediate/kathimerini-data-frame.csv')

===== end of kathimerini =====

## EFSYN

In [488]:
efsyn_df = pd.read_csv('../data/raw/efsyn/efsyn-oukrania.csv', index_col=[0])
efsyn_df.head(10)

Unnamed: 0,tag,date,time,heading,url,text,image_url
0,ΕΞΩΤΕΡΙΚΗ ΠΟΛΙΤΙΚΗ,06.07.2022,12:25,Πυρά Ζελένσκι κατά Ελλήνων εφοπλιστών για τη μ...,https://www.efsyn.gr/politiki/exoteriki-politi...,Επίθεση στην Αθήνα μέσω του συνεδρίου του Econ...,https://www.efsyn.gr/sites/default/files/style...
1,ΕΥΡΩΠΗ,05.07.2022,06:00,"«Πεθαίνουμε σαν τις μύγες, γιατί είμαστε εδώ;»",https://www.efsyn.gr/kosmos/eyropi/350944_peth...,Η κατάρρευση του ουκρανικού μετώπου στο Ντονμπ...,https://www.efsyn.gr/sites/default/files/style...
2,ΑΠΟΨΕΙΣ,04.07.2022,16:00,Ποιους βλάπτει η αντίσταση του ουκρανικού λαού;,https://www.efsyn.gr/stiles/apopseis/350824_po...,"Μα, τι θέλει και αντιστέκεται επιτέλους αυτός ...",https://www.efsyn.gr/sites/default/files/style...
3,ΕΥΡΩΠΗ,04.07.2022,06:00,Καθυστερημένη εκκένωση,https://www.efsyn.gr/kosmos/eyropi/350811_kath...,Πολύ νωρίτερα του αναμενόμενου από τους «ανεξά...,https://www.efsyn.gr/sites/default/files/style...
4,ΝΗΣΙΔΕΣ,03.07.2022,19:02,Ο πόλεμος στην Ουκρανία και η κομμουνιστική Αρ...,https://www.efsyn.gr/nisides/350623_o-polemos-...,Ο πόλεμος στην Ουκρανία έθεσε σε σοβαρή δοκιμα...,https://www.efsyn.gr/sites/default/files/style...
5,ΕΥΡΩΠΗ,03.07.2022,15:18,"«Ελευθερώθηκε» πλήρως το Λουγκάνσκ, λέει η Μόσ...",https://www.efsyn.gr/kosmos/eyropi/350735_eley...,Ο Ρώσος υπουργός Άμυνας Σεργκέι Σοϊγκού ενημέρ...,https://www.efsyn.gr/sites/default/files/style...
6,ΝΗΣΙΔΕΣ,03.07.2022,11:20,Μια Ευρώπη φτωχή και εξαρτημένη,https://www.efsyn.gr/nisides/350594_mia-eyropi...,Ονειρο και όραμα αυτών που υλοποίησαν την ιδέα...,https://www.efsyn.gr/sites/default/files/style...
7,ΕΥΡΩΠΗ,03.07.2022,10:07,Εκρήξεις με θύματα στο Μπέλγκοροντ - Ρωσική υπ...,https://www.efsyn.gr/kosmos/eyropi/350722_ekri...,"Εκρήξεις στο Μπέλγκοροντ, κοντά στα σύνορα με ...",https://www.efsyn.gr/sites/default/files/style...
8,ΕΥΡΩΠΗ,02.07.2022,21:44,Πέφτει και το τελευταίο ουκρανικό προπύργιο το...,https://www.efsyn.gr/kosmos/eyropi/350708_peft...,"Την απελευθέρωση του Λισιχάνσκ, στην ανατολική...",https://www.efsyn.gr/sites/default/files/style...
9,ΕΥΡΩΠΗ,02.07.2022,19:21,Τι συμβαίνει με τις στρατολογήσεις στον ουκραν...,https://www.efsyn.gr/kosmos/eyropi/350687_ti-s...,Ισραηλινός υπήκοος πιάστηκε αιχμάλωτος από φιλ...,https://www.efsyn.gr/sites/default/files/style...


In [489]:
# date series to string type
efsyn_df.astype({'date': 'string'}).dtypes

tag          object
date         string
time         object
heading      object
url          object
text         object
image_url    object
dtype: object

In [490]:
import re
def extractDateFromDatetime(string: str) -> str:
    try:
        match = re.search(r'\d{2}(?:.|-|/)\d{2}(?:.|-|/)\d{4}', string)
        date = match.group() \
            .replace(".", "-") \
            .replace("/", "-")
    except:
        date = None
    finally:
        return date

# Create new col with universal date format for further analysis
efsyn_df[ArticleModel.date] = kathimerini_df['date'].apply(extractDateFromDatetime)

In [491]:
efsyn_df.insert(0, ArticleModel.publisher, Publishers.EFSYN.value)

In [492]:
# create comments col as type Boolean
efsyn_df.insert(0, ArticleModel.comments, False)

In [493]:
# create comment count property with default value of 0
efsyn_df.insert(0, ArticleModel.commentsCount, 0)

In [494]:
# create comment key property
efsyn_df.insert(0, ArticleModel.commentApiKey, None)

In [495]:
# create lang property
efsyn_df.insert(0, ArticleModel.lang, 'el')

In [496]:
efsyn_df.memory_usage(deep=True).sum()

23433160

In [497]:
efsyn_df.keys()

Index(['Lang', 'Comments api key', 'Comments count', 'Comments exist',
       'Publisher', 'tag', 'date', 'time', 'heading', 'url', 'text',
       'image_url', 'Date Formatted'],
      dtype='object')

In [498]:
# Casting df with ArticleModel class
efsyn_df.rename(
    columns={"url": ArticleModel.url,
             "heading": ArticleModel.heading,
             "summary": ArticleModel.summary,
             "tag": ArticleModel.tag,
             "text": ArticleModel.text,
             "image_url": ArticleModel.imageUrl
             },
    inplace=True
            )

In [499]:
efsyn_df.head()

Unnamed: 0,Lang,Comments api key,Comments count,Comments exist,Publisher,Tag,date,time,Heading,Article url,Text,Image url,Date Formatted
0,el,,0,False,ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ,ΕΞΩΤΕΡΙΚΗ ΠΟΛΙΤΙΚΗ,06.07.2022,12:25,Πυρά Ζελένσκι κατά Ελλήνων εφοπλιστών για τη μ...,https://www.efsyn.gr/politiki/exoteriki-politi...,Επίθεση στην Αθήνα μέσω του συνεδρίου του Econ...,https://www.efsyn.gr/sites/default/files/style...,05-07-2022
1,el,,0,False,ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ,ΕΥΡΩΠΗ,05.07.2022,06:00,"«Πεθαίνουμε σαν τις μύγες, γιατί είμαστε εδώ;»",https://www.efsyn.gr/kosmos/eyropi/350944_peth...,Η κατάρρευση του ουκρανικού μετώπου στο Ντονμπ...,https://www.efsyn.gr/sites/default/files/style...,05-07-2022
2,el,,0,False,ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ,ΑΠΟΨΕΙΣ,04.07.2022,16:00,Ποιους βλάπτει η αντίσταση του ουκρανικού λαού;,https://www.efsyn.gr/stiles/apopseis/350824_po...,"Μα, τι θέλει και αντιστέκεται επιτέλους αυτός ...",https://www.efsyn.gr/sites/default/files/style...,05-07-2022
3,el,,0,False,ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ,ΕΥΡΩΠΗ,04.07.2022,06:00,Καθυστερημένη εκκένωση,https://www.efsyn.gr/kosmos/eyropi/350811_kath...,Πολύ νωρίτερα του αναμενόμενου από τους «ανεξά...,https://www.efsyn.gr/sites/default/files/style...,05-07-2022
4,el,,0,False,ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ,ΝΗΣΙΔΕΣ,03.07.2022,19:02,Ο πόλεμος στην Ουκρανία και η κομμουνιστική Αρ...,https://www.efsyn.gr/nisides/350623_o-polemos-...,Ο πόλεμος στην Ουκρανία έθεσε σε σοβαρή δοκιμα...,https://www.efsyn.gr/sites/default/files/style...,05-07-2022


In [502]:
#save as csv to intermediate stage
efsyn_df.to_csv('../data/intermediate/efsyn-data-frame.csv')

## naftemporiki

In [503]:
naftemporiki_df = pd.read_csv('../data/raw/naftemporiki/naftemporiki-polemos-stin-oukrania.csv',
                              index_col=[0])
naftemporiki_df.head(10)

Unnamed: 0,url,heading,date,tag,text,image,0
0,https://www.naftemporiki.gr//story/1880064/pol...,Πόλεμος στην Ουκρανία: Τι αποκάλυψε ο «πιο επι...,06/07/2022 14:30,ΚΟΣΜΟΣ,Πριν από μία εβδομάδα η επικεφαλής των Υπηρεσι...,https://www.naftemporiki.gr//fu/p/1876264/638/...,
1,https://www.naftemporiki.gr//story/1880057/sit...,Σιτηρά: Η Μόσχα αρνείται το περιστατικό με το ...,06/07/2022 14:16,ΚΟΣΜΟΣ,Το ρωσικό υπουργείο Εξωτερικών ανακοίνωσε σήμε...,https://www.naftemporiki.gr//fu/p/1880058/638/...,
2,https://www.naftemporiki.gr//story/1880042/men...,Μεντβέντεφ: Παράλογη η ιδέα να τιμωρείται η χώ...,06/07/2022 13:35,ΚΟΣΜΟΣ,Ο πρώην πρόεδρος της Ρωσίας Ντιμίτρι Μεντβέντε...,https://www.naftemporiki.gr//fu/p/1880043/638/...,
3,https://www.naftemporiki.gr//story/1880040/pur...,Πυρά Λαβρόφ κατά Μακρόν για τη δημοσιοποίηση τ...,06/07/2022 13:34,ΚΟΣΜΟΣ,Ο Ρώσος υπουργός Εξωτερικών Σεργκέι Λαβρόφ δήλ...,https://www.naftemporiki.gr//fu/p/1838456/638/...,
4,https://www.naftemporiki.gr//finance/story/188...,«Η Ρωσία αντιμετωπίζει ένα οικονομικό σοκ» αλλ...,06/07/2022 13:17,ΟΙΚΟΝΟΜΙΑ & ΑΓΟΡΕΣ,Η οικονομία της Ρωσίας αντιμετωπίζει καλύτερα ...,https://www.naftemporiki.gr//fu/p/1877139/638/...,
5,https://www.naftemporiki.gr//story/1879923/erx...,Έρχεται κατάπαυση του πυρός αν η Ρωσία καταλάβ...,06/07/2022 09:12,ΚΟΣΜΟΣ,"Με την πτώση της πόλης Λισικάνσκ, η Μόσχα ελέγ...",https://www.naftemporiki.gr//fu/p/1879925/638/...,
6,https://www.naftemporiki.gr//story/1879906/epi...,Επίπληξη Ζελένσκι: Καλεί την ηγεσία του στρατο...,06/07/2022 07:36,ΚΟΣΜΟΣ,Μετά τον σάλο που προκάλεσε στην Ουκρανία αν...,https://www.naftemporiki.gr//fu/p/1879907/638/...,
7,https://www.naftemporiki.gr//finance/story/187...,Το παγκόσμιο πόκερ με τα σιτηρά,06/07/2022 06:59,ΟΙΚΟΝΟΜΙΑ & ΑΓΟΡΕΣ,Του Μιχάλη Ψύλου [email protected] Ακούγεται π...,https://www.naftemporiki.gr//fu/p/1879898/638/...,
8,https://www.naftemporiki.gr//finance/story/187...,Όλο το σχέδιο υποκατάστασης του ρωσικού φυσικο...,05/07/2022 22:04,ΟΙΚΟΝΟΜΙΑ & ΑΓΟΡΕΣ,Από την έντυπη έκδοση Της Λαλέλας Χρυσανθοπούλ...,https://www.naftemporiki.gr//fu/p/1839763/638/...,
9,https://www.naftemporiki.gr//story/1879847/isp...,Ισπανία: Τριγμοί στο κυβερνητικό στρατόπεδο με...,05/07/2022 21:31,ΚΟΣΜΟΣ,Η αποδέσμευση σχεδόν ενός δισεκατομμυρίου ευρώ...,https://www.naftemporiki.gr//fu/p/1877835/638/...,


In [504]:
naftemporiki_df.memory_usage(deep=True).sum()

22826026

In [505]:
# date series to string type
naftemporiki_df.astype({'date': 'string'}).dtypes

url         object
heading     object
date        string
tag         object
text        object
image       object
0          float64
dtype: object

In [506]:
import re
def extractDateFromDatetime(string: str) -> str:
    try:
        match = re.search(r'\d{2}(?:.|-|/)\d{2}(?:.|-|/)\d{4}', string)
        date = match.group() \
            .replace(".", "-") \
            .replace("/", "-")
    except:
        date = None
    finally:
        return date

# Create new col with universal date format for further analysis
naftemporiki_df[ArticleModel.date] = kathimerini_df['date'].apply(extractDateFromDatetime)

In [507]:
naftemporiki_df.insert(0, ArticleModel.publisher, Publishers.NAFTEMPORIKI.value)

In [508]:
# create comments col as type Boolean
naftemporiki_df.insert(0, ArticleModel.comments, False)

In [509]:
# create comment count property with default value of 0
naftemporiki_df.insert(0, ArticleModel.commentsCount, 0)

In [510]:
# create comment key property
naftemporiki_df.insert(0, ArticleModel.commentApiKey, None)

In [511]:
# create lang property
naftemporiki_df.insert(0, ArticleModel.lang, 'el')

In [512]:
naftemporiki_df.drop(columns=['0'], axis=1, inplace=True)

In [513]:
naftemporiki_df.keys()

Index(['Lang', 'Comments api key', 'Comments count', 'Comments exist',
       'Publisher', 'url', 'heading', 'date', 'tag', 'text', 'image',
       'Date Formatted'],
      dtype='object')

In [514]:
# Casting df with ArticleModel class
naftemporiki_df.rename(
    columns={"url": ArticleModel.url,
             "heading": ArticleModel.heading,
             "summary": ArticleModel.summary,
             "tag": ArticleModel.tag,
             "text": ArticleModel.text,
             "image": ArticleModel.imageUrl
             },
    inplace=True
            )

In [515]:
naftemporiki_df.head()

Unnamed: 0,Lang,Comments api key,Comments count,Comments exist,Publisher,Article url,Heading,date,Tag,Text,Image url,Date Formatted
0,el,,0,False,ΝΑΥΤΕΜΠΟΡΙΚΗ,https://www.naftemporiki.gr//story/1880064/pol...,Πόλεμος στην Ουκρανία: Τι αποκάλυψε ο «πιο επι...,06/07/2022 14:30,ΚΟΣΜΟΣ,Πριν από μία εβδομάδα η επικεφαλής των Υπηρεσι...,https://www.naftemporiki.gr//fu/p/1876264/638/...,05-07-2022
1,el,,0,False,ΝΑΥΤΕΜΠΟΡΙΚΗ,https://www.naftemporiki.gr//story/1880057/sit...,Σιτηρά: Η Μόσχα αρνείται το περιστατικό με το ...,06/07/2022 14:16,ΚΟΣΜΟΣ,Το ρωσικό υπουργείο Εξωτερικών ανακοίνωσε σήμε...,https://www.naftemporiki.gr//fu/p/1880058/638/...,05-07-2022
2,el,,0,False,ΝΑΥΤΕΜΠΟΡΙΚΗ,https://www.naftemporiki.gr//story/1880042/men...,Μεντβέντεφ: Παράλογη η ιδέα να τιμωρείται η χώ...,06/07/2022 13:35,ΚΟΣΜΟΣ,Ο πρώην πρόεδρος της Ρωσίας Ντιμίτρι Μεντβέντε...,https://www.naftemporiki.gr//fu/p/1880043/638/...,05-07-2022
3,el,,0,False,ΝΑΥΤΕΜΠΟΡΙΚΗ,https://www.naftemporiki.gr//story/1880040/pur...,Πυρά Λαβρόφ κατά Μακρόν για τη δημοσιοποίηση τ...,06/07/2022 13:34,ΚΟΣΜΟΣ,Ο Ρώσος υπουργός Εξωτερικών Σεργκέι Λαβρόφ δήλ...,https://www.naftemporiki.gr//fu/p/1838456/638/...,05-07-2022
4,el,,0,False,ΝΑΥΤΕΜΠΟΡΙΚΗ,https://www.naftemporiki.gr//finance/story/188...,«Η Ρωσία αντιμετωπίζει ένα οικονομικό σοκ» αλλ...,06/07/2022 13:17,ΟΙΚΟΝΟΜΙΑ & ΑΓΟΡΕΣ,Η οικονομία της Ρωσίας αντιμετωπίζει καλύτερα ...,https://www.naftemporiki.gr//fu/p/1877139/638/...,05-07-2022


In [516]:
#save as csv to intermediate stage
efsyn_df.to_csv('../data/intermediate/naftemporiki-data-frame.csv')

## The Guardian

In [558]:
guardian_df = pd.read_csv('../data/raw/guardian/guard-articles-ukraine.csv',
                           index_col=[0])
guardian_df.head(10)

Unnamed: 0,Image Url,Image Caption,Image Alt,Date,Date Formatted,Heading,Article Url,Text,Comments key,Comments Count,Comments Url,Thumb
0,https://i.guim.co.uk/img/media/cf521f0cc79f03f...,Biden at the White House on Tuesday. The pres...,Biden at the White House on Tuesday. The presi...,"Wednesday, 23 February 2022",2022-02-23,Biden imposes sanctions on company behind Nord...,https://www.theguardian.com/us-news/live/2022/...,19.07Biden announces sanctions on Nord Stream ...,,,,https://i.guim.co.uk/img/media/cf521f0cc79f03f...
1,https://i.guim.co.uk/img/media/ed78768125b0cc7...,Boris Johnson’s lies are nothing to those bei...,Boris Johnson at Prime Minister's Questions,"Wednesday, 23 February 2022",2022-02-23,Putin’s looming threat gives Johnson some brea...,https://www.theguardian.com/politics/2022/feb/...,Boris Johnson is in his happy place. The Russi...,/p/kz3fp,528.0,https://www.theguardian.com/politics/2022/feb/...,
2,https://i.guim.co.uk/img/media/050c522ae5cc5e3...,"Russia’s defence minister, Sergei Shoigu, app...","Russia’s defence minister, Sergei Shoigu, appe...","Wednesday, 23 February 2022",2022-02-23,From ‘Putin’s chef’ to the RT editor: names ex...,https://www.theguardian.com/world/2022/feb/23/...,The EU has approved asset freezes and travel b...,,,,https://i.guim.co.uk/img/media/050c522ae5cc5e3...
3,https://i.guim.co.uk/img/media/4e76cd7e65bb82f...,Illustration: Martin Rowson/The Guardian,Martin Rowson 24.2.22,"Wednesday, 23 February 2022",2022-02-23,Martin Rowson on Russian donors to the Tory pa...,https://www.theguardian.com/commentisfree/pict...,,,,https://www.theguardian.com/commentisfree/pict...,https://i.guim.co.uk/img/media/4e76cd7e65bb82f...
4,https://i.guim.co.uk/img/media/2fcbff1b38bdde0...,"Russia's defence minister, Sergei Shoigu, is ...","Russia's defence minister, Sergei Shoigu","Wednesday, 23 February 2022",2022-02-23,EU approves wide-ranging sanctions against Rus...,https://www.theguardian.com/world/2022/feb/23/...,"Russia’s defence minister, Sergei Shoigu, the ...",,,,
5,,,,"Wednesday, 23 February 2022",2022-02-23,Keir Starmer urges Boris Johnson to end ‘era o...,https://www.theguardian.com/politics/live/2022...,13.27PMQs – snap verdictPMQs has never been a ...,/p/knqpm,7064.0,https://www.theguardian.com/politics/live/2022...,
6,https://i.guim.co.uk/img/media/00e53ee4d548889...,"‘As Vladimir Putin’s tanks rolled west, Boris...","Boris Johnson at the Ministry of Defence, 22 F...","Wednesday, 23 February 2022",2022-02-23,Fighting the threat from Putin will take teamw...,https://www.theguardian.com/commentisfree/2022...,The default view at Westminster and in most of...,/p/kz2dj,317.0,https://www.theguardian.com/commentisfree/2022...,
7,https://i.guim.co.uk/img/media/4a5afd23a5ff2fa...,Ukrainian supporters protest outside the Russ...,Ukrainian supporters protest outside the Russi...,"Wednesday, 23 February 2022",2022-02-23,Ukrainians in UK making plans to return home t...,https://www.theguardian.com/world/2022/feb/23/...,A small but growing number of Ukrainians livin...,,,,
8,https://i.guim.co.uk/img/media/6a61baa7b7358e3...,The British embassy in Kyiv. ‘A proxy war wou...,The British embassy in Kyiv. ‘A proxy war woul...,"Wednesday, 23 February 2022",2022-02-23,What steps should Britain take to avert war in...,https://www.theguardian.com/world/2022/feb/23/...,"Thank you Simon Tisdall (The long, bloody hist...",,,,
9,https://i.guim.co.uk/img/media/c3c324b5a1fe71e...,"‘In his speech this week, the Russian leader ...","Putin and Clinton at the Kremlin, 2000.","Wednesday, 23 February 2022",2022-02-23,Understanding Putin’s narrative about Ukraine ...,https://www.theguardian.com/commentisfree/2022...,"With his incursion into Donetsk and Luhansk, V...",/p/kzv8x,368.0,https://www.theguardian.com/commentisfree/2022...,


In [559]:
guardian_df.memory_usage(deep=True).sum()

41998335

In [560]:
guardian_df.insert(0, ArticleModel.publisher, Publishers.THE_GUARDIAN.value)

In [561]:
# create lang property
guardian_df.insert(0, ArticleModel.lang, 'en')

In [562]:
guardian_df.head()

Unnamed: 0,Lang,Publisher,Image Url,Image Caption,Image Alt,Date,Date Formatted,Heading,Article Url,Text,Comments key,Comments Count,Comments Url,Thumb
0,en,THE GUARDIAN,https://i.guim.co.uk/img/media/cf521f0cc79f03f...,Biden at the White House on Tuesday. The pres...,Biden at the White House on Tuesday. The presi...,"Wednesday, 23 February 2022",2022-02-23,Biden imposes sanctions on company behind Nord...,https://www.theguardian.com/us-news/live/2022/...,19.07Biden announces sanctions on Nord Stream ...,,,,https://i.guim.co.uk/img/media/cf521f0cc79f03f...
1,en,THE GUARDIAN,https://i.guim.co.uk/img/media/ed78768125b0cc7...,Boris Johnson’s lies are nothing to those bei...,Boris Johnson at Prime Minister's Questions,"Wednesday, 23 February 2022",2022-02-23,Putin’s looming threat gives Johnson some brea...,https://www.theguardian.com/politics/2022/feb/...,Boris Johnson is in his happy place. The Russi...,/p/kz3fp,528.0,https://www.theguardian.com/politics/2022/feb/...,
2,en,THE GUARDIAN,https://i.guim.co.uk/img/media/050c522ae5cc5e3...,"Russia’s defence minister, Sergei Shoigu, app...","Russia’s defence minister, Sergei Shoigu, appe...","Wednesday, 23 February 2022",2022-02-23,From ‘Putin’s chef’ to the RT editor: names ex...,https://www.theguardian.com/world/2022/feb/23/...,The EU has approved asset freezes and travel b...,,,,https://i.guim.co.uk/img/media/050c522ae5cc5e3...
3,en,THE GUARDIAN,https://i.guim.co.uk/img/media/4e76cd7e65bb82f...,Illustration: Martin Rowson/The Guardian,Martin Rowson 24.2.22,"Wednesday, 23 February 2022",2022-02-23,Martin Rowson on Russian donors to the Tory pa...,https://www.theguardian.com/commentisfree/pict...,,,,https://www.theguardian.com/commentisfree/pict...,https://i.guim.co.uk/img/media/4e76cd7e65bb82f...
4,en,THE GUARDIAN,https://i.guim.co.uk/img/media/2fcbff1b38bdde0...,"Russia's defence minister, Sergei Shoigu, is ...","Russia's defence minister, Sergei Shoigu","Wednesday, 23 February 2022",2022-02-23,EU approves wide-ranging sanctions against Rus...,https://www.theguardian.com/world/2022/feb/23/...,"Russia’s defence minister, Sergei Shoigu, the ...",,,,


In [563]:
# extract the first parameter of base_url
# then store values to a new column
import re

def getFirstParamFromUrl(string: str):
    try:
        match = string.split("/")[3]\
            .replace("-", " ")\
            .upper()
    except:
        match = None
    finally:
        return match

guardian_df[ArticleModel.tag] = kathimerini_df['Article url'].apply(getFirstParamFromUrl)

In [None]:
def reverseDateString(string: str):
    try:
        reverse =  "-".join(reversed(string.split("-")))
        print(reverse)
    except:
        reverse = None
    finally:
        return reverse


guardian_df[ArticleModel.date] = guardian_df['Date Formatted'].apply(reverseDateString)

In [570]:
guardian_df.keys()

Index(['Lang', 'Publisher', 'Image Url', 'Image Caption', 'Image Alt', 'Date',
       'Date Formatted', 'Heading', 'Article Url', 'Text', 'Comments key',
       'Comments Count', 'Comments Url', 'Thumb', 'Tag'],
      dtype='object')

In [571]:
# Casting df with ArticleModel class
guardian_df.rename(
    columns={"Comments key": ArticleModel.commentApiKey,
             "Comments Count": ArticleModel.commentsCount,
             "Comments Url": ArticleModel.commentsUrl,
             },
    inplace=True
            )

In [572]:
guardian_df.head()

Unnamed: 0,Lang,Publisher,Image Url,Image Caption,Image Alt,Date,Date Formatted,Heading,Article Url,Text,Comments api key,Comments count,Comments url,Thumb,Tag
0,en,THE GUARDIAN,https://i.guim.co.uk/img/media/cf521f0cc79f03f...,Biden at the White House on Tuesday. The pres...,Biden at the White House on Tuesday. The presi...,"Wednesday, 23 February 2022",23-02-2022,Biden imposes sanctions on company behind Nord...,https://www.theguardian.com/us-news/live/2022/...,19.07Biden announces sanctions on Nord Stream ...,,,,https://i.guim.co.uk/img/media/cf521f0cc79f03f...,WORLD
1,en,THE GUARDIAN,https://i.guim.co.uk/img/media/ed78768125b0cc7...,Boris Johnson’s lies are nothing to those bei...,Boris Johnson at Prime Minister's Questions,"Wednesday, 23 February 2022",23-02-2022,Putin’s looming threat gives Johnson some brea...,https://www.theguardian.com/politics/2022/feb/...,Boris Johnson is in his happy place. The Russi...,/p/kz3fp,528.0,https://www.theguardian.com/politics/2022/feb/...,,WORLD
2,en,THE GUARDIAN,https://i.guim.co.uk/img/media/050c522ae5cc5e3...,"Russia’s defence minister, Sergei Shoigu, app...","Russia’s defence minister, Sergei Shoigu, appe...","Wednesday, 23 February 2022",23-02-2022,From ‘Putin’s chef’ to the RT editor: names ex...,https://www.theguardian.com/world/2022/feb/23/...,The EU has approved asset freezes and travel b...,,,,https://i.guim.co.uk/img/media/050c522ae5cc5e3...,ECONOMY
3,en,THE GUARDIAN,https://i.guim.co.uk/img/media/4e76cd7e65bb82f...,Illustration: Martin Rowson/The Guardian,Martin Rowson 24.2.22,"Wednesday, 23 February 2022",23-02-2022,Martin Rowson on Russian donors to the Tory pa...,https://www.theguardian.com/commentisfree/pict...,,,,https://www.theguardian.com/commentisfree/pict...,https://i.guim.co.uk/img/media/4e76cd7e65bb82f...,POLITICS
4,en,THE GUARDIAN,https://i.guim.co.uk/img/media/2fcbff1b38bdde0...,"Russia's defence minister, Sergei Shoigu, is ...","Russia's defence minister, Sergei Shoigu","Wednesday, 23 February 2022",23-02-2022,EU approves wide-ranging sanctions against Rus...,https://www.theguardian.com/world/2022/feb/23/...,"Russia’s defence minister, Sergei Shoigu, the ...",,,,,WORLD


In [573]:
#save as csv to intermediate stage
efsyn_df.to_csv('../data/intermediate/guardian-ukraine-data-frame.csv')

In [574]:
total_rows = kathimerini_df.shape[0] \
             + naftemporiki_df.shape[0] \
             + efsyn_df.shape[0] \
             + guardian_df.shape[0]
print(total_rows)

13736


In [94]:
# helpers
kathimerini_df['date'] = pd.to_datetime(kathimerini_df['date'], format="%d.%m.%Y", exact=True)
kathimerini_df['year'] = pd.DatetimeIndex(kathimerini_df['date']).year