In [268]:
import pandas as pd

war_df = pd.read_csv('../data/processed/war-ukraine-merged.csv', index_col=[0])

In [269]:
war_df.head(60)

Unnamed: 0,Publisher,Date Formatted,Lang,Heading,Tag,Text,Comments exist,Comments count,Comments api key,Article url
0,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Μπορέλ: O Πούτιν πρέπει να επιλέξει «ανάμεσα σ...,ΚΟΣΜΟΣ,"Οι κυρώσεις, που έχουν επιβληθεί στην Ρωσία σε...",False,0.0,,https://www.kathimerini.gr/world/561942142/mpo...
1,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Μαριούπολη: Οι φιλορώσοι αυτονομιστές κατέσχεσ...,ΠΟΛΕΜΟΣ ΣΤΗΝ ΟΥΚΡΑΝΙΑ,Οι φιλορώσοι αυτονομιστές κατέλαβαν δύο πλοία ...,False,0.0,,https://www.kathimerini.gr/world/561942133/mar...
2,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Πρόβλεψη για αύξηση του εμπορίου μεταξύ Ρωσίας...,ΔΙΕΘΝΗΣ ΟΙΚΟΝΟΜΙΑ,Ο εμπορικός τζίρος μεταξύ Τουρκίας και Ρωσίας ...,False,0.0,,https://www.kathimerini.gr/economy/internation...
3,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Σακελλαροπούλου σε Ζελένσκι: Είμαστε και θα εί...,ΠΟΛΙΤΙΚΗ,«Το απαραβίαστο των συνόρων είναι η βάση της σ...,False,0.0,,https://www.kathimerini.gr/politics/561941488/...
4,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Ουκρανία: Το ρωσοκρατούμενο πυρηνικό εργοστάσι...,ΚΟΣΜΟΣ,"Ο μεγαλύτερος πυρηνικός σταθμός της Ευρώπης, μ...",False,0.0,,https://www.kathimerini.gr/world/561941377/oyk...
5,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Ουκρανία: Ανασυγκρότηση των ουκρανικών δυνάμεω...,ΚΟΣΜΟΣ,Οι ουκρανικές δυνάμεις κατέλαβαν την Τρίτη νέε...,False,0.0,,https://www.kathimerini.gr/world/561941344/oyk...
6,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Πόλεμος στην Ουκρανία: Στο Ντονέτσκ στρέφονται...,ΚΟΣΜΟΣ,Να συνεχιστεί η ρωσική επίθεση στην ανατολική ...,False,0.0,,https://www.kathimerini.gr/world/561940840/pol...
7,ΚΑΘΗΜΕΡΙΝΗ,04-07-2022,el,Ουκρανία: Οι κάτοικοι της Μαριούπολης πεθαίνου...,ΚΟΣΜΟΣ,Στην περιοχή του Ντονέτσκ που βρίσκεται υπό το...,False,0.0,,https://www.kathimerini.gr/world/561940570/oyk...
8,ΚΑΘΗΜΕΡΙΝΗ,04-07-2022,el,Μανουέλ Βίλας στην «Κ»: Πώς γίνεται ο Πούτιν ν...,ΣΥΝΕΝΤΕΥΞΕΙΣ,«Είναι αλήθεια ότι με αγαπήσατε ή το βγάζω από...,False,0.0,,https://www.kathimerini.gr/opinion/interviews/...
9,ΚΑΘΗΜΕΡΙΝΗ,04-07-2022,el,Πόλεμος στην Ουκρανία: Κόλαση επί γης οι πρώτε...,ΚΟΣΜΟΣ,"Καμένα δάση, πόλεις κατεστραμμένες, στρατιώτες...",False,0.0,,https://www.kathimerini.gr/world/561940279/pol...


## Clean & Cast

In [270]:
war_df.isna().sum()

Publisher               0
Date Formatted        273
Lang                    0
Heading               270
Tag                   270
Text                  418
Comments exist          0
Comments count       3003
Comments api key    13533
Article url           270
dtype: int64

In [271]:
war_df.memory_usage(deep=True).sum()

115968824

In [272]:
# kill rows at Date Formatted series where value is NaN
# during scraping process there were a lot of articles without text and date info
(war_df
 .dropna(subset=['Date Formatted'], how='all', inplace=True)
 )

In [273]:
war_df['Text'] = war_df['Text'].fillna('').astype('string')

In [274]:
war_df['Comments api key'] = war_df['Comments api key'].fillna('').astype('string')

In [275]:
war_df['Comments count'] = war_df['Comments count'].fillna(0).astype('int32')

In [276]:
war_df['Heading'] = war_df['Heading'].astype('string')

In [277]:
war_df['Text'] = war_df['Text'].astype('string')

In [278]:
# remove url from text if present
import re
def removeURL(string: str) -> str:
    try:
        clean = re.sub('http://\S+|https://\S+', '', string)
    except:
        clean = ''
    finally:
        return clean


# Create new col based on comment counts
war_df['Text'] = war_df['Text'].apply(removeURL)

In [279]:
from enum import Enum

class Publishers(Enum):
    KATHIMERINI = 'ΚΑΘΗΜΕΡΙΝΗ'
    EFSYN = 'ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ'
    NAFTEMPORIKI = 'ΝΑΥΤΕΜΠΟΡΙΚΗ'
    THE_GUARDIAN = 'THE GUARDIAN'

class Lang(Enum):
    ENGLISH = 'en'
    GREEK = 'el'

In [280]:
from pandas.api.types import CategoricalDtype
publisher_dtype = CategoricalDtype(
    categories=[Publishers.KATHIMERINI.value,
                Publishers.EFSYN.value,
                Publishers.NAFTEMPORIKI.value,
                Publishers.THE_GUARDIAN.value
                ],
    ordered=True)
lang_enum = CategoricalDtype(
    categories=[Lang.GREEK.value,
                Lang.ENGLISH.value
                ],
    ordered=True)

In [281]:
war_df['Publisher'] = war_df['Publisher'].astype(publisher_dtype)

In [282]:
war_df['Lang'] = war_df['Lang'].astype(lang_enum)

In [283]:
war_df['Tag'] = war_df['Tag'].astype('category')

In [284]:
war_df = (war_df
 .assign(Chars=war_df['Text'].str.len().astype(int))
 .assign(Words=war_df['Text'].str.split(" ").str.len().astype(int))
 )

In [285]:
war_df[war_df['Comments count'] == 0]

Unnamed: 0,Publisher,Date Formatted,Lang,Heading,Tag,Text,Comments exist,Comments count,Comments api key,Article url,Chars,Words
0,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Μπορέλ: O Πούτιν πρέπει να επιλέξει «ανάμεσα σ...,ΚΟΣΜΟΣ,"Οι κυρώσεις, που έχουν επιβληθεί στην Ρωσία σε...",False,0,,https://www.kathimerini.gr/world/561942142/mpo...,4114,627
1,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Μαριούπολη: Οι φιλορώσοι αυτονομιστές κατέσχεσ...,ΠΟΛΕΜΟΣ ΣΤΗΝ ΟΥΚΡΑΝΙΑ,Οι φιλορώσοι αυτονομιστές κατέλαβαν δύο πλοία ...,False,0,,https://www.kathimerini.gr/world/561942133/mar...,2548,360
2,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Πρόβλεψη για αύξηση του εμπορίου μεταξύ Ρωσίας...,ΔΙΕΘΝΗΣ ΟΙΚΟΝΟΜΙΑ,Ο εμπορικός τζίρος μεταξύ Τουρκίας και Ρωσίας ...,False,0,,https://www.kathimerini.gr/economy/internation...,1848,274
3,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Σακελλαροπούλου σε Ζελένσκι: Είμαστε και θα εί...,ΠΟΛΙΤΙΚΗ,«Το απαραβίαστο των συνόρων είναι η βάση της σ...,False,0,,https://www.kathimerini.gr/politics/561941488/...,2472,371
4,ΚΑΘΗΜΕΡΙΝΗ,05-07-2022,el,Ουκρανία: Το ρωσοκρατούμενο πυρηνικό εργοστάσι...,ΚΟΣΜΟΣ,"Ο μεγαλύτερος πυρηνικός σταθμός της Ευρώπης, μ...",False,0,,https://www.kathimerini.gr/world/561941377/oyk...,2829,418
...,...,...,...,...,...,...,...,...,...,...,...,...
13731,THE GUARDIAN,02-07-2022,en,Russia-Ukraine war: what we know on day 129 of...,WORLD,Powerful explosions shook Ukraine’s southern c...,False,0,,https://www.theguardian.com/world/2022/jul/02/...,4197,632
13732,THE GUARDIAN,03-07-2022,en,Russia-Ukraine war: ‘Many killed’ in attack on...,WORLD,13.44'Many killed' in attack on eastern Ukrain...,False,0,,https://www.theguardian.com/world/live/2022/ju...,18068,2729
13733,THE GUARDIAN,03-07-2022,en,Russia-Ukraine war: what we know on day 130 of...,WORLD,Russia claims it has taken full control of Lys...,False,0,,https://www.theguardian.com/world/2022/jul/03/...,3597,546
13734,THE GUARDIAN,03-07-2022,en,Medics battle relentless wave of trauma in Ukr...,WORLD,"Ludmilla Boiko can’t sleep. Every night, befor...",False,0,,https://www.theguardian.com/world/2022/jul/03/...,8698,1473


In [286]:
# check for duplicates
war_df[war_df['Heading'].str.contains("D-Day", case=False)]

Unnamed: 0,Publisher,Date Formatted,Lang,Heading,Tag,Text,Comments exist,Comments count,Comments api key,Article url,Chars,Words
14,ΚΑΘΗΜΕΡΙΝΗ,04-07-2022,el,Γερμανία: D-Day η 22η Ιουλίου για το ρωσικό φυ...,ΚΟΣΜΟΣ,"Η Γιασμίν Φαχίμι, πάλαι ποτέ γενική γραμματέας...",False,0,,https://www.kathimerini.gr/world/561939931/ger...,4979,725


In [287]:
# convert 'Date Formatted' as datetime pandas type
war_df['Date Formatted'] = pd.to_datetime(war_df['Date Formatted'], format="%d-%m-%Y")

In [288]:
war_df['Year'] = pd.DatetimeIndex(war_df['Date Formatted']).year
war_df['Month'] = pd.DatetimeIndex(war_df['Date Formatted']).month
war_df['Day'] = pd.DatetimeIndex(war_df['Date Formatted']).day

In [289]:
war_df.memory_usage(deep=True).sum()

112552200

In [290]:
war_df.dtypes

Publisher                 category
Date Formatted      datetime64[ns]
Lang                      category
Heading                     string
Tag                       category
Text                        object
Comments exist                bool
Comments count               int32
Comments api key            string
Article url                 object
Chars                        int64
Words                        int64
Year                         int64
Month                        int64
Day                          int64
dtype: object

In [291]:
war_df.isnull().sum()

Publisher           0
Date Formatted      0
Lang                0
Heading             0
Tag                 0
Text                0
Comments exist      0
Comments count      0
Comments api key    0
Article url         0
Chars               0
Words               0
Year                0
Month               0
Day                 0
dtype: int64

In [292]:
war_df.isna().sum()

Publisher           0
Date Formatted      0
Lang                0
Heading             0
Tag                 0
Text                0
Comments exist      0
Comments count      0
Comments api key    0
Article url         0
Chars               0
Words               0
Year                0
Month               0
Day                 0
dtype: int64

In [293]:
war_df.head()

Unnamed: 0,Publisher,Date Formatted,Lang,Heading,Tag,Text,Comments exist,Comments count,Comments api key,Article url,Chars,Words,Year,Month,Day
0,ΚΑΘΗΜΕΡΙΝΗ,2022-07-05,el,Μπορέλ: O Πούτιν πρέπει να επιλέξει «ανάμεσα σ...,ΚΟΣΜΟΣ,"Οι κυρώσεις, που έχουν επιβληθεί στην Ρωσία σε...",False,0,,https://www.kathimerini.gr/world/561942142/mpo...,4114,627,2022,7,5
1,ΚΑΘΗΜΕΡΙΝΗ,2022-07-05,el,Μαριούπολη: Οι φιλορώσοι αυτονομιστές κατέσχεσ...,ΠΟΛΕΜΟΣ ΣΤΗΝ ΟΥΚΡΑΝΙΑ,Οι φιλορώσοι αυτονομιστές κατέλαβαν δύο πλοία ...,False,0,,https://www.kathimerini.gr/world/561942133/mar...,2548,360,2022,7,5
2,ΚΑΘΗΜΕΡΙΝΗ,2022-07-05,el,Πρόβλεψη για αύξηση του εμπορίου μεταξύ Ρωσίας...,ΔΙΕΘΝΗΣ ΟΙΚΟΝΟΜΙΑ,Ο εμπορικός τζίρος μεταξύ Τουρκίας και Ρωσίας ...,False,0,,https://www.kathimerini.gr/economy/internation...,1848,274,2022,7,5
3,ΚΑΘΗΜΕΡΙΝΗ,2022-07-05,el,Σακελλαροπούλου σε Ζελένσκι: Είμαστε και θα εί...,ΠΟΛΙΤΙΚΗ,«Το απαραβίαστο των συνόρων είναι η βάση της σ...,False,0,,https://www.kathimerini.gr/politics/561941488/...,2472,371,2022,7,5
4,ΚΑΘΗΜΕΡΙΝΗ,2022-07-05,el,Ουκρανία: Το ρωσοκρατούμενο πυρηνικό εργοστάσι...,ΚΟΣΜΟΣ,"Ο μεγαλύτερος πυρηνικός σταθμός της Ευρώπης, μ...",False,0,,https://www.kathimerini.gr/world/561941377/oyk...,2829,418,2022,7,5


In [294]:
war_df[war_df['Text'].str.contains('http')]

Unnamed: 0,Publisher,Date Formatted,Lang,Heading,Tag,Text,Comments exist,Comments count,Comments api key,Article url,Chars,Words,Year,Month,Day


In [295]:
war_df.to_csv('../data/processed/war-ukraine-extended.csv')