In [1]:
import pandas as pd
import os
from sklearn.model_selection import train_test_split
from collections import Counter

In [2]:
# Get file names and sort them to get them in the right order
file_names = [file for file in os.listdir("../data/HunEmPoli_fi/") if file.endswith(".txt")]
file_names.sort(key=lambda file: file[6])
file_names

['deepl-0-fi.txt', 'deepl-1-fi.txt', 'deepl-2-fi.txt', 'deepl-3-fi.txt']

In [3]:
data = []
for name in file_names:
    with open(f"../data/HunEmPoli_fi/{name}") as f:
        file = f.readlines()
        for item in file:
            data.append(item)

In [4]:
headers = []
content = []
for idx, line in enumerate(data):
    if idx % 2 == 0:
        headers.append(line)
    else:
        content.append(line)

In [5]:
headers[0:10]

['\ufeffAsiakirjan numero 0\n',
 'Asiakirjan numero 1\n',
 'Asiakirja numero 2\n',
 'Asiakirja numero 3\n',
 'Asiakirja numero 4\n',
 'Asiakirja numero 5\n',
 'Asiakirja numero 6\n',
 'Asiakirja numero 7\n',
 'Asiakirja numero 8\n',
 'Asiakirja numero 9\n']

In [6]:
# Confirm that every other line is a header
len(headers) == len(data)/2

True

In [7]:
# Let's take a look at the actual content
content[0:10]

['Parlamentti valitsi lauantaina ensimmäistä kertaa neljännesvuosisataan pääministerin ilman hallitusohjelmaa.\n',
 'Neljän viime vuoden aikana Unkarin BKT on kasvanut 2,1 prosenttia, kun taas EU:n keskiarvo on 4,4 prosenttia, Romanian 5,3 prosenttia, Slovakian yli 9 prosenttia, Puolan 12 prosenttia ja Bulgarian lähes 4 prosenttia.\n',
 'Jos jatkatte näin, Unkarista tulee Euroopan köyhäintalo vuoteen 2020 mennessä.\n',
 'Vuodesta 2010 lähtien Unkarissa ei ole enää elämiseen riittäviä työpaikkoja, mutta yhä useampi köyhä on työssä.\n',
 'Tosiasia on, että vaikka vähimmäispalkkaa korotettiin 38 prosenttia, nettopalkkojen kasvu on ollut 10 prosenttia viimeisten neljän vuoden aikana.\n',
 'Verokiila kasvoi, Unkarissa OECD-maiden neljänneksi korkein Unkarissa\n',
 'Nykyään unkarilaiset tekevät enemmän töitä vähemmällä rahalla, sillä uusi työlainsäädäntö on mahdollistanut myös ylityökorvausten ja bonusten leikkaamisen, työajan pidentämisen ja lomien lyhentämisen.\n',
 'Kymmenen vuotta sitten

In [8]:
# Remove trailing newline characters
content = [text.strip("\n") for text in content]
content[0:10]

['Parlamentti valitsi lauantaina ensimmäistä kertaa neljännesvuosisataan pääministerin ilman hallitusohjelmaa.',
 'Neljän viime vuoden aikana Unkarin BKT on kasvanut 2,1 prosenttia, kun taas EU:n keskiarvo on 4,4 prosenttia, Romanian 5,3 prosenttia, Slovakian yli 9 prosenttia, Puolan 12 prosenttia ja Bulgarian lähes 4 prosenttia.',
 'Jos jatkatte näin, Unkarista tulee Euroopan köyhäintalo vuoteen 2020 mennessä.',
 'Vuodesta 2010 lähtien Unkarissa ei ole enää elämiseen riittäviä työpaikkoja, mutta yhä useampi köyhä on työssä.',
 'Tosiasia on, että vaikka vähimmäispalkkaa korotettiin 38 prosenttia, nettopalkkojen kasvu on ollut 10 prosenttia viimeisten neljän vuoden aikana.',
 'Verokiila kasvoi, Unkarissa OECD-maiden neljänneksi korkein Unkarissa',
 'Nykyään unkarilaiset tekevät enemmän töitä vähemmällä rahalla, sillä uusi työlainsäädäntö on mahdollistanut myös ylityökorvausten ja bonusten leikkaamisen, työajan pidentämisen ja lomien lyhentämisen.',
 'Kymmenen vuotta sitten tuloerot oliv

In [9]:
# Load in the original Hungarian dataset with the labels
hun_data = pd.read_csv("../data/HunEmPoli/HunEmPoli_8.csv")
hun_data

Unnamed: 0,Text,Label
0,"Szombaton, negyedszázad után először kormánypr...",4
1,"Az elmúlt négy évben Magyarországon a GDP 2,1 ...",2
2,"Ha önök így folytatják, 2020-ra Magyarország E...",2
3,Hiszen 2010 óta nincs több megélhetést adó mun...,2
4,"Az a helyzet, hogy a minimálbért hiába emelték...",2
...,...,...
18997,Mostanra a korábban a Nemzeti Színháznál tünte...,4
18998,"A migráció hatásait egyébként korrekt, objektí...",4
18999,"Önök kérnek elnézést a bécsiektől, akiknek a s...",4
19000,"Azt szeretném csak jelezni, hogy Gyurcsány Fer...",4


In [10]:
hun_data["Text"].to_list()[-1]

'Ehelyett azt javaslom, hogy védjük meg az ország biztonságát (Z. Kárpát Dániel: Magatokról egy szót sem beszéltél!), és őrizzük meg azokat az eredményeket, amelyeket az elmúlt nyolc évben sikerült az országnak elérnie'

In [11]:
labels = hun_data["Label"].to_list()
labels[0:10]

[4, 2, 2, 2, 2, 2, 2, 2, 2, 2]

In [12]:
d = {"text": content,
    "label": labels}

df = pd.DataFrame(data = d)
df

Unnamed: 0,text,label
0,Parlamentti valitsi lauantaina ensimmäistä ker...,4
1,Neljän viime vuoden aikana Unkarin BKT on kasv...,2
2,"Jos jatkatte näin, Unkarista tulee Euroopan kö...",2
3,Vuodesta 2010 lähtien Unkarissa ei ole enää el...,2
4,"Tosiasia on, että vaikka vähimmäispalkkaa koro...",2
...,...,...
18997,"Tähän mennessä Jobbik-puolue, joka oli aiemmin...",4
18998,Lázárin videon jälkeen (suosionosoitukset Jobb...,4
18999,"Pyydättekö anteeksi niiltä wieniläisiltä, joid...",4
19000,"Haluaisin vain huomauttaa, että Ferenc Gyurcsá...",4


In [13]:
# Give each sentence a unique id that matches the original excel file, in which numbering starts from 2

df["id"] = list(range(2,19004))
df

Unnamed: 0,text,label,id
0,Parlamentti valitsi lauantaina ensimmäistä ker...,4,2
1,Neljän viime vuoden aikana Unkarin BKT on kasv...,2,3
2,"Jos jatkatte näin, Unkarista tulee Euroopan kö...",2,4
3,Vuodesta 2010 lähtien Unkarissa ei ole enää el...,2,5
4,"Tosiasia on, että vaikka vähimmäispalkkaa koro...",2,6
...,...,...,...
18997,"Tähän mennessä Jobbik-puolue, joka oli aiemmin...",4,18999
18998,Lázárin videon jälkeen (suosionosoitukset Jobb...,4,19000
18999,"Pyydättekö anteeksi niiltä wieniläisiltä, joid...",4,19001
19000,"Haluaisin vain huomauttaa, että Ferenc Gyurcsá...",4,19002


In [14]:
# Combine labels 3 and 4 -> 3, 5 and 6 -> 4 and 7 -> 5 to match our own labelling scheme

df['label'] = df['label'].replace([4, 5, 6, 7], [3, 4, 4, 5])
df

Unnamed: 0,text,label,id
0,Parlamentti valitsi lauantaina ensimmäistä ker...,3,2
1,Neljän viime vuoden aikana Unkarin BKT on kasv...,2,3
2,"Jos jatkatte näin, Unkarista tulee Euroopan kö...",2,4
3,Vuodesta 2010 lähtien Unkarissa ei ole enää el...,2,5
4,"Tosiasia on, että vaikka vähimmäispalkkaa koro...",2,6
...,...,...,...
18997,"Tähän mennessä Jobbik-puolue, joka oli aiemmin...",3,18999
18998,Lázárin videon jälkeen (suosionosoitukset Jobb...,3,19000
18999,"Pyydättekö anteeksi niiltä wieniläisiltä, joid...",3,19001
19000,"Haluaisin vain huomauttaa, että Ferenc Gyurcsá...",3,19002


In [21]:
df["label"].value_counts()

label
4    7043
3    6760
2    4258
5     428
0     351
1     162
Name: count, dtype: int64

In [17]:
# Split original DataFrame into training and testing sets
df_train, df_test = train_test_split(df, test_size=0.2, random_state=0, stratify = df["label"].to_list())

# Split the test data further in to test and validation sets
df_test, df_validation = train_test_split(df_test, test_size=0.5, random_state=0, stratify = df_test["label"].to_list())

In [18]:
# Make sure the splits are stratified
print(Counter(df_train["label"].to_list()))
print(Counter(df_validation["label"].to_list()))
print(Counter(df_test["label"].to_list()))

Counter({4: 5634, 3: 5408, 2: 3406, 5: 342, 0: 281, 1: 130})
Counter({4: 705, 3: 676, 2: 426, 5: 43, 0: 35, 1: 16})
Counter({4: 704, 3: 676, 2: 426, 5: 43, 0: 35, 1: 16})


In [19]:
df_train.to_csv("../data/HunEmPoli_fi/HunEmPoli_fi_train.tsv", sep = "\t", index = False)
df_validation.to_csv("../data/HunEmPoli_fi/HunEmPoli_fi_validation.tsv", sep = "\t", index = False)
df_test.to_csv("../data/HunEmPoli_fi/HunEmPoli_fi_test.tsv", sep = "\t", index = False)