# Suomi 24 data preprocessing

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('https://people.arcada.fi/~parland/suomi24~16-22~subset/posts-16-22.csv.gz', sep=';', compression='gzip')

In [3]:
data.drop(columns="id", inplace=True, axis=1)

In [4]:
labels_to_keep = [7,3,1,2,19,0,9]
data = data[data["class"].isin(labels_to_keep)]

data["class"].value_counts()

7     6737
3     5799
1     4455
2     4333
19    4124
0     3615
9     3166
Name: class, dtype: int64

In [5]:
data.rename(columns={"class":"label"}, inplace=True)

In [6]:
data.head()
#data = pd.concat[data, data[class]]

Unnamed: 0,topic,article,label
1,Rabbitin pultit pomppailee,Moikka kaikki\n\nKävin juuri hakemassa 1/2016 ...,19
2,Skodapöpö - erikoinen elukka,Vuoden 2015 8 erikoisinta eläinlöytöä. Yksi ...,19
5,Rabbit on paska,Katsastin just 1/2016 Rabbitin. En päästänyt l...,19
6,Luonnonilmiö El Nino,IS kertoo El Ninon sekoittaneen joulukuun lopu...,1
7,Raksutus takapuskurissa,Moi\n\nSain 2016 Skodan ja ihmettelin kun taka...,19


In [7]:
data["text"] = data["topic"] + ". " + data["article"]
data.drop(columns=["topic", "article"], inplace=True, axis=1)

data.head()

Unnamed: 0,label,text
1,19,Rabbitin pultit pomppailee. Moikka kaikki\n\nK...
2,19,Skodapöpö - erikoinen elukka. Vuoden 2015 8 e...
5,19,Rabbit on paska. Katsastin just 1/2016 Rabbiti...
6,1,Luonnonilmiö El Nino. IS kertoo El Ninon sekoi...
7,19,Raksutus takapuskurissa. Moi\n\nSain 2016 Skod...


In [8]:
train_data = data.sample(frac=0.95, random_state=200)
test_data = data.drop(train_data.index)

In [9]:
print(len(test_data))
print(len(train_data))

1611
30618


In [10]:
test_data

Unnamed: 0,label,text
27,7,Järjestelmävalvojatilin muuttaminen. Haluan mu...
28,1,Ilmastojalanjälkeni tulee olemaa edelleen suur...
52,1,Ennätyslumisade tukki Kanadan kulkuväylät. vai...
215,1,Huolestuttava tilanne. Mitä ovat viherpellet a...
218,19,Käyttökieltoon.. Heh heh.skeidajullit vinkuu e...
...,...,...
54131,2,Toyota jäi taas jumboksi. Kaikki muut aasialai...
54138,0,"Bensiini 1,70 eur/l vs sähkö 0,70 eur/kWh. Kyl..."
54155,0,Suomesta vedyntuotannon kärkimaa. Suomessa vih...
54168,2,Tässä on osa Toyotan saavutuksista. Toyotan sa...


In [11]:
# Rename class to label and classes to indexes
possible_labels = test_data["label"].unique()

label_dict = {}
for idx, possible_label in enumerate(possible_labels):
    label_dict[possible_label] = idx

test_data["label"] = test_data["label"].replace(label_dict)

In [12]:
train_data.to_csv("data/preprocessed_data.csv", index=False)

In [13]:
test_data.to_csv("data/test.csv", index=False)

In [14]:
train_data["label"].value_counts()

7     6387
3     5522
1     4231
2     4131
19    3928
0     3420
9     2999
Name: label, dtype: int64

In [16]:
test_data["label"].value_counts()

0    350
4    277
1    224
5    202
2    196
6    195
3    167
Name: label, dtype: int64