In [2]:
# Import necessary libraries
import pandas as pd
import parse

In [1]:
# Define paths to data
train = "data/sled_categorization_TRAINSMALL_PREPROCESSED.txt"

train_large = "data/sled_categorization_TRAINLARGE_PREPROCESSED.txt"

test = "data/sled_categorization_TEST_PREPROCESSED.txt"

dev = "data/sled_categorization_DEV_PREPROCESSED.txt"

In [3]:
# Parse the file to create a dataframe from them
def parse_file(path: str):
    """Reads fasttext formatted file and returns labels, texts."""
    with open(path, "r") as f:
        content = f.readlines()
    pattern = "{label} {text}\n"
    p = parse.compile(pattern)

    labels, texts = list(), list()
    for line in content:
        rez = p.parse(line)
        if rez is not None:
            labels.append(rez["label"])
            texts.append(rez["text"])
        else:
            print("error parsing line ", line)
    dataframe = pd.DataFrame({"label": labels, "text": texts})
    return dataframe

In [4]:
train_large_df = parse_file(train_large)

train_large_df

Unnamed: 0,label,text
0,__label__crnakronika,vožnja na vrtiljaku v zabaviščnem parku v fran...
1,__label__crnakronika,na tolminskem se je dopoldne zgodila prometna ...
2,__label__crnakronika,na cesti zadlaz-žabče se je zgodila prometna n...
3,__label__crnakronika,eksplozija plina v stanovanjski zgradbi v mest...
4,__label__crnakronika,z 2 januarjem ni več dovoljena uporaba piroteh...
...,...,...
36027,__label__znanost,kitajska je do zdaj izvedla pet uspešnih odpra...
36028,__label__znanost,da sta mikro- in nanoplastika povsod okoli nas...
36029,__label__znanost,kaj je novega v nasinem programu vrnitve člove...
36030,__label__znanost,znanstveni dosežek je podprla tudi whitney cas...


In [5]:
train_large_df.label.value_counts()

__label__crnakronika      2800
__label__druzba           2800
__label__gospodarstvo     2800
__label__kultura          2800
__label__politika         2800
__label__prosticas        2800
__label__sport            2800
__label__vreme            2800
__label__zabava           2800
__label__zdravje          2800
__label__znanost          2800
__label__okolje           2696
__label__izobrazevanje    2536
Name: label, dtype: int64

In [5]:
train_df = parse_file(train)
train_df

Unnamed: 0,label,text
0,__label__crnakronika,na tolminskem se je dopoldne zgodila prometna ...
1,__label__crnakronika,na cesti zadlaz-žabče se je zgodila prometna n...
2,__label__crnakronika,v sredo ob 1321 je bila novogoriška policija o...
3,__label__crnakronika,malo po 16 uri je v svetem duhu na ostrem vrhu...
4,__label__crnakronika,v eksploziji pirotehnike je bil v soboto popol...
...,...,...
9998,__label__znanost,12 julij na ta dan bodo vesoljske agencije obj...
9999,__label__znanost,kitajska je do zdaj izvedla pet uspešnih odpra...
10000,__label__znanost,da sta mikro- in nanoplastika povsod okoli nas...
10001,__label__znanost,znanstveni dosežek je podprla tudi whitney cas...


In [7]:
train_df["split"] = "train"

train_df.head()

Unnamed: 0,label,text,split
0,__label__crnakronika,na tolminskem se je dopoldne zgodila prometna ...,train
1,__label__crnakronika,na cesti zadlaz-žabče se je zgodila prometna n...,train
2,__label__crnakronika,v sredo ob 1321 je bila novogoriška policija o...,train
3,__label__crnakronika,malo po 16 uri je v svetem duhu na ostrem vrhu...,train
4,__label__crnakronika,v eksploziji pirotehnike je bil v soboto popol...,train


In [8]:
test_df = parse_file(test)
test_df["split"] = "test"
dev_df = parse_file(dev)
dev_df["split"] = "dev"

In [12]:
test_df.shape

(1300, 3)

In [11]:
# Merge the dataframes
temp = pd.concat((train_df, test_df))
temp.shape

(11303, 3)

In [13]:
df = pd.concat((temp, dev_df))
df.shape

(12603, 3)

In [15]:
df.describe(include="all")

Unnamed: 0,label,text,split
count,12603,12603,12603
unique,13,12585,3
top,__label__crnakronika,v silovitem neurju ki je v soboto prizadelo fr...,train
freq,1000,2,10003


In [16]:
# Analyze no. of texts in each split
df.split.value_counts()

train    10003
test      1300
dev       1300
Name: split, dtype: int64

In [17]:
# Analyze label distribution
df.label.value_counts()

__label__crnakronika      1000
__label__druzba           1000
__label__gospodarstvo     1000
__label__kultura          1000
__label__politika         1000
__label__sport            1000
__label__zabava           1000
__label__zdravje          1000
__label__znanost           953
__label__vreme             926
__label__prosticas         918
__label__okolje            911
__label__izobrazevanje     895
Name: label, dtype: int64

In [18]:
df.label.value_counts(normalize="True")

__label__crnakronika      0.079346
__label__druzba           0.079346
__label__gospodarstvo     0.079346
__label__kultura          0.079346
__label__politika         0.079346
__label__sport            0.079346
__label__zabava           0.079346
__label__zdravje          0.079346
__label__znanost          0.075617
__label__vreme            0.073475
__label__prosticas        0.072840
__label__okolje           0.072284
__label__izobrazevanje    0.071015
Name: label, dtype: float64