In [1]:
from datasets import Dataset, Features, Value, ClassLabel
import pandas as pd

import sys 
sys.path.append('../utils')
import train_utils



# Read Data

In [2]:
data_path = "../../data/fine-tuning/"

In [3]:
df = pd.read_csv(data_path + "moravian_deu.csv")
#df

# Build Huggingface Dataset

In [4]:
labels = ["negative", "neutral", "positive"]
dataset = Dataset.from_pandas(df, features=Features({"source": Value("string"), "text": Value("string"), 'label': ClassLabel(names=labels)}))
dataset

Dataset({
    features: ['source', 'text', 'label'],
    num_rows: 2210
})

# Apply Train/Test Split

In [5]:
dataset = dataset.train_test_split(test_size=0.2, shuffle=True, seed=0)
dataset

DatasetDict({
    train: Dataset({
        features: ['source', 'text', 'label'],
        num_rows: 1768
    })
    test: Dataset({
        features: ['source', 'text', 'label'],
        num_rows: 442
    })
})

## Inspect and Store Train Dataset

In [6]:
train_df = dataset["train"].to_pandas()
train_df["label"] = train_df["label"].map(train_utils.id2label(dataset["train"])) # fix labels
train_df

Unnamed: 0,source,text,label
0,11,Ich küßte Ihm im Geist die Hand mit ihren Näge...,positive
1,37,Ihm warst du ganz geweiht!,positive
2,19,Ein Soldaten Bruder der bey meinem Meister im ...,positive
3,34,So weit ihr eigener Aufsatz.,neutral
4,21,da er noch ein paar Jahr als Gärtner u. nun 23...,negative
...,...,...,...
1763,5,Sie werden weder Hungern noch Dürsten - Denn i...,positive
1764,34,"Ach den Freund kanst du nun sehn, an dem du ge...",positive
1765,1,Sie bereuete auch hernach die Zeit oftt mit vi...,negative
1766,33,ich lies es darauf ankommen,neutral


In [7]:
train_df["label"].value_counts()

positive    760
neutral     523
negative    485
Name: label, dtype: int64

In [8]:
train_df.to_csv(data_path + "moravian_deu_train.csv", index=False)

## Inspect and Store Test Dataset

In [9]:
test_df = dataset["test"].to_pandas()
test_df["label"] = test_df["label"].map(train_utils.id2label(dataset["test"])) # fix labels
test_df

Unnamed: 0,source,text,label
0,23,17 waren wir in Manakory,neutral
1,33,"ich grigte auch erlaubniß,",positive
2,11,"Wie mir dabey gewesen, deß waren alle meine Gl...",positive
3,26,In der Stunde machte sich der Heiland mir beka...,positive
4,27,"1744, am vierten Januar, wurde ich nebst meine...",neutral
...,...,...,...
437,9,Die lezte Zeit kränckelte er.,negative
438,38,Ich sahe sie oft auf ihrem Angesicht liegen un...,positive
439,13,Ich bat den Heiland mein Herz mit seinem Blute...,positive
440,34,nie hört’ man dich klagen;,positive


In [10]:
test_df["label"].value_counts()

positive    177
neutral     150
negative    115
Name: label, dtype: int64

In [11]:
test_df.to_csv(data_path + "moravian_deu_test.csv", index=False)