In [1]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split

In [2]:
data = pd.read_pickle('../../data/filtered_data/polish_articles_trimmed.pkl')

In [5]:
def train_val_test_split(df, train_percentage=0.8, val_percentage=0.1, seed=None, inplace=False):
    np.random.seed(seed)
    permutation = np.random.permutation(df.index)
    length = len(df.index)
    train_end = int(train_percentage * length)
    val_end = int(val_percentage * length) + train_end
    train_ids = permutation[:train_end]
    val_ids = permutation[train_end:val_end]
    test_ids = permutation[val_end:]
    if inplace:
        df.loc[df.index.isin(train_ids), 'dataset'] = ['train'] * len(train_ids)
        df.loc[df.index.isin(val_ids), 'dataset'] = ['val'] * len(val_ids)
        df.loc[df.index.isin(test_ids), 'dataset'] = ['test'] * len(test_ids)
        return df
    else:
        train = df.iloc[train_ids]
        val = df.iloc[val_ids]
        test = df.iloc[test_ids]
        return train.reset_index(drop=True), val.reset_index(drop=True), test.reset_index(drop=True)

In [6]:
train_data, val_data, test_data = train_val_test_split(data, seed=9, inplace=False)

In [7]:
train_data.head()

Unnamed: 0,url,title,lead,text,site
0,"http://www.wroclaw.sport.pl/sport-wroclaw/1,12...",[Koniec konfliktu z Nichollsem. Żużlowiec podp...,Żużela . anglik scott nicholls zrezygnować z k...,o sprawa nichollsa pisać od kilka dzień . atla...,sport
1,"https://www.sport.pl/pilka/7,65042,24986662,st...",[Statystyka wstydu Legii Warszawa. Powinna się...,legia warszawa skompromitować się remis z gibr...,legia warszawa po fatalny mecz zremisować z gi...,sport
2,https://www.spidersweb.pl/2016/12/lucid-motors...,[Właśnie tak wygląda luksusowy rywal Tesli Mod...,co powstać kiedy swój siła w praca nad samochó...,zaistnienie na rynek samochód z silnik spalino...,spidersweb
3,"https://polki.pl/rodzina/ciaza,czym-zasluzyla-...",[Czym zasłużyła się święta Aleksandra z Galacji.],można powiedzieć że on życiorys przypominać wi...,święty Aleksander żyć najprawdopodobniej w iii...,polki
4,http://www.bydgoszcz.sport.pl/sport-bydgoszcz/...,[Grand Prix znów w Polsce. Najlepsi jadą w Gor...,drogi granda prix na świat obejrzeć w sobota n...,to trzeci z pięć turniej za który władza Gorzó...,sport


In [11]:
def save_splits(train, val, test, output_folder, columns=None):
    train[columns].to_csv(output_folder + 'train.csv')
    val[columns].to_csv(output_folder + 'val.csv')
    test[columns].to_csv(output_folder + 'test.csv')

In [12]:
save_splits(train=train_data, val=val_data, test=test_data, output_folder='../../data/pl_articles/', columns=['lead', 'text'])