In [None]:
import glob
import os
import pandas as pd
import textwrap
import warnings
warnings.filterwarnings('ignore')

In [None]:
import numpy as np

In [None]:
label2Id = {"HEB": 0, "ARB": 1, "FRA":2, "RUS": 3, "ART": 4}

Creating artificial essays from Hebrew Wikipedia sentences

In [None]:
max_sentence_size = 230
with open('data/heb_wiki_sentences.txt', 'r', encoding='utf8') as f:
    counter = 0
    essays = []
    sentence = ''
    for line in f:
        tokens = line.split()
        end_sentence_char = np.random.choice([',', '.'], p=[0.75, 0.25])
        sentence += line.strip() + end_sentence_char + ' '
        counter += len(tokens)

        if counter >= max_sentence_size:
            essays.append(sentence[:-2] + '.')
            sentence = ''
            counter = 0

pd.DataFrame({'text': essays, 'label': 4}).sample(1000).to_csv('data/essays_artificial.csv', index=False)

In [None]:
def extract_data(files_path: str, is_native=False, join_sentences=True) -> pd.DataFrame:

    '''
    Extract text data and labels from number of text files.
    Args:
        files_path (str) - path for text files.
        is_native (bool, optional) - indicator whether the text files were originated by a native speaker.
        join_sentences (bool, optional) - indicator whether to join all the sentences in a file to one text or keep them separated.
    Output:
        corpus (Dataframe) - all the texts and theirs corresponding label.
    '''
    corpus = pd.DataFrame(columns=['text','label'])
    file_names = glob.glob(files_path)

    for file_name in file_names:
        if is_native:
            label_id = label2Id['HEB']
        else:
            label = os.path.basename(file_name).split('_')[0]
            label_id = label2Id[label]
        essay = pd.read_csv(file_name, sep=';;;', header=None, names=['text'])
        if join_sentences:
            essay = pd.DataFrame(data={'text': [essay['text'].str.cat(sep=' ')], 'label':[label_id]})
        else:
            essay['label'] = label_id
        corpus = pd.concat([corpus,essay], ignore_index=True)
    return corpus


In [None]:
non_native_corpus = extract_data(files_path = './data/Hebrew Corpus/NonNatives/TXT/Original/*.txt')
native_corpus = extract_data(files_path = './data/Hebrew Corpus/Natives/Raw/*/*.txt', is_native=True)

In [None]:
pd.concat([native_corpus, non_native_corpus]).to_csv('./data/essays.csv', index=False)

In [None]:
print(textwrap.fill(native_corpus.loc[0,'text'], replace_whitespace=False, fix_sentence_endings=True))

מתוקף תפקידה של האקדמיה ללשון לבחון שינויים המתרחשים בשפה העברית
(לדוגמא – כניסת עידן האינטרנט) ולהחליט להוסיפם לאוצר המילים העברי.
אזרחי מדינת ישראל ברובם משלמים אגרת חובה לטובת רגולציה זו, אשר אמונה
על לשון תיקנית ברדיו ובטלויזיה. עברית תקינה היא אבן דרך מרכזית תוך
התהוות מדינה יש לשמרה תוך רגולציה של רשות השידור כזרע של משרד התקשורת.
תקינות השפה העברית גם בשנות האלפיים מהווה אור לגויים וסדר ארגוני
במסרים אשר מעבירים כלי התקשורת המשדרים שירים. לעניות דעתי, מחובת רשות
השידור לפקח על כלי התקשורת הישראליים ולמנוע שידור שירים ישראליים
(עבריים) בהם קיימת הגייה לא תקנית. עוד בימי אבותינו, חז"ל ועוד רבים
אחרים הקפידו ונתנו דגש בעת פסיקותיהם על הגייה נכונה של מילים תנכיות
מתוך כוונה שהמילים לא "יתבוללו" יחד עם אוצר המילים של הגויים. למיטב
ידיעתי, כמעט בכל שפה מדוברת ברחבי העולם, קיימת שפה ספרותית ושפה עממית,
הנבדלים זה מזו בצורת ההגייה ובאופן השימוש בהן בחיי היום יום.
