In [1]:
import os
import pandas as pd
import re
from trankit import Pipeline
from nltk import FreqDist

In [2]:
p = Pipeline('hebrew', cache_dir='C:/Users/User/PycharmProjects/cache/')

Loading pretrained XLM-Roberta, this may take a while...
Loading tokenizer for hebrew
Loading tagger for hebrew
Loading multi-word expander for hebrew
Loading lemmatizer for hebrew
Active language: hebrew


In [3]:
#returns a list of all hebrew tokens of the text
def tokenizer(text):
    tokens =  p(text, is_sent=True) # tokenize returns a generator!
    all_tokens = []
    for token in tokens['tokens']:
        try:
            if token['lemma'].isalpha():
                all_tokens.append({'text':token['text'],'lemma':token['lemma']})
        except:
            for ltoken in token['expanded']:
                if ltoken['lemma'].isalpha():
                    all_tokens.append({'text':token['text'],'lemma':ltoken['lemma']})
    return all_tokens

In [38]:
folder = 'Data/divided by speakers' #path begins in root of project
all_tokens = []
for filename in os.listdir(folder):
    name = filename.replace('.csv', '')
    text_file = pd.read_csv(f"{folder}/{filename}", encoding = 'utf8')
    print(name)
    txt = ''
    try:
        for ln in text_file['text']:
            txt = f'{txt} {ln}'
    except:
        txt = str(text_file.iloc[1].values)
        
    tokens = tokenizer(txt)
    temp = {name:tokens}
    all_tokens.append(temp)

dfs = []
for temp in all_tokens:
    df = pd.DataFrame(list(temp.values())[0])
    df['speaker'] = list(temp.keys())[0]
    dfs.append(df)
    
master_df = pd.concat(dfs)

אברהים אבו סביח
אודי פראוור
אורי פינקרפלד
אורלי אלמי
אחמד אל טורי
אחמד אלאסד
איברהים אבו עפאש
איברהים אל אטרש
אילן ישורון
איתמר בן דוד
איתן מזרחי
אלי לוי
אלי עצמון
אליעזר גולדברג
אסיף שמאי
בלהה גבעון
ג'ון סטורק
גילה נגר
גילי מולכו
גלעד אלטמן
דובר
דוברת
דודו כהן
דודיק שושני
דר אבו רביע
דר אבנר בן עמוס
דר אברהים אל עמור
דר ברוך שטהל
דר יהודה פז
דר יוסי ביילין
דר יוסף בן דוד
דר יעלה רענן
דר מוחמד אל נברי
דר נילי שחורי
דר ערן כהן
העד
וסים עבאס
ח'יר אלבז
חדוה ברילאנט
חיים אורון
חסיין אבו פיע
טלאל אלקירנאווי
יהודה בכר
יואב מורג
יובל קרפלוס
יונס אלאטרש
יוסי ישי
יעקב מנור
ישי שכטר
לאה שקדיאל
לוסי מאיר
ליעם אזולאי
מאיר סער
מהנוכחים
מוחמד אבו סולב
מוחמד אבו פריחה
מוסא אבו אסעם
מוסא אבו עסה
מוסא אבו קרינאת
משה פאול
נאיף אבו ערר
נורי אלעוקבי
ניר פפאי
סאלח אזברגה
סיגל פריינטה
סעיד אלחרומי
עוד אינסאף אבו שארב
עוד בלפור קיוויתי
עוד בקי קשת כהן
עוד זילברמן
עוד חבצלת יהל
עוד חגית הלנר
עוד יהודית קרפ
עוד יורם בר סלע
עוד סאמי אבו עייש
עוד עינת הורביץ
עוד רוויה אבורביע
עוד רמי דמארי
עודה אבו פריחה
עטאללה 

In [66]:
master_df = pd.concat(dfs)
master_df

Unnamed: 0,text,lemma,speaker
0,שלום,שלום,אברהים אבו סביח
1,לכולם,ל,אברהים אבו סביח
2,לכולם,כולם,אברהים אבו סביח
3,אני,הוא,אברהים אבו סביח
4,לצורך,ל,אברהים אבו סביח
...,...,...,...
4065,מהמחזיקים,החזיק,שרון גמבשו
4066,מה,מה,שרון גמבשו
4067,זה,זה,שרון גמבשו
4068,לתת,נתן,שרון גמבשו


In [50]:
df_work = master_df
df_work.set_index('speaker', inplace = True)
df_work.sort_index(inplace=True)
speakers = df_work.index.drop_duplicates().to_list()
df_work.head(10)

Unnamed: 0_level_0,text,lemma
speaker,Unnamed: 1_level_1,Unnamed: 2_level_1
אברהים אבו סביח,שלום,שלום
אברהים אבו סביח,לכולם,ל
אברהים אבו סביח,לכולם,כולם
אברהים אבו סביח,אני,הוא
אברהים אבו סביח,לצורך,ל
אברהים אבו סביח,לצורך,צורך
אברהים אבו סביח,העניין,ה
אברהים אבו סביח,העניין,עניין
אברהים אבו סביח,גם,גם
אברהים אבו סביח,עובד,עובד


In [None]:
################ wordfreqs ################ 

In [38]:
folder = 'All Data' #path begins in root of project
master_txt = ''
all_texts = {}
for subfolder in os.listdir(folder):
    txt = ''
    for filename in os.listdir(f'{folder}/{subfolder}'):            
        #print(f'{subfolder}: {filename}')
        #name = filename.replace('.csv', '')
        try:    
            text_file = pd.read_csv(f"{folder}/{subfolder}/{filename}", encoding = 'utf8')
        
            try:
                for ln in text_file['text']:
                    txt = f'{txt} {ln}'
            except:
                ln = str(text_file.iloc[1].values)
                txt = f'{txt} {ln}'

        except:
            text_file = open(f"{folder}/{subfolder}/{filename}", "r", encoding = 'utf8')
            ln = text_file.read()
            txt = f'{txt} {ln}'
            text_file.close()
        
        finally:
            master_txt = f'{master_txt} {txt}'
            all_texts.update({subfolder:txt})

In [49]:
for name in list(all_texts.keys()):
    fd = FreqDist(str.split(all_texts[name], sep=' '))
    ls = fd.most_common(100)
    df = pd.DataFrame(ls, columns = ['text', 'freq'])
    df.to_csv(f'{name}.csv', encoding = 'utf8')

In [39]:
fd = FreqDist(str.split(master_txt, sep=' '))
fd

FreqDist({'': 1061156, 'לא': 806166, 'את': 744418, 'זה': 640125, 'אני': 601709, 'של': 500425, 'על': 353850, 'יש': 309066, 'מה': 256243, 'גם': 253971, ...})