<a href="https://colab.research.google.com/github/WebiksInc/Stop-Words-Hebrew/blob/main/prepare_stop_word.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# List Stop Words in Hebrew

In [1]:
# Install pyconll to handle UD
try:
    import pyconll
except ImportError as e:
    !pip install pyconll

In [2]:
# Import package
import numpy as np
import pandas as pd
import requests as req
import pyconll

In [3]:
# URL data train/test/dev
ud_dev = "https://raw.githubusercontent.com/UniversalDependencies/UD_Hebrew-IAHLTwiki/master/he_iahltwiki-ud-dev.conllu"
ud_test = "https://github.com/UniversalDependencies/UD_Hebrew-IAHLTwiki/raw/master/he_iahltwiki-ud-test.conllu"
ud_train = "https://github.com/UniversalDependencies/UD_Hebrew-IAHLTwiki/blob/master/he_iahltwiki-ud-train.conllu?raw=true"
top_freq_word_wiki = "https://raw.githubusercontent.com/WebiksInc/Stop-Words-Hebrew/main/top_3000_most_freq_wiki.csv?token=GHSAT0AAAAAABSYLCEQWYII4PN252IOWFU6YWC6XDA"

In [4]:
# download data
def get_data(url: str, name: str):
    res = req.get(url)
    file = open(name + ".txt", "w")
    file.write(res.text)
    file.close()


get_data(ud_dev, "ud_dev")
get_data(ud_test, "ud_test")
get_data(ud_train, "ud_train")

In [5]:
# load the UD data
dev = pyconll.load_from_file("/content/ud_dev.txt")
train = pyconll.load_from_file("/content/ud_test.txt")
test = pyconll.load_from_file("/content/ud_train.txt")

In [6]:
# Word extraction from the UD. Cleaning and adding words
def remove_niqqud_from_string(my_string):
    return "".join(["" if 1456 <= ord(c) <= 1479 else c for c in my_string])


def Extracts_stopwords(dat: pyconll):
    # Extracts the stopwords form the UD Schema
    POS_tag = ["DET", "ADP", "PRON", "CCONJ", "SCONJ", "SYM"]
    lst_words = [
        token.form for sentence in dat for token in sentence if token.upos in POS_tag
    ]
    return lst_words


words_plus = {
    "אגב",
    "הואיל",
    "הלא",
    "הרי",
    "כיאלו",
    "כיון",
    "יען",
    "על" "מנת",
    "ודאי",
    "גם",
    "אפילו",
    "יש",
    "רק",
}
words_minus = {
    "%",
    "&",
    "(",
    "+",
    "-",
    "/",
    ":",
    "=",
    "–",
    "°",
    "בינ",
    "שורת",
    "אודות",
    'אודותי',
    'דם',
    "לאזור",
    "במקביל",
    "כשב-1948",
    "ד",
    "בתוכ",
    "הו",
    "י",
    "ך",
    "ם",
    "ן",
    "נ'",
    "נאומ",
    'למחרת',
    'אות',
    'אית',
    'ספר',
    'ערב'
}

# Extracts the stopwords form the UD Schema
stopwords_raw = set(
    Extracts_stopwords(dev) + Extracts_stopwords(train) + Extracts_stopwords(test)
)
# Optionally, delete the words with the niqqud
# stopwords_raw = set(map(remove_niqqud_from_string,stopwords_raw))
# Delete incorrect words
stopwords_base = stopwords_raw - words_minus
# Add missing words that we identified . Note that there is another addition of words below
stopwords_base = stopwords_base | words_plus

# Note: The list includes English words that happened to be in the database. For a complete list in English we recommend nltk package.

In [7]:
# most freq words form the hebrew wikipedia
wiki_freq = pd.read_csv(top_freq_word_wiki)
wiki_top_50 = wiki_freq.head(50)['word'].to_list()
wiki_remove = {'בית','במהלך','בשנת','הברית','העולם','הראשון','ישראל','מספר'}
wiki_top_50 = set(wiki_top_50) - wiki_remove
stopwords_extend = stopwords_base | wiki_top_50

In [8]:
# Add prepositions. A detailed explanation of the need appears in README

al = [
    "אלי",
    "אליך",
    "אליך",
    "אליו",
    "אליה",
    "אלינו",
    "אליכם",
    "אליכן",
    "אליהם",
    "אליהן",
]
hal = [
    "עלי",
    "עליך",
    "עליך",
    "עליו",
    "עליה",
    "עלינו",
    "עליכם",
    "עליכן",
    "עליהם",
    "עליהן",
]
him = [
    "עמי",
    "עמך",
    "עמו",
    "עמה",
    "עמנו",
    "עמכם",
    "עמכן",
    "עמם",
    "עמן",
    "עמהם",
    "עמהן"
]
ath_with = [
    "אתן",
    "אתם",
    "אתכן",
    "אתכם",
    "אתנו",
    "אתה",
    "אתו",
    "אתך",
    "אתי"
]
ath = [
    "אותי",
    "אותך",
    "אותו",
    "אותה",
    "אותנו",
    "אתכם",
    "אתכן",
    "אותם",
    "אותן"
]
shel = [
    "שלי",
    "שלך",
    "שלו",
    "שלה",
    "שלנו",
    "שלכם",
    "שלכן",
    "שלהם",
    "שלהן",
]
men = [
    "ממני",
    "ממך",
    "ממנו",
    "ממנה",
    "מכם",
    "מכן",
    "מהם",
    "מהן"
]
azhel = [
    "אצלי",
    "אצלך",
    "אצלו",
    "אצלה",
    "אצלנו",
    "אצלכם",
    "אצלכן",
    "אצלם", 
    "אצלן"
]
bshvil = [
    "בשבילי",
    "בשבילך",
    "בשבילו",
    "בשבילה",
    "בשבילנו",
    "בשבילכם",
    "בשבילכן",
    "בשבילם",
    "בשבילן",
]
bin = [
    "ביני",
    "בינך",
    "בינו",
    "בינה",
    "בינינו",
    "ביניכם",
    "ביניכן",
    "ביניהם",
    "ביניהן",
    "בינם",
    "בינן",
]
lafi = [
    "לפי",
    "לפיך",
    "לפיו",
    "לפיה",
    "לפינו",
    "לפיכם",
    "לפיכן",
    "לפיהם",
    "לפיהן"
]
lafni = [
    "לפני",
    "לפניך",
    "לפניו",
    "לפניה",
    "לפנינו",
    "לפניכם",
    "לפניכן",
    "לפניהם",
    "לפניהן",
]
chmo = [
    "כמוני",
    "כמוך",
    "כמוהו",
    "כמוה",
    "כמונו",
    "כמוכם",
    "כמוכן",
    "כמוהם",
    "כמוהן"
]
lakrt = [
    "לקראתי",
    "לקראתך",
    "לקראתו",
    "לקראתה",
    "לקראתנו",
    "לקראתכם",
    "לקראתכן",
    "לקראתם",
    "לקראתן",
]
pepositions = {
    "אל": al,
    "על": hal,
    "עם": him,
    "(=עם) את": him,
    "את (תוויות מושא ישיר": ath,
    "של": shel,
    "מן": men,
    "אצל": azhel,
    "בשביל": bshvil,
    "בין": bin,
    "לפי": lafi,
    "לפני": lafni,
    "כמו": chmo,
    "לקראת": lakrt,
}
pepositions_lst = [item for sublist in list(pepositions.values()) for item in sublist]

stopwords_extend = stopwords_extend | set(pepositions_lst)
print('Long list:')
print(
    ", ".join(
        [
            word if index % 15 != 0 else "\n," + word
            for index, word in enumerate(stopwords_extend)
        ]
    )
)

Long list:

,אלו, אצל, פחות, אחרי, מתחתי, עת, החל, על-פי, ש, רק, לפניכם, ע"ש, לו, עלינו, מהם, 
,כולה, בלעדי, אותה, לעבר, אשר, דוגמת, איזה, מאחורי, לפניך, מעבר, הואיל, הרי, זו, בקרבת, כלפי, 
,בשל, אתכם, ביד, מביני, עמו, מיטב, כם, תחת, קרי, כן, הודות, עמכם, אצלה, משהו, מבלי, 
,a, ללא, ככל, כִּי, אליהם, לשם, מספיק, ה, ביניהן, זוהי, לא, בעוד, בשביל, מירב, לאחר, 
,כמוך, כיאלו, כול, בגלל, ביני, אנוכי, כנגד, בעד, במשך, ממנו, גם, הוא, אנו, אחר, אצלי, 
,אֶל, טרום, לפיך, דרך, פר, לפי, לפינו, לפניהם, בלי, עוד, גבי, מפאת, שלכם, בִ, בתוך, 
,הרבה, מסביב, אותנו, לפניהן, יו, היה, מתחת, משום, אותי, למרות, קודם, מתוך, עצמו, מאחר, כעבור, 
,כמוכן, במקום, בטרם, לקראתנו, מישהו, עם, לבד, מתחילת, הַ, Your, בשבילך, בשבילנו, אלא, לפיה, כולן, 
,מדי, עלי, בשבילו, ךָ, ְהַ, אתה, עליה, מפני, אותן, האם, לקראתה, באשר, כמות, תמורת, בשבילי, 
,לידי, לקראתו, בעקבותי, כמוה, אצלן, אותו, נו, עליהם, מחצית, שם, לרגל, לצד, מכיוון, לולא, לגבי, 
,מנת, אצלו, אליה, אותם, אצלנו, לפיהן, עליהן, בה, לקראתכם, של, אך, עמי, מחמת, אלי, דנן

In [9]:
# short stop words list. Intersection UD and 1000 most freq words

wiki_top_1000 = wiki_freq.head(1000)['word'].to_list()
stopwords_short = stopwords_base.intersection(set(wiki_top_1000))
stopwords_short_minus = {''}
stopwords_short = stopwords_short - stopwords_short_minus
print('Short list:')
print(
    ", ".join(
        [
            word if index % 15 != 0 else "\n," + word
            for index, word in enumerate(stopwords_short)
        ]
    )
)

Short list:

,כ, אלו, אצל, לאור, פחות, אחרי, באמצעות, מול, כדי, עת, החל, הן, רק, לו, מהם, 
,מן, אותה, לקראת, אשר, of, the, מעבר, כלומר, הרי, אי, שכן, זו, כלפי, בשל, על, 
,זהו, מצד, למשל, שאר, יחד, הם, כגון, תחת, עבור, כן, בתור, בפני, ללא, ככל, לשם, 
,ה, אל, לא, בעוד, לאחר, יש, מאשר, בגלל, רוב, כנגד, זה, במשך, מי, בין, אם, 
,מבין, גם, הוא, כי, פי, אחר, עצמה, ידי, בעקבות, דרך, לפי, סביב, אולם, עוד, בתוך, 
,הרבה, זאת, ב, נגד, מתחת, משום, קודם, למרות, מתוך, עצמו, בקרב, מאחר, במקום, כיוון, עם, 
,לבין, מרבית, אלא, מאז, מדי, עבר, את, עד, או, מאת, מעל, מפני, האם, כלל, לידי, 
,אותו, כאשר, The, לצד, מכיוון, אף, לגבי, מנת, כמו, אני, אותם, בה, יותר, של, אך, 
,ו, נכון, קרוב, לאורך, אלה, היא, כך, כל, הללו, לפני, אבל, א, מספר, מטעם, מ, 
,בזכות, למען, עקב, לעומת, בניגוד, ל, מעט, מה, לה, תוך, כפי, עצמם, ליד, כמה, בידי


In [10]:
# Download the list
from google.colab import files

pd.DataFrame({"stopswords": list(stopwords_extend)}).to_csv(
    "stopswords_list_extend.txt", index=False, sep="\t"
)

pd.DataFrame({"stopswords": list(stopwords_short)}).to_csv(
    "stopswords_list_short.txt", index=False, sep="\t"
)

files.download("stopswords_list_extend.txt")
files.download("stopswords_list_short.txt")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>