In [3]:
!pip install nltk


Collecting nltk
  Using cached nltk-3.9.1-py3-none-any.whl.metadata (2.9 kB)
Collecting regex>=2021.8.3 (from nltk)
  Downloading regex-2024.11.6-cp313-cp313-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (40 kB)
Downloading nltk-3.9.1-py3-none-any.whl (1.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading regex-2024.11.6-cp313-cp313-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (796 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m796.9/796.9 kB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: regex, nltk
Successfully installed nltk-3.9.1 regex-2024.11.6


In [1]:
import re
import nltk
from nltk.tokenize import word_tokenize


nltk.download('punkt')



[nltk_data] Downloading package punkt to /home/doaa/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
arabic_stopwords = set([
    "في", "من", "على", "و", "ما", "عن", "إلى", "أن", "إن", "لا", "لم", "لن", "هو", "هي", "هذا", "هذه", 
    "ذلك", "تلك", "هناك", "هنا", "ثم", "قد", "حتى", "إذا", "بين", "كان", "كانت", "يكون", "نكون", "مع", "كل",
    "كما", "لكن", "أو", "أي", "أين", "كيف", "هل", "أجل", "بل", "ف", "ب", "أ", "ل", "إ"
])


In [3]:
def normalize_arabic(text):
    text = re.sub("[إأآا]", "ا", text)
    text = re.sub("ى", "ي", text)
    text = re.sub("ؤ", "و", text)
    text = re.sub("ئ", "ي", text)
    text = re.sub("ة", "ه", text)
    text = re.sub("ـ", "", text)
    text = re.sub(r'[ًٌٍَُِّْ]', '', text)
    return text

In [4]:
def clean_text(text):
    text = re.sub(r'[^\w\s]', ' ', text)  # حذف الرموز
    text = re.sub(r'\d+', '', text)       # حذف الأرقام
    text = re.sub(r'\s+', ' ', text)      # توحيد المسافات
    text = normalize_arabic(text)
    return text.strip()

In [5]:
input_path = "/home/doaa/programming/NLP/arwiki_plaintext.txt"
processed_sentences = []
max_lines = 20000
subset = []
with open(input_path, 'r', encoding='utf-8') as f:
    for i, line in enumerate(f):
        if i >= max_lines:
            break
        cleaned = clean_text(line)
        tokens = word_tokenize(cleaned)
        tokens = [t for t in tokens if t not in arabic_stopwords and len(t) > 2]
        processed_sentences.append(tokens)


In [6]:
with open("subset_arwiki.txt", "w", encoding="utf-8") as out:
    for line in subset:
        out.write(line + "\n")


In [7]:
for sent in processed_sentences[:5]:
    print(sent)


[]
['ماء']
['يسار', 'تصغير', 'xبك', 'الماء', 'المركب', 'الكيميايي', 'الاكثر', 'وفره', 'الارض']
['يسار', 'تصغير', 'xبك', 'الماء', 'حالاته', 'الثلاث', 'السايله', 'والصلبه', 'جليد', 'والغازيه', 'بخار', 'ماء', 'سحاب']
['الماء', 'ماده', 'شفافه', 'عديمه', 'اللون', 'والرايحه', 'وهو', 'المكو', 'الاساسي', 'للجداول', 'والبحيرات', 'والبحار', 'والمحيطات', 'وكذلك', 'للسوايل', 'جميع', 'الكاينات', 'الحي', 'وهو', 'اكثر', 'المرك', 'بات', 'الكيميايي', 'انتشارا', 'علي', 'سطح', 'الارض', 'يتال', 'جزيء', 'الماء', 'اكسجين', 'مركزيه', 'ترتبط', 'بها', 'هيدروجين', 'علي', 'طرفيها', 'برابطه', 'تساهمي', 'بحيث', 'تكون', 'صيغته', 'الكيمياييه', 'عند', 'الظروف', 'القياسيه', 'الضغط', 'ودرجه', 'الحراره', 'الماء', 'سايلا', 'الحاله', 'الصلبه', 'فتتشك', 'عند', 'نقطه', 'التجم', 'وتدعي', 'بالجليد', 'الحاله', 'الغازيه', 'فتتشك', 'عند', 'نقطه', 'الغليان', 'وتسم', 'بخار', 'الماء']


In [7]:
from nltk.stem.isri import ISRIStemmer

stemmer = ISRIStemmer()
input_path = "/home/doaa/programming/NLP/arwiki_plaintext.txt"
output_path = "/home/doaa/programming/NLP/preprocessed_arwiki.txt"

processed_sentences = []
max_lines = 20000

with open(input_path, 'r', encoding='utf-8') as f:
    for i, line in enumerate(f):
        if i >= max_lines:
            break
        cleaned = clean_text(line)
        tokens = word_tokenize(cleaned)
        filtered_tokens = [t for t in tokens if t not in arabic_stopwords and len(t) > 2]
        stemmed_tokens = [stemmer.stem(t) for t in filtered_tokens]
        processed_sentences.append(stemmed_tokens)

# ✅ حفظ النتيجة في ملف
with open(output_path, 'w', encoding='utf-8') as f:
    for tokens in processed_sentences:
        f.write(" ".join(tokens) + "\n")



In [8]:
with open(output_path, 'w', encoding='utf-8') as f:
    for tokens in processed_sentences:
        f.write(" ".join(tokens) + "\n")

print(f"Processed sentences saved to {output_path}")

Processed sentences saved to /home/doaa/programming/NLP/preprocessed_arwiki.txt


In [9]:
from nltk.tokenize import word_tokenize
import re
import nltk

nltk.download('punkt')

arabic_stopwords = set([
    "في", "من", "على", "و", "ما", "عن", "إلى", "أن", "إن", "لا", "لم", "لن", "هو", "هي", "هذا", "هذه", 
    "ذلك", "تلك", "هناك", "هنا", "ثم", "قد", "حتى", "إذا", "بين", "كان", "كانت", "يكون", "نكون", "مع", "كل",
    "كما", "لكن", "أو", "أي", "أين", "كيف", "هل", "أجل", "بل", "ف", "ب", "أ", "ل", "إ"
])

def normalize_arabic(text):
    text = re.sub("[إأآا]", "ا", text)
    text = re.sub("ى", "ي", text)
    text = re.sub("ؤ", "و", text)
    text = re.sub("ئ", "ي", text)
    text = re.sub("ة", "ه", text)
    text = re.sub("ـ", "", text)
    text = re.sub(r'[ًٌٍَُِّْ]', '', text)
    return text

def clean_text(text):
    text = re.sub(r'[^\w\s]', ' ', text)
    text = re.sub(r'\d+', '', text)
    text = re.sub(r'\s+', ' ', text)
    text = normalize_arabic(text)
    return text.strip()

input_path = "/home/doaa/programming/NLP/arwiki_plaintext.txt"
output_path = "/home/doaa/programming/NLP/preprocessed_arwiki_for_autocomplete.txt"

processed_sentences = []
max_lines = 100000

with open(input_path, 'r', encoding='utf-8') as f:
    for i, line in enumerate(f):
        if i >= max_lines:
            break
        cleaned = clean_text(line)
        tokens = word_tokenize(cleaned)
        filtered_tokens = [t for t in tokens if len(t) > 2]
        processed_sentences.append(filtered_tokens)

with open(output_path, 'w', encoding='utf-8') as f:
    for tokens in processed_sentences:
        f.write(" ".join(tokens) + "\n")

for sent in processed_sentences[:5]:
    print(sent)


[nltk_data] Downloading package punkt to /home/doaa/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


[]
['ماء']
['يسار', 'تصغير', 'xبك', 'الماء', 'المركب', 'الكيميايي', 'الاكثر', 'وفره', 'الارض']
['يسار', 'تصغير', 'xبك', 'الماء', 'حالاته', 'الثلاث', 'السايله', 'والصلبه', 'جليد', 'والغازيه', 'بخار', 'ماء', 'سحاب']
['الماء', 'ماده', 'شفافه', 'عديمه', 'اللون', 'والرايحه', 'وهو', 'المكو', 'الاساسي', 'للجداول', 'والبحيرات', 'والبحار', 'والمحيطات', 'وكذلك', 'للسوايل', 'جميع', 'الكاينات', 'الحي', 'وهو', 'اكثر', 'المرك', 'بات', 'الكيميايي', 'انتشارا', 'علي', 'سطح', 'الارض', 'يتال', 'جزيء', 'الماء', 'اكسجين', 'مركزيه', 'ترتبط', 'بها', 'هيدروجين', 'علي', 'طرفيها', 'برابطه', 'تساهمي', 'بحيث', 'تكون', 'صيغته', 'الكيمياييه', 'عند', 'الظروف', 'القياسيه', 'الضغط', 'ودرجه', 'الحراره', 'يكون', 'الماء', 'سايلا', 'الحاله', 'الصلبه', 'فتتشك', 'عند', 'نقطه', 'التجم', 'وتدعي', 'بالجليد', 'الحاله', 'الغازيه', 'فتتشك', 'عند', 'نقطه', 'الغليان', 'وتسم', 'بخار', 'الماء']
