# TP1 String Manipulation Tasks

### 1. Counting the number of words (size) in a sentence

In [1]:
def count_words(sentence):
    return len(sentence.split())

# Examples
print("Counting words")
print(count_words("معالجة اللغة الطبيعية مجال رائع"))  # Normal sentence
print(count_words(""))  # Empty sentence
print(count_words("   "))  # Only spaces
print(count_words("اللغة"))  # Single word
print("\n")

Counting words
5
0
0
1




### 2. Searching for one string within another

In [2]:
def search_string(main_string, search_term):
    return main_string.find(search_term)

# Examples
print("Searching for a string")
print(search_string("معالجة اللغة الطبيعية باستخدام بايثون", "الطبيعية"))  # Found in the middle
print(search_string("معالجة اللغة الطبيعية باستخدام بايثون", "بايثون"))  # Found at the end
print(search_string("معالجة اللغة الطبيعية باستخدام بايثون", "لغة"))  # Found as part of a word
print("\n")

Searching for a string
13
31
9




### 3. Counting the occurrences of a word

In [3]:
def count_word_occurrences(text, word):
    return text.split().count(word)

# Examples
print("Counting occurrences of a word")
print(count_word_occurrences("بايثون لغة برمجة بايثون يستخدم في العديد من المجالات", "بايثون"))  # Multiple occurrences
print(count_word_occurrences("بايثون لغة برمجة", "الطبيعية"))  # Word not found
print("\n")

Counting occurrences of a word
2
0




### 4. Context of a word (finding occurrences and their context)

In [4]:
def word_context(sentence, word, context_range=2):
    words = sentence.split()
    indices = [i for i, w in enumerate(words) if w == word]
    contexts = [
        ' '.join(
            words[max(i - context_range, 0): min(i + context_range + 1, len(words))]
        )
        for i in indices
    ]
    return contexts

# Examples
print("Context of a word")
print(word_context("اللغة الطبيعية تساعد في استخراج المعلومات من النصوص معالجة اللغة الطبيعية هو موضوع مهم", "الطبيعية"))  # Normal case
print(word_context("الطبيعية مهمة جدا في هذا المجال", "الطبيعية"))  # Word at the beginning
print(word_context("نحتاج إلى المزيد من البحث في معالجة اللغة الطبيعية", "الطبيعية"))  # Word at the end
print(word_context("اللغة الطبيعية هو مجال في الذكاء الاصطناعي معالجة اللغة الطبيعية يعتمد على الخوارزميات", "الطبيعية"))  # Multiple occurrences
print(word_context("هذا المجال مهم جدا", "الطبيعية"))  # Word not found
print("\n")

Context of a word
['اللغة الطبيعية تساعد في', 'معالجة اللغة الطبيعية هو موضوع']
['الطبيعية مهمة جدا']
['معالجة اللغة الطبيعية']
['اللغة الطبيعية هو مجال', 'معالجة اللغة الطبيعية يعتمد على']
[]




### 5. Exact search

In [5]:
def exact_search(sentence, word):
    words = sentence.split()
    if word in words:
        return words.index(word)
    else:
        return -1  # Word not found

# Examples
print("Exact search")
print(exact_search("معالجة اللغة الطبيعية مفيدة", "مفيدة"))  # Output: 3 (index of "مفيدة")
print(exact_search("معالجة اللغة الطبيعية مفيدة", "طبيعي"))  # Output: -1 (word not found)
print("\n")

Exact search
3
-1




### 6. Pattern search using regular expressions

In [6]:
import re

def pattern_search(text, pattern):
    return re.findall(pattern, text)

# More examples
print("Pattern search examples:")

# Find all numbers
print(pattern_search("التكلفة 100 درهم و 75 ريال", r'\d+'))  # Finds: ['100', '75']

# Find Arabic words ending with specific letters
print(pattern_search("مدرسة جميلة كبيرة", r'\w+ة'))  # Finds words ending with ة

# Find email addresses
print(pattern_search("اتصل بنا على info@example.com او support@arabic.org", r'[\w\.-]+@[\w\.-]+'))

# Find dates in Arabic format
print(pattern_search("التاريخ 15/08/2023 والموعد 23/12/2023", r'\d{2}/\d{2}/\d{4}'))

# Find Arabic words between quotation marks
print(pattern_search('قال المدير "مرحباً" و"شكراً"', r'"([^"]*)"'))

# Find words starting with 'ال'
print(pattern_search("الكتاب المدرسي البيت", r'ال\w+'))

# Find Arabic currency amounts
print(pattern_search("السعر 50.75 ريال و 100 درهم", r'\d+(?:\.\d+)?(?=\s*(?:ريال|درهم))'))

Pattern search examples:
['100', '75']
['مدرسة', 'جميلة', 'كبيرة']
['info@example.com', 'support@arabic.org']
['15/08/2023', '23/12/2023']
['مرحباً', 'شكراً']
['الكتاب', 'المدرسي', 'البيت']
['50.75', '100']


### 7. Reading text from a file

In [7]:
def read_text_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        return file.read()

# Example
text = read_text_file('sample_arabic_text.txt')
print(text)

معالجة اللغة الطبيعية هي إحدى فروع الذكاء الاصطناعي. يتم استخدام تقنيات معالجة اللغة الطبيعية لفهم النصوص المكتوبة و تحليلها



### 8. Named Entity Recognition (NER)

In [None]:
pip install transformers torch

In [None]:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("aubmindlab/bert-base-arabertv02")
model = AutoModelForTokenClassification.from_pretrained("aubmindlab/bert-base-arabertv02")

# Create a NER pipeline
nlp = pipeline("ner", model=model, tokenizer=tokenizer)


tokenizer_config.json:   0%|          | 0.00/381 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/825k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.64M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/543M [00:00<?, ?B/s]

Some weights of BertForTokenClassification were not initialized from the model checkpoint at aubmindlab/bert-base-arabertv02 and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
# Sample Arabic text
text = "زار الرئيس الجزائري عبد المجيد تبون العاصمة المصرية القاهرة."

# Perform NER
ner_results = nlp(text)

# Print the results
for entity in ner_results:
    print(f"Entity: {entity['word']}, Label: {entity['entity']}")

Entity: زار, Label: LABEL_0
Entity: الرئيس, Label: LABEL_0
Entity: الجزائري, Label: LABEL_1
Entity: عبد, Label: LABEL_0
Entity: المجيد, Label: LABEL_1
Entity: تب, Label: LABEL_1
Entity: ##ون, Label: LABEL_1
Entity: العاصمة, Label: LABEL_0
Entity: المصرية, Label: LABEL_1
Entity: القاهرة, Label: LABEL_1
Entity: ., Label: LABEL_0


### 8. Named Entity Recognition (NER) (from scratch)

In [None]:
import re

# Define a class-based NER system
class RuleBasedNER:
    def __init__(self):
        # Dictionaries for entities
        self.dictionaries = {
            "PERSON": ["عبد المجيد تبون", "محمد", "علي", "أحمد", "يوسف"],
            "TITLE": ["الرئيس", "الملك", "الوزير", "الدكتور"],
            "LOCATION": ["الجزائر", "القاهرة", "العاصمة المصرية", "المغرب", "تونس", "دمشق"],
            "ORGANIZATION": ["الأمم المتحدة", "جامعة الدول العربية", "شركة نفط الجزائر", "وزارة الصحة"],
        }
        
        # Regular expressions for specific patterns
        self.patterns = {
            "DATE": r"\b\d{1,2} (يناير|فبراير|مارس|أبريل|مايو|يونيو|يوليو|أغسطس|سبتمبر|أكتوبر|نوفمبر|ديسمبر) \d{4}\b",
            "TIME": r"\b\d{1,2}:\d{2} (صباحًا|مساءً)\b",
            "MONEY": r"\b\d+ (دولار|يورو|دينار|جنيه)\b",
            "PERCENTAGE": r"\b\d+%\b",
        }

    def extract_entities(self, text):
        entities = []

        # Match using dictionaries
        for label, words in self.dictionaries.items():
            for word in words:
                matches = re.finditer(rf"\b{re.escape(word)}\b", text)
                for match in matches:
                    entities.append({"Entity": match.group(), "Label": label})

        # Match using regular expressions
        for label, pattern in self.patterns.items():
            matches = re.finditer(pattern, text)
            for match in matches:
                entities.append({"Entity": match.group(), "Label": label})

        return entities


# Instantiate the NER system
ner_system = RuleBasedNER()

# Sample text
text = """
زار الرئيس الجزائري عبد المجيد تبون العاصمة المصرية القاهرة في 15 نوفمبر 2023.
وخلال زيارته، التقى بمسؤولين من جامعة الدول العربية وناقش عدة قضايا.
كما أشار إلى تخصيص 500 مليون دولار لدعم مشاريع الطاقة في الجزائر.
"""

# Perform NER
ner_results = ner_system.extract_entities(text)

# Print the results
for entity in ner_results:
    print(f"Entity: {entity['Entity']}, Label: {entity['Label']}")


Entity: عبد المجيد تبون, Label: PERSON
Entity: الرئيس, Label: TITLE
Entity: الجزائر, Label: LOCATION
Entity: القاهرة, Label: LOCATION
Entity: العاصمة المصرية, Label: LOCATION
Entity: جامعة الدول العربية, Label: ORGANIZATION
Entity: 15 نوفمبر 2023, Label: DATE


### 9. Corpus Manipulation

In [None]:
class Corpus:
    def __init__(self):
        self.documents = []

    def add_document(self, text):
        self.documents.append(text)

    def delete_document(self, index):
        if index < len(self.documents):
            del self.documents[index]

    def retrieve_document(self, index):
        if index < len(self.documents):
            return self.documents[index]
        return None

    def count_documents(self):
        return len(self.documents)

    def count_sentences(self, index):
        if index < len(self.documents):
            return len(self.documents[index].split('.'))

    def count_words_in_corpus(self):
        return sum(count_words(doc) for doc in self.documents)

    def search_in_corpus(self, search_term):
        return [doc for doc in self.documents if search_string(doc, search_term) != -1]

    def count_word_occurrences_in_corpus(self, word):
        return sum(count_word_occurrences(doc, word) for doc in self.documents)

# Examples
print("Corpus Manipulation")
corpus = Corpus()
# corpus.add_document(read_text_file('sample_arabic_text1.txt'))
# corpus.add_document(read_text_file('sample_arabic_text2.txt'))
corpus.add_document("معالجة اللغة الطبيعية هو مجال من مجالات الذكاء الاصطناعي")
corpus.add_document("بايثون يستخدم بشكل واسع في معالجة اللغة الطبيعية")
print(corpus.count_documents())  # Count documents
print(corpus.retrieve_document(0))  # Retrieve first document
corpus.delete_document(1)
print(corpus.count_documents())  # Count after deletion

Corpus Manipulation
2
معالجة اللغة الطبيعية هو مجال من مجالات الذكاء الاصطناعي
1
