# Lab 1

## Scrapping

In [1]:
import requests
from bs4 import BeautifulSoup

def scrap_text(base_url, sections):
    scraped_text = ""
    for section in sections:
        url = f"{base_url}/{section}"
        response = requests.get(url)
        soup = BeautifulSoup(response.content, "html.parser")

        # Rechercher les balises div avec la classe "ct-text-block"
        div_elements = soup.find_all("div", class_="ct-text-block")
        for div_element in div_elements:
            scraped_text += div_element.get_text(strip=True) + "\n"

        # Rechercher les balises div avec la classe "oxy-rich-text"
        oxy_div_elements = soup.find_all("div", class_="oxy-rich-text")
        for oxy_div_element in oxy_div_elements:
            scraped_text += oxy_div_element.get_text(strip=True) + "\n"

        # Rechercher les balises p
        p_elements = soup.find_all("p")
        for p_element in p_elements:
            scraped_text += p_element.get_text(strip=True) + "\n"

    return scraped_text

# Exemple d'utilisation
base_url = "https://ibtekr.org/"
sections = ["learn", "cases", "reports", "articles", "مرصد", "about"]

scraped_text = scrap_text(base_url, sections)
print(scraped_text)


تضم منصة "ابتكر" مجموعة من المساقات التعليمية المجانية التي تتضمن منهجيات عالمية حديثة وأدوات عملية تؤكد على أهمية ترسيخ ثقافة الابتكارالحكومي لما لذلك من دور هام في مواجهة التحديات وتطوير الخدمات ورفع كفاءة العمل الحكومي، ويقوم على تطوير محتوياتها نخبة من الخبراء والأكاديميين العرب وموظفو حكومة دولة الامارات العربية المتحدة باللغة العربية كما يتم منح شهادات معتمدة من المركز باتمام المساق لكافة المتعلمين. يتوفر على المنصة خمسة مساقات، الابتكار في العمل الحكومي، مختبرات الابتكارات لصناعة المسقبل، أدوات الابتكار، التبصر السلوكي والمسرعات الحكومية.
كيف تتمكن من استخدام أدوات الابتكار في تطوير بعض المبادرات التي تساهم في استدامة الابتكار وتحويله إلى ممارسة يومية؟ كيف يمكن تحقيق ذلك بموجب مجموعة من الأولويات عبر التركيز على التحديات والقضايا الرئيسية؟ سجّل الآن....
تنطوي عملية التبصّر السلوكي على دراسة السلوك البشري ومحاولة فهمه ليتسنّى وضع سياسات قياسية تُلبي متطلبات المجتمع بشكل أكثر واقعية وتُثمر عن مجموعة من التدخلات السلوكية الرامية إلى تحقيق النتائج المرجوة والتحسين والتأقلم.
هو مساق 

## Storing the raw data on a NoSql database “MongoDB”.

In [2]:
import pymongo

client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["website_text"]
collection = db["collected"]

# Prepare document with the array
data = {"scraped_text": scraped_text}

# Insert the document
collection.insert_one(data)

print("Scraped text (array) stored in MongoDB!")


Scraped text (array) stored in MongoDB!


## Text Cleaning

### Unicode Normalization

In [3]:
import unicodedata

# Supposons que scraped_text contient le texte extrait
nor_data = unicodedata.normalize('NFC', scraped_text)
print(nor_data)


تضم منصة "ابتكر" مجموعة من المساقات التعليمية المجانية التي تتضمن منهجيات عالمية حديثة وأدوات عملية تؤكد على أهمية ترسيخ ثقافة الابتكارالحكومي لما لذلك من دور هام في مواجهة التحديات وتطوير الخدمات ورفع كفاءة العمل الحكومي، ويقوم على تطوير محتوياتها نخبة من الخبراء والأكاديميين العرب وموظفو حكومة دولة الامارات العربية المتحدة باللغة العربية كما يتم منح شهادات معتمدة من المركز باتمام المساق لكافة المتعلمين. يتوفر على المنصة خمسة مساقات، الابتكار في العمل الحكومي، مختبرات الابتكارات لصناعة المسقبل، أدوات الابتكار، التبصر السلوكي والمسرعات الحكومية.
كيف تتمكن من استخدام أدوات الابتكار في تطوير بعض المبادرات التي تساهم في استدامة الابتكار وتحويله إلى ممارسة يومية؟ كيف يمكن تحقيق ذلك بموجب مجموعة من الأولويات عبر التركيز على التحديات والقضايا الرئيسية؟ سجّل الآن....
تنطوي عملية التبصّر السلوكي على دراسة السلوك البشري ومحاولة فهمه ليتسنّى وضع سياسات قياسية تُلبي متطلبات المجتمع بشكل أكثر واقعية وتُثمر عن مجموعة من التدخلات السلوكية الرامية إلى تحقيق النتائج المرجوة والتحسين والتأقلم.
هو مساق 

### Regex or Regular Expression

In [4]:
import re

text = "This is a text with  emojis and  smiles."

# Regex pattern to match emojis
emoji_pattern = r"(?:\U0001F9A0|\U0001F4AB|\U0001F9ED|\U0001F4F0|\U0001F4D9|\U0001F4A1|\U0001F52C|\U00002692|\U00002728|\U000000A9|\U0001F1E6\U0001F1EA)"
texte_a_supprimer = ["Please wait, We are working on your request.","NEC","Carrot Rewards","SMRT","Dynniq"]


# Remove emojis using re.sub
cleaned_text = re.sub(emoji_pattern, "",nor_data)
for text_to_remove in texte_a_supprimer:
    cleaned_text = re.sub(re.escape(text_to_remove), "", cleaned_text)
cleaned_text= re.sub(r'\d+', '', cleaned_text)

print(cleaned_text)  


تضم منصة "ابتكر" مجموعة من المساقات التعليمية المجانية التي تتضمن منهجيات عالمية حديثة وأدوات عملية تؤكد على أهمية ترسيخ ثقافة الابتكارالحكومي لما لذلك من دور هام في مواجهة التحديات وتطوير الخدمات ورفع كفاءة العمل الحكومي، ويقوم على تطوير محتوياتها نخبة من الخبراء والأكاديميين العرب وموظفو حكومة دولة الامارات العربية المتحدة باللغة العربية كما يتم منح شهادات معتمدة من المركز باتمام المساق لكافة المتعلمين. يتوفر على المنصة خمسة مساقات، الابتكار في العمل الحكومي، مختبرات الابتكارات لصناعة المسقبل، أدوات الابتكار، التبصر السلوكي والمسرعات الحكومية.
كيف تتمكن من استخدام أدوات الابتكار في تطوير بعض المبادرات التي تساهم في استدامة الابتكار وتحويله إلى ممارسة يومية؟ كيف يمكن تحقيق ذلك بموجب مجموعة من الأولويات عبر التركيز على التحديات والقضايا الرئيسية؟ سجّل الآن....
تنطوي عملية التبصّر السلوكي على دراسة السلوك البشري ومحاولة فهمه ليتسنّى وضع سياسات قياسية تُلبي متطلبات المجتمع بشكل أكثر واقعية وتُثمر عن مجموعة من التدخلات السلوكية الرامية إلى تحقيق النتائج المرجوة والتحسين والتأقلم.
هو مساق 

### Spelling corrections

In [5]:
from pyarabic.araby import strip_tashkeel, is_arabicrange, strip_tashkeel, normalize_ligature
from pyarabic.araby import strip_tatweel, strip_shadda

corrected_text = normalize_ligature(cleaned_text) 
corrected_text = strip_tatweel(corrected_text) 
print(corrected_text)

تضم منصة "ابتكر" مجموعة من المساقات التعليمية المجانية التي تتضمن منهجيات عالمية حديثة وأدوات عملية تؤكد على أهمية ترسيخ ثقافة الابتكارالحكومي لما لذلك من دور هام في مواجهة التحديات وتطوير الخدمات ورفع كفاءة العمل الحكومي، ويقوم على تطوير محتوياتها نخبة من الخبراء والأكاديميين العرب وموظفو حكومة دولة الامارات العربية المتحدة باللغة العربية كما يتم منح شهادات معتمدة من المركز باتمام المساق لكافة المتعلمين. يتوفر على المنصة خمسة مساقات، الابتكار في العمل الحكومي، مختبرات الابتكارات لصناعة المسقبل، أدوات الابتكار، التبصر السلوكي والمسرعات الحكومية.
كيف تتمكن من استخدام أدوات الابتكار في تطوير بعض المبادرات التي تساهم في استدامة الابتكار وتحويله إلى ممارسة يومية؟ كيف يمكن تحقيق ذلك بموجب مجموعة من الأولويات عبر التركيز على التحديات والقضايا الرئيسية؟ سجّل الآن....
تنطوي عملية التبصّر السلوكي على دراسة السلوك البشري ومحاولة فهمه ليتسنّى وضع سياسات قياسية تُلبي متطلبات المجتمع بشكل أكثر واقعية وتُثمر عن مجموعة من التدخلات السلوكية الرامية إلى تحقيق النتائج المرجوة والتحسين والتأقلم.
هو مساق 

## Text Preprocessing

### Tokenization

In [6]:
import nltk

nltk.download('punkt')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [7]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

# Tokenization des mots
tokens = tokenizer.tokenize(corrected_text)

# Affichage des tokens
print(tokens)

['تضم', 'منصة', '``', 'ابتكر', "''", 'مجموعة', 'من', 'المساقات', 'التعليمية', 'المجانية', 'التي', 'تتضمن', 'منهجيات', 'عالمية', 'حديثة', 'وأدوات', 'عملية', 'تؤكد', 'على', 'أهمية', 'ترسيخ', 'ثقافة', 'الابتكارالحكومي', 'لما', 'لذلك', 'من', 'دور', 'هام', 'في', 'مواجهة', 'التحديات', 'وتطوير', 'الخدمات', 'ورفع', 'كفاءة', 'العمل', 'الحكومي،', 'ويقوم', 'على', 'تطوير', 'محتوياتها', 'نخبة', 'من', 'الخبراء', 'والأكاديميين', 'العرب', 'وموظفو', 'حكومة', 'دولة', 'الامارات', 'العربية', 'المتحدة', 'باللغة', 'العربية', 'كما', 'يتم', 'منح', 'شهادات', 'معتمدة', 'من', 'المركز', 'باتمام', 'المساق', 'لكافة', 'المتعلمين.', 'يتوفر', 'على', 'المنصة', 'خمسة', 'مساقات،', 'الابتكار', 'في', 'العمل', 'الحكومي،', 'مختبرات', 'الابتكارات', 'لصناعة', 'المسقبل،', 'أدوات', 'الابتكار،', 'التبصر', 'السلوكي', 'والمسرعات', 'الحكومية.', 'كيف', 'تتمكن', 'من', 'استخدام', 'أدوات', 'الابتكار', 'في', 'تطوير', 'بعض', 'المبادرات', 'التي', 'تساهم', 'في', 'استدامة', 'الابتكار', 'وتحويله', 'إلى', 'ممارسة', 'يومية؟', 'كيف', 'يمكن', 'تح

### Stop words

In [8]:
import nltk

# Download the Arabic stopwords corpus
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [9]:
from nltk.corpus import stopwords

# Get Arabic stopwords
arabic_stopwords = set(stopwords.words('arabic'))

# Remove stopwords from the text
filtered_words = [word for word in tokens if word.lower() not in arabic_stopwords]

print(filtered_words)

['تضم', 'منصة', '``', 'ابتكر', "''", 'مجموعة', 'المساقات', 'التعليمية', 'المجانية', 'تتضمن', 'منهجيات', 'عالمية', 'حديثة', 'وأدوات', 'عملية', 'تؤكد', 'أهمية', 'ترسيخ', 'ثقافة', 'الابتكارالحكومي', 'لذلك', 'دور', 'هام', 'مواجهة', 'التحديات', 'وتطوير', 'الخدمات', 'ورفع', 'كفاءة', 'العمل', 'الحكومي،', 'ويقوم', 'تطوير', 'محتوياتها', 'نخبة', 'الخبراء', 'والأكاديميين', 'العرب', 'وموظفو', 'حكومة', 'دولة', 'الامارات', 'العربية', 'المتحدة', 'باللغة', 'العربية', 'يتم', 'منح', 'شهادات', 'معتمدة', 'المركز', 'باتمام', 'المساق', 'لكافة', 'المتعلمين.', 'يتوفر', 'المنصة', 'مساقات،', 'الابتكار', 'العمل', 'الحكومي،', 'مختبرات', 'الابتكارات', 'لصناعة', 'المسقبل،', 'أدوات', 'الابتكار،', 'التبصر', 'السلوكي', 'والمسرعات', 'الحكومية.', 'تتمكن', 'استخدام', 'أدوات', 'الابتكار', 'تطوير', 'المبادرات', 'تساهم', 'استدامة', 'الابتكار', 'وتحويله', 'ممارسة', 'يومية؟', 'يمكن', 'تحقيق', 'بموجب', 'مجموعة', 'الأولويات', 'عبر', 'التركيز', 'التحديات', 'والقضايا', 'الرئيسية؟', 'سجّل', '...', '.', 'تنطوي', 'عملية', 'التبصّر',

### Stemming

In [10]:
nltk.download('wordnet')
import nltk
from nltk.stem import ISRIStemmer


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [14]:
import nltk
from nltk.stem.snowball import SnowballStemmer

# Initialize Snowball stemmer for Arabic
stemmer = SnowballStemmer("arabic")

# Stem each word
stemmed_words = [stemmer.stem(word) for word in filtered_words]

In [15]:
print(stemmed_words)

['تضم', 'منص', '``', 'ابتكر', "''", 'مجموع', 'مساق', 'تعليم', 'مجان', 'تتضم', 'منهج', 'عالم', 'حديث', 'ادو', 'عمل', 'توكد', 'اهم', 'ترسيخ', 'ثقاف', 'ابتكارالحكوم', 'لذل', 'دور', 'هام', 'مواجه', 'تحد', 'تطوير', 'خدم', 'رفع', 'كفاء', 'عمل', 'حكوم', 'يقوم', 'تطوير', 'محتو', 'نخب', 'خبراء', 'اكاديم', 'عرب', 'موظف', 'حكوم', 'دول', 'امار', 'عرب', 'متحد', 'اللغ', 'عرب', 'يتم', 'منح', 'شهاد', 'معتمد', 'مركز', 'اتمام', 'مساق', 'لكاف', 'متعلمين.', 'يتوفر', 'منص', 'مساق', 'ابتكار', 'عمل', 'حكوم', 'مختبر', 'ابتكار', 'صناع', 'مسقبل', 'ادو', 'ابتكار', 'تبصر', 'سلوك', 'مسرع', 'حكومية.', 'تتم', 'استخدام', 'ادو', 'ابتكار', 'تطوير', 'مبادر', 'تسا', 'استدام', 'ابتكار', 'تحويل', 'ممارس', 'يوم', 'يمك', 'تحقيق', 'موجب', 'مجموع', 'اولو', 'عبر', 'تركيز', 'تحد', 'والقض', 'رييس', 'سجل', '...', '.', 'تنطو', 'عمل', 'تبصر', 'سلوك', 'دراس', 'سلوك', 'بشر', 'محاول', 'فهم', 'يتسنى', 'وضع', 'سياس', 'قياس', 'تلب', 'متطلب', 'مجتمع', 'شكل', 'واقع', 'تثمر', 'مجموع', 'تدخل', 'سلوك', 'رام', 'تحقيق', 'نتايج', 'مرجو', 'تحس', '

### Lemmatization

In [29]:
pip install qalsadi

Collecting qalsadi
  Downloading qalsadi-0.5-py3-none-any.whl.metadata (12 kB)
Collecting Arabic-Stopwords>=0.4.2 (from qalsadi)
  Downloading Arabic_Stopwords-0.4.3-py3-none-any.whl.metadata (8.9 kB)
Collecting alyahmor>=0.2 (from qalsadi)
  Downloading alyahmor-0.2-py3-none-any.whl.metadata (11 kB)
Collecting arramooz-pysqlite>=0.4.2 (from qalsadi)
  Downloading arramooz_pysqlite-0.4.2-py3-none-any.whl.metadata (4.0 kB)
Collecting codernitydb3 (from qalsadi)
  Downloading codernitydb3-0.6.0.tar.gz (46 kB)
     ---------------------------------------- 0.0/46.1 kB ? eta -:--:--
     ---------------------------------------- 46.1/46.1 kB 1.1 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting libqutrub>=1.2.3 (from qalsadi)
  Downloading libqutrub-1.2.4.1-py3-none-any.whl.metadata (7.5 kB)
Collecting mysam-tagmanager>=0.3.3 (from qalsadi)
  Downloading mysam_tagmanager-0.4-py3-none-any.whl.metadata (10 kB)
Coll


[notice] A new release of pip is available: 23.3.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [31]:
import qalsadi.lemmatizer
lemmer = qalsadi.lemmatizer.Lemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(word) for word in filtered_words]
print(lemmatized_tokens)

['تضم', 'منصة', '``', 'ابتكر', "''", 'مجموعة', 'المساقات', 'التعليمية', 'المجانية', 'تتضمن', 'منهجيات', 'عالمية', 'حديثة', 'وأدوات', 'عملية', 'تؤكد', 'أهمية', 'ترسيخ', 'ثقافة', 'الابتكارالحكومي', 'لذلك', 'دور', 'هام', 'مواجهة', 'التحديات', 'وتطوير', 'الخدمات', 'ورفع', 'كفاءة', 'العمل', 'الحكومي،', 'ويقوم', 'تطوير', 'محتوياتها', 'نخبة', 'الخبراء', 'والأكاديميين', 'العرب', 'وموظفو', 'حكومة', 'دولة', 'الامارات', 'العربية', 'المتحدة', 'باللغة', 'العربية', 'يتم', 'منح', 'شهادات', 'معتمدة', 'المركز', 'باتمام', 'المساق', 'لكافة', 'المتعلمين.', 'يتوفر', 'المنصة', 'مساقات،', 'الابتكار', 'العمل', 'الحكومي،', 'مختبرات', 'الابتكارات', 'لصناعة', 'المسقبل،', 'أدوات', 'الابتكار،', 'التبصر', 'السلوكي', 'والمسرعات', 'الحكومية.', 'تتمكن', 'استخدام', 'أدوات', 'الابتكار', 'تطوير', 'المبادرات', 'تساهم', 'استدامة', 'الابتكار', 'وتحويله', 'ممارسة', 'يومية؟', 'يمكن', 'تحقيق', 'بموجب', 'مجموعة', 'الأولويات', 'عبر', 'التركيز', 'التحديات', 'والقضايا', 'الرئيسية؟', 'سجّل', '...', '.', 'تنطوي', 'عملية', 'التبصّر',

### Compare Stemming and Lemmatization
##### Lemmatization produces a more accurate and meaningful representation of the text, while stemming can result in incorrect or ambiguous words.in conclusion,Lemmatization is generally considered to be a more sophisticated and accurate technique for processing Arabic text compared to stemming. However, stemming may be faster and more efficient for certain applications, especially when dealing with large datasets. The choice of which technique to use depends on the specific requirements 

### Parts of Speech

#### Rule based

In [38]:
import os
from nltk.tag import StanfordPOSTagger


In [40]:
java_path="C:/Program Files/Java/jre-1.8/bin/java.exe"
os.environ['JAVAHOME']=java_path

In [44]:
jar="C:/Users/HP/Downloads/stanford-tagger-4.2.0/stanford-postagger-full-2020-11-17/stanford-postagger.jar"
model="C:/Users/HP/Downloads/stanford-tagger-4.2.0/stanford-postagger-full-2020-11-17/models/arabic.tagger"

In [45]:
pos_tagger=StanfordPOSTagger(model,jar,encoding='utf8')
text_pos=pos_tagger.tag(tokens)

In [46]:
print(text_pos)

[('', 'تضم/VBP'), ('', 'منصة/NN'), ('', '``/NN'), ('', 'ابتكر/VBD'), ('', "''/NN"), ('', 'مجموعة/NN'), ('', 'من/IN'), ('', 'المساقات/DTNNS'), ('', 'التعليمية/DTJJ'), ('', 'المجانية/DTJJ'), ('', 'التي/WP'), ('', 'تتضمن/VBP'), ('', 'منهجيات/NN'), ('', 'عالمية/JJ'), ('', 'حديثة/JJ'), ('', 'وأدوات/NNS'), ('', 'عملية/NN'), ('', 'تؤكد/VBP'), ('', 'على/IN'), ('', 'أهمية/NN'), ('', 'ترسيخ/NN'), ('', 'ثقافة/NN'), ('', 'الابتكارالحكومي/DTNN'), ('', 'لما/IN'), ('', 'لذلك/NN'), ('', 'من/IN'), ('', 'دور/NN'), ('', 'هام/JJ'), ('', 'في/IN'), ('', 'مواجهة/NN'), ('', 'التحديات/DTNNS'), ('', 'وتطوير/NN'), ('', 'الخدمات/DTNNS'), ('', 'ورفع/NN'), ('', 'كفاءة/NN'), ('', 'العمل/DTNN'), ('', 'الحكومي،/DTJJ'), ('', 'ويقوم/NNP'), ('', 'على/IN'), ('', 'تطوير/NN'), ('', 'محتوياتها/NN'), ('', 'نخبة/NN'), ('', 'من/IN'), ('', 'الخبراء/DTNN'), ('', 'والأكاديميين/NNS'), ('', 'العرب/DTNN'), ('', 'وموظفو/NNP'), ('', 'حكومة/NN'), ('', 'دولة/NN'), ('', 'الامارات/DTNNS'), ('', 'العربية/DTJJ'), ('', 'المتحدة/DTJJ'), ('', '

#### Machine learning approaches

In [48]:
pip install transformers


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.3.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


Collecting transformers
  Downloading transformers-4.39.3-py3-none-any.whl.metadata (134 kB)
     ---------------------------------------- 0.0/134.8 kB ? eta -:--:--
     ----------- ------------------------- 41.0/134.8 kB 960.0 kB/s eta 0:00:01
     -------------------------------------  133.1/134.8 kB 1.6 MB/s eta 0:00:01
     -------------------------------------- 134.8/134.8 kB 1.1 MB/s eta 0:00:00
Collecting tokenizers<0.19,>=0.14 (from transformers)
  Downloading tokenizers-0.15.2-cp311-none-win_amd64.whl.metadata (6.8 kB)
Collecting safetensors>=0.4.1 (from transformers)
  Downloading safetensors-0.4.2-cp311-none-win_amd64.whl.metadata (3.9 kB)
Downloading transformers-4.39.3-py3-none-any.whl (8.8 MB)
   ---------------------------------------- 0.0/8.8 MB ? eta -:--:--
    --------------------------------------- 0.2/8.8 MB 3.3 MB/s eta 0:00:03
   - -------------------------------------- 0.3/8.8 MB 3.4 MB/s eta 0:00:03
   --- ------------------------------------ 0.8/8.8 MB 5.7 MB

In [50]:
pip install torch


Note: you may need to restart the kernel to use updated packages.Collecting torch
  Downloading torch-2.2.2-cp311-cp311-win_amd64.whl.metadata (26 kB)
Collecting sympy (from torch)
  Downloading sympy-1.12-py3-none-any.whl.metadata (12 kB)
Collecting networkx (from torch)
  Downloading networkx-3.3-py3-none-any.whl.metadata (5.1 kB)
Collecting mpmath>=0.19 (from sympy->torch)
  Downloading mpmath-1.3.0-py3-none-any.whl.metadata (8.6 kB)
Downloading torch-2.2.2-cp311-cp311-win_amd64.whl (198.6 MB)
   ---------------------------------------- 0.0/198.6 MB ? eta -:--:--
   ---------------------------------------- 0.2/198.6 MB 4.8 MB/s eta 0:00:42
   ---------------------------------------- 0.8/198.6 MB 8.5 MB/s eta 0:00:24
   ---------------------------------------- 1.0/198.6 MB 9.5 MB/s eta 0:00:21
   ---------------------------------------- 1.9/198.6 MB 10.3 MB/s eta 0:00:19
   ---------------------------------------- 1.9/198.6 MB 10.3 MB/s eta 0:00:19
   --------------------------------


[notice] A new release of pip is available: 23.3.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [52]:
pip install tensorflow transformers


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.3.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [56]:
from transformers import BertTokenizer, TFBertForTokenClassification
import tensorflow as tf

# Load pre-trained tokenizer and model for part-of-speech tagging
tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")
model = TFBertForTokenClassification.from_pretrained("bert-base-multilingual-cased", num_labels=17)

# Truncate tokens to fit within the maximum sequence length
max_length = tokenizer.max_len_single_sentence
tokens = tokens[:max_length - 2]  # Account for [CLS] and [SEP] tokens

# Convert tokens to IDs
input_ids = tokenizer.convert_tokens_to_ids(tokens)

# Add special tokens
input_ids = [tokenizer.cls_token_id] + input_ids + [tokenizer.sep_token_id]

# Convert token IDs to tensor
input_ids = tf.constant([input_ids])

# Perform forward pass through the model
outputs = model(input_ids)

# Get predictions
predictions = tf.argmax(outputs.logits, axis=2)

# Convert prediction IDs back to labels
predicted_labels = [model.config.id2label[label_id] for label_id in predictions.numpy()[0]]

# Align tokens with their corresponding predicted labels
token_label_pairs = list(zip(tokens, predicted_labels[1:-1]))

# Display the token-label pairs
for token, label in token_label_pairs:
    print(f'Token: {token}, Predicted Label: {label}')

All PyTorch model weights were used when initializing TFBertForTokenClassification.

Some weights or buffers of the TF 2.0 model TFBertForTokenClassification were not initialized from the PyTorch model and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Token: تضم, Predicted Label: LABEL_11
Token: منصة, Predicted Label: LABEL_11
Token: ``, Predicted Label: LABEL_9
Token: ابتكر, Predicted Label: LABEL_1
Token: '', Predicted Label: LABEL_11
Token: مجموعة, Predicted Label: LABEL_9
Token: من, Predicted Label: LABEL_1
Token: المساقات, Predicted Label: LABEL_11
Token: التعليمية, Predicted Label: LABEL_1
Token: المجانية, Predicted Label: LABEL_9
Token: التي, Predicted Label: LABEL_11
Token: تتضمن, Predicted Label: LABEL_11
Token: منهجيات, Predicted Label: LABEL_9
Token: عالمية, Predicted Label: LABEL_9
Token: حديثة, Predicted Label: LABEL_1
Token: وأدوات, Predicted Label: LABEL_1
Token: عملية, Predicted Label: LABEL_11
Token: تؤكد, Predicted Label: LABEL_11
Token: على, Predicted Label: LABEL_11
Token: أهمية, Predicted Label: LABEL_11
Token: ترسيخ, Predicted Label: LABEL_11
Token: ثقافة, Predicted Label: LABEL_1
Token: الابتكارالحكومي, Predicted Label: LABEL_1
Token: لما, Predicted Label: LABEL_11
Token: لذلك, Predicted Label: LABEL_11
Token:

### NER

In [64]:
import nltk
nltk.download('maxent_ne_chunker')

[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping chunkers\maxent_ne_chunker.zip.


True

In [65]:
from nltk import word_tokenize, pos_tag, ne_chunk
pos_tags = pos_tag(tokens)
named_entities = ne_chunk(pos_tags)
print(named_entities)

(S
  (ORGANIZATION تضم/NN)
  (ORGANIZATION منصة/VBZ)
  ``/``
  ابتكر/JJ
  ''/''
  (ORGANIZATION مجموعة/NN)
  من/NNP
  المساقات/NNP
  التعليمية/NNP
  المجانية/NNP
  التي/NNP
  تتضمن/NNP
  منهجيات/NNP
  عالمية/NNP
  حديثة/NNP
  وأدوات/NNP
  عملية/NNP
  تؤكد/NNP
  على/NNP
  أهمية/NNP
  ترسيخ/NNP
  ثقافة/NNP
  الابتكارالحكومي/NNP
  لما/NNP
  لذلك/NNP
  من/NNP
  دور/NNP
  هام/NNP
  في/NNP
  مواجهة/NNP
  التحديات/NNP
  وتطوير/NNP
  الخدمات/NNP
  ورفع/NNP
  كفاءة/NNP
  العمل/NNP
  الحكومي،/NNP
  ويقوم/NNP
  على/NNP
  تطوير/NNP
  محتوياتها/NNP
  نخبة/NNP
  من/NNP
  الخبراء/NNP
  والأكاديميين/NNP
  العرب/NNP
  وموظفو/NNP
  حكومة/NNP
  دولة/NNP
  الامارات/NNP
  العربية/NNP
  المتحدة/NNP
  باللغة/NNP
  العربية/NNP
  كما/NNP
  يتم/NNP
  منح/NNP
  شهادات/NNP
  معتمدة/NNP
  من/NNP
  المركز/NNP
  باتمام/NNP
  المساق/NNP
  لكافة/NNP
  المتعلمين./NNP
  يتوفر/NNP
  على/NNP
  المنصة/NNP
  خمسة/NNP
  مساقات،/NNP
  الابتكار/NNP
  في/NNP
  العمل/NNP
  الحكومي،/NNP
  مختبرات/NNP
  الابتكارات/NNP
  لصناعة/NNP