# Imports

In [None]:
import sys
import subprocess

def install(pkg):
    subprocess.check_call([sys.executable, "-m", "pip", "install", "-q", pkg])

install("transformers")
install("torch")
install("simpletransformers")

In [None]:
import sys
import subprocess

subprocess.run([
    sys.executable, "-m", "pip", "uninstall", "-y", "protobuf"
], check=False)

CompletedProcess(args=['c:\\Users\\gasse\\AppData\\Local\\Python\\pythoncore-3.10-64\\python.exe', '-m', 'pip', 'uninstall', '-y', 'protobuf'], returncode=0)

In [None]:
subprocess.run([
    sys.executable, "-m", "pip", "cache", "purge"
], check=False)

CompletedProcess(args=['c:\\Users\\gasse\\AppData\\Local\\Python\\pythoncore-3.10-64\\python.exe', '-m', 'pip', 'cache', 'purge'], returncode=0)

In [None]:
subprocess.check_call([
    sys.executable, "-m", "pip", "install", "protobuf==3.20.3", "--no-cache-dir"
])

0

In [None]:
from google.protobuf import __version__
print(__version__)

3.20.3


In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
print("Transformers loaded successfully")

  from .autonotebook import tqdm as notebook_tqdm


Transformers loaded successfully


In [None]:
from simpletransformers.language_generation import LanguageGenerationModel

# Arabic Text Generation – GPT2 Small

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, set_seed

tokenizer = AutoTokenizer.from_pretrained("akhooli/gpt2-small-arabic")
model = AutoModelForCausalLM.from_pretrained("akhooli/gpt2-small-arabic")

device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50257, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-11): 12 x GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D(nf=2304, nx=768)
          (c_proj): Conv1D(nf=768, nx=768)
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D(nf=3072, nx=768)
          (c_proj): Conv1D(nf=768, nx=3072)
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=768, out_features=50257, bias=False)
)

In [None]:
prompt = "القدس مدينة تاريخية تقع في"
input_ids = tokenizer.encode(prompt, return_tensors="pt").to(device)

set_seed(42)

attention_mask = torch.ones_like(input_ids)

outputs = model.generate(
    input_ids,
    attention_mask=attention_mask,
    do_sample=True,
    max_length=200,
    top_k=40,
    top_p=0.95,
    temperature=0.9,
    num_return_sequences=5,
    repetition_penalty=1.2,
    pad_token_id=tokenizer.eos_token_id
)

for i, out in enumerate(outputs, 1):
    print(f"\n=== Generated Text {i} ===\n")
    print(tokenizer.decode(out, skip_special_tokens=True))
    print ("--------------------------------------------------------------------------------------------------------")


=== Generated Text 1 ===

القدس مدينة تاريخية تقع في الجنوب الشرقي من الجزيرة العربية. تم العثور على موقع في جنوب الجزيرة العربية بالقرب من الجزيرة العربية، على الرغم من وجود طريق بحري قديم في المنطقة إلى الشرق منه بالقرب من بلدة الرهد التي تبعد عنها بحوالي نصف كيلومتر تقريبا. عثر في عام 2005 على بقايا أثرية تعود إلى عهد الملك الظاهر بيبرس. لا يزال هناك عدة شواهد أثرية معروفة حول موقع القرية على مدار الوقت. حيث يعتقد بأنه يقع على مقربة من قرية الرهد، على بعد حوالي 25 كم إلى الشمال الغربي من بلدة الرهد في محافظة البلقاء الأردنية. كما يوجد آثار رومانية من الفترة الرومانية. يعود تاريخ سكان القرية إلى القرن الأول. ولكن حسب المصادر التاريخية، فإن أصل التسمية تعود إلى القرن الخامس الميلادي عندما أطلق عليه اسم بيت المقدس. وقد ذكر علماء الآثار أن أول إشارة للعمرة من قبل الرومان كانت في القرن الرابع الميلادي وأن فيها معبدان آخران أحدهما يؤدي إلى المعبد الثالث الذي شيده الرومان والآخر يؤدي إلى المعبد الثاني . وقد ورد ذكرها لأول مرة في كتابات الإغريق. وبعد عدة قرون، أشارت مصادر مسيحية أنه كان في

# Arabic Poetry Generation – GPT2 Poetry Model

In [None]:
tokenizer_p = AutoTokenizer.from_pretrained("akhooli/gpt2-small-arabic-poetry")
model_p = AutoModelForCausalLM.from_pretrained("akhooli/gpt2-small-arabic-poetry")
model_p.to(device)

prompt_p = "على قدر أهل العزم تأتي العزائم"
input_ids_p = tokenizer_p.encode(prompt_p, return_tensors="pt").to(device)

outputs_p = model_p.generate(
    input_ids_p,
    do_sample=True,
    max_length=120,
    min_length=96,
    top_k=50,
    top_p=0.95,
    repetition_penalty=1.25,
    num_return_sequences=5,
    pad_token_id=tokenizer_p.eos_token_id
)

for i, out in enumerate(outputs_p, 1):
    print(f"\n=== Poetry Sample {i} ===\n")
    for line in tokenizer_p.decode(out, skip_special_tokens=True).split("."):
        print(line)
    print ("--------------------------------------------------------------------------------------------------------------------------------")


=== Poetry Sample 1 ===

على قدر أهل العزم تأتي العزائم
 ولا غرو أن ينال نداك مدحي - إذا كان جدواه على الزمان مظلم
 ولو لم ينصف الأعداء منه ندى الوغى - لطعن بأسه إلا في الروع ذامح
 كأن ما يبل الغمد من بأس به - جناحا ولا سيف إلا وهو قاطع
 إذا هم أمضى القنا والخيل والثرى - فما يعلى بهن من غير هو حازم
 سريعا وأولى البراح وهيبة - بأجدرن حادي النقع وهي حشاشة
 
--------------------------------------------------------------------------------------------------------------------------------

=== Poetry Sample 2 ===

على قدر أهل العزم تأتي العزائم
 والمرء إن جئته لم يرد على - يوم النزال أو يستريحه الرذاق
 نأت من رماه الملك من غير أنكم - في جوده ما بين الجوانح والنفاق
 ملك له من بيت كسرى عافجوه - منه ومن حلاه الأملاك والأفراق
 لم يعد ملكا للمجد مستجيرا - عن البأس والندى والحيا والغيد العتاق
 لا بد للمرء من شطب ونكبة - حتى تكون همومي لديه ولاقي
 
--------------------------------------------------------------------------------------------------------------------------------

=== Poetry Sample 3 ==

# Simple Transformers – Arabic Poetry

In [None]:
poetry_model = LanguageGenerationModel(
    "gpt2",
    "akhooli/gpt2-small-arabic-poetry",
    use_cuda=False,   # ✅ IMPORTANT
    args={
        "max_length": 256,
        "top_p": 0.95,
        "top_k": 30,
        "temperature": 0.95,
        "repetition_penalty": 1.3
    }
)


prompts = [
    "لولا المشقة ساد الناس كلهم",
    "إذا غامرت في شرف مروم"
]

for p in prompts:
    generated = poetry_model.generate(p, verbose=False)
    print("\n====================\n")
    for line in generated[0].split("."):
        print(line)
    print ("--------------------------------------------------------------------------------------------------------------------------------")

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
The attention mask and the 



لولا المشقة ساد الناس كلهم - ولم نعدل عنهم ولا أهلتهم أمم
 أمنهم لا زال ينسي ويصبحوا معشرا - إذا ما اعترسوا فوق كل ملاحة أمم
 وإني لئن شبت الحرب فاصطبر - وقد عفت عن نيل المنى لم يقم
 فلا تحسبنك اليوم خيلا لقد ضاق الردى - ولو كنت في ظلمي إلى كل نائبة أمم
 ولو أنني قد قلت غيري حاجة - لما جئت إلا إليك معجز الأمم
 وأصبحت الدهر بعدك من بعد فقده - وإن كان هذا الدهر أسرع فائت
 ومتى عدت النفس يوما فإنما - تساوى المرء بين ما يريده الجسم
 فلست أرى مثل هذا الزمان به - وليس عندك أن ينال سوى الجسم
 إذا رأيت الناس أولى بهم نسبا لهم - فيا ليتنا قد أكثرتها من نسب
 رحم الله عز الخلافة حيث غدت - كدا بها في يوم الحفاظ بلا قلب
 فيا رب نصر العزيز الذي حوى - بك الدين الحنيف وسيف النصر والكرم
 لقد شهدت الدنيا ببأسها وحبها - بريحان الخلد والشكر والعدم
 سقى ثراها ربع منيع الحمى بها - وجادت له ريحانة ورعود
--------------------------------------------------------------------------------------------------------------------------------


إذا غامرت في شرف مرومك - فمدق من زبرجد نحرا
 ملك له في الفضل أي لسان - إذا 

# Sentiment Analysis

In [4]:
sentiment_pipe = pipeline(
    "sentiment-analysis",
    model="akhooli/xlm-r-large-arabic-sent"
)

config.json:   0%|          | 0.00/730 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Some weights of the model checkpoint at akhooli/xlm-r-large-arabic-sent were not used when initializing XLMRobertaForSequenceClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Device set to use cuda:0


# English Sentiment Examples

In [None]:
print(sentiment_pipe("I hate you"))

[{'label': 'LABEL_1', 'score': 0.7496665120124817}]


In [None]:
print(sentiment_pipe("I love you"))

[{'label': 'LABEL_2', 'score': 0.7112253308296204}]


# Arabic Sentiment Examples

In [None]:
print(sentiment_pipe("المنتج جيد جدا ولكنه وصل بحالة غير ممتازة"))

[{'label': 'LABEL_0', 'score': 0.5494163632392883}]


In [None]:
print(sentiment_pipe("كانت الخدمة super!"))

[{'label': 'LABEL_2', 'score': 0.9744839072227478}]


In [None]:
print(sentiment_pipe("الخدمة لم تكن سيئة"))

[{'label': 'LABEL_1', 'score': 0.580061674118042}]


# Arabic Toxicity / Hate Speech Detection

In [1]:
from transformers import pipeline

toxic_pipe = pipeline(
    "sentiment-analysis",
    model="akhooli/xlm-r-large-arabic-toxic",
    framework="pt"
)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/636 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Device set to use cuda:0


# Arabic Toxic Examples

In [2]:
print(toxic_pipe("أنت غير مؤدب. إلى الجحيم!"))

[{'label': 'LABEL_1', 'score': 0.9947353005409241}]


In [3]:
print(toxic_pipe("أختلف معك في هذا الرأي."))

[{'label': 'LABEL_0', 'score': 0.9967917799949646}]


# Sentiment With All Scores (Probabilities)

In [None]:
sentiment_pipe.return_all_scores = True
print(sentiment_pipe("المنتج جيد جدا ولكنه وصل بحالة غير ممتازة"))

[{'label': 'LABEL_0', 'score': 0.5494163632392883}]
