## Sentiment(positive, negative)

In [7]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-binary")
model = AutoModelForSequenceClassification.from_pretrained("HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-binary")

sentence = ["این فیلم فوق‌العاده بود.", " خیلی این فیلم افتضاح بود.", "من از این لباس راضی هستم", "میشه بگید این چه وضعیه این خیلی بد شده", "راستش خیلی خوشم نیومد ازش!	"]
inputs = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)

# Get predictions
outputs = model(**inputs)
logits = outputs.logits

# Determine sentiment (0 = Negative, 1 = Positive)
predicted_class = torch.argmax(logits, dim=1)
print(predicted_class)
for i in range(len(predicted_class)):
    flag = predicted_class[i]
    if flag == 0:
        print(sentence[i], ": negative")
    else:
        print(sentence[i], ": positive")

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


tensor([1, 0, 1, 0, 1])
این فیلم فوق‌العاده بود. : positive
 خیلی این فیلم افتضاح بود. : negative
من از این لباس راضی هستم : positive
میشه بگید این چه وضعیه این خیلی بد شده : negative
راستش خیلی خوشم نیومد ازش!	 : positive


## Happy or Sad

In [12]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased-sentiment-snappfood")
model = AutoModelForSequenceClassification.from_pretrained("HooshvareLab/bert-fa-base-uncased-sentiment-snappfood")

sentence = ["من حالم خیلی خوبه اینجایی", "ممنونم ازت خدا دوستت دارم", "من حالم گرفته شده خیلی"]
inputs = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)

# Get predictions
outputs = model(**inputs)
logits = outputs.logits

# Determine sentiment (0 = HAPPY, 1 = SAD)
predicted_class = torch.argmax(logits, dim=1)
print(predicted_class)
for i in range(len(predicted_class)):
    flag = predicted_class[i]
    if flag == 0:
        print(sentence[i], ": HAPPY")
    else:
        print(sentence[i], ": SAD")

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


tensor([0, 0, 1])
من حالم خیلی خوبه اینجایی : HAPPY
ممنونم ازت خدا دوستت دارم : HAPPY
من حالم گرفته شده خیلی : SAD


## Furious, Angry, Neutral, Happy, Delighted

In [15]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-multi")
model = AutoModelForSequenceClassification.from_pretrained("HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-multi")

emotion_labels = [
    "furious",
    "angry",
    "neutral",
    "happy",
    "delighted"
]

sentence = ["من حالم خیلی خوبه اینجایی", "ممنونم ازت خدا دوستت دارم", "من حالم گرفته شده خیلی"]
inputs = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)

# Get predictions
outputs = model(**inputs)
logits = outputs.logits

# Determine sentiment (0 = HAPPY, 1 = SAD)
predicted_class = torch.argmax(logits, dim=1)
print(predicted_class)

for i in range(len(predicted_class)):
    predicted_emotion = emotion_labels[predicted_class[i]]
    print(f"{sentence[i]}: {predicted_emotion}")


Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


tensor([4, 2, 0])
من حالم خیلی خوبه اینجایی: delighted
ممنونم ازت خدا دوستت دارم: neutral
من حالم گرفته شده خیلی: furious


## Social, Economic, International, Political, Scientific and Technological Cultural and Artistic, Sport, Medical

In [20]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased-clf-persiannews")
model = AutoModelForSequenceClassification.from_pretrained("HooshvareLab/bert-fa-base-uncased-clf-persiannews")

emotion_labels = [
"اجتماعی" ,
"اقتصادی" ,
 "بین الملل",
"سیاسی" ,
"علمی فناوری",
 "فرهنگی هنری",
"ورزشی",
"پزشکی"
]

sentence = ["بارندگی امروز منجر به سیل می شود", "هوش مصنوعی پیشرفت شگرفی داشته است",
            "از مقامات خواسته شد پیگیر این مسئله شوند", "مبلغ دلار به مقدار این قدر تومان کاهش یافت"]
inputs = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)

# Get predictions
outputs = model(**inputs)
logits = outputs.logits

# Determine sentiment (0 = HAPPY, 1 = SAD)
predicted_class = torch.argmax(logits, dim=1)
print(predicted_class)

for i in range(len(predicted_class)):
    predicted_emotion = emotion_labels[predicted_class[i]]
    print(f"{sentence[i]}: {predicted_emotion}")


Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


tensor([0, 4, 2, 1])
بارندگی امروز منجر به سیل می شود: اجتماعی
هوش مصنوعی پیشرفت شگرفی داشته است: علمی فناوری
از مقامات خواسته شد پیگیر این مسئله شوند: بین الملل
مبلغ دلار به مقدار این قدر تومان کاهش یافت: اقتصادی


In [17]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased-sentiment-digikala")
model = AutoModelForSequenceClassification.from_pretrained("HooshvareLab/bert-fa-base-uncased-sentiment-digikala")

emotion_labels = [
    "no_idea",
    "not_recommended",
    "recommended"
]

sentence = ["جنسش خیلی خوبه", "اصلا خنک نیست به نظرم پلاستیکه", "تا الان دوبار سفارش دادم توصیه می کنم"]
inputs = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)

# Get predictions
outputs = model(**inputs)
logits = outputs.logits

# Determine sentiment (0 = HAPPY, 1 = SAD)
predicted_class = torch.argmax(logits, dim=1)
print(predicted_class)

for i in range(len(predicted_class)):
    predicted_emotion = emotion_labels[predicted_class[i]]
    print(f"{sentence[i]}: {predicted_emotion}")


Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


tensor([2, 1, 2])
جنسش خیلی خوبه: recommended
اصلا خنک نیست به نظرم پلاستیکه: not_recommended
تا الان دوبار سفارش دادم توصیه می کنم: recommended


## Information/Explanation - Instruction - Legal - News- Opinion/Argumentation-Promotion-Forum -Prose/Lyrical -other

In [36]:
from simpletransformers.classification import ClassificationModel
model_args= {
            "num_train_epochs": 15,
            "learning_rate": 1e-5,
            "max_seq_length": 512,
            "silent": True
            }
model = ClassificationModel("xlmroberta", "classla/xlm-roberta-base-multilingual-text-genre-classifier",
                            use_cuda=False, args=model_args)

predictions, logit_output = model.predict(["گر املت گوجه فرنگی را بدون پیاز درست می کنید توصیه می کنیم فقط یک بار املت را با پیاز درست کنید تا متوجه تفاوت طعمش شوید.",
                                           "ازت متنفرم"])
print(predictions)


[model.config.id2label[i] for i in predictions]
# Output: ['Instruction', 'Promotion']

  self.pid = os.fork()


['Instruction', 'Prose/Lyrical']

## Toxic, not toxic

In [45]:
text = "می توان جامعه را به سمت پایداری در فرهنگ پیش برد"
text = " غرب دو دشمن دارد:  چندفرهنگی و اسلام گرایی"

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("FredZhang7/one-for-all-toxicity-v3")
model = AutoModelForSequenceClassification.from_pretrained("FredZhang7/one-for-all-toxicity-v3").to(device)

encoding = tokenizer.encode_plus(
    text,
    add_special_tokens=True,
    max_length=208,
    padding="max_length",
    truncation=True,
    return_tensors="pt"
)
print('device:', device)
input_ids = encoding["input_ids"].to(device)
attention_mask = encoding["attention_mask"].to(device)

with torch.no_grad():
    outputs = model(input_ids, attention_mask=attention_mask)
    logits = outputs.logits
    predicted_labels = torch.argmax(logits, dim=1)


for i in predicted_labels:
    if i == 0:
        print(text, ": not toxic")
    else:
        print(text, ": toxic")


device: cpu
 غرب دو دشمن دارد:  چندفرهنگی و اسلام گرایی : toxic


## Labels is defined in https://turkunlp.org/register-annotation-docs/

In [46]:
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer, XLMRobertaTokenizer

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model_id = "TurkuNLP/web-register-classification-multilingual"

# Load model and tokenizer
model = AutoModelForSequenceClassification.from_pretrained(model_id).to(device)
tokenizer = XLMRobertaTokenizer.from_pretrained("xlm-roberta-base")  # Load XLM-RoBERTa tokenizer

# Text to be categorized
text = "از سامانه ی هواشناسی این پیام دریافت شد که در کرمان باران می بارد"

# Tokenize text
inputs = tokenizer([text], return_tensors="pt", padding=True, truncation=True, max_length=512).to(device)

with torch.no_grad():
    outputs = model(**inputs)

# Apply sigmoid to the logits to get probabilities
probabilities = torch.sigmoid(outputs.logits).squeeze()

# Determine a threshold for predicting labels
threshold = 0.5
predicted_label_indices = (probabilities > threshold).nonzero(as_tuple=True)[0]

# Extract readable labels using id2label
id2label = model.config.id2label
predicted_labels = [id2label[idx.item()] for idx in predicted_label_indices]

print("Predicted labels:", predicted_labels)
'''NA: Narrative
ne: News report'''


config.json:   0%|          | 0.00/1.50k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/615 [00:00<?, ?B/s]



Predicted labels: ['NA', 'ne']


## Negative, Positive

In [49]:
from transformers import pipeline

model_path = "citizenlab/twitter-xlm-roberta-base-sentiment-finetunned"

sentiment_classifier = pipeline("text-classification", model=model_path, tokenizer=model_path)
p = sentiment_classifier("من عاشقتم خدا")
print(p)
p = sentiment_classifier("بعضی از آدم ها احمق هستند")
print(p)




[{'label': 'Positive', 'score': 0.9883419871330261}]
[{'label': 'Negative', 'score': 0.9809804558753967}]


## Formal, Informal

In [59]:
from transformers import XLMRobertaTokenizerFast, XLMRobertaForSequenceClassification

# load tokenizer and model weights
tokenizer = XLMRobertaTokenizerFast.from_pretrained('s-nlp/xlmr_formality_classifier')
model = XLMRobertaForSequenceClassification.from_pretrained('s-nlp/xlmr_formality_classifier')

id2formality = {0: "formal", 1: "informal"}
texts = [
    "چطور می‌توانیم مثل افراد دوست‌داشتنی و جذاب حرف بزنیم؟",
    "از اینکه چند دقیقه با شما صحبت کردم خوشحال شدم",
    "خیلی حس قشنگیه وقتی یه نفر رو داشته باشی که همیشه حواسش بهت باشه ",
    "ای بابا من از دست تو چه گیری کردم",
]

# prepare the input
encoding = tokenizer(
    texts,
    add_special_tokens=True,
    return_token_type_ids=True,
    truncation=True,
    padding="max_length",
    return_tensors="pt",
)

# inference
output = model(**encoding)

formality_scores = [
    {id2formality[idx]: score for idx, score in enumerate(text_scores.tolist())}
    for text_scores in output.logits.softmax(dim=1)
]
formality_scores


[{'formal': 0.8197078108787537, 'informal': 0.18029220402240753},
 {'formal': 0.042791012674570084, 'informal': 0.9572089910507202},
 {'formal': 0.0028324825689196587, 'informal': 0.9971675276756287},
 {'formal': 0.007172650191932917, 'informal': 0.9928273558616638}]