# NLP_TP Transformers
### Abdelmoutalib khezane

## --------------------------------------------------------------------------------------

## 01- Sentiment analysis

In [87]:
from transformers import pipeline

nlp = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

result = nlp("bien dit")[0]
print(result)
print(f"label: {result['label']}, with score: {round(result['score']*100, 2)}%")

result = nlp("mauvais travail")[0]
print(f"label: {result['label']}, with score: {round(result['score']*100, 2)}%")

{'label': '4 stars', 'score': 0.4435526132583618}
label: 4 stars, with score: 44.36%
label: 1 star, with score: 72.54%


## 02- Text generation

In [None]:
from transformers import pipeline

In [83]:
# Frensh
text_generator_fr = pipeline('text-generation', model='dbddv01/gpt2-french-small')

print(text_generator_fr("je lis un", max_length=50, do_sample=False))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': "je lis un texte de la main de l'empereur, qui est publié en 1212. Il est suivi par un autre texte, qui est publié en 1214. Il est suivi par un autre texte, qui est publié en 1218. Il"}]


In [84]:
# Arabic
text_generator_Ar = pipeline('text-generation', model='akhooli/gpt2-small-arabic')
print(text_generator_Ar("في المغرب السياحة الجبلية ", max_length=50, do_sample=False))


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'في المغرب السياحة الجبلية ادياد، كما يوجد بها العديد من المساجد، منها مسجد سيدي عبد الله، ومسجد سيدي عبد الله، ومسجد سيدي عبد الله، ومسجد سيدي عبد الله، ومسجد سيدي عبد الله، ومسجد سيدي عبد الله، ومسجد سيدي عبد الله'}]


## 03- Name entity recognition (NER)

In [85]:

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

ner_english_recognition = pipeline("ner", model="dslim/bert-base-NER", tokenizer="dslim/bert-base-NER")
ner_arabic_recognition = pipeline("ner", model="hatmimoha/arabic-ner", tokenizer="hatmimoha/arabic-ner")
ner_french_recognition = pipeline("ner", model="gilf/french-postag-model", tokenizer="gilf/french-postag-model")

print(ner_arabic_recognition("في المغرب السياحة الجبلية"))
 
print(ner_english_recognition("good time"))

print(ner_french_recognition("je lis un"))

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


[{'entity': 'LABEL_12', 'score': 0.9995651, 'index': 1, 'word': 'في', 'start': 0, 'end': 2}, {'entity': 'LABEL_4', 'score': 0.99893975, 'index': 2, 'word': 'المغرب', 'start': 3, 'end': 9}, {'entity': 'LABEL_12', 'score': 0.99967027, 'index': 3, 'word': 'السياحة', 'start': 10, 'end': 17}, {'entity': 'LABEL_12', 'score': 0.9997578, 'index': 4, 'word': 'الجبلية', 'start': 18, 'end': 25}]
[]
[{'entity': 'CLS', 'score': 0.99967825, 'index': 1, 'word': 'je', 'start': 0, 'end': 2}, {'entity': 'V', 'score': 0.9995579, 'index': 2, 'word': 'li', 'start': 3, 'end': 5}, {'entity': 'V', 'score': 0.9974327, 'index': 3, 'word': '##s', 'start': 5, 'end': 6}, {'entity': 'DET', 'score': 0.9900251, 'index': 4, 'word': 'un', 'start': 7, 'end': 9}]


## 04- Question answering

In [86]:
from transformers import pipeline
question_answering = pipeline("question-answering")
context = """
Le ville de Salé se trouve dans le plateau côtier large de 10 à 50 km, formé de plaines douces inclinées vers l’Océan Atlantique qui s'étend de Rabat-Salé à Skhirate-Témara, et du littoral atlantique au barrage Sidi Mohammed ben Abdellah9. L'altitude de la ville de Salé et du plateau côtier tout entier ne dépasse pas les 100 m10. Le fleuve Bouregreg qui sépare Rabat et Salé, donne une vallée plus ou moins large selon les endroits, pénétrant d’une quinzaine de kilomètres en amont de l’embouchure, surplombée par les plateaux de Bettana, Sala Al Jadida et de la commune rurale de Shoul du côté de Salé, et par ceux des quartiers de Hassan, El Youssoufia, Nahda et Akkrach du côté de Rabat. L'« arrière-pays » de Rabat-Salé est plutôt vert loin de l'urbanisation de masse, notamment grâce à la présence des forêts de la Mamora et de Témara, à proximité.
"""
question = "Quelle est Sala Al Jadida?"
result = question_answering(question=question, context=context)
print("Reponse:", result['answer'])




Reponse: commune rurale de Shoul du côté de Salé


## 05- Filling masked text

In [89]:
from transformers import pipeline

nlp = pipeline("fill-mask")

from pprint import pprint
pprint(nlp(f"Les coronavirus sont des {nlp.tokenizer.mask_token} de la famille des Coronaviridae."))



[{'score': 0.07141325622797012,
  'sequence': 'Les coronavirus sont des fins de la famille des Coronaviridae.',
  'token': 40863,
  'token_str': ' fins'},
 {'score': 0.060414496809244156,
  'sequence': 'Les coronavirus sont des mutations de la famille des '
              'Coronaviridae.',
  'token': 28513,
  'token_str': ' mutations'},
 {'score': 0.04682721570134163,
  'sequence': 'Les coronavirus sont des clones de la famille des '
              'Coronaviridae.',
  'token': 44001,
  'token_str': ' clones'},
 {'score': 0.04283902421593666,
  'sequence': 'Les coronavirus sont des parasites de la famille des '
              'Coronaviridae.',
  'token': 37891,
  'token_str': ' parasites'},
 {'score': 0.04136008024215698,
  'sequence': 'Les coronavirus sont des genes de la famille des Coronaviridae.',
  'token': 14819,
  'token_str': ' genes'}]


In [91]:
#Arabic
arabic_fill_mask = pipeline('fill-mask', model='CAMeL-Lab/bert-base-camelbert-ca')
pprint(arabic_fill_mask("جمعيات تدق ناقوس الخطر بشأن استنزاف الموارد[MASK]‬ بالجنوب الشرقي ."))

Some weights of the model checkpoint at CAMeL-Lab/bert-base-camelbert-ca were not used when initializing BertForMaskedLM: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'score': 0.11413954198360443,
  'sequence': 'جمعيات تدق ناقوس الخطر بشأن استنزاف الموارد التي بالجنوب '
              'الشرقي.',
  'token': 2061,
  'token_str': 'التي'},
 {'score': 0.03722378611564636,
  'sequence': 'جمعيات تدق ناقوس الخطر بشأن استنزاف الموارد المعروفة بالجنوب '
              'الشرقي.',
  'token': 14983,
  'token_str': 'المعروفة'},
 {'score': 0.03433230519294739,
  'sequence': 'جمعيات تدق ناقوس الخطر بشأن استنزاف الموارد الواردة بالجنوب '
              'الشرقي.',
  'token': 13647,
  'token_str': 'الواردة'},
 {'score': 0.013632998801767826,
  'sequence': 'جمعيات تدق ناقوس الخطر بشأن استنزاف الموارد الكثيرة بالجنوب '
              'الشرقي.',
  'token': 18894,
  'token_str': 'الكثيرة'},
 {'score': 0.013485289178788662,
  'sequence': 'جمعيات تدق ناقوس الخطر بشأن استنزاف الموارد الاقتصادية بالجنوب '
              'الشرقي.',
  'token': 5139,
  'token_str': 'الاقتصادية'}]


## 06- Summarization

In [92]:
from transformers import pipeline

summarizer = pipeline("summarization")

ARTICLE = """ 
Le Maroc était connu sous le nom de royaume de Marrakech, sous les trois dynasties qui avaient cette ville comme capitale. Puis, sous le nom de royaume de Fès, sous les dynasties qui résidaient à Fès. Au xixe siècle, les cartographes européens mentionnaient toujours un « royaume de Maroc », en indiquant l'ancienne capitale « Maroc » (pour Marrakech). Sous la dynastie des Alaouites, toujours au pouvoir, le pays est passé de l'appellation d'« Empire chérifien » à celle de « royaume du Maroc » en 195725, le sultan Sidi Mohammed ben Youssef en devenant le roi, en tant que Mohammed V. Il peut être aussi surnommé « Royaume chérifien », en référence au souverain alaouite, descendant du prophète de l'islam Mahomet, qualifié de « chérif ».
"""
print(summarizer(ARTICLE, max_length=130, min_length=30, do_sample=False))

[{'summary_text': " Le Maroc était connu sous le nom de royaume de Marrakech, sous les trois dynasties . Sous la dynastie des Alaouites, toujours au pouvoir, le pays passé de l'appellation d'« Empire chérifien » to celle de 'royaume du Maroc » en 195725 ."}]


## 07- Translation

In [93]:
from transformers import pipeline
# English to french
translator = pipeline("translation_en_to_fr")
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

pprint(translator("This allows people to understand complex terms or phrases.", max_length=40))


[{'translation_text': 'Cela permet aux gens de comprendre des termes ou des '
                      'expressions complexes.'}]


In [94]:
# english to Arabic
from transformers import MarianTokenizer, MarianMTModel

tokenizer = MarianTokenizer.from_pretrained("marefa-nlp/marefa-mt-en-ar")
model = MarianMTModel.from_pretrained("marefa-nlp/marefa-mt-en-ar")

text = "Mountain tourism in Morocco"

translated_tokens = model.generate(**tokenizer.prepare_seq2seq_batch(text, return_tensors="pt"))
Output_text = [tokenizer.decode(t, skip_special_tokens=True) for t in translated_tokens]

print(Output_text)

['السياحة الجبلية في المغرب']


In [95]:
# Arabic to English
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

text_ar = "السياحة الجبلية في المغرب"

model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer.src_lang = "ar_AR"
encoded_ar = tokenizer(text_ar, return_tensors="pt")
generated_tokens = model.generate(**encoded_ar, forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"])
pprint(tokenizer.batch_decode(generated_tokens, skip_special_tokens=True))


['Mountain tourism in Morocco.']


## 08- Feature extraction

In [96]:
from sklearn.feature_extraction.text import CountVectorizer

# sentences.
sentences = [
    "This is a sample sentence",
    "I am interested in politics",
    "You are a very good software engineer, engineer.",]

vectorizer = CountVectorizer(stop_words='english')

vectorizer.fit(sentences)

vectorizer.get_feature_names()

['engineer',
 'good',
 'interested',
 'politics',
 'sample',
 'sentence',
 'software']