In [None]:
# installazione della libreria transformers
!pip install transformers

Il **Word2Vec** è un Language Model in cui data una parola si cerca di prevedere le parole che occorrono piu frequentemente vicino alla parola considerata.




**Language Modeling**: *data una sequenza di parole l'obbiettivo è quello di calcolare la distribuzione probabilità della parola successiva. 
Si tratta quindi di calcolare la parola successiva x(t+1) conoscendo tutte le parole precedenti. X(t+1) può essere una qualsiasi parola tra tutte le parole possibili del vocabolario.*

La probabilità associata a ciascuna parola dipende da quanto la parola sia semanticamente corretta. 
Un sistema che fa ciò è definito Language Model.

Esempi: 
- autocompletamento delle parole sul telefono 
- ricerca di google che suggerisce le parole della ricerca

NB il sentiment non è un langueage model infatti non vado a prevedere una parola.

## HUGGING FACE
si tratta di una delle librerie open source moderne che ci consente di utilizzare tra le tecniche piu avanzate di **transfomer** per fare NLP. 

Esistono centiania di librerie per fare NLP in python.
La piu famosa e affermata è la libreria **spaCy**. 
**Hugging face** è una alternativa ma è piu potente in quanto utilizza architetture piu moderne. 

Hugging face ci mette a disposizione una serie di Language Model pre-addestrati. 

La prima cosa da capire è sapere la lingua su cui è stato addestrato il modello e sceglierne uno adatto alle nostre esigenze.

Si può cercare quindi la lingua italiana e vedere i modelli disponibili. Vengono mostrati anche i task per i quali i modelli possono essere utilizzati.

Il task di language model in Hugging face si chiamano **Fill Mask**. 

Ogni modello è preaddestrato e specifico per un determinato contesto di utilizzo.


### Bert base italian cased

Quando si seleziona un modello viene mostrata la sua scheda con le informazioni su come è stato addestrato ed il codice per utilizzarlo.

HF mette a disposizione anche una interfaccia grafica nella quale è possibile inserire una frase con un placeholder [MASK] e vedremo i risultati che ci fornisce. Ci restituisce le parole possibili per il placeholder con la relativa probabilità. 

[FillMask italiano](https://huggingface.co/dbmdz/bert-base-italian-cased?text=Lo+scopo+della+vita+%C3%A8+%5BMASK%5D.)

[Text Classification Italiano](https://huggingface.co/neuraly/bert-base-italian-cased-sentiment?text=questo+caff%C3%A8+%C3%A8+cattivo)

# Language Modeling

### APPLICAZIONE HUGGING-FACE: Bert-base-uncased
Qui viene definito un concetto di pipeline che dato il task "Fill Mask" e dato il modello "bert-based-uncased" ci permette di andare ad utilizzare la nostra inferenza. (prova a prevedere la parola fornendone una probabilità)


In [None]:
from transformers import pipeline

unmasker = pipeline('fill-mask', model='bert-base-uncased') #oggetto che astrae un task di fill-mask con un modello bert-base-uncased

# faccio inferenza passando la stringa con il token [MASK]
unmasker("Hello I'm a [MASK] model.")


Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'score': 0.10731077939271927,
  'sequence': "hello i'm a fashion model.",
  'token': 4827,
  'token_str': 'fashion'},
 {'score': 0.0877445638179779,
  'sequence': "hello i'm a role model.",
  'token': 2535,
  'token_str': 'role'},
 {'score': 0.05338413640856743,
  'sequence': "hello i'm a new model.",
  'token': 2047,
  'token_str': 'new'},
 {'score': 0.046672213822603226,
  'sequence': "hello i'm a super model.",
  'token': 3565,
  'token_str': 'super'},
 {'score': 0.027095887809991837,
  'sequence': "hello i'm a fine model.",
  'token': 2986,
  'token_str': 'fine'}]

OUTPUT: 



```json
[{'score': 0.10731077939271927,
  'sequence': "hello i'm a fashion model.",
  'token': 4827,
  'token_str': 'fashion'},
 {'score': 0.0877445638179779,
  'sequence': "hello i'm a role model.",
  'token': 2535,
  'token_str': 'role'},
 {'score': 0.05338413640856743,
  'sequence': "hello i'm a new model.",
  'token': 2047,
  'token_str': 'new'},
 {'score': 0.046672213822603226,
  'sequence': "hello i'm a super model.",
  'token': 3565,
  'token_str': 'super'},
 {'score': 0.027095887809991837,
  'sequence': "hello i'm a fine model.",
  'token': 2986,
  'token_str': 'fine'}]
```
**score** = probabilità della parola

**sequence**= la frase in input con [MASK] sostituito con la parola predetta

**token string** = parola predetta


### APPLICAZIONE HUGGING-FACE (versione italiana): Bert-base-italian-uncased
[bert-base-italian-uncased](https://huggingface.co/dbmdz/bert-base-italian-uncased)

**Descrizione modello**: The source data for the Italian BERT model consists of a recent Wikipedia dump and various texts from the OPUS corpora collection. The final training corpus has a size of 13GB and 2,050,057,573 tokens.

For sentence splitting, we use NLTK (faster compared to spacy). Our cased and uncased models are training with an initial sequence length of 512 subwords for ~2-3M steps.

For the XXL Italian models, we use the same training data from OPUS and extend it with data from the Italian part of the OSCAR corpus. Thus, the final training corpus has a size of 81GB and 13,138,379,147 tokens.

In [None]:
from transformers import pipeline

unmasker = pipeline('fill-mask', model='dbmdz/bert-base-italian-uncased') #oggetto che astrae un task di fill-mask con un modello bert-base-italian-uncased

# faccio inferenza passando la stringa con il token [MASK]
unmasker("Mi sono comprata un paio di [MASK].")

Some weights of the model checkpoint at dbmdz/bert-base-italian-uncased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'score': 0.22734977304935455,
  'sequence': 'mi sono comprata un paio di jeans.',
  'token': 19128,
  'token_str': 'jeans'},
 {'score': 0.15188339352607727,
  'sequence': 'mi sono comprata un paio di scarpe.',
  'token': 6447,
  'token_str': 'scarpe'},
 {'score': 0.07808995246887207,
  'sequence': 'mi sono comprata un paio di pantaloni.',
  'token': 10286,
  'token_str': 'pantaloni'},
 {'score': 0.05803899094462395,
  'sequence': 'mi sono comprata un paio di stivali.',
  'token': 17336,
  'token_str': 'stivali'},
 {'score': 0.024806629866361618,
  'sequence': 'mi sono comprata un paio di cuffie.',
  'token': 30516,
  'token_str': 'cuffie'}]

# PART OF SPEECH TAGGING (POS)
L'idea è quella di capire il ruolo grammaticale delle parole all'interno di un testo. Il modello, dato un testo in input, associa a ciascuna parola del testo un etichetta che rappresenta il ruolo grammaticale. Nei casi piu difficili in cui una parola puo avere più ruoli entra in gioco in contesto e quindi si prendono in considerazione anche le parole vicine.

**NB** In questo caso vogliamo risolvere un task di Token Classification quindi non siamo piu interessati a dei language model puri ovvero dei modelli pre-addestrati ma siamo interessati a dei modelli preaddestrati su cui è stato eseguito anche un fine-tuning per la risoluzione di task di token classification.

In italiano su Hugging Face esiste un solo modello di token classification: [bert-italian-cased-finetuned-pos](https://huggingface.co/sachaarbonel/bert-italian-cased-finetuned-pos)

**Descrizione modello**: This model is a fine-tuned on xtreme udpos Italian version of Bert Base Italian for POS downstream task.

In [None]:
from transformers import pipeline

nlp_pos = pipeline(
    "ner", #task ner ovvero di token classification
    model="sachaarbonel/bert-italian-cased-finetuned-pos", #specifico il nome del modello
#     tokenizer=(
#         'sachaarbonel/bert-italian-cased-finetuned-pos',  
#         {"use_fast": False}
# )
    )

#il tokenizer è il sistema che data la parola in ingresso me la partiziona in parole

text = "Roma è la Capitale d'Italia."

nlp_pos(text)


[{'end': 4,
  'entity': 'PROPN',
  'index': 1,
  'score': 0.99953485,
  'start': 0,
  'word': 'roma'},
 {'end': 6,
  'entity': 'AUX',
  'index': 2,
  'score': 0.9966599,
  'start': 5,
  'word': 'e'},
 {'end': 9,
  'entity': 'DET',
  'index': 3,
  'score': 0.99947864,
  'start': 7,
  'word': 'la'},
 {'end': 18,
  'entity': 'NOUN',
  'index': 4,
  'score': 0.9995197,
  'start': 10,
  'word': 'capitale'},
 {'end': 20,
  'entity': 'ADP',
  'index': 5,
  'score': 0.99908936,
  'start': 19,
  'word': 'd'},
 {'end': 21,
  'entity': 'PART',
  'index': 6,
  'score': 0.57159036,
  'start': 20,
  'word': "'"},
 {'end': 27,
  'entity': 'PROPN',
  'index': 7,
  'score': 0.99948055,
  'start': 21,
  'word': 'italia'},
 {'end': 28,
  'entity': 'PUNCT',
  'index': 8,
  'score': 0.9772884,
  'start': 27,
  'word': '.'}]

#Name-Entity Recognition (NER)
Localizza e classifica nel testo delle entità che hanno un significato rilevante nel task di utilizzo. 

In italiano non ci sono modelli che utilizzano NER quindi possiamo ovviare utilizzandone uno multilingue.

[Davlan/bert-base-multilingual-cased-ner-hrl](https://huggingface.co/Davlan/bert-base-multilingual-cased-ner-hrl)

**Descrizione modello**: bert-base-multilingual-cased-ner-hrl is a Named Entity Recognition model for 10 high resourced languages (Arabic, German, English, Spanish, French, Italian, Latvian, Dutch, Portuguese and Chinese) based on a fine-tuned mBERT base model. It has been trained to recognize three types of entities: location (LOC), organizations (ORG), and person (PER).

In [None]:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)

example = "Mario Draghi è il presidente del consiglio in Italia"

ner_results = nlp(example)
print(ner_results)


Downloading:   0%|          | 0.00/264 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.08k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/972k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/676M [00:00<?, ?B/s]

[{'entity': 'B-PER', 'score': 0.9998901, 'index': 1, 'word': 'Mario', 'start': 0, 'end': 5}, {'entity': 'I-PER', 'score': 0.9998204, 'index': 2, 'word': 'Dr', 'start': 6, 'end': 8}, {'entity': 'I-PER', 'score': 0.9996762, 'index': 3, 'word': '##agh', 'start': 8, 'end': 11}, {'entity': 'I-PER', 'score': 0.99938107, 'index': 4, 'word': '##i', 'start': 11, 'end': 12}, {'entity': 'B-ORG', 'score': 0.9998299, 'index': 9, 'word': 'consiglio', 'start': 33, 'end': 42}, {'entity': 'B-LOC', 'score': 0.9998227, 'index': 11, 'word': 'Italia', 'start': 46, 'end': 52}]


In [None]:
ner_results

[{'end': 5,
  'entity': 'B-PER',
  'index': 1,
  'score': 0.9998901,
  'start': 0,
  'word': 'Mario'},
 {'end': 8,
  'entity': 'I-PER',
  'index': 2,
  'score': 0.9998204,
  'start': 6,
  'word': 'Dr'},
 {'end': 11,
  'entity': 'I-PER',
  'index': 3,
  'score': 0.9996762,
  'start': 8,
  'word': '##agh'},
 {'end': 12,
  'entity': 'I-PER',
  'index': 4,
  'score': 0.99938107,
  'start': 11,
  'word': '##i'},
 {'end': 42,
  'entity': 'B-ORG',
  'index': 9,
  'score': 0.9998299,
  'start': 33,
  'word': 'consiglio'},
 {'end': 52,
  'entity': 'B-LOC',
  'index': 11,
  'score': 0.9998227,
  'start': 46,
  'word': 'Italia'}]

In [None]:
tokenizer.tokenize(example)

['Mario',
 'Dr',
 '##agh',
 '##i',
 'è',
 'il',
 'presidente',
 'del',
 'consiglio',
 'in',
 'Italia']

la parola **Draghi** vediamo che viene scomposta dal tokenizer in piu parti. Questo è il metodo che usa il trasformer per gestire le parole non conosciute. Il trasformer non ha mai visto la parola Draghi e la scompone in sottoparole che ha visto. In questo modo posso dare in input qualunque tipo di testo.

# Sentiment Analysis
Studio di sentimenti, attitudini, opinioni, affetti, visioni, emozioni all'interno di un testo. 
Alcune volte lo si trova indicato come opinion mining anche se formalmente non sono la stessa cosa. 

Ci sono modelli italiani per fare sentiment Analysis (task di text classification) 
Uno dei modelli piu semplici a disposizione è il seguente: 

[MilaNLProc/feel-it-italian-sentiment](https://huggingface.co/MilaNLProc/feel-it-italian-sentiment)

In [3]:
from transformers import pipeline
classifier = pipeline("text-classification",model='MilaNLProc/feel-it-italian-sentiment',top_k=2)
prediction = classifier("Oggi sono proprio contento!")
print(prediction)


Downloading:   0%|          | 0.00/847 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/422M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/414 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/775k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.60M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/299 [00:00<?, ?B/s]

[{'label': 'positive', 'score': 0.9997411370277405}, {'label': 'negative', 'score': 0.0002588012139312923}]


In [4]:
prediction


[{'label': 'positive', 'score': 0.9997411370277405},
 {'label': 'negative', 'score': 0.0002588012139312923}]

In [5]:
# binary classification

import torch
import numpy as np 
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained("MilaNLProc/feel-it-italian-sentiment")
model = AutoModelForSequenceClassification.from_pretrained("MilaNLProc/feel-it-italian-sentiment")

sentence = 'Oggi sono proprio disperato' 

# in questo caso non mi mette a dispozione la pipeline completa e devo far ei singoli step 


inputs = tokenizer(sentence, return_tensors="pt") #tokenizza l'input

# Call the model and get the logits
labels = torch.tensor([1]).unsqueeze(0)  # Batch size 1
outputs = model(**inputs, labels=labels)
loss, logits = outputs[:2]
logits = logits.squeeze(0)

# Extract probabilities
proba = torch.nn.functional.softmax(logits, dim=0)

# Unpack the tensor to obtain negative and positive probabilities
negative, positive = proba
print(f"Probabilities: Negative {np.round(negative.item(),4)} - Positive {np.round(positive.item(),4)}")

Probabilities: Negative 0.9998 - Positive 0.0002


Hugging face mette a disposizione anche un'altro modello che consente di conoscere non il sentiment ma l'emotion ovvero l'emozione di chi ha scritto il testo.

[MilaNLProc/feel-it-italian-emotion](https://huggingface.co/MilaNLProc/feel-it-italian-emotion)

In [6]:
from transformers import pipeline
classifier = pipeline("text-classification",model='MilaNLProc/feel-it-italian-emotion',top_k=2)
prediction = classifier("Oggi sono proprio contento!")
print(prediction)


Downloading:   0%|          | 0.00/899 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/422M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/414 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/775k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.60M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/299 [00:00<?, ?B/s]

[{'label': 'joy', 'score': 0.9993919134140015}, {'label': 'sadness', 'score': 0.00026005893596448004}]


In [7]:
prediction

[{'label': 'joy', 'score': 0.9993919134140015},
 {'label': 'sadness', 'score': 0.00026005893596448004}]

In [8]:
# emotion classification


import torch
import numpy as np 
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained("MilaNLProc/feel-it-italian-sentiment")
model = AutoModelForSequenceClassification.from_pretrained("MilaNLProc/feel-it-italian-emotion")

sentence = "Se non lo passa, mi arrabierò tantissimo con lui."
inputs = tokenizer(sentence, return_tensors="pt")

# Call the model and get the logits
labels = torch.tensor([1]).unsqueeze(0)  # Batch size 1
outputs = model(**inputs, labels=labels)
loss, logits = outputs[:2]
logits = logits.squeeze(0)

# Extract probabilities
proba = torch.nn.functional.softmax(logits, dim=0)

# Unpack the tensor to obtain negative and positive probabilities
anger, fear, joy, sadness = proba

print("Anger -> ", anger)
print("Fear -> ", fear)
print("Joy -> ", joy)
print("Sadness -> ", sadness)

Anger ->  tensor(0.0014, grad_fn=<UnbindBackward0>)
Fear ->  tensor(0.0006, grad_fn=<UnbindBackward0>)
Joy ->  tensor(0.0003, grad_fn=<UnbindBackward0>)
Sadness ->  tensor(0.9978, grad_fn=<UnbindBackward0>)


Esistono anche modelli di sentiment analysis in cui è possibile attendere non solo un valore positivo o negativo del sentimento ma anche neutrale.

Ad esempio:

[neuraly/bert-base-italian-cased-sentiment](https://huggingface.co/neuraly/bert-base-italian-cased-sentiment)

# Sentiment Extraction

Dato un input, voglio sapere quale è l'estratto del testo che veicola il sentimento positivo o negativo (contesto definito dall'utente)

Ad esempio: (modello solo inglese)

[mrm8488/t5-base-finetuned-span-sentiment-extraction](https://huggingface.co/mrm8488/t5-base-finetuned-span-sentiment-extraction)