### Sentiment Analysis in Italian using Transformers

based on **Neuraly** work; See:
* see: https://huggingface.co/neuraly/bert-base-italian-cased-sentiment
* https://medium.com/@a.bellini/leveraging-huggingfaces-transformers-for-cross-lingual-sentiment-analysis-acca1f4e9da6

for more details, see also:
* https://huggingface.co/blog/sentiment-analysis-python

In [1]:
import torch
from torch import nn

# HuggingFace transformers (availale in OCI DS conda nlp env)
# see: https://github.com/huggingface/transformers
from transformers import AutoTokenizer, AutoModelForSequenceClassification

### Python class

I have encapsulated the code from the HF site of the model, with some semplification, in a Python class.

* Conda env used: Natural Language Processing for CPU Python 3.7

In [6]:
class ITASentimentAnalyzer:
    # load the tokenizer and transformer
    def __init__(self, MODEL_NAME):

        #
        # attribute definitions
        #

        # for rounding the scores
        self._DEC_DIGITS = 4

        # name of HuggingFace model used
        self._MODEL_NAME = MODEL_NAME

        # the list of defined labels (and therefore we will have 3 scores)
        self._LABELS = ["negative", "neutral", "positive"]

        print("Loading model...")
        self.tokenizer = AutoTokenizer.from_pretrained(self._MODEL_NAME)
        # Load the model
        self.model = AutoModelForSequenceClassification.from_pretrained(
            self._MODEL_NAME
        )

        print("Model loading completed!")

    #
    # does the scoring on a single sentence a time
    #
    def score(self, input_sentence):
        # encode the sentence and create the input tensor (in PyTorch format)
        input_ids = self.tokenizer(
            input_sentence, add_special_tokens=True, return_tensors="pt"
        )["input_ids"]

        # output from tokenizer is already a tensor

        # Call the model and get the logits
        with torch.no_grad():
            logits = self.model(input_ids)["logits"]

        # The model was trained with a Log Likelyhood + Softmax combined loss, hence to extract probabilities we need a softmax on top of the logits tensor
        proba = nn.functional.softmax(logits, dim=1)

        # to remove the added dimension with squeeze
        # proba is (negative, neutral, positive)
        scores = proba.squeeze(0)

        # get rid of tensor and round and
        # prepare the output json

        ret_vet = []

        for i, label in enumerate(self._LABELS):
            ret_vet.append({"label": label, "score": self.round(scores[i])})

        return ret_vet

    # only to format output
    def format_scores(self, scores):
        score_str = ""

        for v_score in scores:
            score_str += str(v_score["label"]) + ": " + str(v_score["score"]) + "|"

        return score_str

    # utility to get rid of tensor and round
    def round(self, tens_val):
        return round(tens_val.item(), self._DEC_DIGITS)

### Some tests

In [13]:
%%time

# loading the model: pass the HF model name
MODEL_NAME = "neuraly/bert-base-italian-cased-sentiment"

sent_analyzer = ITASentimentAnalyzer(MODEL_NAME)

Loading model...
Model loading completed!
CPU times: user 868 ms, sys: 111 ms, total: 979 ms
Wall time: 5.97 s


In [14]:
%%time

scores = sent_analyzer.score(
    "Non credo che la sua organizzazione abbia fornito un buon servizio alla clientela"
)

scores

CPU times: user 182 ms, sys: 2.05 ms, total: 184 ms
Wall time: 46.6 ms


[{'label': 'negative', 'score': 0.9716},
 {'label': 'neutral', 'score': 0.0181},
 {'label': 'positive', 'score': 0.0103}]

### test on a set of sentences

In [12]:
%%time

input_sentences = [
    "E' un prodotto pessimo",
    "La sua organizzazione ha fornito un buon servizio alla clientela",
    "La sua organizzazione non ha fornito un buon servizio alla clientela",
    "Non credo che la sua organizzazione abbia fornito un buon servizio alla clientela",
    "Il prodotto non funziona, non comprero' più nulla dalla vostra azienda",
    "Io penso che la sua organizzazione non abbia fornito un buon servizio alla clientela",
    "La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona?",
    "La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona",
    "La vostra organizzazione offre servizi pessimi",
    "La vostra organizzazione offre servizi non adeguati",
    "Sono molto soddisfatto del tuo lavoro",
    "non sono del tutto sicuro che il lavoro sia adeguato",
    "l'azienda dovrebbe offrire servizi migliori",
    "il supporto offerto dal customer care non è stato adeguato",
    "il risultato è pessimo",
    "il Napoli ha giocato una partita decente",
    "il lavoro dell'allenatore è stato modesto",
]


# object already instantiated

for i, sentence in enumerate(input_sentences):

    #
    # here I do the scoring on a single sentence
    #
    scores = sent_analyzer.score(sentence)

    # scores is a dict of []

    print(f"{i+1}. {sentence}")
    print(sent_analyzer.format_scores(scores))
    print()

# formatting
print()

1. E' un prodotto pessimo
negative: 0.9978|neutral: 0.002|positive: 0.0002|

2. La sua organizzazione ha fornito un buon servizio alla clientela
negative: 0.0002|neutral: 0.002|positive: 0.9978|

3. La sua organizzazione non ha fornito un buon servizio alla clientela
negative: 0.9951|neutral: 0.0046|positive: 0.0003|

4. Non credo che la sua organizzazione abbia fornito un buon servizio alla clientela
negative: 0.9716|neutral: 0.0181|positive: 0.0103|

5. Il prodotto non funziona, non comprero' più nulla dalla vostra azienda
negative: 0.9976|neutral: 0.0023|positive: 0.0002|

6. Io penso che la sua organizzazione non abbia fornito un buon servizio alla clientela
negative: 0.9973|neutral: 0.0025|positive: 0.0002|

7. La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona?
negative: 0.0006|neutral: 0.8939|positive: 0.1055|

8. La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona
negative: 0.0004|neutral: 0.0487|p

### next step: Test batch