### Sentiment Analysis in Italian using Transformers

based on **Neuraly** work; See:
* see: https://huggingface.co/neuraly/bert-base-italian-cased-sentiment
* https://medium.com/@a.bellini/leveraging-huggingfaces-transformers-for-cross-lingual-sentiment-analysis-acca1f4e9da6

for more details, see also:
* https://huggingface.co/blog/sentiment-analysis-python

refactored using the class defined in sentiment_analyzers module

In [1]:
import torch
from torch import nn

# HuggingFace transformers (availale in OCI DS conda nlp env)
# see: https://github.com/huggingface/transformers
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# from my Python file
from sentiment_analyzers import MultiSentimentAnalyzer

### Python class

I have encapsulated the code from the HF site of the model, with some semplification, in a Python class.

* Conda env used: Natural Language Processing for CPU Python 3.7

### Some tests

In [3]:
%%time

# loading the model: pass the HF model name
MODEL_NAME = "neuraly/bert-base-italian-cased-sentiment"

sent_analyzer = MultiSentimentAnalyzer(MODEL_NAME, labels=["negative", "neutral", "positive"])

Loading model...
Model loading completed!
CPU times: user 2.22 s, sys: 253 ms, total: 2.48 s
Wall time: 14.7 s


In [4]:
%%time

scores = sent_analyzer.score(
    "Non credo che la sua organizzazione abbia fornito un buon servizio alla clientela"
)

scores

CPU times: user 173 ms, sys: 6.79 ms, total: 180 ms
Wall time: 46.2 ms


[{'label': 'negative', 'score': 0.9716},
 {'label': 'neutral', 'score': 0.0181},
 {'label': 'positive', 'score': 0.0103}]

### test on a set of sentences

In [5]:
%%time

input_sentences = [
    "E' un prodotto pessimo",
    "La sua organizzazione ha fornito un buon servizio alla clientela",
    "La sua organizzazione non ha fornito un buon servizio alla clientela",
    "Non credo che la sua organizzazione abbia fornito un buon servizio alla clientela",
    "Il prodotto non funziona, non comprero' più nulla dalla vostra azienda",
    "Io penso che la sua organizzazione non abbia fornito un buon servizio alla clientela",
    "La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona?",
    "La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona",
    "La vostra organizzazione offre servizi pessimi",
    "La vostra organizzazione offre servizi non adeguati",
    "Sono molto soddisfatto del tuo lavoro",
    "non sono del tutto sicuro che il lavoro sia adeguato",
    "l'azienda dovrebbe offrire servizi migliori",
    "il supporto offerto dal customer care non è stato adeguato",
    "il risultato è pessimo",
    "il Napoli ha giocato una partita decente",
    "il lavoro dell'allenatore è stato modesto",
]


# object already instantiated

for i, sentence in enumerate(input_sentences):

    #
    # here I do the scoring on a single sentence
    #
    scores = sent_analyzer.score(sentence)

    # scores is a dict of []

    print(f"{i+1}. {sentence}")
    print(sent_analyzer.format_scores(scores))
    print()

# formatting
print()

1. E' un prodotto pessimo
negative: 0.9978|neutral: 0.002|positive: 0.0002|

2. La sua organizzazione ha fornito un buon servizio alla clientela
negative: 0.0002|neutral: 0.002|positive: 0.9978|

3. La sua organizzazione non ha fornito un buon servizio alla clientela
negative: 0.9951|neutral: 0.0046|positive: 0.0003|

4. Non credo che la sua organizzazione abbia fornito un buon servizio alla clientela
negative: 0.9716|neutral: 0.0181|positive: 0.0103|

5. Il prodotto non funziona, non comprero' più nulla dalla vostra azienda
negative: 0.9976|neutral: 0.0023|positive: 0.0002|

6. Io penso che la sua organizzazione non abbia fornito un buon servizio alla clientela
negative: 0.9973|neutral: 0.0025|positive: 0.0002|

7. La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona?
negative: 0.0006|neutral: 0.8939|positive: 0.1055|

8. La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona
negative: 0.0004|neutral: 0.0487|p

### next step: Test batch

In [6]:
%%time

scores = sent_analyzer.batch_score(input_sentences)

# Instead of a tensor I want the numpy vector
scores.numpy()

CPU times: user 1.72 s, sys: 55.1 ms, total: 1.77 s
Wall time: 443 ms


array([[9.97822404e-01, 1.98977720e-03, 1.87821424e-04],
       [2.41547939e-04, 1.96292158e-03, 9.97795582e-01],
       [9.95064676e-01, 4.62475792e-03, 3.10573465e-04],
       [9.71631527e-01, 1.80967916e-02, 1.02717374e-02],
       [9.97555971e-01, 2.27070157e-03, 1.73314256e-04],
       [9.97273028e-01, 2.51539331e-03, 2.11581835e-04],
       [6.31291943e-04, 8.93854976e-01, 1.05513722e-01],
       [4.11611923e-04, 4.86868806e-02, 9.50901508e-01],
       [9.85226452e-01, 1.46010835e-02, 1.72518616e-04],
       [9.59285676e-01, 4.05113772e-02, 2.02959549e-04],
       [1.60809665e-04, 1.45011442e-03, 9.98389125e-01],
       [6.75603926e-01, 3.18588316e-01, 5.80779370e-03],
       [3.46464734e-03, 5.73630678e-03, 9.90799069e-01],
       [9.88429904e-01, 1.14101814e-02, 1.59893607e-04],
       [9.97361124e-01, 2.45943945e-03, 1.79441457e-04],
       [1.21894449e-01, 7.69497573e-01, 1.08607978e-01],
       [1.41019728e-02, 9.70547378e-01, 1.53505998e-02]], dtype=float32)