### Test multi-lingual model

* load the model and tokenizer from a local directory
* use class definition in sentiment_analyzers file 
* Conda env used: Natural Language Processing for CPU Python 3.7

In [1]:
import torch
from torch import nn

# HuggingFace transformers (availale in OCI DS conda nlp env)
# see: https://github.com/huggingface/transformers
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# from my Python file
from sentiment_analyzers import MultiSentimentAnalyzer

In [2]:
%%time

# loading the model from a local dir: pass the local dir
LOCAL_DIR = "nlptown-checkpoint"

# labels are dependent on the used mdel , see HF documentation
sent_analyzer = MultiSentimentAnalyzer(
    LOCAL_DIR, labels=["1 star", "2 star", "3 star", "4 star", "5 star"]
)

Loading model...
Model loading completed!
CPU times: user 1.03 s, sys: 206 ms, total: 1.23 s
Wall time: 1.09 s


### Some tests

In [3]:
%%time

scores = sent_analyzer.score("Il servizio offerto alla clientela è ottimo")

sent_analyzer.format_scores(scores)

CPU times: user 164 ms, sys: 4.88 ms, total: 169 ms
Wall time: 43.7 ms


'1 star: 0.0056|2 star: 0.0059|3 star: 0.0518|4 star: 0.323|5 star: 0.6137|'

In [4]:
scores = sent_analyzer.score(
    "The service you have offered to your customers is really good"
)

sent_analyzer.format_scores(scores)

'1 star: 0.0031|2 star: 0.0043|3 star: 0.0572|4 star: 0.4137|5 star: 0.5217|'

In [5]:
%%time

input_sentences = [
    "E' un prodotto pessimo",
    "La sua organizzazione ha fornito un buon servizio alla clientela",
    "La sua organizzazione non ha fornito un buon servizio alla clientela",
    "Non credo che la sua organizzazione abbia fornito un buon servizio alla clientela",
    "Il prodotto non funziona, non comprero' più nulla dalla vostra azienda",
    "Io penso che la sua organizzazione non abbia fornito un buon servizio alla clientela",
    "La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona?",
    "La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona",
    "La vostra organizzazione offre servizi pessimi",
    "La vostra organizzazione offre servizi non adeguati",
    "Sono molto soddisfatto del tuo lavoro",
    "non sono del tutto sicuro che il lavoro sia adeguato",
    "l'azienda dovrebbe offrire servizi migliori",
    "il supporto offerto dal customer care non è stato adeguato",
    "il risultato è pessimo",
    "il Napoli ha giocato una partita decente",
    "il lavoro dell'allenatore è stato modesto",
]


# object already instantiated

for i, sentence in enumerate(input_sentences):

    #
    # here I do the scoring on a single sentence
    #
    scores = sent_analyzer.score(sentence)

    # scores is a dict of []

    print(f"{i+1}. {sentence}")
    print(sent_analyzer.format_scores(scores))
    print()

# formatting
print()

1. E' un prodotto pessimo
1 star: 0.9365|2 star: 0.0558|3 star: 0.0063|4 star: 0.0008|5 star: 0.0006|

2. La sua organizzazione ha fornito un buon servizio alla clientela
1 star: 0.0041|2 star: 0.0072|3 star: 0.1284|4 star: 0.5368|5 star: 0.3235|

3. La sua organizzazione non ha fornito un buon servizio alla clientela
1 star: 0.2703|2 star: 0.4699|3 star: 0.2328|4 star: 0.0228|5 star: 0.0042|

4. Non credo che la sua organizzazione abbia fornito un buon servizio alla clientela
1 star: 0.0336|2 star: 0.0579|3 star: 0.2817|4 star: 0.4109|5 star: 0.2159|

5. Il prodotto non funziona, non comprero' più nulla dalla vostra azienda
1 star: 0.9054|2 star: 0.0825|3 star: 0.0105|4 star: 0.0009|5 star: 0.0006|

6. Io penso che la sua organizzazione non abbia fornito un buon servizio alla clientela
1 star: 0.304|2 star: 0.4361|3 star: 0.2269|4 star: 0.0261|5 star: 0.0068|

7. La gestione da parte della Regione Lazio della complessa macchina dei vaccini è stata buona?
1 star: 0.1193|2 star: 0.2377|

### Test batch scoring

In [6]:
%%time

scores = sent_analyzer.batch_score(input_sentences)

# Instead of a tensor I want the numpy vector
scores.numpy()

CPU times: user 1.81 s, sys: 18.6 ms, total: 1.83 s
Wall time: 458 ms


array([[9.36530411e-01, 5.57628833e-02, 6.32156758e-03, 7.53047701e-04,
        6.32080191e-04],
       [4.12125653e-03, 7.21547566e-03, 1.28380179e-01, 5.36811888e-01,
        3.23471189e-01],
       [2.70302534e-01, 4.69895959e-01, 2.32795313e-01, 2.28488818e-02,
        4.15722933e-03],
       [3.35857086e-02, 5.78925386e-02, 2.81715304e-01, 4.10936803e-01,
        2.15869650e-01],
       [9.05406475e-01, 8.24872330e-02, 1.05212545e-02, 9.45095322e-04,
        6.39984093e-04],
       [3.04037273e-01, 4.36088532e-01, 2.26905301e-01, 2.61404067e-02,
        6.82839612e-03],
       [1.19330466e-01, 2.37725034e-01, 3.91879618e-01, 1.84853911e-01,
        6.62109852e-02],
       [5.81736583e-03, 1.41184954e-02, 1.97010979e-01, 5.23295641e-01,
        2.59757489e-01],
       [8.06014359e-01, 1.54373407e-01, 3.20888162e-02, 4.82816203e-03,
        2.69529247e-03],
       [4.33025539e-01, 3.87495548e-01, 1.51978835e-01, 2.02062204e-02,
        7.29385810e-03],
       [2.22115824e-03, 2.3844

### custom test

In [7]:
sentence = "E' un prodotto pessimo"

sent_analyzer.score(sentence)

[{'label': '1 star', 'score': 0.9365},
 {'label': '2 star', 'score': 0.0558},
 {'label': '3 star', 'score': 0.0063},
 {'label': '4 star', 'score': 0.0008},
 {'label': '5 star', 'score': 0.0006}]