# Sentiment analysis 

> The aim of this notebook is to compare XLM-T and alberto-it performance on sentiment analysis task. We will consider our manually labeled data as ground truth. Based on the analysis, we will decide whether to fine any model on data or just use HF pipeline using the winning model. Analysis is based on this [blog](https://huggingface.co/blog/sentiment-analysis-twitter)

Note that we may use this [trick](https://stackoverflow.com/questions/23013220/max-retries-exceeded-with-url-in-requests) with requests to avoid the error "Max retries exceeded with URL in requests" 

**Original plan:** 
Include these models 

XLM-t 
feel it sentiment 
neural 

compare them based on our manual labels 

We can also consider the model 'feel it emotion' for further insights.  

In [100]:
import pandas as pd
import requests
from tqdm import tqdm

## Importing data

In [6]:
pilot_dir = "../../data/pilot_labeled_data/"

In [9]:
data = pd.read_csv(pilot_dir + 'pilot_sentiment_data', index_col = 0)

In [11]:
data.head()

Unnamed: 0,Tweet,sent_label
1782,Il piano di vaccinazione per #coronavirus nece...,-1
370,Precisazione doverosa: le mascherine sono un r...,0
2687,Al via la campagna vaccinazione anti #Covid19 ...,1
1098,«Non indispensabili»?!?,0
1557,Intere famiglie rinunciano a comprare il pane ...,-1


We will be using Inference API, an easy-to-use API for integrating machine learning models via simple API calls.

For using the Inference API, first we will need to define your model id and your Hugging Face API Token:

In [13]:
model = "cardiffnlp/twitter-xlm-roberta-base-sentiment"

hf_token = "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"

We will also need to specify our Hugging Face token; you can get one for free by signing up [here](https://huggingface.co/welcome) and then copying your token on this [page](https://huggingface.co/settings/tokens)

Next, you will create the API call using the model id and hf_token:

In [17]:
API_URL = "https://api-inference.huggingface.co/models/" + model
headers = {"Authorization": "Bearer %s" % (hf_token)}

def analysis(data):
    payload = dict(inputs=data, options=dict(wait_for_model=True))
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()


Let's do sentiment analysis on each tweet 

In [18]:
tweets_analysis = []
for tweet in data.Tweet:
    try:
        sentiment_result = analysis(tweet)[0]
        top_sentiment = max(sentiment_result, key=lambda x: x['score']) # Get the sentiment with the higher score
        tweets_analysis.append({'tweet': tweet, 'sentiment': top_sentiment['label']})
 
    except Exception as e:
        print(e)


## Explore the results of sentiment analysis

In [23]:
# Load the data in a dataframe
pd.set_option('max_colwidth', None)
pd.set_option('display.width', 3000)
df = pd.DataFrame(tweets_analysis)

## count the number of tweets that were tagged as positive, negative and neutral:

In [31]:
df['sentiment'] = df.sentiment.replace(['Negative','Neutral', 'Positive'],[-1,0,1])

In [32]:
sentiment_counts = df.groupby(['sentiment']).size()
print(sentiment_counts)

sentiment
-1    122
 0     64
 1     13
dtype: int64


In [57]:
data = data.reset_index(drop = True)

data = data.assign(XLM_sent = df.sentiment)

Unnamed: 0,Tweet,sent_label,XLM_sent
0,"Il piano di vaccinazione per #coronavirus necessita di un' organizzazione capillare, non corrotta, efficiente, con le giuste competenze al posto giusto. Anche la carenza di siringhe diventerebbe problema, e già vedo a febbraio i titoli sui quotidiani che si poteva fare meglio",-1,-1
1,Precisazione doverosa: le mascherine sono un regalo formidabile a patologie più gravi del covid19.\nNon sfido nessuno a dimostrare il contrario.,0,1
2,Al via la campagna vaccinazione anti #Covid19 \nÈ un grande #giorno 🌈\nTutti #insiemecelafaremo 💕\nL' #Italia 🇮🇹 rinasce 🌺\n #StopCovid https://t.co/LBYoxtIF7A,1,1
3,«Non indispensabili»?!?,0,0
4,"Intere famiglie rinunciano a comprare il pane perché, non potendo lavorare, non guadagnano.\n\nMolti invece non riescono a rinunciare all' aperitivo domenicale sul lungomare?\n\nNon servono eroi o salvatori della patria... Ma servono solo cittadini di BUON SENSO.\n\n#COVID19",-1,-1


In [59]:
pd.crosstab(data['sent_label'], data['XLM_sent'])

XLM_sent,-1,0,1
sent_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-1,55,6,3
0,66,54,4
1,1,4,6


## 'feel-it-italian-sentiment' Model

In [60]:
model = "MilaNLProc/feel-it-italian-sentiment"

hf_token = "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"

We will also need to specify our Hugging Face token; you can get one for free by signing up [here](https://huggingface.co/welcome) and then copying your token on this [page](https://huggingface.co/settings/tokens)

Next, you will create the API call using the model id and hf_token:

In [61]:
API_URL = "https://api-inference.huggingface.co/models/" + model
headers = {"Authorization": "Bearer %s" % (hf_token)}

def analysis(data):
    payload = dict(inputs=data, options=dict(wait_for_model=True))
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()


Let's do sentiment analysis on each tweet 

In [62]:
tweets_analysis = []
for tweet in data.Tweet:
    try:
        sentiment_result = analysis(tweet)[0]
        top_sentiment = max(sentiment_result, key=lambda x: x['score']) # Get the sentiment with the higher score
        tweets_analysis.append({'tweet': tweet, 'sentiment': top_sentiment['label']})
 
    except Exception as e:
        print(e)


## Explore the results of sentiment analysis

In [63]:
# Load the data in a dataframe
pd.set_option('max_colwidth', None)
pd.set_option('display.width', 3000)
df = pd.DataFrame(tweets_analysis)

## count the number of tweets that were tagged as positive, negative and neutral:

In [66]:
df.head(20)

Unnamed: 0,tweet,sentiment
0,"Il piano di vaccinazione per #coronavirus necessita di un' organizzazione capillare, non corrotta, efficiente, con le giuste competenze al posto giusto. Anche la carenza di siringhe diventerebbe problema, e già vedo a febbraio i titoli sui quotidiani che si poteva fare meglio",negative
1,Precisazione doverosa: le mascherine sono un regalo formidabile a patologie più gravi del covid19.\nNon sfido nessuno a dimostrare il contrario.,negative
2,Al via la campagna vaccinazione anti #Covid19 \nÈ un grande #giorno 🌈\nTutti #insiemecelafaremo 💕\nL' #Italia 🇮🇹 rinasce 🌺\n #StopCovid https://t.co/LBYoxtIF7A,positive
3,«Non indispensabili»?!?,negative
4,"Intere famiglie rinunciano a comprare il pane perché, non potendo lavorare, non guadagnano.\n\nMolti invece non riescono a rinunciare all' aperitivo domenicale sul lungomare?\n\nNon servono eroi o salvatori della patria... Ma servono solo cittadini di BUON SENSO.\n\n#COVID19",negative
5,Sacrosanto!,positive
6,C'è Contessa nei TT ed io pensavo al cantante de i Cani positivo al Covid-19,negative
7,Eppure ci dicono tutti i giorni in #TV che siamo stati presi ad esempio in tutto il Mondo! Bene ecco la triste realtà dei numeri! #COVID19 @Mov5Stelle @robersperanza @GiuseppeConteIT @nzingaretti @fattoquotidiano https://t.co/lWkzjsYu2u,negative
8,Grazie alla @GiorgiaMeloni a Salvini ed al fantoccio di F.I.,negative
9,"Dico, ma vi rendete conto di chi avete appena rieletto?\n""Persone non indispensabili allo sforzo produttivo""\nUna autentica mostruosità.",negative


In [79]:
df['sentiment'] = df.sentiment.replace(['negative', 'positive'],[-1,1])

In [80]:
sentiment_counts = df.groupby(['sentiment']).size()
print(sentiment_counts)

sentiment
-1    177
 1     22
dtype: int64


In [81]:
data = data.reset_index(drop = True)

data = data.assign(feel_it_sent = df.sentiment)

In [82]:
data.head()

Unnamed: 0,Tweet,sent_label,XLM_sent,feel_it_sent
0,"Il piano di vaccinazione per #coronavirus necessita di un' organizzazione capillare, non corrotta, efficiente, con le giuste competenze al posto giusto. Anche la carenza di siringhe diventerebbe problema, e già vedo a febbraio i titoli sui quotidiani che si poteva fare meglio",-1,-1,-1
1,Precisazione doverosa: le mascherine sono un regalo formidabile a patologie più gravi del covid19.\nNon sfido nessuno a dimostrare il contrario.,0,1,-1
2,Al via la campagna vaccinazione anti #Covid19 \nÈ un grande #giorno 🌈\nTutti #insiemecelafaremo 💕\nL' #Italia 🇮🇹 rinasce 🌺\n #StopCovid https://t.co/LBYoxtIF7A,1,1,1
3,«Non indispensabili»?!?,0,0,-1
4,"Intere famiglie rinunciano a comprare il pane perché, non potendo lavorare, non guadagnano.\n\nMolti invece non riescono a rinunciare all' aperitivo domenicale sul lungomare?\n\nNon servono eroi o salvatori della patria... Ma servono solo cittadini di BUON SENSO.\n\n#COVID19",-1,-1,-1


Note that feel-it has only pos and neg labels. However, it seems that it is performing quite well

In [83]:
pd.crosstab(data['sent_label'], data['feel_it_sent'])

feel_it_sent,-1,1
sent_label,Unnamed: 1_level_1,Unnamed: 2_level_1
-1,62,2
0,111,13
1,4,7


## Feel it emotion model 

In [60]:
model = "MilaNLProc/feel-it-italian-emotion"

hf_token = "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"

We will also need to specify our Hugging Face token; you can get one for free by signing up [here](https://huggingface.co/welcome) and then copying your token on this [page](https://huggingface.co/settings/tokens)

Next, you will create the API call using the model id and hf_token:

In [61]:
API_URL = "https://api-inference.huggingface.co/models/" + model
headers = {"Authorization": "Bearer %s" % (hf_token)}

def analysis(data):
    payload = dict(inputs=data, options=dict(wait_for_model=True))
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()


Let's do sentiment analysis on each tweet 

In [62]:
tweets_analysis = []
for tweet in data.Tweet:
    try:
        sentiment_result = analysis(tweet)[0]
        top_sentiment = max(sentiment_result, key=lambda x: x['score']) # Get the sentiment with the higher score
        tweets_analysis.append({'tweet': tweet, 'sentiment': top_sentiment['label']})
 
    except Exception as e:
        print(e)


## Explore the results of sentiment analysis

In [63]:
# Load the data in a dataframe
pd.set_option('max_colwidth', None)
pd.set_option('display.width', 3000)
df = pd.DataFrame(tweets_analysis)

## count the number of tweets that were tagged as positive, negative and neutral:

In [66]:
df.head(20)

Unnamed: 0,tweet,sentiment
0,"Il piano di vaccinazione per #coronavirus necessita di un' organizzazione capillare, non corrotta, efficiente, con le giuste competenze al posto giusto. Anche la carenza di siringhe diventerebbe problema, e già vedo a febbraio i titoli sui quotidiani che si poteva fare meglio",negative
1,Precisazione doverosa: le mascherine sono un regalo formidabile a patologie più gravi del covid19.\nNon sfido nessuno a dimostrare il contrario.,negative
2,Al via la campagna vaccinazione anti #Covid19 \nÈ un grande #giorno 🌈\nTutti #insiemecelafaremo 💕\nL' #Italia 🇮🇹 rinasce 🌺\n #StopCovid https://t.co/LBYoxtIF7A,positive
3,«Non indispensabili»?!?,negative
4,"Intere famiglie rinunciano a comprare il pane perché, non potendo lavorare, non guadagnano.\n\nMolti invece non riescono a rinunciare all' aperitivo domenicale sul lungomare?\n\nNon servono eroi o salvatori della patria... Ma servono solo cittadini di BUON SENSO.\n\n#COVID19",negative
5,Sacrosanto!,positive
6,C'è Contessa nei TT ed io pensavo al cantante de i Cani positivo al Covid-19,negative
7,Eppure ci dicono tutti i giorni in #TV che siamo stati presi ad esempio in tutto il Mondo! Bene ecco la triste realtà dei numeri! #COVID19 @Mov5Stelle @robersperanza @GiuseppeConteIT @nzingaretti @fattoquotidiano https://t.co/lWkzjsYu2u,negative
8,Grazie alla @GiorgiaMeloni a Salvini ed al fantoccio di F.I.,negative
9,"Dico, ma vi rendete conto di chi avete appena rieletto?\n""Persone non indispensabili allo sforzo produttivo""\nUna autentica mostruosità.",negative


In [80]:
sentiment_counts = df.groupby(['sentiment']).size()
print(sentiment_counts)

sentiment
-1    177
 1     22
dtype: int64


In [81]:
data = data.reset_index(drop = True)

data = data.assign(feel_it_sent = df.sentiment)

In [82]:
data.head()

Unnamed: 0,Tweet,sent_label,XLM_sent,feel_it_sent
0,"Il piano di vaccinazione per #coronavirus necessita di un' organizzazione capillare, non corrotta, efficiente, con le giuste competenze al posto giusto. Anche la carenza di siringhe diventerebbe problema, e già vedo a febbraio i titoli sui quotidiani che si poteva fare meglio",-1,-1,-1
1,Precisazione doverosa: le mascherine sono un regalo formidabile a patologie più gravi del covid19.\nNon sfido nessuno a dimostrare il contrario.,0,1,-1
2,Al via la campagna vaccinazione anti #Covid19 \nÈ un grande #giorno 🌈\nTutti #insiemecelafaremo 💕\nL' #Italia 🇮🇹 rinasce 🌺\n #StopCovid https://t.co/LBYoxtIF7A,1,1,1
3,«Non indispensabili»?!?,0,0,-1
4,"Intere famiglie rinunciano a comprare il pane perché, non potendo lavorare, non guadagnano.\n\nMolti invece non riescono a rinunciare all' aperitivo domenicale sul lungomare?\n\nNon servono eroi o salvatori della patria... Ma servono solo cittadini di BUON SENSO.\n\n#COVID19",-1,-1,-1


Note that feel-it has only pos and neg labels. However, it seems that it is performing quite well

In [83]:
pd.crosstab(data['sent_label'], data['feel_it_sent'])

feel_it_sent,-1,1
sent_label,Unnamed: 1_level_1,Unnamed: 2_level_1
-1,62,2
0,111,13
1,4,7


## Neuraly model

In [114]:
model = "neuraly/bert-base-italian-cased-sentiment"

hf_token = "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"

We will also need to specify our Hugging Face token; you can get one for free by signing up [here](https://huggingface.co/welcome) and then copying your token on this [page](https://huggingface.co/settings/tokens)

Next, you will create the API call using the model id and hf_token:

In [115]:
API_URL = "https://api-inference.huggingface.co/models/" + model
headers = {"Authorization": "Bearer %s" % (hf_token)}

def analysis(data):
    payload = dict(inputs=data, options=dict(wait_for_model=True))
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()


Let's do sentiment analysis on each tweet 

In [116]:
tweets_analysis = []
for tweet in tqdm(data.Tweet[0:3]):
    try:
        sentiment_result = analysis(tweet)[0]
        top_sentiment = max(sentiment_result, key=lambda x: x['score']) # Get the sentiment with the higher score
        tweets_analysis.append({'tweet': tweet, 'sentiment': top_sentiment['label']})
 
    except Exception as e:
        print(e)


 33%|███████████████                              | 1/3 [00:00<00:01,  1.09it/s]

0


 67%|██████████████████████████████               | 2/3 [00:02<00:01,  1.42s/it]

0


100%|█████████████████████████████████████████████| 3/3 [00:04<00:00,  1.44s/it]

0





## Explore the results of sentiment analysis

In [117]:
# Load the data in a dataframe
pd.set_option('max_colwidth', None)
pd.set_option('display.width', 3000)
df = pd.DataFrame(tweets_analysis)

## count the number of tweets that were tagged as positive, negative and neutral:

In [118]:
tweets_analysis

[]

In [119]:
df.head(20)

In [105]:
df.shape

(0, 0)

In [91]:
df['sentiment'] = df.sentiment.replace(['negative', 'neutral', 'positive'],[-1,0, 1])

In [92]:
sentiment_counts = df.groupby(['sentiment']).size()
print(sentiment_counts)

sentiment
-1    10
 0    83
 1     8
dtype: int64


In [81]:
data = data.reset_index(drop = True)

data = data.assign(feel_it_sent = df.sentiment)

In [82]:
data.head()

Unnamed: 0,Tweet,sent_label,XLM_sent,feel_it_sent
0,"Il piano di vaccinazione per #coronavirus necessita di un' organizzazione capillare, non corrotta, efficiente, con le giuste competenze al posto giusto. Anche la carenza di siringhe diventerebbe problema, e già vedo a febbraio i titoli sui quotidiani che si poteva fare meglio",-1,-1,-1
1,Precisazione doverosa: le mascherine sono un regalo formidabile a patologie più gravi del covid19.\nNon sfido nessuno a dimostrare il contrario.,0,1,-1
2,Al via la campagna vaccinazione anti #Covid19 \nÈ un grande #giorno 🌈\nTutti #insiemecelafaremo 💕\nL' #Italia 🇮🇹 rinasce 🌺\n #StopCovid https://t.co/LBYoxtIF7A,1,1,1
3,«Non indispensabili»?!?,0,0,-1
4,"Intere famiglie rinunciano a comprare il pane perché, non potendo lavorare, non guadagnano.\n\nMolti invece non riescono a rinunciare all' aperitivo domenicale sul lungomare?\n\nNon servono eroi o salvatori della patria... Ma servono solo cittadini di BUON SENSO.\n\n#COVID19",-1,-1,-1


Note that feel-it has only pos and neg labels. However, it seems that it is performing quite well

In [83]:
pd.crosstab(data['sent_label'], data['feel_it_sent'])

feel_it_sent,-1,1
sent_label,Unnamed: 1_level_1,Unnamed: 2_level_1
-1,62,2
0,111,13
1,4,7
