# C-More

In [1]:
import pandas as pd

from collections import Counter

from nltk.tokenize import TweetTokenizer
import string

Our goal is to use the HuggingFace API, https://huggingface.co/docs/api-inference/quicktour, to analyse the sentiment of tweets written in Portuguese (PT). We have two options to achieve this:

* get the sentiment directly from the tweets in PT
* translate the tweets to EN and get the sentiment of the translated tweets

We will start by replacing some of the most common abbreviations in social media texts with full words.

#### 1. Process text

In [2]:
df = pd.read_pickle('data_galp.pkl')

In [3]:
df.head()

Unnamed: 0,id,text,retweets,replies,likes,quotes,created_at
0,1550250030476496900,Galp compra por 140 milhões os 25% da Titan So...,0,0,0,0,2022-07-21 22:43:04+00:00
1,1550246814963712001,A Galp convida portugueses a pensar fora do ca...,0,0,0,0,2022-07-21 22:30:17+00:00
2,1550243011350740992,"Mais um ano que renovo o cartão jovem, mais um...",0,0,0,0,2022-07-21 22:15:10+00:00
3,1550242176407425024,@davidkirzner @LiberalNova @LiberalPT Achas? A...,0,0,0,0,2022-07-21 22:11:51+00:00
4,1550240739170439169,#sicnoticias Não sei! Com a França a construir...,0,0,0,0,2022-07-21 22:06:08+00:00


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 125 entries, 0 to 124
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype              
---  ------      --------------  -----              
 0   id          125 non-null    int64              
 1   text        125 non-null    object             
 2   retweets    125 non-null    int64              
 3   replies     125 non-null    int64              
 4   likes       125 non-null    int64              
 5   quotes      125 non-null    int64              
 6   created_at  125 non-null    datetime64[ns, UTC]
dtypes: datetime64[ns, UTC](1), int64(5), object(1)
memory usage: 7.0+ KB


We can tokenize our texts to identify some of the most common abbreviations.

In [5]:
# tokenize text and remove punctuation

def tokens_nopunct(text):
    
    tokens = [token for token in TweetTokenizer(reduce_len=True, strip_handles=True).tokenize(text)]
    return [token for token in tokens if token not in string.punctuation]

In [6]:
df['tokens'] = df['text'].map(tokens_nopunct)

In [7]:
counter = Counter()

for tokens in df['tokens']:
    counter.update(tokens)

In [9]:
# most common tokens with length < 4

[token for token in counter.most_common(50) if len(token[0]) < 4]

[('a', 146),
 ('de', 97),
 ('e', 85),
 ('que', 77),
 ('o', 69),
 ('da', 63),
 ('do', 36),
 ('é', 33),
 ('em', 33),
 ('não', 29),
 ('com', 29),
 ('as', 25),
 ('A', 24),
 ('os', 22),
 ('na', 22),
 ('no', 22),
 ('uma', 19),
 ('um', 19),
 ('...', 18),
 ('dos', 17),
 ('EDP', 15),
 ('por', 14),
 ('O', 13),
 ('nos', 12),
 ('ao', 11),
 ('q', 11),
 ('tem', 11),
 ('se', 11),
 ('foi', 11),
 ('à', 9),
 ('só', 8),
 ('me', 8),
 ('Não', 8),
 ('ser', 8),
 ('140', 7),
 ('25', 7),
 ('“', 7),
 ('”', 7)]

In [10]:
# 'q' is one of the most common abbreviations

print(df[df['text'].str.contains(" q ", case=False)]['text'].values)

['A Galp convida portugueses a pensar fora do carro..e quem disser Q isto é só “uma limpeza de imagem”, a Galp, manda “dar banho ao cão”. A máscara 😷 cai. #De-evolution. AbsurdQ https://t.co/TW2XljNvxI'
 '@davidkirzner @LiberalNova @LiberalPT Achas? A moça terminou o curso há pouco tempo e concorreu á Galp... O q estou a dizer é q na Galp trabalham milhares e milhares de pessoas, não é por trabalhar na Galp q somos maus. Nem sequer são eles q decidem preços e afins 😕'
 '@davidkirzner @LiberalNova @LiberalPT David mas eu tenho uma amiga q não é Rica, nunca ligou a Política, é uma excelente pessoa e profissional e trabalha na Galp. Tipo, a Galp tem milhares de funcionários'
 '@Fragoso_1906 sim, a Galp tem uma cena com o continente q tens desconto na fatura e vai para o cartão!'
 '@RuiPaiva5 Já andam todos em pânico. Até lhes tremem as pernas só de pensar no q aconteceu à GALP. https://t.co/puXUVI70da'
 '@tiagojcgodinho @MestredoUnive19 @PSSantiago88 Tens noção q há "ativos" encostados n 

In [11]:
# dictionary with abbreviations to replace

abrev = {" q ": " que "}

In [12]:
# other abbreviations: 'tb'

print(df[df['text'].str.contains(" tb ", case=False)]['text'].values)

["@psocialista @LiberalPT @ppdpsd \nMAL q é feito aos portugueses.\nÑ basta falar na elevada 'carga' fiscal, tb dos baixos salários face a inflação ~9%\nPQ isto tb conta, qd ESTADO é acionista da Galp, em 7%\nhttps://t.co/sYtJAQQAQ4\n'TUGA' SOFRE...\nhttps://t.co/eD0R4EIrXL via @expresso"
 '@jbizarro Acidentes de viação, segundo as estatísticas, tb foram menos, e a Galp, segundo se soube, teve prejuízos avultados, teve menos lucros.🤦']


In [13]:
abrev[" tb "] = " também "

In [14]:
# other abbreviations: 'qd'

print(df[df['text'].str.contains(" qd ", case=False)]['text'].values)

["@psocialista @LiberalPT @ppdpsd \nMAL q é feito aos portugueses.\nÑ basta falar na elevada 'carga' fiscal, tb dos baixos salários face a inflação ~9%\nPQ isto tb conta, qd ESTADO é acionista da Galp, em 7%\nhttps://t.co/sYtJAQQAQ4\n'TUGA' SOFRE...\nhttps://t.co/eD0R4EIrXL via @expresso"]


In [15]:
# other abbreviations to replace

abrev[" qd "] = " quando "
abrev[" ñ "] = " não "
abrev[" pq "] = " porque "
abrev[" hj "] = " hoje "

In [16]:
abrev

{' q ': ' que ',
 ' tb ': ' também ',
 ' qd ': ' quando ',
 ' ñ ': ' não ',
 ' pq ': ' porque ',
 ' hj ': ' hoje '}

This is not an exhaustive list of abbreviations to replace, but it could be updated according to our needs.

Another way of doing this would be using regular expressions to account for all occurrences (and not only lowercase abbreviations with blank spaces at both ends).

We could also try to use a spell checker.

In [17]:
# replace abbreviations by word

def replace_abrev(text, dic):
    for k, v in dic.items():
        text = text.replace(k, v)
    return text

In [18]:
df['text_full'] = df['text'].apply(replace_abrev, dic=abrev)

In [19]:
# example 1

print(df[df['text'].str.contains("milhares e milhares", case=False)]['text'].values, 
      '\n\n', 
      df[df['text_full'].str.contains("milhares e milhares", case=False)]['text_full'].values)

['@davidkirzner @LiberalNova @LiberalPT Achas? A moça terminou o curso há pouco tempo e concorreu á Galp... O q estou a dizer é q na Galp trabalham milhares e milhares de pessoas, não é por trabalhar na Galp q somos maus. Nem sequer são eles q decidem preços e afins 😕'] 

 ['@davidkirzner @LiberalNova @LiberalPT Achas? A moça terminou o curso há pouco tempo e concorreu á Galp... O que estou a dizer é que na Galp trabalham milhares e milhares de pessoas, não é por trabalhar na Galp que somos maus. Nem sequer são eles que decidem preços e afins 😕']


In [20]:
# example 2

print(df[df['text'].str.contains("estatísticas", case=False)]['text'].values, 
      '\n\n', 
      df[df['text_full'].str.contains("estatísticas", case=False)]['text_full'].values)

['@jbizarro Acidentes de viação, segundo as estatísticas, tb foram menos, e a Galp, segundo se soube, teve prejuízos avultados, teve menos lucros.🤦'] 

 ['@jbizarro Acidentes de viação, segundo as estatísticas, também foram menos, e a Galp, segundo se soube, teve prejuízos avultados, teve menos lucros.🤦']


#### 2. Sentiment Analysis with a multilingual model fine-tuned for PT

In [37]:
import requests

Before we begin, we need to take into consideration the usage limits of the API. The free version of HugginFace's API is limited to 30000 characters per month: https://huggingface.co/pricing .

In [25]:
# total number of characters of our tweets

sum([len(text) for text in df['text_full']])

20923

Since our tweets have more than 20000 characters, we are going to use a smaller number of them to test these new approaches (otherwise we would quickly get to the monthly limit).

In [27]:
df_sample = df[0:20].copy()

In [28]:
sum([len(text) for text in df_sample['text_full']])

3666

In [30]:
# HuggingFace token

hf_token = ""

In [31]:
# multilingual model: https://huggingface.co/cardiffnlp/twitter-xlm-roberta-base-sentiment

model = "cardiffnlp/twitter-xlm-roberta-base-sentiment"

In [32]:
API_URL = "https://api-inference.huggingface.co/models/" + model
headers = {"Authorization": "Bearer %s" % (hf_token)}

In [33]:
def apply_model(data):
    payload = dict(inputs=data, options=dict(wait_for_model=True))
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()

In [83]:
%%time

tweets_sentiment = []

for tweet in df_sample['text_full']:
    
    sentiment_result = apply_model(tweet)[0] # the result is a list inside a list
    tweets_sentiment.append({'sentiment': sentiment_result})

Wall time: 12.1 s


In [84]:
df_sample['sentiment'] = pd.DataFrame(tweets_sentiment)

df_sample.head()

Unnamed: 0,id,text,retweets,replies,likes,quotes,created_at,tokens,text_full,sentiment
0,1550250030476496900,Galp compra por 140 milhões os 25% da Titan So...,0,0,0,0,2022-07-21 22:43:04+00:00,"[Galp, compra, por, 140, milhões, os, 25, da, ...",Galp compra por 140 milhões os 25% da Titan So...,"[{'label': 'Neutral', 'score': 0.7745079398155..."
1,1550246814963712001,A Galp convida portugueses a pensar fora do ca...,0,0,0,0,2022-07-21 22:30:17+00:00,"[A, Galp, convida, portugueses, a, pensar, for...",A Galp convida portugueses a pensar fora do ca...,"[{'label': 'Negative', 'score': 0.836504757404..."
2,1550243011350740992,"Mais um ano que renovo o cartão jovem, mais um...",0,0,0,0,2022-07-21 22:15:10+00:00,"[Mais, um, ano, que, renovo, o, cartão, jovem,...","Mais um ano que renovo o cartão jovem, mais um...","[{'label': 'Positive', 'score': 0.569248735904..."
3,1550242176407425024,@davidkirzner @LiberalNova @LiberalPT Achas? A...,0,0,0,0,2022-07-21 22:11:51+00:00,"[Achas, A, moça, terminou, o, curso, há, pouco...",@davidkirzner @LiberalNova @LiberalPT Achas? A...,"[{'label': 'Negative', 'score': 0.901339948177..."
4,1550240739170439169,#sicnoticias Não sei! Com a França a construir...,0,0,0,0,2022-07-21 22:06:08+00:00,"[#sicnoticias, Não, sei, Com, a, França, a, co...",#sicnoticias Não sei! Com a França a construir...,"[{'label': 'Neutral', 'score': 0.4744070768356..."


In [85]:
# sentiment score ranges from [0, 1] for each label

# top sentiment
df_sample['top_sentiment'] = df_sample['sentiment'].map(lambda sentiment: max(sentiment, key=lambda x: x['score']))

# top score
df_sample['score'] = df_sample['top_sentiment'].map(lambda x: x['score'])

# top label
df_sample['label'] = df_sample['top_sentiment'].map(lambda x: x['label'])

In [86]:
df_sample.head()

Unnamed: 0,id,text,retweets,replies,likes,quotes,created_at,tokens,text_full,sentiment,top_sentiment,score,label
0,1550250030476496900,Galp compra por 140 milhões os 25% da Titan So...,0,0,0,0,2022-07-21 22:43:04+00:00,"[Galp, compra, por, 140, milhões, os, 25, da, ...",Galp compra por 140 milhões os 25% da Titan So...,"[{'label': 'Neutral', 'score': 0.7745079398155...","{'label': 'Neutral', 'score': 0.7745079398155212}",0.774508,Neutral
1,1550246814963712001,A Galp convida portugueses a pensar fora do ca...,0,0,0,0,2022-07-21 22:30:17+00:00,"[A, Galp, convida, portugueses, a, pensar, for...",A Galp convida portugueses a pensar fora do ca...,"[{'label': 'Negative', 'score': 0.836504757404...","{'label': 'Negative', 'score': 0.8365047574043...",0.836505,Negative
2,1550243011350740992,"Mais um ano que renovo o cartão jovem, mais um...",0,0,0,0,2022-07-21 22:15:10+00:00,"[Mais, um, ano, que, renovo, o, cartão, jovem,...","Mais um ano que renovo o cartão jovem, mais um...","[{'label': 'Positive', 'score': 0.569248735904...","{'label': 'Positive', 'score': 0.5692487359046...",0.569249,Positive
3,1550242176407425024,@davidkirzner @LiberalNova @LiberalPT Achas? A...,0,0,0,0,2022-07-21 22:11:51+00:00,"[Achas, A, moça, terminou, o, curso, há, pouco...",@davidkirzner @LiberalNova @LiberalPT Achas? A...,"[{'label': 'Negative', 'score': 0.901339948177...","{'label': 'Negative', 'score': 0.9013399481773...",0.90134,Negative
4,1550240739170439169,#sicnoticias Não sei! Com a França a construir...,0,0,0,0,2022-07-21 22:06:08+00:00,"[#sicnoticias, Não, sei, Com, a, França, a, co...",#sicnoticias Não sei! Com a França a construir...,"[{'label': 'Neutral', 'score': 0.4744070768356...","{'label': 'Neutral', 'score': 0.4744070768356323}",0.474407,Neutral


In [88]:
df_sample['label'].value_counts()

Neutral     14
Negative     3
Positive     3
Name: label, dtype: int64

In [92]:
print(df_sample[df_sample['label'] == 'Negative']['text_full'].values)

['A Galp convida portugueses a pensar fora do carro..e quem disser Q isto é só “uma limpeza de imagem”, a Galp, manda “dar banho ao cão”. A máscara 😷 cai. #De-evolution. AbsurdQ https://t.co/TW2XljNvxI'
 '@davidkirzner @LiberalNova @LiberalPT Achas? A moça terminou o curso há pouco tempo e concorreu á Galp... O que estou a dizer é que na Galp trabalham milhares e milhares de pessoas, não é por trabalhar na Galp que somos maus. Nem sequer são eles que decidem preços e afins 😕'
 '#galp Um belo exemplo da areia que nos atiram para os olhos quando dizem que a petrolíferas não ganham ( tanto) dinheiro como deviam, #edp mesma coisa, chulos e miseráveis é o que fulanos são, com a conivência governamental https://t.co/nL08rnxd8p']


In [93]:
print(df_sample[df_sample['label'] == 'Positive']['text_full'].values)

['Mais um ano que renovo o cartão jovem, mais um ano em que a câmara não me da acesso ao codigo de desconto \U0001fae0\U0001fae0 ate hoje a parte boa do CJ é o desconto que dão com o cartão jovem galp fica ao preço da gasolina low cost hehehe'
 '@davidkirzner @LiberalNova @LiberalPT David mas eu tenho uma amiga que não é Rica, nunca ligou a Política, é uma excelente pessoa e profissional e trabalha na Galp. Tipo, a Galp tem milhares de funcionários'
 'Asociádevos ao #GALP e fomentemos xuntos o crecemento económico, a inclusión social, a creación de emprego e o apoio á empregabilidade e á mobilidade laboral nas comunidades pesqueiras e acuícolas. \n\n#galp #mar #pesca #Galicia https://t.co/30c2OZqfZW']


Most of the tweets are classified as neutral.

Of the 3 tweets classified as negative, 2 are clearly negative and 1 would be more neutral.

Of the 3 tweets classified as positive, the 3 can be considered positive, but 1 is in Galician and not in Portuguese! - The language identification we used from Twitter is not completely accurate...