# Build Sentiment Dictionaries from VSMs

This script allows you to create your own Sentiment Dictionary using Vector Space Models

## 1. Preparation

Download the model.  
You can select any model from here: https://fasttext.cc/docs/en/crawl-vectors.html

In [4]:
import os
import gensim
import urllib.request
import os.path
import pandas
import numpy as np
import scipy.stats as stats

In [5]:
# here we download the model
# remember to change URL and filename according to the model you want 
# here we do a test with the French model, named "cc.fr.300.vec.gz"

!wget "https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.it.300.vec.gz"


--2022-06-07 12:52:02--  https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.it.300.vec.gz
Resolving dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)... 104.22.74.142, 172.67.9.4, 104.22.75.142, ...
Connecting to dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)|104.22.74.142|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1272825284 (1.2G) [binary/octet-stream]
Saving to: ‘cc.it.300.vec.gz’


2022-06-07 12:52:29 (46.1 MB/s) - ‘cc.it.300.vec.gz’ saved [1272825284/1272825284]



In [6]:
!gunzip cc.it.300.vec.gz

In [8]:
# remember to change the filename according to the model you downloaded 
# here we do a test with the French model, named "cc.fr.300.vec" (note that ".gz" is not in the name anymore, as we unzipped the file)

filename = 'cc.it.300.vec'

my_model = gensim.models.KeyedVectors.load_word2vec_format(filename, binary=False)

## 2. Prepare SA lexicon

Here you need to define the "seed words" for your lexicon.  
Here we test it with two dimensions, "happy" and "cibononbuono" (but you can use many different dimensions). 

In [9]:
cibobuono_labels = ['delizioso','buono','qualità','buonissimo','fantastico'] # note that you can add how many words you like!
cibononbuono_labels = ['cattivo','scadente','deludente','disgustoso','orrendo','pessimo'] # note that you can add how many words you like!
localeaccogliente_labels = ['pulito','ordinato','spazioso','grande','ampio'] # note that you can add how many words you like!
localenonaccogliente_labels = ['sporco','disordinato','piccolo','maleodorante','caotico'] # note that you can add how many words you like!
personaleprofessionale_labels = ['gentile','cortese','accogliente','attento','disponibile','veloce','rapido','educato','sorridente'] # note that you can add how many words you like!
personalenonprofessionale_labels = ['freddo','distaccato','indisponente','scontroso','disattento','lento','maleducato','disorganizzato'] # note that you can add how many words you like!
prezzogiusto_labels = ['onesto','economico','giusto','abbordabile'] # note that you can add how many words you like!
prezzoingiusto_labels = ['disonesto','esagerato','dispendioso','altissimo','alto','costoso'] # note that you can add how many words you like!

all_words = list(my_model.vocab.keys())

In [10]:
cibobuono_ordered_words = my_model.most_similar(positive = cibobuono_labels, topn = len(all_words))
cibononbuono_ordered_words = my_model.most_similar(positive = cibononbuono_labels, topn = len(all_words))
localeaccogliente_ordered_words = my_model.most_similar(positive = localeaccogliente_labels, topn = len(all_words))
localenonaccogliente_ordered_words = my_model.most_similar(positive = localenonaccogliente_labels, topn = len(all_words))
personaleprofessionale_ordered_words = my_model.most_similar(positive = personaleprofessionale_labels, topn = len(all_words))
personalenonprofessionale_ordered_words = my_model.most_similar(positive = personalenonprofessionale_labels, topn = len(all_words))
prezzogiusto_ordered_words = my_model.most_similar(positive = prezzogiusto_labels, topn = len(all_words))
prezzoingiusto_ordered_words = my_model.most_similar(positive = prezzoingiusto_labels, topn = len(all_words))
# you can add more categories, if you like...

In [11]:
# cibobuono
cibobuono_words = []
cibobuono_value = []

for my_tuple in cibobuono_ordered_words:
  cibobuono_words.append(my_tuple[0])
  cibobuono_value.append(my_tuple[1])

# cibononbuono
cibononbuono_words = []
cibononbuono_value = []

for my_tuple in cibononbuono_ordered_words:
  cibononbuono_words.append(my_tuple[0])
  cibononbuono_value.append(my_tuple[1])

# localeaccogliente
localeaccogliente_words = []
localeaccogliente_value = []

for my_tuple in localeaccogliente_ordered_words:
  localeaccogliente_words.append(my_tuple[0])
  localeaccogliente_value.append(my_tuple[1])

# localenonaccogliente
localenonaccogliente_words = []
localenonaccogliente_value = []

for my_tuple in localenonaccogliente_ordered_words:
  localenonaccogliente_words.append(my_tuple[0])
  localenonaccogliente_value.append(my_tuple[1])

# personaleprofessionale
personaleprofessionale_words = []
personaleprofessionale_value = []

for my_tuple in personaleprofessionale_ordered_words:
  personaleprofessionale_words.append(my_tuple[0])
  personaleprofessionale_value.append(my_tuple[1])

# personalenonprofessionale
personalenonprofessionale_words = []
personalenonprofessionale_value = []

for my_tuple in personalenonprofessionale_ordered_words:
  personalenonprofessionale_words.append(my_tuple[0])
  personalenonprofessionale_value.append(my_tuple[1])

  # prezzogiusto
prezzogiusto_words = []
prezzogiusto_value = []

for my_tuple in prezzogiusto_ordered_words:
  prezzogiusto_words.append(my_tuple[0])
  prezzogiusto_value.append(my_tuple[1])

# prezzoingiusto
prezzoingiusto_words = []
prezzoingiusto_value = []

for my_tuple in prezzoingiusto_ordered_words:
  prezzoingiusto_words.append(my_tuple[0])
  prezzoingiusto_value.append(my_tuple[1])


# you can add more categories, if you like...

In [12]:
# cibobuono
cibobuono_value = np.array(cibobuono_value)
cibobuono_value = stats.zscore(cibobuono_value)

cibobuono_df = pandas.DataFrame(list(zip(cibobuono_words, cibobuono_value)), 
               columns =['word', 'cibobuono'])

cibobuono_df = cibobuono_df.sort_values('word', ascending=True)

# cibononbuono
cibononbuono_value = np.array(cibononbuono_value)
cibononbuono_value = stats.zscore(cibononbuono_value)

cibononbuono_df = pandas.DataFrame(list(zip(cibononbuono_words, cibononbuono_value)), 
               columns =['word', 'cibononbuono'])

cibononbuono_df = cibononbuono_df.sort_values('word', ascending=True)

# personaleprofessionale
personaleprofessionale_value = np.array(personaleprofessionale_value)
personaleprofessionale_value = stats.zscore(personaleprofessionale_value)

personaleprofessionale_df = pandas.DataFrame(list(zip(personaleprofessionale_words, personaleprofessionale_value)), 
               columns =['word', 'personaleprofessionale'])

personaleprofessionale_df = personaleprofessionale_df.sort_values('word', ascending=True)

# localenonaccogliente
localenonaccogliente_value = np.array(localenonaccogliente_value)
localenonaccogliente_value = stats.zscore(localenonaccogliente_value)

localenonaccogliente_df = pandas.DataFrame(list(zip(localenonaccogliente_words, localenonaccogliente_value)), 
               columns =['word', 'localenonaccogliente'])

localenonaccogliente_df = localenonaccogliente_df.sort_values('word', ascending=True)

# localeaccogliente
localeaccogliente_value = np.array(localeaccogliente_value)
localeaccogliente_value = stats.zscore(localeaccogliente_value)

localeaccogliente_df = pandas.DataFrame(list(zip(localeaccogliente_words, localeaccogliente_value)), 
               columns =['word', 'localeaccogliente'])

localeaccogliente_df = localeaccogliente_df.sort_values('word', ascending=True)

# personalenonprofessionale
personalenonprofessionale_value = np.array(personalenonprofessionale_value)
personalenonprofessionale_value = stats.zscore(personalenonprofessionale_value)

personalenonprofessionale_df = pandas.DataFrame(list(zip(personalenonprofessionale_words, personalenonprofessionale_value)), 
               columns =['word', 'personalenonprofessionale'])

personalenonprofessionale_df = personalenonprofessionale_df.sort_values('word', ascending=True)

# prezzogiusto
prezzogiusto_value = np.array(prezzogiusto_value)
prezzogiusto_value = stats.zscore(prezzogiusto_value)

prezzogiusto_df = pandas.DataFrame(list(zip(prezzogiusto_words, prezzogiusto_value)), 
               columns =['word', 'prezzogiusto'])

prezzogiusto_df = prezzogiusto_df.sort_values('word', ascending=True)

# prezzoingiusto
prezzoingiusto_value = np.array(prezzoingiusto_value)
prezzoingiusto_value = stats.zscore(prezzoingiusto_value)

prezzoingiusto_df = pandas.DataFrame(list(zip(prezzoingiusto_words, prezzoingiusto_value)), 
               columns =['word', 'prezzoingiusto'])

prezzoingiusto_df = prezzoingiusto_df.sort_values('word', ascending=True)
# you can add more categories, if you like...

In [13]:
# mout drive to save data table efficiently
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [14]:
# save all to unique dataframe
sa_df = personalenonprofessionale_df.merge(cibononbuono_df,on='word').merge(localeaccogliente_df,on='word').merge(personaleprofessionale_df,on='word').merge(cibobuono_df,on='word').merge(localenonaccogliente_df,on='word').merge(prezzogiusto_df,on='word').merge(prezzoingiusto_df,on='word')
sa_df.to_csv('/content/drive/MyDrive/SA_SVM_dictionary_it.csv', index=False)