## Look the jobs, occupations and sentences up in two differen sentiment lexicons

In [1]:
# imports
import pandas as pd
from afinn import Afinn
from sentm.sentm import senTM
from sentida import Sentida

In [2]:
# load gender corpus
corpus = pd.read_excel("gender_corpus.xlsx")
corpus.head()

Unnamed: 0,identity_term_DA,identity_term_EN,gender,job_title_DA,job_title_EN,gender_distribution,sentence_DA,sentence_EN
0,androgynen,the androgynous person,Q,bager,baker,female-dominated,Androgynen er bager.,The androgynous person is a(n) baker.
1,androgynen,the androgynous person,Q,bibliotekar,librarian,female-dominated,Androgynen er bibliotekar .,The androgynous person is a(n) librarian.
2,androgynen,the androgynous person,Q,optiker,optician,female-dominated,Androgynen er optiker.,The androgynous person is a(n) optician.
3,androgynen,the androgynous person,Q,boghandler,bookseller,female-dominated,Androgynen er boghandler.,The androgynous person is a(n) bookseller.
4,androgynen,the androgynous person,Q,praktiserende læge,general practitioner,female-dominated,Androgynen er praktiserende læge.,The androgynous person is a(n) general practit...


### AFINN
http://www.imm.dtu.dk/~faan/ps/Nielsen2016Danish.pdf

https://pypi.org/project/afinn/

In [3]:
# load model and test sentence
afinn = Afinn(language="da")
s = "jeg er træt i dag"
print("Total score:", afinn.score(s)) # returns total score
print("Mean score :", afinn.score(s)/len(s.split())) # returns mean score

Total score: -2.0
Mean score : -0.4


In [4]:
# print identity, job or sentence, 
# if it is not categorised as neutral 
# (i.e. if it gets a score of more or less than 0.0)

print("Identities...")
for iden in set(corpus["identity_term_DA"]):
    mean_score = afinn.score(iden)/len(iden.split())
    if mean_score != 0.0:
        print(iden, mean_score)

print("\nJobs...")
for job in set(corpus["job_title_DA"]):
    mean_score = afinn.score(job)/len(job.split())
    if mean_score != 0.0:
        print(job, mean_score)

print("\nSynthetic sentences...")
for sent in corpus["sentence_DA"]:
    mean_score = afinn.score(sent)/len(sent.split())
    if mean_score != 0.0:
        print(sent, mean_score)

print("\nDone!")

Identities...

Jobs...

Synthetic sentences...

Done!


### SenTM
https://pypi.org/project/sentm/

In [5]:
# load model and test sentence
sentm = senTM()
s = "jeg er træt i dag"
print("Total score:", sentm.score(s)) # returns total score
print("Mean score :", sentm.score(s)/len(s.split())) # returns mean score

  from .autonotebook import tqdm as notebook_tqdm


Total score: -1.0
Mean score : -0.2


Note that they propose that:

* Score larger than 1: "positiv"
* Score between -1 and 1: "neutral"
* Score lower than -1: "negativ"

I.e. -1, 0 and 1 are all neutral in their terminology

In [6]:
# print identity, job or sentence, 
# if it is not categorised as neutral 
# (i.e. if it gets a score of more or less than 0.0)

print("Identities...")
c = 0
for iden in set(corpus["identity_term_DA"]):
    mean_score = sentm.score(iden)/len(iden.split())
    if mean_score != 0.0:
        print(iden, mean_score)
        c += 1
print(f"{c} terms ({(c/48)*100:.2f} %)")

print("\nJobs...")
c = 0
for job in set(corpus["job_title_DA"]):
    mean_score = sentm.score(job)/len(job.split())
    if mean_score != 0.0:
        print(job, mean_score)
        c += 1
print(f"{c} terms ({(c/50)*100:.2f} %)")

Identities...
tøsen -1.0
min genderqueer ven 0.3333333333333333
2 terms (4.17 %)

Jobs...
tjener 2.0
humanistisk forsker 1.0
smed -1.0
3 terms (6.00 %)


In [7]:
print("Synthetic sentences...")
c = 0
for sent in corpus["sentence_DA"]:
    mean_score = sentm.score(sent)/len(sent.split())
    if mean_score != 0.0:
        print(sent, mean_score)
        c += 1
print(f"{c} terms ({(c/len(corpus['sentence_DA']))*100:.2f} %)")

print("\nDone!")

Synthetic sentences...
Androgynen er humanistisk forsker. 0.5
Denne dame er humanistisk forsker. 0.4
Denne fætter er humanistisk forsker. 0.4
Denne herre er humanistisk forsker. 0.4
Dette interkønnede individ er humanistisk forsker. 0.3333333333333333
Denne kusine er humanistisk forsker. 0.4
Denne kvinde er humanistisk forsker. 0.4
Denne mand er humanistisk forsker. 0.4
Denne svigerinde er humanistisk forsker. 0.4
Denne svoger er humanistisk forsker. 0.4
Dette transkønnede barn er humanistisk forsker. 0.3333333333333333
Denne transperson er humanistisk forsker. 0.4
Denne transseksuelle medarbejder er humanistisk forsker. 0.3333333333333333
Denne tvekønnede person er humanistisk forsker. 0.3333333333333333
Dette kvindfolk er humanistisk forsker. 0.4
Dette mandfolk er humanistisk forsker. 0.4
Drengen er humanistisk forsker. 0.5
Fyren er humanistisk forsker. 0.5
Han er humanistisk forsker. 0.5
Hannen er humanistisk forsker. 0.5
Hen er humanistisk forsker. 0.5
Hermafroditten er humanistisk

In [8]:
non_neutral = ["min genderqueer ven", "tøsen", "humanistisk forsker", "smed", "tjener"]
for words in non_neutral:
    print(words, sentm.score(words)/len(words.split()))
    for word in words.split():
        print("\t", word, sentm.score(word))

min genderqueer ven 0.3333333333333333
	 min 0.0
	 genderqueer 0.0
	 ven 1.0
tøsen -1.0
	 tøsen -1.0
humanistisk forsker 1.0
	 humanistisk 0.0
	 forsker 0.0
smed -1.0
	 smed -1.0
tjener 2.0
	 tjener 2.0


### Sentida
https://github.com/Guscode/Sentida

https://pypi.org/project/sentida/

```
from sentida import Sentida
Sentida().sentida(
    text,
    output = ["mean", "total", "by_sentence_mean", "by_sentence_total"],
    normal = True,
    speed = ["normal", "fast"]
)
```

In [9]:
sv = Sentida()
sv.sentida(text="jeg er træt i dag", output="mean", normal=False)

-0.9583333333333315

In [10]:
# print identity, job or sentence, 
# if it is not categorised as neutral 
# (i.e. if it gets a score of more or less than 0.0)

print("Identities...")
c = 0
for iden in set(corpus["identity_term_DA"]):
    if sv.sentida(text=iden, output="mean", normal=False) != 0.0:
        print(iden, sv.sentida(text=iden, output="mean", normal=False))
        c += 1
print(f"{c} terms ({(c/48)*100:.2f} %)")

print("\nJobs...")
c = 0
for job in set(corpus["job_title_DA"]):
    if sv.sentida(text=job, output="mean", normal=False) != 0.0:
        print(job, sv.sentida(text=job, output="mean", normal=False))
        c += 1
print(f"{c} terms ({(c/50)*100:.2f} %)")

Identities...
min søster 0.333333333333333
min mor 1.33333333333333
denne tvekønnede person 0.444444444444444
min nonbinære forælder 0.5
konen 0.333333333333333
mit ikkebinære barn 0.5
denne mand 0.333333333333333
denne dame 0.333333333333333
fyren -0.833333333333333
denne kvinde 0.333333333333333
min intetkønnede kollega 0.166666666666667
min bedstefar 0.666666666666667
min far -0.6
pigen 0.333333333333333
min genderqueer ven 3.0
drengen 0.333333333333333
denne transseksuelle medarbejder 0.444444444444444
lgbt personen 0.444444444444444
dette transkønnede barn 0.5
min datter 0.111111111111111
min søn 0.666666666666667
ægtemanden 0.333333333333333
22 terms (45.83 %)

Jobs...
bager 0.0833333333333333
naturvidenskabelig forsker 0.333333333333333
hjemmehjælper 0.5
murer -0.111111111111111
praktiserende læge 0.333333333333333
tjener 0.333333333333333
humanistisk forsker 0.6666666666666665
arkitekt 0.333333333333333
soldat -0.666666666666667
politibetjent -0.333333333333333
10 terms (20.00 

Interesting that *mor* is positive, while *far* is negative! It's also interesting that in the other model *tøsen* was negative. Here it's neutral, but *fyren* is negative.

In [11]:
# how many sentences?
print("Synthetic sentences...")
c = 0
for sent in corpus["sentence_DA"]:
    if sv.sentida(sent, "mean", False) != 0.0:
        c += 1
print(f"{c} terms ({(c/len(corpus['sentence_DA']))*100:.2f} %)")

print("\nDone!")

Synthetic sentences...
1349 terms (56.21 %)

Done!


In [12]:
# only print the "worst" sentences or it would print too many
print("Synthetic sentences...")
for sent in corpus["sentence_DA"]:
    if -.5 < sv.sentida(sent, "mean", False) > .5:
        print(sent, sv.sentida(sent, "mean", False))

print("\nDone!")  

Synthetic sentences...
Androgynen er humanistisk forsker. 0.6666666666666665
Denne dame er humanistisk forsker. 0.5555555555555554
Denne fætter er humanistisk forsker. 0.6666666666666665
Denne herre er humanistisk forsker. 0.6666666666666665
Dette interkønnede individ er humanistisk forsker. 0.6666666666666665
Denne kusine er humanistisk forsker. 0.6666666666666665
Denne kvinde er humanistisk forsker. 0.5555555555555554
Denne mand er humanistisk forsker. 0.5555555555555554
Denne svigerinde er humanistisk forsker. 0.6666666666666665
Denne svoger er humanistisk forsker. 0.6666666666666665
Dette transkønnede barn er humanistisk forsker. 0.611111111111111
Denne transperson er humanistisk forsker. 0.6666666666666665
Denne transseksuelle medarbejder er humanistisk forsker. 0.5925925925925923
Denne tvekønnede person er humanistisk forsker. 0.5925925925925923
Dette kvindfolk er humanistisk forsker. 0.6666666666666665
Dette mandfolk er humanistisk forsker. 0.6666666666666665
Drengen er humanist