# Introduktion til sentiment analysis

## Hvad er sentiment analysis?

> "[...] the field of study that analyzes people‚Äôs opinions, sentiments, appraisals, attitudes, and emotions toward entities and their attributes expressed in written text" - Liu 2015

**Form√•l:** Identificere positive og/eller negative holdninger/f√∏lelser i tekst samt hvad, disse holdninger/f√∏lelser er rettet imod.

**Eksempler p√• brug:**

- Unders√∏ge sociale bev√¶gelser p√• internettet
- Markedspr√¶diktion
- Policy-evaluering

**Relateret:** opinion mining, opinion analysis, opinion extraction, sentiment mining, subjectivity analysis, affect analysis, emotion analysis, review mining

## Sentiment analysis - Tre overordnede teknikker

**A: Ordbogs- og regelbaseret sentiment analysis ("lexicon and rule-based")**

- Model der grundl√¶ggende bygger p√• et opslagsv√¶rk over, hvordan et ord er f√∏lelsesm√¶ssigt ladet (fx "hader" -> negativt, "elsker" -> positivt)
- Kan evt. udbygges med regler s√•dan, at der tages h√∏jde for ord i kontekst (fx "hader ikke" -> neutralt)
- Fordele: inspic√©rbar, alsidigt
- Ulemper: tager i meget begr√¶nset omfang h√∏jde for kontekst

**B: Pr√¶-tr√¶nede sentiment classifiers**

- Model der er tr√¶net p√• eksisterende tekststykker, som er tagget efter holdningen/f√∏lelsen udtrykt i tekststykket (fx positivt, negativt, neutralt)
- G√∏r brug af machine learning i en eller anden omfang (random forests, naive bayes, neural networks)
- Fordele: tager i h√∏jere grad h√∏jde for kontekst, (ofte) stort tr√¶ningsdatas√¶t
- Ulemper: vanskelig at inspicere

**C: Selv-tr√¶nede sentiment classifiers**

- Model der tr√¶nes p√• taggede tekststykker i det materiale, som skal unders√∏ges
- G√∏r brug af analytikerens egen kendskab til omr√•det og materialet til at udlede sentiment
- Fordele: h√∏j kontekstn√∏jagtighed, til dels inspicerbar
- Ulemper: (sandsynligvis) lille tr√¶ningsdatas√¶t, kr√¶ver manuel tagging

**Generelle svagheder**

- Kontekst: Modeller er for det meste tr√¶net p√• data, der deler en eller anden kontekst (tid, genre, sprog)
- Ironi/sarkasme: Vanskeligt at tr√¶ne modeller til at genkende dette ud fra tekst alene

## Sentiment analysis i Python 1: Data

Vi starter med at importere de datas√¶t, som vi skal arbejde med i dag.

In [1]:
import pandas as pd

In [2]:
tweetdata_url = "https://raw.githubusercontent.com/CALDISS-AAU/course_ndms-I/master/datasets/poltweets_sample.csv"
tweets_df = pd.read_csv(tweetdata_url)

redditdata_url = "https://raw.githubusercontent.com/CALDISS-AAU/course_ndms-I/master/datasets/reddit_rdenmark-comments_01032021-08032021_long.csv"
reddit_df = pd.read_csv(redditdata_url)

**Datas√¶t 1: Danske politikere p√• Twitter**

Det f√∏rste datas√¶t er en samling af tweets fra danske folketingspolitikere. Der er tweets fra perioden 1/1/2015 - 27/1/2021. Data er et sample best√•ende af 500 tilf√¶dige tweets per danske parti i den periode. Personlige oplysninger i form af brugernavn, placering og brugerbeskrivelser er fjernet fra data.

Dette datas√¶t bliver brugt i de fleste eksempler i l√∏bet af dagens session.

In [None]:
tweets_df.head()

**Datas√¶t 2: Kommentarer fra Reddit (r/denmark)**

Det andet datas√¶t er et udtr√¶k af Reddit-opslag med kommentarer fra subreddit [r/denmark](https://www.reddit.com/r/Denmark/). Udtr√¶kket best√•r af opslag fra 1/3/2021-8/3/2021 med mere end 15 kommentarer p√• udtr√¶kstidspunktet (8/3/2021).

Dette datas√¶t bliver brugt i dagens √∏velser.

In [None]:
reddit_df.head()

## Sentiment analysis i Python 1: DaCy

En implementation af sentiment analysis i Python er gennem DaCy: https://centre-for-humanities-computing.github.io/DaCy/

DaCy er en komplet dansk sprogmodel-l√∏sning baseret p√• spaCy. DaCy indeholder en s√•kaldt "wrapper" til `senda`, som er en sentiment analyzer baseret p√• en *transformer-model (neural netv√¶rk)*.

`senda`-modellen er udviklet af EkstraBladet og er tr√¶net p√• twitter-data: https://github.com/ebanalyse/senda

### Download og indl√¶sning

DaCy fungerer mere eller mindre pr√¶cist ligesom spaCy. For at bruge den, g√∏r vi f√∏lgende:

1. Indl√¶ser DaCy
2. Downloader sprogmodel
3. Indl√¶ser sprogmodel
4. Tilf√∏jer senda til modellens pipeline

In [3]:
import dacy
from dacy.sentiment import add_senda

In [4]:
nlp = dacy.load("da_dacy_medium_tft-0.0.0")
add_senda(nlp, force_extension = True)



<spacy.lang.da.Danish at 0x24794a4ea88>

### Brug af sentiment analyzer

Sentiment analyzeren bruges p√• et "doc" objekt (et spaCy dokument - mere om dette senere). Vi g√∏r f√∏lgende:

- Danner spaCy dokument (med sprogmodel fra DaCy)
- Unders√∏ger sentiment (under attribut `._.polarity` og `._.polarity_prop`)

In [5]:
doc = nlp("Den her kaffe er den v√¶rste gang tynde pis")

print(doc.text,
      "\n",
      doc._.polarity, 
      "\n",
      doc._.polarity_prop)

Den her kaffe er den v√¶rste gang tynde pis 
 negative 
 {'prop': array([0.828, 0.119, 0.053], dtype=float32), 'labels': ['negative', 'neutral', 'positive']}


### Sentiment analyzer p√• dataframe

Ved brug af en kort wrapper-funktion og `.apply` kan sentiment analysis udf√∏res p√• tekststykker i en dataframe. Vi g√∏r f√∏lgende:

1. Danner wrapper-funktion til sentiment-analyse
2. Danner subset af twitter-data (Folketingsmedlemmers tweets)
3. Bruger funktion med apply

In [None]:
tweets_df.head()

In [6]:
def simple_sentiment(text):
    doc = nlp(text)
    polarity = doc._.polarity
    
    return(polarity)

In [7]:
tweets_alternativet = tweets_df.loc[tweets_df['party'] == 'Alternativet', :]
tweets_alternativet['polarity'] = tweets_alternativet['full_text'].apply(simple_sentiment)

tweets_alternativet.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,created_at,id,full_text,is_quote_status,retweet_count,favorite_count,favorited,retweeted,is_retweet,hashtags,urls,user_followers_count,party,polarity
0,2020-10-21 14:48:39+00:00,1318927184111730700,Er p√• vej i milj√∏ministeriet for at foresl√• at...,False,13,47,False,False,False,['dkgreen'],[],4064,Alternativet,neutral
1,2019-06-02 20:03:20+00:00,1135275725592891400,@nielscallesoe @helenehagel @alternativet_ Det...,False,0,1,False,False,False,[],[],4064,Alternativet,negative
2,2016-03-10 09:07:52+00:00,707855478320189400,"Vi st√•r sammen, smiler L√∏kke p√• KL-topm√∏de og ...",False,13,14,False,False,False,"['dkpol', 'KLtop16']",[],4064,Alternativet,neutral
3,2019-04-07 19:59:03+00:00,1114980930467315700,@AnnaBylov @EU_Spring @rasmusnordqvist üíö,False,0,2,False,False,False,[],[],4064,Alternativet,neutral
4,2017-05-28 09:59:26+00:00,868768670427828200,Der er ikke noget alternativ til at Alternativ...,False,6,28,False,False,False,['LM√Ö17'],"[{'url': 'https://t.co/3MCdZZGKRq', 'expanded_...",4064,Alternativet,negative


In [8]:
tweets_alternativet['polarity'].value_counts()

negative    191
neutral     173
positive    136
Name: polarity, dtype: int64

## Sentiment analysis  i Python 2: TextBlob

En implementation af sentiment analysis i Python er med TextBlob: https://textblob.readthedocs.io/en/

TextBlob er en sentiment analyzer model *baseret p√• naive bayes (machine learning)*,

**Bem√¶rk:** TextBlob egner sig prim√¶rt til engelsk.

### Indl√¶sning og brug

TextBlob fungerer p√• mange m√•der ligesom spaCy. Man omdanner tekststykket til et "blob" objekt, der indeholder forskellige attributter - herunder sentiment. Vi g√∏r f√∏lgende

1. Indl√¶ser TextBlob
2. Danne "blob" objekt ud fra tekststykke
3. Unders√∏ge sentiment (under attribut `sentiment`)

In [None]:
from textblob import TextBlob

blob = TextBlob("This coffee is just absolutely horrible. I hate it.")
print(blob.sentiment)

Sentiment-scoren ses af "polarity = -0.9". Scoren g√•r fra -1 til 1.

### TextBlob i funktion

Ovenst√•ende kan nemt konverteres til funktion, som fx kunne bruges i en dataframe med `.apply`. 

Sentiment-outputtet fra TextBlob kan konverteres til en tuple, hvor den f√∏rste v√¶rdi er polarity-scoren.

In [None]:
def simple_polarity(text):
    blob = TextBlob(text)
    polarity = tuple(blob.sentiment)[0]
    
    return(polarity)

In [None]:
simple_polarity("What an absolutely amazing weekend!")

## √òVELSE 1: Sentiment Analysis

Foretag sentiment analysis enten p√• eget data eller p√• r/Denmark data: [reddit_rdenmark-comments_01032021-08032021_long.csv](https://raw.githubusercontent.com/CALDISS-AAU/course_ddf/master/datasets/reddit_rdenmark-comments_01032021-08032021_long.csv)

(DaCy/senda for dansk, TextBlob for engelsk)

**Bem√¶rk:** Sentiment analysis med is√¶r DaCy kan tage lang tid p√• st√∏rre datas√¶t. I kan med fordel arbejde med et subset i denne √∏velse, for at teste funktionerne af.

1. Anvend sentiment analysis p√• enkelte tekststykker
2. Anvend sentiment analysis p√• et subset (enten med egne betingelser eller med [`pd.sample`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html))
3. Foretag opsummering af subsettet, der giver indikation af, hvorvidt tonen i materialet er overvejende positiv eller negativ