# NDMS I: Text mining af reddit data

*Flipped classroom øvelse til valgfaget "Nyere digitale metoder i samfundsvidenskaben I", 2022*

I denne øvelse skal I udforske tekstdata i form af kommentarer fra reddit. I skal arbejde med et udtræk af Reddit-opslag med kommentarer fra subreddit [r/denmark](https://www.reddit.com/r/Denmark/). Udtrækket består af opslag fra 1/3/2021-8/3/2021 med mere end 15 kommentarer på udtrækstidspunktet (8/3/2021).

Reddit er et online forum, hvor folk laver opslag af forskellig art, som andre kan kommentere på. Datasættet er opbygget sådan, at hver række er en kommentar. Data om opslaget er derfor gentaget for hver kommentar til opslaget. Kolonner, der indeholder data om opslag, starter med `post_`, mens kolonner, der indeholder data om kommentaren, starter med `comment_`.

I skal først og fremmest udforske tekstindholdet i kommentarerne til et "populært" opslag. 

Hvis I har tid, må I gerne kaste jer over sentimentanalyse af kommentarerne. Hertil kan I bruge "BERT Emotion Classifier", der kategoriserer tekst efter otte forskellige følelser (`Glæde/Sindsro`, `Tillid/Accept`, `Forventning/Interrese`, `Overasket/Målløs`, `Vrede/Irritation`, `Foragt/Modvilje`, `Sorg/trist`, `Frygt/Bekymret`). Kodeeksempel findes under primer. Læs mere om modellen her: https://danlp-alexandra.readthedocs.io/en/latest/docs/tasks/sentiment_analysis.html#bert-emotion

Link til data: https://raw.githubusercontent.com/CALDISS-AAU/course_ndms-I/master/datasets/reddit_rdenmark-comments_01032021-08032021_long.csv

## Øvelsesopgaver

**1. Find et opslag med tekstindhold fra Reddit datasættet, der har mere end 100 kommentarer.**
- Opslag på Reddit kan være tekst, links, billeder osv. De opslag, som består af tekst, er de opslag, som *ikke* er missing i kolonnen `post_selftext`.
- Rækkerne i datasættet er kommentarer, så data om opslag er gentaget for hver kommentar til opslaget. Hvert opslag har unikt id, som fremgår af `post_id`.
- Antal kommentarer til et opslag fremgår af kolonnen `post_num_comments`.
- Brug evt. metoden `drop_duplicates` til at lave en dataframe kun med opslag (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html)

**2. Dan et subset, der kun består af data vedrørende det udvalgte opslag (opslag + kommentarer).**

**3. Lav en tokenizer til reddit-kommentarerne. Tokenizeren skal gøre følgende:**
- Fjerne typiske danske stopord
- Omdanne ord til lemma
- Omdanne ord til små bogstaver
- Kun beholde ord med mere end 4 bogstaver
- Kun beholde navneord (`NOUN`), tillægsord/adjektiver (`AJD`) og egenavne (`PROPN`)

**4. Tokenize kommentarerne til opslaget (kommentartekst findes i kolonnen `comment_body`)**

**5. Dan en opsummering af hyppigste ord brugt i kommentarerne til opslaget (gerne med en visualisering)**

### Bonus

**Brug BERT Emotion classifier til at undersøge, hvilke følelser der umiddelbart optræder oftest i kommentarerne til opslaget**
- Se kodeeksempel for at se, hvordan modellen bruges

### Primer

In [4]:
# Import af pakker
import pandas as pd
import spacy
import re
import nltk
nltk.download('omw-1.4')

from danlp.models import load_bert_emotion_model

# Indlæs dansk sprogmodel
nlp = spacy.load("da_core_news_sm") # Indlæser sprogmodel

# Indlæs emotion classifier
classifier = load_bert_emotion_model()

# Indlæs data
redditdata_url = "https://raw.githubusercontent.com/CALDISS-AAU/course_ndms-I/master/datasets/reddit_rdenmark-comments_01032021-08032021_long.csv"
reddit_df = pd.read_csv(redditdata_url)

In [None]:
reddit_df.head()

In [9]:
# Eksempel på brug af emotion classifier

classifier.predict('jeg ejer en rød bil men den er gået i stykker')

'Sorg/trist'

In [72]:
# Eksempel på brug af emotion classifier på enkelt kommentartekst

comment = reddit_df.loc[1610, 'comment_body']
print(comment,
      "\n",
      classifier.predict(comment)
     )

Så er karnevallet kommet til byen! 
 Forventning/Interrese
