# Ordoptælling med vectorizers

In [5]:
# prep

import pandas as pd

redditdata_url = "https://raw.githubusercontent.com/CALDISS-AAU/course_ndms-I/master/datasets/reddit_rdenmark-comments_01032021-08032021_long.csv"
reddit_df = pd.read_csv(redditdata_url)

# Lagr kommentarer i objekt for sig
comments = list(reddit_df['comment_body'])

len(comments)

3428

### CountVectorizer

In [6]:
# Countvectorizer på kommentarer - rå tekst

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
transformed_documents = vectorizer.fit_transform(comments)

# Konverter fittet vectorizer til array
transformed_documents_as_array = transformed_documents.toarray()

len(transformed_documents_as_array)

3428

In [7]:
# Konverter array til document-term matrix

df = pd.DataFrame(transformed_documents_as_array, columns = vectorizer.get_feature_names())



In [8]:
df.head()

Unnamed: 0,00,000,000kr,01,019d907422_01,02,03,04,05,06,...,øver,øverligt,øverste,øvet,øvetimer,øvre,øvrige,øvrigt,überdurchschnittlich,ﾟヮﾟ
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [9]:
# Optælling af ord på tværs af dokumenter

word_count = df.sum()
word_count.sort_values(ascending = False)[0:20]

er      3865
det     3636
at      3417
og      2226
ikke    1898
jeg     1893
en      1754
på      1565
der     1536
til     1465
for     1441
de      1407
har     1335
så      1320
du      1186
af      1149
med     1145
som     1026
kan      933
den      904
dtype: int64

### ConuntVectorizer med stopord og dokumentgrænser

In [10]:
# Indlæser spacy for at bruge spacy stopordsliste

import spacy
nlp = spacy.load("da_core_news_sm")

custom_stops = ['gt', 'bare', 'the', 'to', 'når', 'https', 'helt', 'of', 'se', 'in', 'www', 'is', 'you', 'dk', 'får', 'com', 'ret', 'it', 'that', 'år', 'siger',
               'hele', 'går', 'ting', 'ser', 'del', 'vel', 'tage', 'set', 'are', 'be', 'not', 'but', 'amp']

stops = list(nlp.Defaults.stop_words) + custom_stops

# Indstiller vectorizer - stopord og maksimalt antal dokumenter, ord må indgå i (max. 70%)
vectorizer = CountVectorizer(stop_words = stops, max_df = 0.7)
transformed_documents = vectorizer.fit_transform(comments)

transformed_documents_as_array = transformed_documents.toarray()

# Konverter array til document-term matrix
df = pd.DataFrame(transformed_documents_as_array, columns = vectorizer.get_feature_names())

# Ordoptælling
word_count = df.sum()
word_count.sort_values(ascending = False)[0:50]



godt            260
and             233
folk            207
tror            197
danmark         165
ja              164
mener           131
0a              126
altså           112
10              111
mennesker       110
reddit          107
this            101
nej              96
gerne            95
your             94
post             88
was              88
tid              87
can              85
with             85
faktisk          84
gang             82
gå               82
they             82
store            82
finde            81
spørgsmål        80
hudfarve         79
blevet           79
penge            77
on               75
giver            75
youtube          74
måde             74
or               74
dag              73
removed          72
danske           72
bedre            72
langt            70
tak              68
enig             68
selvfølgelig     67
deleted          67
woke             66
står             65
komme            64
usa              63
børn             63
