# Analysis

In [8]:
%pip install lemmy

Collecting lemmy
  Using cached lemmy-2.1.0-py2.py3-none-any.whl (1.1 MB)
Installing collected packages: lemmy
Successfully installed lemmy-2.1.0
Note: you may need to restart the kernel to use updated packages.


In [1]:
import time
import tqdm
import pandas as pd
import numpy as np
import datetime as dt
import matplotlib.pyplot as plt
import seaborn as sns
import re
import lemmy # For lemmatization
import nltk
import itertools

## Load datasets

In [46]:
ft_sygeplej2x = pd.read_csv('ft_sygeplej2x.csv')
dr_sygeplej2x = pd.read_csv('dr_sygeplej2x.csv')
tv2_sygeplej2x = pd.read_csv('tv2_sygeplej2x.csv')

ft_2 = ft_sygeplej2x.copy() 
dr_2 = dr_sygeplej2x.copy() 
tv2_2 = tv2_sygeplej2x.copy()

# Test 

In [50]:
for i in tv2.content:
    tv2_without_stopwords = [word for word in tv2_2_tokens if not word in stopwords]

'mens nyuddannede, danske sygeplejersker har mere end svært ved at finde arbejde i danmark, er situationen ganske anderledes i f.eks. vores nordiske nabolande, hvor man med lys og lygte leder efter kvalificeret sundhedspersonale. og netop af den grund er repræsentanter fra flere offentlige hospitaler i både sverige og norge og fra det grønlandske sundhedsvæsen i disse dage til jobmesse i københavn. med sig har flere hunderde jobtilbud til de danske, ledige sygeplejersker. dansk sygeplejeråd hilser initiativet fra medrek rekrytering - der som danmarks største jobhjemmeside inden for sundhedssektoren står bag jobmessen - velkommen, men langer samtidig ud efter beskæftigelsesminister mette frederiksen (s): "vi opfordrer de ledige sygeplejersker til at søge nogle af de mange ledige stillinger i udlandet i stedet for at gå ledig i danmark, men samtidig vil jeg sige: kære mette frederiksen - what a waste, for vi risikerer, at flere af dem ikke kommer tilbage, og om nogle få år har vi altså b

# Preprocessing

## Remove non-alphanumerical characters

In [3]:
for df in [ft_2, dr_2, tv2_2]:
    df['content'] = df['content'].str.replace(r'\W', ' ')\
                                 .str.replace('  ', ' ')

  df['content'] = df['content'].str.replace(r'\W', ' ')\


## Tokenization

In [4]:
nltk.download("punkt")

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/dana_tiger/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [5]:
# Define a tokenizer function
def tokenizer(df):
    df_tokenslist = []
    for document in tqdm.tqdm(df['content']):
        tokens = nltk.tokenize.word_tokenize(document, language = 'danish')
        df_tokenslist.append(tokens)
    df_tokens = list(itertools.chain(*df_tokenslist))
    return df_tokens

In [6]:
dr_2_tokens = tokenizer(dr_2)
print(len(dr_2_tokens))
tv2_2_tokens = tokenizer(tv2_2)
print(len(tv2_2_tokens))
ft_2_tokens = tokenizer(ft_2)
print(len(ft_2_tokens))

100%|██████████| 528/528 [00:00<00:00, 548.94it/s]
  3%|▎         | 97/3607 [00:00<00:03, 969.86it/s]

232998


100%|██████████| 3607/3607 [00:10<00:00, 348.14it/s]
  0%|          | 0/296 [00:00<?, ?it/s]

2562567


100%|██████████| 296/296 [00:35<00:00,  8.40it/s]


7843399


## Remove stopwords

In [7]:
# Get stopwords list
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('danish')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/dana_tiger/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [8]:
# Remove stopwords from tokenlist 
dr_without_stopwords = [word for word in dr_2_tokens if not word in stopwords]
tv2_without_stopwords = [word for word in tv2_2_tokens if not word in stopwords]
ft_without_stopwords = [word for word in ft_2_tokens if not word in stopwords]

In [9]:
full_wordlist = dr_without_stopwords + tv2_without_stopwords + ft_without_stopwords

In [10]:
len(dr_without_stopwords) + len(tv2_without_stopwords) + len(ft_without_stopwords)

5356096

In [11]:
len(full_wordlist)

5356096

### Unique words

In [16]:
wordset_unique = set(full_wordlist)
len(unique_wordset)

wordlist_unique = list(unique_wordset)

In [21]:
wordlist_lem = [lem.lemmatize("", word) for word in wordset_unique]
wordlist_lem = [word for sublist in wordlist_lem for word in sublist]

## Lemmatization

In [17]:
lem = lemmy.load("da")

In [19]:
#nltk.download('omw-1.4') #Download OpenMultilingualWordnet
#wnl = nltk.WordNetLemmatizer()

wordlist_lemma = [lem.lemmatize('', i) for i in wordset_unique]
wordlist_lemma

[['stalinistisk'],
 ['mediere', 'medie'],
 ['omstrukturering'],
 ['subjektiv'],
 ['enkeltbillet'],
 ['åbenbare'],
 ['sværejob'],
 ['landsholdskammerat'],
 ['boligområde'],
 ['forældreinformation'],
 ['knæk', 'knække'],
 ['nøle', 'nøler'],
 ['prikke', 'prik'],
 ['aarhusiansk'],
 ['måttetage'],
 ['institut'],
 ['blaffer'],
 ['udbetaling'],
 ['sprøjte'],
 ['fredagshumør'],
 ['herlighedsværdi'],
 ['måtte'],
 ['justering'],
 ['busborg'],
 ['blevde'],
 ['rivravruskende'],
 ['center'],
 ['sauce'],
 ['tydelighed'],
 ['stifte'],
 ['erhvervspolitik'],
 ['integrerbar'],
 ['sprudle'],
 ['zandra'],
 ['havretsdomstol'],
 ['armenien'],
 ['fremlæg', 'fremlægge'],
 ['overenskomstforhandling'],
 ['fingerknipsløsning'],
 ['migrantsituation'],
 ['afstemningsseddel'],
 ['negligering'],
 ['ingen'],
 ['arbejdsmængde'],
 ['lagdevægt'],
 ['velkommen'],
 ['hansom'],
 ['hitte'],
 ['løntilskudsområde'],
 ['qaarsutte', 'qaarsut'],
 ['ekstravagant'],
 ['nedprioritere'],
 ['dfg'],
 ['lokalbefolkning'],
 ['abildskov'

In [22]:
items = ['1','introduction','to','molecular','8','the','learning','module','5']

new_items = [item for item in items if not item.isdigit()]

In [23]:
new_items

['introduction', 'to', 'molecular', 'the', 'learning', 'module']

In [28]:
# Load Danish lemmatizer
lem = lemmy.load("da")

['sygeplejerske']

In [None]:
for df in [ft_2, dr_2, tv2_2]:
    df['content_lem'] = 
    

Collecting lemmyNote: you may need to restart the kernel to use updated packages.
  Downloading lemmy-2.1.0-py2.py3-none-any.whl (1.1 MB)
Installing collected packages: lemmy
Successfully installed lemmy-2.1.0

