# Natural Language Processing

Start met laden van de packages en onze zojuist gemaakte dataset

In [78]:
import pandas as pd

In [79]:
data = pd.read_csv('data/fiets.csv', index_col =0)

In [80]:
data.head(2)

Unnamed: 0.1,Unnamed: 0,identifier,type,title,date,content,subcategory,category,Year,DL score,spatial,length
21061,84265,http://resolver.kb.nl/resolve?urn=MMKB23:00140...,artikel,BUITENLAND. POLITIEK OVERZICHT.,1880/05/26 00:00:00,"’s Gravenhage, 25 Mei.’t Is te Berlijn een lie...",fiets,fiets,1880,71.212121,Landelijk,792
21072,84295,http://resolver.kb.nl/resolve?urn=ddd:01011723...,artikel,Gemengde Berichten.,1869/09/20 00:00:00,"Naar men verneemt, bloeit thans in den Hortus ...",rijwiel,fiets,1869,77.823129,Landelijk,735


In [81]:
len(data)

255

## Count word frequencies

Als eerste, meeste simpele stap van tekst analyse, kunnen we kijken naar de meest voorkomende woorden in de artikelen. Onderstaande functie is geschreven om dit te doen. Maar als eerste stap moeten we de artikelen van de kolom 'content' omzetten naar een lijst met woorden per artikel. 

In [53]:
data['content list'] = data.content.apply(lambda x: x.lower().split())

In [54]:
def word_counter(dataframe_column):
    full_list = []
    for elemnt in dataframe_column:
        full_list += elemnt
    
    values_count = pd.Series(full_list).value_counts()
    return values_count

We kunnen de functie uitproberen:

In [55]:
word_counter(data['content list'])

de                    9315
van                   5780
het                   4590
en                    4441
een                   4239
                      ... 
bruin,                   1
roodachtig               1
doorschijnend,           1
geelachtig               1
ais—teheran—herat,       1
Length: 35653, dtype: int64

Zoals je ziet zijn de eerste woorden allemaal woorden die inhoudelijk niet veel zeggen over de artikelen. Deze woorden, die veel voorkomen in onze taal maar inhoudelijk weinig zinnigs zeggen, noemen we stopwoorden. We kunnen een stopwoordenlijst gebruiken om deze woorden weg te filteren. 

In [56]:
with open('data/stopwords-nl.txt', 'r') as f:
    stopwords = f.read().split("\n")

In [57]:
## Don't alter
def word_counter_stopword(dataframe_column):
    full_list = []
    for elemnt in dataframe_column:
        full_list += elemnt
        
    full_list = [i for i in full_list if i not in stopwords]
    
    values_count = pd.Series(full_list).value_counts()
    return values_count

In [61]:
word_counter_stopword(data['content list'])

—                     686
heer                  403
dagen                 271
plaats                235
groote                193
                     ... 
eerzucht                1
veldarbeiders,          1
moordenaar,             1
opgelicht.              1
ais—teheran—herat,      1
Length: 35300, dtype: int64

In [60]:
word_counter_stopword(data['content list']).head(10)

—         686
heer      403
dagen     271
plaats    235
groote    193
tijd      174
jaar      168
geheel    157
man       148
liet      145
dtype: int64

# Spacy

Naast een naieve worcount, zijn er ook andere opties mogelijk. Voor het vervolg van deze workshop gaan we gebruik maken van de Spacy package, die gebruikt wordt voor Natural language processing. 


In [82]:
import spacy
from spacy import displacy
from collections import Counter

In [83]:
##nlp = spacy.load("nl_core_news_sm")

In [84]:
##data = data.dropna(subset=['content'])

In [85]:
#def process_text(text):
 #   return nlp(text)

#def flatten(xss):
 #   return [x for xs in xss for x in xs]

In [86]:
## deze code als comment omdat het lang duurt om te draaien
data["doc"] = data["content"].apply(process_text)

In [87]:
## Deze code ook als comment om te laten zien hoe je het model kan opslaan
##import pickle

#with open('data/fiets_nlp.pkl', 'wb') as f:
 #   pickle.dump(data, f)

In [88]:
with open('data/fiets_nlp.pkl', 'rb') as f:
    fiets_nlp = pickle.load(f)

In [89]:
fiets_nlp.head(2)

Unnamed: 0.1,Unnamed: 0,identifier,type,title,date,content,subcategory,category,Year,DL score,spatial,length,doc
21061,84265,http://resolver.kb.nl/resolve?urn=MMKB23:00140...,artikel,BUITENLAND. POLITIEK OVERZICHT.,1880/05/26 00:00:00,"’s Gravenhage, 25 Mei.’t Is te Berlijn een lie...",fiets,fiets,1880,71.212121,Landelijk,792,"(’s, Gravenhage, ,, 25, Mei.’t, Is, te, Berlij..."
21072,84295,http://resolver.kb.nl/resolve?urn=ddd:01011723...,artikel,Gemengde Berichten.,1869/09/20 00:00:00,"Naar men verneemt, bloeit thans in den Hortus ...",rijwiel,fiets,1869,77.823129,Landelijk,735,"(Naar, men, verneemt, ,, bloeit, thans, in, de..."


# Named Entity Recognition

Spacy slaat informatie over de gevonden named entities op in het doc item. Deze informatie staat opgeslagen in de kolom 'doc' en kan daar ook uitgehaald worden.

Spacy kent de volgende Named entities:

* PERSON:      People, including fictional.
* NORP:        Nationalities or religious or political groups.
* FAC:         Buildings, airports, highways, bridges, etc.
* ORG:         Companies, agencies, institutions, etc.
* GPE:         Countries, cities, states.
* LOC:         Non-GPE locations, mountain ranges, bodies of water.
* PRODUCT:     Objects, vehicles, foods, etc. (Not services.)
* EVENT:       Named hurricanes, battles, wars, sports events, etc.
* WORK_OF_ART: Titles of books, songs, etc.
* LAW:         Named documents made into laws.
* LANGUAGE:    Any named language.
* DATE:        Absolute or relative dates or periods.
* TIME:        Times smaller than a day.
* PERCENT:     Percentage, including ”%“.
* MONEY:       Monetary values, including unit.
* QUANTITY:    Measurements, as of weight or distance.
* ORDINAL:     “first”, “second”, etc.
* CARDINAL:    Numerals that do not fall under another type.

Je kan ook de spacy module vragen voor uitleg over een bepaalde Named Entity:

In [65]:
spacy.explain('GPE')

'Countries, cities, states'

Je kan per artikel de gevonden Named Entities tonen. Deze worden dan met verschillende kleuren weergegeven. 

In [66]:
doc = fiets_nlp['doc'].to_list()[2]

In [68]:
displacy.render(doc, style = "ent")

In [131]:
## Zelf doen: Bekijk een random andere regel

Naast de named entities op deze manier tonen, kun je er ook verdere analyses mee doen. Je kan ze bijvoorbeeld per category opslaan als losse kolommen in je dataframe

Hieronder staat een functie waarmee je Named entities van een bepaalde soort uit het doc item kan halen. Deze worden vervolgens als een lijst opgeslagen in een nieuwe kolom in het dataframe. 

In [69]:
def get_ner(doc, entity):
    return [ent.text for ent in doc.ents if ent.label_ == entity]

Vervolgens kun je deze functie gebruiken op je dataframe. 
Deze functie heeft als input de doc item van het dataframe, en de gekozen named entity.

In onderstaande voorbeeld wordt de categroy GPE eruit gehaald. 

In [70]:
fiets_nlp['GPE'] = fiets_nlp['doc'].apply(lambda x: get_ner(x, 'GPE'))

Vervolgens kun je deze kolom weer gebruiken om de meest voorkomende GPE eruit te halen. 

In [71]:
word_counter(fiets_nlp['GPE']).head(10)

Parijs         159
Amsterdam       92
Frankrijk       82
Londen          81
Engeland        78
Berlijn         44
Rotterdam       41
Amerika         40
Brussel         37
Duitschland     34
dtype: int64

In [47]:
## Zelf doen: nieuwe kolom named entity
## Gebruik de volgende code: fiets_nlp['naam nieuwe kolom'] = fiets_nlp['doc'].apply(lambda x: get_ner(x, 'naam entity'))
## 

In [None]:
## Word counter: word_counter(fiets_nlp['nieuwe kolom']).head(10)

In [72]:
## Extra opgave: kies nog een aantal entities uit en bekijk de top 10. Kan je ook de top 5 of top 25 maken?

# Part of speech tagging

Uitleg part of speech tagging en wat het inhoud

Hier een voorbeeld met een paar POS. Er zihn er meer

| POS    | Description |Examples |
| -------- | ------- |------- |
| ADV  | adverb | very, tomorrow, down, where, there  |
| NOUN | noun  | girl, cat, tree, air, beauty |
| VERB |  verb | run, runs, running, eat, ate, eating |
| PRON | pronoun  | I, you, he, she, myself, themselves, somebody |
| SCONJ | subordinating conjunction  | if, while, that |
| NUM | numeral  | 1, 2017, one, seventy-seven, IV, MMXIV |
| INTJ | interjection | psst, ouch, bravo, hello |
| X | other  | sfpksdpsxmsa |




In [73]:
doc = fiets_nlp['doc'].to_list()[2]

In [74]:
displacy.render(doc, style = "dep")

Ook voor part of speech tagging kun je kolommen maken in je dataframe met categorieën. 
Hiervoor is onderstaande functie geschreven:

In [90]:
def get_pos(doc, pos_tag):
    return [token for token in doc if token.pos_ == pos_tag]

Bij de Named entities hebben we de top 10 meest voorkomende entities per categorie vergeleken tussen regionaal en lokaal. Voor de Part of Speech tagging gaan we kijken hoeveel procent van een artikel uit bepaalde woordsoorten bestaat. Hiervoor berekenen we eerst het aantal voorkomens per woordsoort, en daarna delen we dit door de lengte van het artikel. We gebruiken hiervoor het totale dataframe. 

Hieronder laten we deze methode zien in 3 stappen, voor zelfstandige naamwoorden (nouns)

Stap 1:

In [91]:
fiets_nlp['noun'] = fiets_nlp['doc'].apply(lambda x: get_pos(x, 'NOUN'))

Stap 2:

In [92]:
fiets_nlp['noun_count'] = fiets_nlp['noun'].apply(lambda x: len(x))

Stap 3:

In [94]:
fiets_nlp['noun_perc'] = (fiets_nlp['noun_count'] / fiets_nlp['length']) * 100

In [None]:
fiets_nlp.head(2)

In [None]:
## Zelf doen: bekijk de lijst van woordsoorten. Kies er eentje uit en volg de stappen in de volgende cellen.
## stap 1: fiets_nlp['nieuwe kolomnaam'] = fiets_nlp['doc'].apply(lambda x: get_pos(x, 'woordsoort'))

In [None]:
## Stap 2: fiets_nlp['nieuwe kolomnaam_count'] = fiets_nlp['nieuwe kolomnaam'].apply(lambda x: len(x))

In [None]:
## Stap 3: fiets_nlp['nieuwe kolomnaam_perc'] = (fiets_nlp['nieuwe kolomnaa_count'] / fiets_nlp['Length']) * 100

Nu je meerdere kolommen hebt kun je bekijken of er een verschil is in woordgebruik tussen regionale en landelijke kranten. Vul de columns variable hieronder aan met de percentage kolommen die je zelf hebt gemaakt.

In [95]:
## Zelf aanvullen
## columns = ['kolom_perc1', 'kolom_perc2']
columns = ['noun_perc']

Met de volgende functie kun je nu bekijken of er een verschil is in hoe vaak een woordsoort gemiddeld voorkomt per artikel.

In [96]:
fiets_nlp.groupby(['spatial'])[columns].mean()

Unnamed: 0_level_0,noun_perc
spatial,Unnamed: 1_level_1
Landelijk,21.059728
Regionaal/lokaal,20.247488


In plaats van mean() kan je ook median() gebruiken om de mediaan te bekijken. 

In [166]:
## Schrijf hier code voor median()

Unnamed: 0_level_0,noun_perc
spatial,Unnamed: 1_level_1
Landelijk,20.693037
Regionaal/lokaal,20.164609
