# Extra:  Part of speech tagging
Part of Speech (POS) tagging is een NLP activiteit waarbij elk woord in een tekst een grammaticale categorie krijgt toegewezen (voornaamwoord, werkwoord, naamwoord, etc).
Het toevoegen van de POS maakt het makkelijker om (automatisch) de structuur en betekenis van de tekst te doorgronden.
Door POS te gebruiken is het relatief makkeijk het onderwerp van de tekst te vinden (bijvoorbeeld door de zelfstandige naamwoorden of de grammaticale onderwerpen te bekijken. 

Hier een voorbeeld van een paar POS categorieën die Spacy herkent. 

| POS    | Description |Examples |
| -------- | ------- |------- |
| ADV  | adverb | very, tomorrow, down, where, there  |
| NOUN | noun  | girl, cat, tree, air, beauty |
| VERB |  verb | run, runs, running, eat, ate, eating |
| PRON | pronoun  | I, you, he, she, myself, themselves, somebody |
| SCONJ | subordinating conjunction  | if, while, that |
| NUM | numeral  | 1, 2017, one, seventy-seven, IV, MMXIV |
| INTJ | interjection | psst, ouch, bravo, hello |
| X | other  | sfpksdpsxmsa |




In onderstaande voorbeeld gebruiken we POS om te kijken of er een verschil is in de opbouw van teksten tussen regionale/lokale en landelijke kranten. We doen dit door te kijken naar het gemiddeld aantal voorkomens per woordcategorie per tekst. 

Als eerste stap laden we de benodigde packages. 

In [1]:
import pandas as pd
import spacy
from spacy import displacy
import pickle

En we openen ons opgeslagen model, met daarin de kolom `doc` die de POS informatie bevat. 

In [2]:
fiets_nlp = pd.read_pickle("data/fiets_nlp.pkl")

In [3]:
fiets_nlp.head(2)

Unnamed: 0.1,Unnamed: 0,identifier,type,title,date,content,subcategory,category,Year,DL score,spatial,length,doc
21061,84265,http://resolver.kb.nl/resolve?urn=MMKB23:00140...,artikel,BUITENLAND. POLITIEK OVERZICHT.,1880/05/26 00:00:00,"’s Gravenhage, 25 Mei.’t Is te Berlijn een lie...",fiets,fiets,1880,71.212121,Landelijk,792,"(’s, Gravenhage, ,, 25, Mei.’t, Is, te, Berlij..."
21072,84295,http://resolver.kb.nl/resolve?urn=ddd:01011723...,artikel,Gemengde Berichten.,1869/09/20 00:00:00,"Naar men verneemt, bloeit thans in den Hortus ...",rijwiel,fiets,1869,77.823129,Landelijk,735,"(Naar, men, verneemt, ,, bloeit, thans, in, de..."


Om de POS-tags uit de `doc` kolom te halen, is onderstaande functie geschreven:

In [6]:
def get_pos(doc, pos_tag):
    return [token for token in doc if token.pos_ == pos_tag]

Hierna doorloop je voor elke POS tag de volgende drie stappen:

Stap 1: maak een nieuwe kolom aan met de woordcategorie die je wilt extraheren. 

In [7]:
fiets_nlp['noun'] = fiets_nlp['doc'].apply(lambda x: get_pos(x, 'NOUN'))

Stap 2: Maak een nieuwe kolom aan met het aantal woorden van deze woordcategorie. Dit doe je door het aantal woorden in de zojuist gemaakte kolom te tellen. 

In [8]:
fiets_nlp['noun_count'] = fiets_nlp['noun'].apply(lambda x: len(x))

Stap 3: Bereken in een nieuwe kolom het percentage woorden van deze categorie per artikel

In [9]:
fiets_nlp['noun_perc'] = (fiets_nlp['noun_count'] / fiets_nlp['length']) * 100

In het dataframe zie je nu drie nieuwe kolommen. 

In [10]:
fiets_nlp.head(2)

Unnamed: 0.1,Unnamed: 0,identifier,type,title,date,content,subcategory,category,Year,DL score,spatial,length,doc,noun,noun_count,noun_perc
21061,84265,http://resolver.kb.nl/resolve?urn=MMKB23:00140...,artikel,BUITENLAND. POLITIEK OVERZICHT.,1880/05/26 00:00:00,"’s Gravenhage, 25 Mei.’t Is te Berlijn een lie...",fiets,fiets,1880,71.212121,Landelijk,792,"(’s, Gravenhage, ,, 25, Mei.’t, Is, te, Berlij...","[Mei.’t, verwarring, wetsontwerp, overweging, ...",153,19.318182
21072,84295,http://resolver.kb.nl/resolve?urn=ddd:01011723...,artikel,Gemengde Berichten.,1869/09/20 00:00:00,"Naar men verneemt, bloeit thans in den Hortus ...",rijwiel,fiets,1869,77.823129,Landelijk,735,"(Naar, men, verneemt, ,, bloeit, thans, in, de...","[exemplaar, weken, lengte, meter, bloemtrosjes...",147,20.0


Dezelfde stappen kun je ook voor andere woordcategoriën doen. Hieronder zie je twee voorbeelden:

In [11]:
fiets_nlp['adv'] = fiets_nlp['doc'].apply(lambda x: get_pos(x, 'ADV'))
fiets_nlp['adv_count'] = fiets_nlp['adv'].apply(lambda x: len(x))
fiets_nlp['adv_perc'] = (fiets_nlp['adv_count'] / fiets_nlp['length']) * 100

In [12]:
fiets_nlp['pron'] = fiets_nlp['doc'].apply(lambda x: get_pos(x, 'PRON'))
fiets_nlp['pron_count'] = fiets_nlp['pron'].apply(lambda x: len(x))
fiets_nlp['pron_perc'] = (fiets_nlp['pron_count'] / fiets_nlp['length']) * 100

Nu je van meerdere woordsoorten het percentage per article hebt, kun je bekijken of er een verschil is in woordgebruik tussen regionale en landelijke kranten. 

We maken als eerst een variabele aan met daarin alle kolomnamen waarin we het percentage hebben berekend:

In [13]:
columns = ['noun_perc', 'adv_perc', 'pron_perc']

En vervolgens kun je met behulp van een `groupby` functie op deze kolommen kijken of er een verschil is in voorkomen tussen de regionale/lokale en de landelijke kranten

In [14]:
fiets_nlp.groupby(['spatial'])[columns].mean()

Unnamed: 0_level_0,noun_perc,adv_perc,pron_perc
spatial,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Landelijk,21.059728,4.899793,5.438315
Regionaal/lokaal,20.247488,5.723735,6.324164


In plaats van mean() kan je ook median() gebruiken om de mediaan te bekijken. 

In [15]:
fiets_nlp.groupby(['spatial'])[columns].median()

Unnamed: 0_level_0,noun_perc,adv_perc,pron_perc
spatial,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Landelijk,20.862051,4.673345,5.376499
Regionaal/lokaal,20.182292,5.596621,6.124498


Je kunt zelf andere woordsoorten toevoegen om de vergelijking uit te breiden.