# Part-of-Speech Tagging for Danish

<div class="admonition note" name="html-admonition" style="background: lightblue; padding: 10px">
<p class="title">Note</p>
This section, "Working in Languages Beyond English," is co-authored with <a href="http://www.quinndombrowski.com/">Quinn Dombrowski</a>, the Academic Technology Specialist at Stanford University and a leading voice in multilingual digital humanities. I'm grateful to Quinn for helping expand this textbook to serve languages beyond English. 
</div>

In this lesson, we're going to learn about the textual analysis methods *part-of-speech tagging* and *keyword extraction* for Danish texts. These methods will help us computationally parse sentences and better understand words in context.

---

## spaCy and Natural Language Processing (NLP)

To computationally identify parts of speech, we're going to use the natural language processing library spaCy. For a more extensive introduction to NLP and spaCy, see the previous lesson.

To parse sentences, spaCy relies on machine learning models that were trained on large amounts of labeled text data. If you've used the preprocessing or named entity recognition notebooks for this language, you can skip the steps for installing spaCy and downloading the language model.

## Install spaCy

To use spaCy, we first need to install the library.

In [None]:
!pip install -U spacy

## Import Libraries

Then we're going to import `spacy` and `displacy`, a special spaCy module for visualization.

In [1]:
import spacy
from spacy import displacy
from collections import Counter
import pandas as pd
pd.set_option("max_rows", 400)
pd.set_option("max_colwidth", 400)

We're also going to import the `Counter` module for counting nouns, verbs, adjectives, etc., and the `pandas` library for organizing and displaying data (we're also changing the pandas default max row and column width display setting).

## Download Language Model

Next we need to download the Danish-language model (`da_core_news_md`), which will be processing and making predictions about our texts. This is the model that was trained on a corpus of news and nonfiction. You can download the `da_core_news_md` model by running the cell below:

In [None]:
!python -m spacy download da_core_news_md

*Note: spaCy offers [models for other languages](https://spacy.io/usage/models#languages) including Chinese, German, French, Spanish, Portuguese, Russian, Italian, Dutch, Danish, Greek, Norwegian, and Lithuanian*.  

*spaCy offers language and tokenization support for other language via external dependencies ‚Äî such as [PyviKonlpy](https://github.com/konlpy/konlpy) for Korean.*

## Load Language Model

Once the model is downloaded, we need to load it with `spacy.load()` and assign it to the variable `nlp`.

In [2]:
nlp = spacy.load('da_core_news_md')

## Create a Processed spaCy Document

Whenever we use spaCy, our first step will be to create a processed spaCy `document` with the loaded NLP model `nlp()`. Most of the heavy NLP lifting is done in this line of code. After processing, the `document` object will contain tons of juicy language data ‚Äî named entities, sentence boundaries, parts of speech ‚Äî¬†and the rest of our work will be devoted to accessing this information.

In [3]:
filepath = '../texts/da.txt'
text = open(filepath, encoding='utf-8').read()
document = nlp(text)

## spaCy Part-of-Speech Tagging
The tags that spaCy uses for part-of-speech are based on work done by [Universal Dependencies](https://universaldependencies.org/), an effort to create a set of part-of-speech tags that work across many different languages. Texts from various languages are annotated using this common set of tags, and contributed to a common repository that can be used to train models like spaCy.

The Universal Dependencies page has information about the annotated corpora available for each language; it's worth looking into the corpora that were annotated for your language.

| POS   | Description               | Examples                                      |
|:-----:|:-------------------------:|:---------------------------------------------:|
| ADJ   | adjective                 | big, old, green, incomprehensible, first      |
| ADP   | adposition                | in, to, during                                |
| ADV   | adverb                    | very, tomorrow, down, where, there            |
| AUX   | auxiliary                 | is, has (done), will (do), should (do)        |
| CONJ  | conjunction               | and, or, but                                  |
| CCONJ | coordinating conjunction  | and, or, but                                  |
| DET   | determiner                | a, an, the                                    |
| INTJ  | interjection              | psst, ouch, bravo, hello                      |
| NOUN  | noun                      | girl, cat, tree, air, beauty                  |
| NUM   | numeral                   | 1, 2017, one, seventy-seven, IV, MMXIV        |
| PART  | particle                  | ‚Äôs, not,                                      |
| PRON  | pronoun                   | I, you, he, she, myself, themselves, somebody |
| PROPN | proper noun               | Mary, John, London, NATO, HBO                 |
| PUNCT | punctuation               | ., (, ), ?                                    |
| SCONJ | subordinating conjunction | if, while, that                               |
| SYM   | symbol                    | $, %, ¬ß, ¬©, +, ‚àí, √ó, √∑, =, :), üòù             |
| VERB  | verb                      | run, runs, running, eat, ate, eating          |
| X     | other                     | sfpksdpsxmsa                                  |
| SPACE | space                     |                                               |


Above is a POS chart taken from [spaCy's website](https://spacy.io/api/annotation#named-entities), which shows the different parts of speech that spaCy can identify as well as their corresponding labels. To quickly see spaCy's POS tagging in action, we can use the [spaCy module `displacy`](https://spacy.io/usage/visualizers#ent) on our sample `document` with the `style=` parameter set to "dep" (short for dependency parsing):

## Get Part-Of-Speech Tags

To get part of speech tags for every word in a document, we have to iterate through all the tokens in the document and pull out the `.lemma_` attribute for each token, which gives us the un-inflected version of the word. We'll also pull out the  `.pos_` attribute for each token. We can get even finer-grained dependency information with the attribute `.dep_`.


In [17]:
for token in document:
    print(token.lemma_, token.pos_, token.dep_)

ÔªøEVANGELINES PROPN ROOT

  SPACE 
GENVORDIGHEDER NOUN flat


  SPACE 
TIL ADP case

  SPACE 
KVINDER NOUN ROOT
MED ADP case
R√òDT NOUN amod
HAAR NOUN nmod





  SPACE 
ELINOR PROPN ROOT
GLYN PROPN flat


  SPACE 
EVANGELINES PROPN flat

  SPACE 
GENVORDIGHEDER NOUN conj


  SPACE 
AUTORISERET NOUN flat
OVERS√ÜTTELSE NOUN ROOT

  SPACE 
FOR ADP case
NORGE PROPN ROOT
OG CCONJ cc
DANMARK PROPN conj
AF ADP case

  SPACE 
HEDVIG PROPN obl
MAGNUSSEN PROPN flat


  SPACE 
NY ADJ amod
UDGAVE NOUN flat


  SPACE 
MARTINS PROPN flat
FORLAG PROPN conj

  SPACE 
K√òBENHAVN PROPN conj
& CCONJ cc
KRISTIANIA PROPN conj

  SPACE 
MCMXXI NOUN conj





  SPACE 
MARTIN'S X ROOT
FORLAGSTRYKKERI NOUN conj
, PUNCT punct
K√òBENHAVN PROPN amod





 SPACE 
BEGYNDELSEN PROPN nmod
PAA PROPN appos
EVANGELINES PROPN flat
DAGBOG NOUN conj



                                                SPACE 
_ PUNCT punct
Branches PROPN list
Park PROPN flat
_ PUNCT punct
. PUNCT punct

                                     

## Practicing with the example text
When working with languages that have inflection, we typically use `token.lemma_` instead of `token.text` like you'll find in the English examples. This is important when we're counting, so that differently-inflected forms of a word (e.g. masculine vs. feminine or singular vs. plural) aren't counted as if they were different words.

In [12]:
filepath = "../texts/da.txt"
document = nlp(open(filepath, encoding="utf-8").read())

## Get Adjectives

| POS   | Description               | Examples                                      |
|:-----:|:-------------------------:|:---------------------------------------------:|
| ADJ   | adjective                 | big, old, green, incomprehensible, first      |

To extract and count the adjectives in the example text, we will follow the same model as above, except we'll add an `if` statement that will pull out words only if their POS label matches "ADJ."

<div class="admonition pythonreview" name="html-admonition" style="background: lightgreen; padding: 10px">
<p class="title">Python Review</p>

While we demonstrate how to extract parts of speech in the sections below, we're also going to reinforce some integral Python skills. Notice how we use `for` loops and `if` statements to `.append()` specific words to a list. Then we count the words in the list and make a pandas dataframe from the list.
</div>

Here we make a list of the adjectives identified in the example text:

In [15]:
adjs = []
for token in document:
    if token.pos_ == 'ADJ':
        adjs.append(token.lemma_)

In [16]:
adjs

['NY',
 '3.',
 'vild',
 'morsom',
 'alt',
 'mulig',
 'godte',
 'inkonsekvent',
 'ordentlig',
 'alt',
 'forrige',
 'syg',
 'samme',
 'behagelig',
 'godte',
 'd√∏',
 'virkelig',
 'meste',
 'umulig',
 'eg',
 'stakkels',
 'd√∏',
 'stakkels',
 'd√∏',
 'd√∏',
 'alle',
 'formel',
 'venskabelig',
 'megen',
 'flere',
 'gammel',
 'unge',
 'm√∏rk',
 'vild',
 'vild',
 'god',
 'smuk',
 'rar',
 'vild',
 'passe',
 'sidste',
 'forhadt',
 'morsom',
 'sj√¶lden',
 'gammel',
 'n√∏dt',
 'tiltale',
 'mulig',
 'god',
 'Fine',
 'vild',
 'alle',
 'smuk',
 'oph√∏je',
 '√¶del',
 'stor',
 'behagelig',
 'v√¶rd',
 'heldig',
 'Sort',
 'latterlig',
 'hvid',
 'hjertel√∏s',
 'bedr√∏ve',
 'bedr√∏ve',
 'frygtelig',
 'ondskabsfuld',
 'alle',
 'r√¶dsom',
 'lille',
 'd√∏ve',
 'd√∏ve',
 'rase',
 'rask',
 'vild',
 'n√¶ste',
 'sidste',
 'd√∏',
 'Vrede',
 'gammel',
 'rig',
 'unyttig',
 'alt',
 'tilstr√¶kkelig',
 'grim',
 'kedelig',
 'nervepirrende',
 'gift',
 'megen',
 'gammel',
 '√¶kel',
 'Fyre',
 'fleste',
 'f√¶l',
 'lille',


Then we count the unique adjectives in this list with the `Counter()` module:

In [18]:
adjs_tally = Counter(adjs)

In [19]:
adjs_tally.most_common()

[('vild', 286),
 ('alle', 97),
 ('alt', 89),
 ('megen', 77),
 ('god', 70),
 ('gammel', 68),
 ('smuk', 63),
 ('stor', 61),
 ('lille', 61),
 ('hele', 60),
 ('gift', 35),
 ('glad', 31),
 ('mere', 31),
 ('samme', 29),
 ('sikker', 28),
 ('mangen', 27),
 ('s√∏de', 27),
 ('mulig', 26),
 ('dejlig', 26),
 ('kedelig', 24),
 ('kold', 24),
 ('f√∏rst', 24),
 ('h√∏j', 23),
 ('bange', 23),
 ('sidste', 22),
 ('ung', 22),
 ('vride', 22),
 ('gode', 22),
 ('k√¶re', 22),
 ('stakkels', 21),
 ('sand', 21),
 ('yndig', 21),
 ('eneste', 20),
 ('elskv√¶rdig', 20),
 ('lykkelig', 20),
 ('ulykkelig', 20),
 ('unge', 19),
 ('venlig', 19),
 ('eg', 18),
 ('n√∏dt', 18),
 ('underlig', 18),
 ('godte', 17),
 ('umulig', 17),
 ('behagelig', 16),
 ('al', 16),
 ('slem', 16),
 ('sort', 15),
 ('f√¶rdig', 15),
 ('blaa', 15),
 ('morsom', 14),
 ('vi', 14),
 ('r√∏dt', 14),
 ('lange', 14),
 ('r√¶dsom', 13),
 ('frygtelig', 12),
 ('nerv√∏s', 12),
 ('forskellig', 12),
 ('r√∏d', 12),
 ('anderledes', 12),
 ('vidunderlig', 12),
 ('flere',

Then we make a dataframe from this list:

In [20]:
df = pd.DataFrame(adjs_tally.most_common(), columns=['adj', 'count'])
df[:100]

Unnamed: 0,adj,count
0,vild,286
1,alle,97
2,alt,89
3,megen,77
4,god,70
5,gammel,68
6,smuk,63
7,stor,61
8,lille,61
9,hele,60


## Get Nouns

| POS   | Description               | Examples                                      |
|:-----:|:-------------------------:|:---------------------------------------------:|
| NOUN  | noun                      | girl, cat, tree, air, beauty                  |

To extract and count nouns, we can follow the same model as above, except we will change our `if` statement to check for POS labels that match "NOUN".

In [21]:
nouns = []
for token in document:
    if token.pos_ == 'NOUN':
        nouns.append(token.lemma_)

nouns_tally = Counter(nouns)

df = pd.DataFrame(nouns_tally.most_common(), columns=['noun', 'count'])
df[:100]

Unnamed: 0,noun,count
0,kunde,200
1,√òjne,63
2,Aften,56
3,Tid,47
4,Verden,46
5,Maade,46
6,Slags,43
7,Gang,40
8,Mand,40
9,Ansigt,40


## Get Verbs

| POS   | Description               | Examples                                      |
|:-----:|:-------------------------:|:---------------------------------------------:|
| VERB  | verb                      | run, runs, running, eat, ate, eating          |

To extract and count works of art, we can follow a similar-ish model to the examples above. This time, however, we're going to make our code even more economical and efficient (while still changing our `if` statement to match the POS label "VERB").

<div class="admonition pythonreview" name="html-admonition" style="background: lightgreen; padding: 10px">
<p class="title">Python Review</p>

We can use a [*list comprehension*](https://melaniewalsh.github.io/Intro-Cultural-Analytics/Python/More-Lists-Loops.html#List-Comprehensions) to get our list of verbs in a single line of code! Closely examine the first line of code below:
</div>

In [22]:
verbs = [token.lemma_ for token in document if token.pos_ == 'VERB']

verbs_tally = Counter(verbs)

df = pd.DataFrame(verbs_tally.most_common(), columns=['verb', 'count'])
df[:100]

Unnamed: 0,verb,count
0,sige,742
1,v√¶re,342
2,komme,321
3,have,263
4,se,255
5,g√∏re,182
6,sa√°,158
7,v√©d,118
8,hav,101
9,tro,101


# Keyword Extraction

## Get Sentences with Keyword

spaCy can also identify sentences in a document. To access sentences, we can iterate through `document.sents` and pull out the `.text` of each sentence.

We can use spaCy's sentence-parsing capabilities to extract sentences that contain particular keywords, such as in the function below. Note that the function assumes that the keyword provided will be exactly the same as it appears in the text (e.g. matching all inflection for case, number, gender, etc. As a Spanish example, if you use `bueno` as the keyboard, it won't match `buena` or `buenos`.)

With the function `find_sentences_with_keyword()`, we will iterate through `document.sents` and pull out any sentence that contains a particular "keyword." Then we will display these sentence with the keywords bolded.

In [23]:
import re
from IPython.display import Markdown, display

In [24]:
def find_sentences_with_keyword(keyword, document):
    
    #Iterate through all the sentences in the document and pull out the text of each sentence
    for sentence in document.sents:
        sentence = sentence.text
        
        #Check to see if the keyword is in the sentence (and ignore capitalization by making both lowercase)
        if keyword.lower() in sentence.lower():
            
            #Use the regex library to replace linebreaks and to make the keyword bolded, again ignoring capitalization
            sentence = re.sub('\n', ' ', sentence)
            sentence = re.sub(f"{keyword}", f"**{keyword}**", sentence, flags=re.IGNORECASE)
            
            display(Markdown(sentence))

In [25]:
find_sentences_with_keyword(keyword="godt", document=document)

Jeg har l√¶st alt muligt om det i en Bog; det er at se **godt** ud, og ikke at have noget at leve af, og dog have Forn√∏jelse af Livet -- og det har jeg i Sinde!

Jeg har ganske vist ingenting at leve af, for man kan ikke regne 300 Pund om Aaret for noget videre -- jeg er overordentlig k√∏n, og jeg v√©d det **godt**, og jeg forstaar at s√¶tte mit Haar og tage mine Hatte paa og den Slags Ting, saa jeg er naturligvis Eventyrerske!

Jeg er tyve Aar, og lige indtil forrige Uge, da Fru Carruthers blev syg og d√∏de paa √©n og samme Dag, havde jeg det sommetider meget behageligt, naar hun var i **godt** Hum√∏r.  

Naar det bliver m√∏rkt, og jeg er alene her oppe, spekulerer jeg ofte paa, hvorledes det vilde have v√¶ret, hvis jeg havde haft nogle -- men jeg tror, at jeg er af den Slags Katte, som ikke vilde have kommet videre **godt** ud af det med dem -- saa det er maaske bedst saaledes, hvis jeg bare havde -- for Eksempel en smuk Tante til at holde af mig, det kunde have v√¶ret rart.  

Jeg er ikke af en Type, som enhver synes **godt** om.

Da man nu kan g√∏re, hvad man vil, naar man er gift, haaber jeg virkelig, at Hr. Carruthers vil synes **godt** om mig, og saa bliver alt **godt**!

For -- jeg kan lige saa **godt** sige det med det samme -- det gik ikke. 

En h√∏j Mand, der sa√° forf√¶rdelig **godt** ud, med et glatraget Ansigt og Tr√¶k som skaarne ud i Sten.

Hvor havde jeg nogensinde kunnet t√¶nke paa at gifte mig med en Mand, som jeg ikke kendte, blot for at sikre mig et **godt** Hjem! 

Heldigvis kan han aldrig ane, at jeg har v√¶ret villig til at tage ham -- min Forstillelsesevne har hjulpet mig **godt**.

Grunden vilde det passe meget **godt**, hvis De giftede Dem med mig -- 

-- De kunde bo her og have en sikker Stilling, og jeg kunde komme af og til og se, om De havde det **godt**."  

Aa, jeg v√©d **godt**, at De synes, det er dumt," jeg standsede ham, da han var ved at tale; "men da det naturligvis alligevel ikke varer ved, synes jeg, det kunde v√¶re rart at begynde paa den Maade, synes De ikke?"  

Han sa√° overordentlig **godt** ud, som han stod d√®r med Ansigtet vendt imod det svindende Lys.

"Jeg kan **godt** lide dette V√¶relse.

"Jeg haaber, at De ikke bliver ked af det," sagde han, "men en af mine Venner, Lord Robert Vavasour, kommer i Eftermiddag -- han -- forstaar sig meget **godt** paa Malerier.

Jeg kan **godt** lide det Udseende, smal om Livet og smukke Skuldre, og han ser ud, som om han var smidig som en Slange, og dog kunde br√¶kke Ildragere midt over, ligesom Hr. Rochester i "Jane Eyre".  

Jeg kan **godt** lide hans Stemme -- og han er saa fuldst√¶ndig _sans g√™ne_, at der slet ingen Vanskeligheder er.

Jeg var saa drillevorn, som jeg kunde v√¶re -- sympatisk optaget af gamle Bartons lange Historier, og jeg sa√° kun en Gang imellem paa de to andre gennem mine √òjenvipper -- medens jeg talte paa den p√¶neste, √¶rbareste Maade, saa jeg er sikker paa, at selv Lady Katherine Montgomerie -- en af vore Naboersker -- vilde have syntes **godt** om det.  

Det syntes jeg **godt** om!

"Jeg synes ikke, du er **godt** Selskab for Fr√∏ken Evangeline.

"Ikke **godt** Selskab!" udbr√∏d Lord Robert.

I Morges vaagnede jeg med Hovedpine og sa√°, at Regnen piskede mod Vinduerne, og det var Taage og Slud -- det passede rigtig **godt** til den femte November.

Det var ikke videre **godt** skrevet, og jeg havde aldrig brudt mig meget om Lady Katherine; men det var ret venligt og passede saa udm√¶rket sammen med mine Planer.  

Jeg takkede ham, og han trykkede min Haand saa venligt -- jeg kan **godt** lide Lord Robert.  

Og medens r√∏dt Haar ser meget **godt** ud paa mig, synes jeg, at en Mand med r√∏dt Haar er det grimmeste i Verden.

Det var virkelig meget vanskeligt at finde paa noget at sige, og jeg kan **godt** forstaa, at der er Folk, der bliver befippede, naar de bliver pint saadan.

I det mindste -- De v√©d **godt** -- jeg synes, der er lidt kedeligt paa Landet -- synes De ikke ogsaa?

det beroligede ham, og han sagde alvorligt:  "Jo, det kunde vist v√¶re lige saa **godt**.

Jeg takkede hende og sagde, at det var slet ikke n√∏dvendigt, da jeg jo maatte v√¶nne mig til at se Mennesker; jeg kunde ikke g√∏re Regning paa at tr√¶ffe Folk, der t√¶nkte saa venligt som hun, jeg kunde lige saa **godt** straks fors√∏ge paa at v√¶nne mig til det.  

Jeg haaber, De har det **godt** og ikke blev fork√∏let paa K√∏returen.                                         

"Hvad skal jeg g√∏re, Katherine?" sagde han lidt efter; "den forbistrede Fyr, Campion, kommer ikke i n√¶ste Uge, og han er min bedste Skytte; med saa kort Varsel er det umuligt at faa √©n, der skyder lige saa **godt**."  

Den vilde naturligvis v√¶re for sn√¶ver til Dem," sagde jeg ydmygt, "men det er ellers et meget **godt** M√∏nster, og man spr√¶nger den ikke, naar man str√¶kker Armene i Vejret.

Hun smilede til ham, hun kan √∏jensynlig meget **godt** lide ham.  

Han har det mest indtagende V√¶sen, og man synes straks, at man kender ham meget **godt**; af og til ser han √©n lige ind i √òjnene med en forbavsende Frejdighed.

Jeg kan **godt** lide at se ham se nedad; hans √òjenvipper er saa latterligt lange og kr√∏llede, de er ikke sorte som mine og Hr. Carruthers, men m√∏rkebrune og bl√∏de og skyggede, og jeg v√©d ikke rigtig, hvorfor de er saa tiltr√¶kkende.

Nu vilde jeg √∏nske, at jeg den Gang havde haft Mod til at sige rent ud, at jeg **godt** kunde lide Lord Robert, og at jeg ikke vilde slutte nogen Overenskomst; men man er undertiden ubesindig, naar man bliver overrasket.

Men hun var forf√¶rdelig venlig imod mig og yndig, og hun har indbudt mig til at komme og bes√∏ge sig og meget andet, saa det er nok altsammen **godt**.

Det kan **godt** v√¶re, at det er noget aldeles forf√¶rdeligt!

"Det er s√∏rgeligt, at den k√¶re Janthe har den uregelm√¶ssige Vane at drikke Te paa sit V√¶relse -- hun har slet ikke **godt** af det," etc., etc.; men Gud ske Lov, jeg var snart ude i Vestibulen, hvor hendes Pige stod og ventede paa mig.  

"Jeg vil ikke g√∏re nogen Fortr√¶d, med mindre de g√∏r mig Fortr√¶d f√∏rst -- og jeg kan **godt** lide Dem, De er saa smuk.

"Saa er det **godt**.

Jeg var bange for Robert i Aftes, fordi jeg holder saa meget af ham; men De var s√∏d efter Middag, og nu bliver det nok **godt** altsammen; jeg fortalte ham, at De sandsynligvis skulde giftes med Malcolm Montgomerie, og at han ikke maatte blande sig i det."  

Det l√∏d **godt** nok, og dog havde jeg en F√∏lelse af, at jeg hellere vilde sige Nej, og hvis Tonen havde v√¶ret Spor af beskyttende, havde jeg straks gjort det.

"Jeg vil ikke behandles paa den Maade, De v√©d **godt**, at jeg kun er kommet her for Deres Skyld. 

Sk√¶bnen syntes at mods√¶tte sig, at Lord Robert talte til mig -- selv naar han fors√∏gte paa det -- og jeg f√∏lte, at jeg maatte v√¶re ekstra kold og afskyelig, fordi jeg -- naa, jeg kan lige saa **godt** sige det -- synes, at han er saa indtagende.

Hun var saa s√∏d imod mig, at det n√¶sten sa√° ud, som om hun gerne vilde g√∏re **godt** igen, at hun ikke vilde lade mig lege med Lord Robert.  

Indtil da havde jeg undgaaet hans Tiln√¶rmelser ganske **godt**; men det L√∏fte, jeg havde givet ham, hang stadig over Hovedet paa mig.

"Jeg kan **godt** gaa i Teatret med Dem i Morgen Aften," sagde han.

Indtil nu -- sagde hun til Lady Ver -- havde Fru Carruthers naturligvis opdraget mig meget omhyggeligt og passet **godt** paa mig, men hun bifaldt ikke hendes Anskuelser.

Han ser ganske **godt** ud, fiks og velkl√¶dt som Lord Robert, men han har ikke den smukke Skikkelse.

Jeg kan **godt** lide at se alt paa sin rette Plads -- som i Lord Roberts Skikkelse.

Lady Ver kan ikke videre **godt** lide hende, fortalte hun mig i Toget, men hun var n√∏dt til at telegrafere til hende om at komme, da hun ikke med saa kort Varsel kunde faa fat i en anden, som Hr. Campion kunde lide.  

Fru Fairfax blev vred, fordi Hr. Campion vilde tale med mig, men da jeg ikke syntes videre **godt** om hende, br√∏d jeg mig ikke om det, men morede mig.

Jeg f√∏lte, at mine √òjne flammede imod ham, men jeg havde en Klump i Halsen; jeg vilde ikke v√¶re blevet forn√¶rmet, hvis det havde v√¶ret enhver anden -- kun vred -- men han havde v√¶ret saa √¶rb√∏dig og hensynsfuld imod mig paa Branches -- og jeg havde saa **godt** kunnet lide ham.

"Ja, det vil De have **godt** af, k√¶re Barn," sagde hun forn√∏jeligt, "saa vil jeg hvile mig her og pleje min Fork√∏lelse."  

"De v√©d meget **godt**, hvad jeg mener, hvad har de fortalt Dem om mig?"  

"Ikke andet, end at der er en henrivende fransk Dame, som tilbeder Dem, og som De holder forf√¶rdelig meget af -- og jeg sympatiserer med Dem -- jeg kan **godt** lide franske Damer, de s√¶tter deres Hatte saa nydeligt."  

"Hvilken latterlig Sladder -- jeg tror ikke, at Park Street er et **godt** Sted for Dem at bo.

"Ja, det kan jeg **godt**," sagde jeg.  

"Vi haaber, du har sovet **godt** og har haft en behagelig Rejse over S√∏en."  

Jeg kan **godt** forstaa, at hun foretr√¶kker -- Lord Robert.  

Han var blevet fork√∏let, sagde han, og var gaaet ud for at faa et Glas Cognak, og nu havde han det helt **godt**, og vilde vi nu ikke komme med og spise til Aften, og mange andre elskv√¶rdige Ting, medens han sa√° paa hende med den inderligste Hengivenhed -- det var, som om jeg ikke eksisterede.  

Han faar mig til at tro paa alt, hvad der er **godt** og h√¶derligt.

"Og det var **godt** nok til hende, den fortryllende, dj√¶velske D√¶mon!" 

"Men han tilbeder mig paa sin Maade, og han har nok en ny Diamantring med til mig for at g√∏re det **godt** igen -- nu skal De se til Lunch.

De vil sandsynligvis faa det dejligt sammen med ham, og holde ham forelsket i Dem i mange Aar, fordi De ikke er forelsket i ham, og han vil passe **godt** paa, at De ikke ser paa nogen anden.

Vi talte ikke i nogle Minutter, saa sagde hun muntert:  "De har gjort mit Hoved bedre, Deres Strygninger er vidunderlige; trods alt kan jeg **godt** lide Dem, Slangepige.

Lunchen gik meget **godt**.

"Sandheden er, De kan ikke v√¶re den mindste Smule ekscentrisk eller ukonventionel, hvis De ser **godt** ud og er ugift," fortsatte hun, "De kan maaske knipse med Fingrene ad Samfundet, men hvis De g√∏r det, faar De det ikke behageligt, og alle M√¶ndene vil enten forsvare Dem paa en taabelig Maade eller v√¶re uforskammede imod Dem.

Jeg takkede hende, saa **godt** jeg kunde.

"Kunde De da **godt** lide, at jeg skulde se anderledes ud?

Og denne s√∏de Dames √òjne smeltede hen i √òmhed, da hun talte om Fortiden -- sk√∏nt hun ikke kender mig **godt** nok til at sige mere.

En Godhed og Elskelighed som denne passer ikke M√¶ndene saa **godt** som Luner, lader det til.  

Jeg glemte helt, at jeg var en hjeml√∏s Vandrer, og jeg kom tilbage til Claridges omtrent Klokken halv fem i n√¶sten **godt** Hum√∏r.  

Jeg har fortalt mig selv, hvor k√∏n han er -- og hvor jeg syntes **godt** om ham paa Branches -- men det var f√∏r -- ja, jeg kan lige saa **godt** skrive det -- f√∏r Lord Robert kom.

"Ingenting," sagde jeg, saa **godt** jeg kunde, og fors√∏gte paa at tr√¶kke min Hat ned over √òjnene.

For, som du meget **godt** maa vide, elsker jeg dig."  

det er **godt** nok, min Skat, hun maa jo vide alt om din Familie, og kan fort√¶lle det til Torquilstone.

"Er det **godt**?" spurgte jeg og rakte det til Robert, medens jeg skrev udenpaa Konvolutten.  

Pas **godt** paa dig selv!

"Kort og **godt**, han har absolut n√¶gtet at have noget at g√∏re med Sagen; han siger, at jeg skal ikke vente noget mere fra ham, og vi er skilt fra hinanden for bestandig!"  

"Jeg forstaar mig forholdsvis **godt** paa at bed√∏mme Karakterer.

Jeg vil give ham mig selv, og vi skal komme meget **godt** ud af det uden Dem!

Saa pr√∏vede jeg paa at fort√¶lle det, saa **godt** jeg kunde, og de h√∏rte aandel√∏st efter.

Hvad i Alverden er noget som helst andet **godt** for i Livet, end at v√¶re vanvittig forelsket, saaledes som vi er det.  

## Get Keyword in Context

We can also find out about a keyword's more immediate context ‚Äî its neighboring words to the left and right ‚Äî and we can fine-tune our search with POS tagging.

To do so, we will first create a list of what's called *ngrams*. "Ngrams" are any sequence of *n* tokens in a text. They're an important concept in computational linguistics and NLP. (Have you ever played with [Google's *Ngram* Viewer](https://books.google.com/ngrams)?)

Below we're going to make a list of *bigrams*, that is, all the two-word combinations from the sample text. We're going to use these bigrams to find the neighboring words that appear alongside particular keywords.

In [27]:
#Make a list of tokens and POS labels from document if the token is a word 
tokens_and_labels = [(token.text, token.pos_) for token in document if token.is_alpha]

In [28]:
#Make a function to get all two-word combinations
def get_bigrams(word_list, number_consecutive_words=2):
    
    ngrams = []
    adj_length_of_word_list = len(word_list) - (number_consecutive_words - 1)
    
    #Loop through numbers from 0 to the (slightly adjusted) length of your word list
    for word_index in range(adj_length_of_word_list):
        
        #Index the list at each number, grabbing the word at that number index as well as N number of words after it
        ngram = word_list[word_index : word_index + number_consecutive_words]
        
        #Append this word combo to the master list "ngrams"
        ngrams.append(ngram)
        
    return ngrams

In [29]:
bigrams = get_bigrams(tokens_and_labels)

Let's take a peek at the bigrams:

In [30]:
bigrams[5:20]

[[('HAAR', 'NOUN'), ('ELINOR', 'PROPN')],
 [('ELINOR', 'PROPN'), ('GLYN', 'PROPN')],
 [('GLYN', 'PROPN'), ('EVANGELINES', 'PROPN')],
 [('EVANGELINES', 'PROPN'), ('GENVORDIGHEDER', 'NOUN')],
 [('GENVORDIGHEDER', 'NOUN'), ('AUTORISERET', 'NOUN')],
 [('AUTORISERET', 'NOUN'), ('OVERS√ÜTTELSE', 'NOUN')],
 [('OVERS√ÜTTELSE', 'NOUN'), ('FOR', 'ADP')],
 [('FOR', 'ADP'), ('NORGE', 'PROPN')],
 [('NORGE', 'PROPN'), ('OG', 'CCONJ')],
 [('OG', 'CCONJ'), ('DANMARK', 'PROPN')],
 [('DANMARK', 'PROPN'), ('AF', 'ADP')],
 [('AF', 'ADP'), ('HEDVIG', 'PROPN')],
 [('HEDVIG', 'PROPN'), ('MAGNUSSEN', 'PROPN')],
 [('MAGNUSSEN', 'PROPN'), ('NY', 'ADJ')],
 [('NY', 'ADJ'), ('UDGAVE', 'NOUN')]]

Now that we have our list of bigrams, we're going to make a function `get_neighbor_words()`. This function will return the most frequent words that appear next to a particular keyword. The function can also be fine-tuned to return neighbor words that match a certain part of speech by changing the `pos_label` parameter.

In [31]:
def get_neighbor_words(keyword, bigrams, pos_label = None):
    
    neighbor_words = []
    keyword = keyword.lower()
    
    for bigram in bigrams:
        
        #Extract just the lowercased words (not the labels) for each bigram
        words = [word.lower() for word, label in bigram]        
        
        #Check to see if keyword is in the bigram
        if keyword in words:
            
            for word, label in bigram:
                
                #Now focus on the neighbor word, not the keyword
                if word.lower() != keyword:
                    #If the neighbor word matches the right pos_label, append it to the master list
                    if label == pos_label or pos_label == None:
                        neighbor_words.append(word.lower())
    
    return Counter(neighbor_words).most_common()

In [32]:
get_neighbor_words("godt", bigrams)

[('saa', 12),
 ('kan', 12),
 ('lide', 12),
 ('meget', 10),
 ('jeg', 9),
 ('ud', 8),
 ('det', 7),
 ('og', 6),
 ('om', 6),
 ('paa', 5),
 ('nok', 5),
 ('videre', 4),
 ('v√©d', 3),
 ('er', 3),
 ('af', 3),
 ('hum√∏r', 2),
 ('synes', 2),
 ('sige', 2),
 ('et', 2),
 ('mig', 2),
 ('at', 2),
 ('syntes', 2),
 ('selskab', 2),
 ('ikke', 2),
 ('forstaa', 2),
 ('altsammen', 2),
 ('men', 2),
 ('igen', 2),
 ('ganske', 2),
 ('se', 1),
 ('i', 1),
 ('alt', 1),
 ('forf√¶rdelig', 1),
 ('hjem', 1),
 ('nu', 1),
 ('hvis', 1),
 ('overordentlig', 1),
 ('rigtig', 1),
 ('til', 1),
 ('skrevet', 1),
 ('de', 1),
 ('straks', 1),
 ('ja', 1),
 ('m√∏nster', 1),
 ('kunde', 1),
 ('v√¶re', 1),
 ('l√∏d', 1),
 ('g√∏re', 1),
 ('gaa', 1),
 ('passet', 1),
 ('kunnet', 1),
 ('have', 1),
 ('hvad', 1),
 ('sted', 1),
 ('sagde', 1),
 ('sovet', 1),
 ('helt', 1),
 ('var', 1),
 ('passe', 1),
 ('sir', 1),
 ('ser', 1),
 ('da', 1),
 ('som', 1),
 ('n√¶sten', 1),
 ('skrive', 1),
 ('maa', 1),
 ('spurgte', 1),
 ('pas', 1),
 ('han', 1),
 ('forho

In [33]:
get_neighbor_words("godt", bigrams, pos_label='VERB')

[('lide', 12),
 ('v√©d', 3),
 ('synes', 2),
 ('sige', 2),
 ('syntes', 2),
 ('forstaa', 2),
 ('se', 1),
 ('skrevet', 1),
 ('kan', 1),
 ('v√¶re', 1),
 ('l√∏d', 1),
 ('g√∏re', 1),
 ('gaa', 1),
 ('passet', 1),
 ('have', 1),
 ('sagde', 1),
 ('sovet', 1),
 ('er', 1),
 ('passe', 1),
 ('ser', 1),
 ('skrive', 1),
 ('spurgte', 1),
 ('pas', 1)]

## Your Turn!

Try out `find_sentences_with_keyword()` and `get_neighbor_words` with your own keywords of interest.

In [None]:
find_sentences_with_keyword(keyword="YOUR KEY WORD", document=document)

In [None]:
get_neighbor_words(keyword="YOUR KEY WORD", bigrams, pos_label=None)