Formålet er at opnå et kendskab til regulære udtryk og deres implementering i Python.

RegEx' anvendelse er meget udbredt, fordi RegEx er super smart i relation til tekstbehandling, fordi det kan bruges til at foretage avancerede søgninger. RegEx anvendes til søgemaskiner og til søg og erstat funktioner. At arbejde med RegEx er afgjort en oplevelse for sig, men når man får indblik i omfanget af opgaver, som kan løses med RegEx, så indser man, at det er et utroligt godt værktøj.

Denne notebook forsøger ikke at lære dig alt om RegEx, men den forsøger at skabe læring om det, og kun et fåtal af mulighederne bliver illustreret nedenfor.

Foruden RegEx indeholder denne notebook mange loops, så på den måde kan du også få indblik i, hvordan du skriver den slags.

In [1]:
# importer biblioteker
import urllib.request
import re
import nltk
import os

In [2]:
# hent teksten
url = 'https://www.gutenberg.org/files/2591/2591-0.txt'
raw_text = urllib.request.urlopen(url).read().decode()

In [4]:
#find starten
start = raw_text.find('THE BROTHERS GRIMM FAIRY TALES') + len('THE BROTHERS GRIMM FAIRY TALES')
# find slutningen
end = raw_text.find('*****')
# find det der imellem
content = raw_text[start:end]

#opdel på hvert eventyr 
tales = content.split('\r\n\r\n\r\n\r\n\r\n') # split før overskrift på titel
# Filtrer første item væk, fordi det er tomt
tales = tales[1:] 

titles = []
for i in tales:
    split_text = i.split('\r\n\r\n\r\n') # split efter titel
    title = split_text[0] # gem første del af splittet - det er titlen  
    titles.append(title) # tilføj titlen til den tomme liste

# zip titles og tales    
zip_format = list(zip(titles, tales))


In [5]:
# lav en ny mappe
#os.mkdir('grimm_tales')
os.chdir('grimm_tales')

In [6]:
# Gem filerne i mappen
for i in zip_format:
    new_file = open(i[0]+'.txt', 'w', encoding='utf-8-sig')
    new_file.write(i[1])
    new_file.close()

# Rens teksten
Rensning af tekst kan foregå på flere måder. Metoden nedenfor er på den måde en ud af flere måder.

Vi begynder med at importere RegEx (import re).

RegEx mønsteret er '\b\S+\b'.

\b : \b finder positionen ved grænsen af et ord (word boundary).

\S: \S matcher ethvert ikke-mellemrum

+: + matcher det forrige tegn mellem én og et ubegrænset antal gange, så mange gange som muligt ind til næste tegn. Man siger, at plusset er grådigt.

\b : \b finder positionen ved grænsen af et ord (word boundary).



### Clean the text
Cleaning text can be done in several ways. The method below is one of several approaches.

We start by importing RegEx (import re).

The RegEx pattern is '\b\S+\b'.

\b : \b finds the position at the boundary of a word (word boundary).

\S: \S matches any non-whitespace character.

: + matches the previous character between one and an unlimited number of times, as many times as possible until the next character. It's said that the plus is greedy.
\b : \b finds the position at the boundary of a word (word boundary).

In [7]:
clean_texts = []
for text in tales:
    text_lower_string = text.lower()
    # RexEx funktionen .findall returnerer en liste af ord
    text_clean_list = re.findall(r'\b\S+\b', text_lower_string)
    # Med ' '.join samles ordlisten til en tekststreng
    text = ' '.join(text_clean_list)
    # Med append tilføjes tekststrengen til listen clean_texts
    clean_texts.append(text) 

In [13]:
len(clean_texts)

62

# Sammenligninger
I litteratur anvender man ofte sammenligninger til at illustrere pointer tydeligere ved at sætte billeder på det man vil beskrive. Sammenligninger bidrager også til at gøre teksten mere levende og intererssant.

Men regex bliver det en overkommelig opgave at hente eksempler på sammenligninger i Grimms eventyr, fordi vi kan finde tekststrenge som følger mønsteret i en typisk sammenligning.

Vi kan illustrere det på følgende måde. Vi leder efter fraser, hvis mønster enten er as a ... eller as an ....

RegEx mønsteret kan skrives således:

'as\sa\s\w+'

Ordet 'as' efterfølges af \s, der betyder white space, der efterfølges af a, derefterføgles af \s, der efterfølges \w, der betyder word charater, der efterfølges af + der betyder "en eller flere af den forrige".


#### Comparisons
In literature, comparisons are often used to illustrate points more clearly by creating mental images of what is being described. Comparisons also make the text more vivid and engaging.

With regex, it becomes a manageable task to extract examples of comparisons in Grimms' fairy tales because we can find text strings that follow the pattern of a typical comparison.

We can illustrate it as follows. We are looking for phrases whose pattern is either "as a ..." or "as an ...".

The RegEx pattern can be written as:

'as\sa\s\w+'

The word 'as' is followed by \s, which means white space, followed by 'a', then followed by \s, which is followed by \w, meaning a word character, followed by +, which means "one or more of the previous."

In [9]:
comparisons = []
for text in clean_texts:
    comparison = re.findall(r'as\sa\s\w+', text)
    comparisons.append(comparison)
    
comparisons

[['as a poor'],
 ['as a countryman'],
 ['as a beautiful', 'as a stone', 'as a large', 'as a costly'],
 ['as a musician'],
 ['as a mouse'],
 [],
 ['as a narrow', 'as a golden'],
 [],
 ['as a king', 'as a loud', 'as a token'],
 ['as a parlour',
  'as a little',
  'as a courtyard',
  'as a garden',
  'as a park',
  'as a little'],
 [],
 ['as a gentle'],
 ['as a white'],
 ['as a daughter', 'as a good'],
 ['as a lovely'],
 ['as a little'],
 ['as a chandelier'],
 ['as a little', 'as a great', 'as a dowry'],
 ['as a little', 'as a feast'],
 [],
 ['as a widow', 'as a little', 'as a thousand'],
 ['as a dear', 'as a great'],
 ['as a girl', 'as a mouse', 'as a gold'],
 ['as a show'],
 ['as a great'],
 [],
 [],
 ['as a certain', 'as a cow', 'as a storm', 'as a knocking'],
 ['as a sack', 'as a road'],
 ['as a real', 'as a magical'],
 ['as a peasant', 'as a king'],
 ['as a little', 'as a companion', 'as a strange', 'as a flower'],
 ['as a jingling'],
 ['as a sad', 'as a great'],
 [],
 ['as a great']

En liste med en zip funktion, der samler filnavne og sammenligninger giver en liste, så vi kan se eventyr og sammenligninger sammen. 

A list with a zip function that combines file names and comparisons provides a list.

In [11]:
list(zip(titles,comparisons))

[('THE GOLDEN BIRD', ['as a poor']),
 ('HANS IN LUCK', ['as a countryman']),
 ('JORINDA AND JORINDEL',
  ['as a beautiful', 'as a stone', 'as a large', 'as a costly']),
 ('THE TRAVELLING MUSICIANS', ['as a musician']),
 ('OLD SULTAN', ['as a mouse']),
 ('THE STRAW, THE COAL, AND THE BEAN', []),
 ('BRIAR ROSE', ['as a narrow', 'as a golden']),
 ('THE DOG AND THE SPARROW', []),
 ('THE TWELVE DANCING PRINCESSES', ['as a king', 'as a loud', 'as a token']),
 ('THE FISHERMAN AND HIS WIFE',
  ['as a parlour',
   'as a little',
   'as a courtyard',
   'as a garden',
   'as a park',
   'as a little']),
 ('THE WILLOW-WREN AND THE BEAR', []),
 ('THE FROG-PRINCE', ['as a gentle']),
 ('CAT AND MOUSE IN PARTNERSHIP', ['as a white']),
 ('THE GOOSE-GIRL', ['as a daughter', 'as a good']),
 ('THE ADVENTURES OF CHANTICLEER AND PARTLET', ['as a lovely']),
 ('RAPUNZEL', ['as a little']),
 ('FUNDEVOGEL', ['as a chandelier']),
 ('THE VALIANT LITTLE TAILOR', ['as a little', 'as a great', 'as a dowry']),
 ('HA

# Find et tekstuddrag baseret på søgeord og et interval
Vi vil finde ordet 'king' samt ord, der er beslægtet med ordet, og vi må have noget kontekst med, fordi vi er faktisk interesseret i at pege ned i teksten og se, hvordan konge helt præcist bliver brugt.

Til dette skal vi bruge \w., fordi det giver os flere ordtegn og {30} søger for, at vi får 30 ordtegn før, vi rammer bogstaverne king. \b foran king søger for at vi kun finder ord, der begynder med king og ikke ord, hvor king er en del af ordet, f.eks. looking. Efter king søger \w.{30} for, at vi får endnu 30 ordtegn.



### Find a text excerpt based on keywords and an interval
We want to find the word 'king' as well as words related to it, and we need some context because we are actually interested in diving into the text and seeing how 'king' is used precisely.

For this, we need to use \w., as it gives us multiple word characters, and {30} ensures that we get 30 word characters before we hit the letters 'king'. \b in front of 'king' ensures that we only find words that begin with 'king' and not words where 'king' is part of the word, such as 'looking'. After 'king', \w.{30} ensures that we get another 30 word characters.

In [17]:
#clean_texts[20]

In [18]:
re.findall(r'.{0,30}\btime.{0,30}', clean_texts[20])

['mother holle once upon a time there was a widow who had two',
 'old woman’s bidding and every time she made the bed she shook it',
 'on with mother holle for some time and then she began to grow un',
 'k although she was a thousand times better off with mother holle']

Læg regex mønsteret i et loop og få overblikket over, hvordan ordet benyttes.

In [20]:
contexts1 = []
for text in clean_texts:
    context = re.findall(r'.{0,30}\bking.{0,30}', text) # ig 
    contexts1.append(context)

list(zip(titles,contexts1))

[('THE GOLDEN BIRD',
  ['the golden bird a certain king had a beautiful garden and in',
   'ight one of them was gone the king became very angry at this and',
   'en feather was brought to the king in the morning and all the co',
   're than all the wealth of the kingdom but the king said one feat',
   'er and carried him before the king the next morning the court sa',
   'ie unless he should bring the king the golden horse which could ',
   'hen he was brought before the king and the king said you shall n',
   'one so he went merrily to the king and told him that now that it',
   'ive him the princess then the king was obliged to keep his word ',
   ' be done when you come to the king and he asks for the beautiful',
   'will ride in and speak to the king and when he sees that it is t',
   'the bird and went home to the king their master and said all thi',
   'l you if they find you in the kingdom so he dressed himself as a',
   ' man and came secretly to the king’s court and was scarc

# Skattejagt efter egenavne
Find de ord, der begynder med store bogstaver, men ikke findes med små bogstaver.

Mange af disse ord er skrevet med stort, fordi de optræder efter et punktum, og på den måde er de ikke, hvad jeg vil kalde for "ægte" ord med stort.

Hvis man vil bortfiltrere de "uægte" ord fra sin liste, så kan man afsløre dem ved at lave et loop og indsætte en betingelse, der kan tjekke om, ordene skulle være skrevet med småt andre steder i teksterne, fordi hvis de er det, så er de "uægte".

Konkret gør vi det på den måde at vi looper listen med ord med store bogtaver. Hvis ordet, som vi med .lower() manipulere til kun at bestå af små bogstaver, ikke findes skrevet med et lille begyndelsesbogstav i alle teksterne, så tilføjer vi ordet til vores nye liste med ord med stort begyndelsesbogstav.

NB. vi samler alle tekster i listen raw_texts med ' '.join(). På den måde bliver listen med tekster samlet omkring et mellemrum.


#### Treasure Hunt for Proper Nouns
Find the words that begin with capital letters but are not found with lowercase letters.

Many of these words are capitalized because they appear after a period, and in that way, they are not what I would call "genuine" words with a capital letter.

If you want to filter out the "unauthentic" words from your list, you can identify them by creating a loop and inserting a condition that checks if the words should be written in lowercase elsewhere in the texts, because if they are, then they are "unauthentic."

Specifically, we do it by looping through the list of words with capital letters. If the word, which we manipulate with .lower() to consist only of lowercase letters, is not found with a lowercase initial letter in all the texts, then we add the word to our new list of words with a capital initial letter.

Note: we collect all texts in the list raw_texts with ' '.join(). This way, the list of texts is combined with a space.

In [23]:
upper_case = []
for text in tales:
    upper_case_words = re.findall(r'[A-Z]\w+', text)
    for word in upper_case_words: 
        if word.lower() not in ' '.join(tales):
            upper_case.append(word)
set(upper_case)

{'ADVENTURES',
 'ASHPUTTEL',
 'Aha',
 'Ashputtel',
 'BANDY',
 'BENJAMIN',
 'Bewailing',
 'Blackbird',
 'Bravo',
 'CATHERINE',
 'CHANTICLEER',
 'CROOK',
 'Catherine',
 'Caw',
 'Chanticleer',
 'Christendom',
 'Christmas',
 'Cinderella',
 'Coxcomb',
 'Crabb',
 'Curdken',
 'Dobbin',
 'Dummling',
 'ELSIE',
 'Elsie',
 'FREDERICK',
 'FUNDEVOGEL',
 'Falada',
 'Finally',
 'Fourthly',
 'Frederick',
 'Fundevogel',
 'GRETEL',
 'GRISLY',
 'German',
 'Gothel',
 'Grete',
 'Gretel',
 'Grisly',
 'Growler',
 'HANS',
 'HANSEL',
 'HOLLE',
 'HUNCHBACK',
 'Hans',
 'Hansel',
 'Hark',
 'Hearken',
 'Heinel',
 'Heinrich',
 'Holiness',
 'Holle',
 'Hullo',
 'Hurrah',
 'ICHABOD',
 'Ilsabill',
 'Influenced',
 'JEMMY',
 'JEREMIAH',
 'JOHN',
 'JORINDA',
 'JORINDEL',
 'Jip',
 'Jorinda',
 'Jorindel',
 'KNOWALL',
 'KORBES',
 'Kate',
 'Kehrewit',
 'Knowall',
 'Korbes',
 'Kywitt',
 'LANGUAGES',
 'MRS',
 'Marleen',
 'Mortal',
 'Mrs',
 'Oho',
 'PARTLET',
 'Partlet',
 'Prithee',
 'ROLAND',
 'RUMPELSTILTSKIN',
 'RUMPLESTILTSK

# Find tekstuddrag baseret på to søgeord og et interval
Det sidste eksempel består i at finde tekstuddrag, der er kendetegnet ved at befinde sig mellem to udvalgte ord og ikke er længere end et udvalgt interval.

Det kan f.eks. være relevant, hvis man er interesseret i at identificere tekstuddrag, hvor to vigtige karakterer eller begreber optræder i nærheden af hinanden.

Det nye her er spørgsmålstegnet, der gør koden lazy.



### Find text excerpts based on two keywords and an interval
The last example involves finding text excerpts characterized by being located between two selected words and not longer than a selected interval.

This can be relevant, for example, if you are interested in identifying text excerpts where two important characters or concepts appear near each other.

What's new here is the question mark, which makes the code lazy.

In [26]:
contexts2 = []
for text in tales:
    context = re.findall(r'\bGretel.+?\bHans\w*|\bHans.+?\bGretel\w*', text) # 
    contexts2.append(context)

# indsæt et max interval mellem første og andet ord 
contexts_within_interval = [item for item in contexts2 if len(item) <= 100]


list(zip(titles,contexts_within_interval))

[('THE GOLDEN BIRD', []),
 ('HANS IN LUCK', []),
 ('JORINDA AND JORINDEL', []),
 ('THE TRAVELLING MUSICIANS', []),
 ('OLD SULTAN', []),
 ('THE STRAW, THE COAL, AND THE BEAN', []),
 ('BRIAR ROSE', []),
 ('THE DOG AND THE SPARROW', []),
 ('THE TWELVE DANCING PRINCESSES', []),
 ('THE FISHERMAN AND HIS WIFE', []),
 ('THE WILLOW-WREN AND THE BEAR', []),
 ('THE FROG-PRINCE', []),
 ('CAT AND MOUSE IN PARTNERSHIP', []),
 ('THE GOOSE-GIRL', []),
 ('THE ADVENTURES OF CHANTICLEER AND PARTLET', []),
 ('RAPUNZEL', []),
 ('FUNDEVOGEL', []),
 ('THE VALIANT LITTLE TAILOR', []),
 ('HANSEL AND GRETEL',
  ['Hansel and the girl Gretel',
   'Gretel,’ said Hansel',
   'Hansel and Gretel',
   'Hansel and Gretel',
   'Hansel and Gretel',
   'Gretel shared her piece of bread with Hansel',
   'Hansel said to Gretel',
   'Hansel and Gretel',
   'Hansel and Gretel',
   'Hansel and Gretel',
   'Hansel, but Gretel',
   'Gretel, however, ran like lightning to Hansel',
   'Hansel and Gretel']),
 ('THE MOUSE, THE BIRD