# RegEx og Frankenstein

Online RegEx tester: https://regex101.com/ er en helt fantastisk hjælpsom side til at lære at anvende regulære udtryk (Regex).

W3schools har også en meget brugbar side, der handler om RegEx. https://www.w3schools.com/python/python_regex.asp

Regex' anvendelse er meget udbredt, fordi RegEx er super smart i relation til tekstbehandling, fordi det kan bruges til at foretage avancerede søgninger. RegEx anvendes til søgemaskiner og til søg og erstat funktioner. At arbejde med RegEx er afgjort en oplevelse for sig, men når man får indblik i omfanget af opgaver, som kan løses med RegEx, så indser man, at det er et utroligt godt værktøj.

Denne notebook forsøger ikke at lære dig alt om RegEx, men den forsøger at skabe læring om det, og kun et fåtal af mulighederne bliver illustreret nedenfor.

Foruden RegEx indeholder denne notebook mange loops og list comprehensions, så på den måde kan du også få indblik i, hvordan du skriver den slags.

## Indlæs filer

Vi bruger koden fa begyndelsen af kurset "Digital humaniora og programmering 1 - nltk" til at hente en tekst fra Gutenberg.org

In [1]:
import urllib.request 
url = 'https://gutenberg.org/cache/epub/84/pg84.txt'
raw_text = urllib.request.urlopen(url).read().decode()
text_start = raw_text.find('*** START OF THE PROJECT GUTENBERG EBOOK FRANKENSTEIN; OR, THE MODERN PROMETHEUS ***')
text_start = text_start + len('*** START OF THE PROJECT GUTENBERG EBOOK FRANKENSTEIN; OR, THE MODERN PROMETHEUS ***')
text_end = raw_text.find('*** END OF THE PROJECT GUTENBERG EBOOK FRANKENSTEIN; OR, THE MODERN PROMETHEUS ***')
text = raw_text[text_start:text_end].strip()

In [2]:
text[0:100]

'Frankenstein;\r\n\r\nor, the Modern Prometheus\r\n\r\nby Mary Wollstonecraft (Godwin) Shelley\r\n\r\n\r\n CONTENTS'

# Metategn \b \S og \w samt + tegnet 

Man vi ofte have brug for at rense teksterne for symboler som komma og punktummer osv.

Rensning af tekst kan foregå på flere måder. Nedenfor afprøver vi et par af måderne. Vi begynder med at importere RegEx (import re).


In [3]:
import re

## Første måde
RegEx mønsteret er '\b\S+\b'.

\b : \b finder positionen ved grænsen af et ord (word boundary).
\S: \S matcher ethvert ikke-mellemrum
+: + matcher det forrige tegn mellem én og et ubegrænset antal gange, så mange gange som muligt ind til næste tegn. Man siger, at plusset er grådigt.
\b : \b finder positionen ved grænsen af et ord (word boundary).

Når du sætter \b\S+\b matcher du fra matcher du alle "ikke mellemumstegn" samt underscore dog ikke symboler som punktummer, kommaer, spørgsmålstegn. 


## Anden måde
\w: \w matcher ethvert alfabetisk bogstav (store og små bogstaver), ethvert tal eller en understregning (_).
+: +  matcher det foregående tegn en eller flere gange. 

Når du sætter \w+ sammen matcher du hele ord sammensat af bogstaver, cifre og understregninger.



In [4]:
def clean_text_1(text):
    # Use \w+ regex pattern to extract words
    words = re.findall(r'\b\S+\b', text)

    # Join the extracted words into a cleaned text
    cleaned_text = ' '.join(words)

    return cleaned_text


def clean_text_2(text):
    # Use \w+ regex pattern to extract words
    words = re.findall(r'\w+', text)

    # Join the extracted words into a cleaned text
    cleaned_text = ' '.join(words)

    return cleaned_text

In [6]:
cleaned_text = clean_text_1(text)

print(cleaned_text[:100])

Frankenstein or the Modern Prometheus by Mary Wollstonecraft Godwin Shelley CONTENTS Letter 1 Letter


In [7]:
cleaned_text = clean_text_2(text)

print(cleaned_text[:100])

Frankenstein or the Modern Prometheus by Mary Wollstonecraft Godwin Shelley CONTENTS Letter 1 Letter


Vi skal prøve at forholde os til resultaterne og sammenligne resultaterne.

Søg f.eks. efter There—for
I første metode forbliver There-for i et ord

I anden metode bliver det til to ord. 


Søg f.eks. efter About two o’clock.

I første metode forbliver o’clock et ord. 

I anden metode bliver det til to ord "o clock".


Begge metoder efterlader os med underscores.  

# w+ sammen med \b
Hvorfor sker der ikke noget på en fredag? 

Find ord med særlige endelser, f.eks. _dag_, kan være en hjælp til at få indblik i, hvor og hvornår litteraturen foregår.

Man kan også bruge endelserne til at finde grammatiske former, f.eks. vil ord med lang tillægsform være relativt lette at identificere.  

In [8]:
ending = re.findall(r'\w+day\b', text)
print(ending)

['yesterday', 'holiday', 'Monday', 'Yesterday', 'Sunday', 'Thursday', 'today', 'today', 'yesterday', 'yesterday', 'everyday']


# Flere metategn, samt pipes, lister og spørgsmålstegn

I litteratur anvender man ofte sammenligninger til at illustrere pointer tydeligere ved at sætte billeder på det man vil beskrive. Sammenligninger bidrager også til at gøre teksten mere levende og intererssant.

Men regex bliver det en overkommelig opgave at hente eksempler på sammenligninger i Grimms eventyr, fordi vi kan finde tekststrenge som følger mønsteret i en typisk sammenligning.

Vi kan illustrere det på følgende måde. Vi leder efter fraser, hvis mønster enten er as a ... eller as an ....

RegEx mønsteret kan skrives således:

'as\sa\s\w+'

Ordet 'as' efterfølges af \s, der betyder white space, der efterfølges af a, derefterføgles af \s, der efterfølges \w, der betyder word charater, der efterfølges af + der betyder "en eller flere af den forrige".


Hvis man også vil søge på "as an ..." er der to måde at gøre det på.


Første måde er med at bruge pipe  |. Pipe betyder "eller". Regexmønsteret vil så se således ud: 'as\sa\s\w+|as\san\s\w+'

Anden måde er at bruge liste tegnet []? 

Det ser således ud: 'as\sa[n]?\s\w+'. I listen kan der tilføjes bogstaver, som kan stå på den plads i ordet. Spørgsmålstegnet angiver,at bogstavet måske er der og måske ikke er der.

In [9]:
comparison = re.findall(r'as\sa\s\w+', cleaned_text)
print (comparison)

['as a steady', 'as a child', 'as a most', 'as a Turk', 'as a remarkably', 'as a human', 'as a little', 'as a brother', 'as a double', 'as a halo', 'as a merchant', 'as a considerable', 'as a sense', 'as a show', 'as a fair', 'as a restorative', 'as a necessity', 'as a German', 'as a boy', 'as a promise', 'as a deformed', 'as a strong', 'as a narrow', 'as a little', 'as a dream', 'as a certain', 'as a bold', 'as a mystery', 'as a most', 'as a proof', 'as a tendency', 'as a divine', 'as a widow', 'as a servant', 'as a great', 'as a judgement', 'as a Roman', 'as a miniature', 'as a new', 'as a strange', 'as a girl', 'as a proof', 'as a dire', 'as a murderer', 'as a wretch', 'as a creature', 'as a murderess', 'as a wreck', 'as a lullaby', 'as a poor', 'as a new', 'as a little', 'as a small', 'as a lovely', 'as a lady', 'as a guide', 'as a vagabond', 'as a Turkish', 'as a Christian', 'as a boarder', 'as a distant', 'as a listener', 'as a true', 'as a luxury', 'as a fool', 'as a recompense'

In [10]:
comparison = re.findall(r'as\sa\s\w+|as\san\s\w+', cleaned_text)
print (comparison)

['as a steady', 'as a child', 'as an under', 'as a most', 'as a Turk', 'as a remarkably', 'as a human', 'as a little', 'as a brother', 'as a double', 'as a halo', 'as a merchant', 'as a considerable', 'as a sense', 'as a show', 'as a fair', 'as a restorative', 'as an infant', 'as a necessity', 'as a German', 'as a boy', 'as an inferior', 'as a promise', 'as a deformed', 'as a strong', 'as a narrow', 'as an uncouth', 'as a little', 'as a dream', 'as a certain', 'as an easier', 'as a bold', 'as a mystery', 'as a most', 'as a proof', 'as a tendency', 'as a divine', 'as an odious', 'as a widow', 'as a servant', 'as a great', 'as a judgement', 'as a Roman', 'as an irresistible', 'as an historical', 'as an air', 'as a miniature', 'as a new', 'as a strange', 'as a girl', 'as a proof', 'as a dire', 'as a murderer', 'as a wretch', 'as a creature', 'as a murderess', 'as a wreck', 'as a lullaby', 'as a poor', 'as a new', 'as a little', 'as a small', 'as a lovely', 'as a lady', 'as a guide', 'as a

In [11]:
comparison = re.findall(r'as\sa[n]?\s\w+', cleaned_text)
print (comparison)

['as a steady', 'as a child', 'as an under', 'as a most', 'as a Turk', 'as a remarkably', 'as a human', 'as a little', 'as a brother', 'as a double', 'as a halo', 'as a merchant', 'as a considerable', 'as a sense', 'as a show', 'as a fair', 'as a restorative', 'as an infant', 'as a necessity', 'as a German', 'as a boy', 'as an inferior', 'as a promise', 'as a deformed', 'as a strong', 'as a narrow', 'as an uncouth', 'as a little', 'as a dream', 'as a certain', 'as an easier', 'as a bold', 'as a mystery', 'as a most', 'as a proof', 'as a tendency', 'as a divine', 'as an odious', 'as a widow', 'as a servant', 'as a great', 'as a judgement', 'as a Roman', 'as an irresistible', 'as an historical', 'as an air', 'as a miniature', 'as a new', 'as a strange', 'as a girl', 'as a proof', 'as a dire', 'as a murderer', 'as a wretch', 'as a creature', 'as a murderess', 'as a wreck', 'as a lullaby', 'as a poor', 'as a new', 'as a little', 'as a small', 'as a lovely', 'as a lady', 'as a guide', 'as a

# Krøllede parenteser 

Keyword-in-context, contexts eller find et tekstuddrag baseret på søgeord og et interval. 

Vi vil finde tekstuddrag, der indeholder Turk eller Roman, fordi vi er faktisk interesseret i at pege ned i teksten og se, hvordan begreberne helt præcist bliver anvendt.

Til dette skal vi bruge punktum ( . ), fordi det giver os flere ordtegn og {30} søger for, at vi får 30 ordtegn før, vi rammer bogstaverne Turk. 

Punktum {30} efter Turk giver os endnu 30 ordtegn.

Prøv om du kan bruge noget af det som er gennemgået ovenfor til at inkludere tekstuddrag der indeholder ordet Roman.

In [12]:
re.findall(r'.{30}Turk.{30}', cleaned_text)

['educated he is as silent as a Turk and a kind of ignorant carele',
 ' cause of their ruin He was a Turkish merchant and had inhabited',
 ' intentions in his favour The Turk amazed and delighted endeavou',
 'eward his toil and hazard The Turk quickly perceived the impress',
 'eized and made a slave by the Turks recommended by her beauty sh',
 ' day for the execution of the Turk was fixed but on the night pr',
 'passing into some part of the Turkish dominions Safie resolved t',
 'parture before which time the Turk renewed his promise that she ',
 'irs of her native country The Turk allowed this intimacy to take',
 ' He quickly arranged with the Turk that if the latter should fin',
 ' learned that the treacherous Turk for whom he and his family en',
 'it but the ingratitude of the Turk and the loss of his beloved S',
 ' mandate A few days after the Turk entered his daughter s apartm',
 'this emergency A residence in Turkey was abhorrent to her her re',
 'rstood the common language of Tu

# Firkantede parenteser [A-Z]

- Find ord, der begynder med store bogstaver

In [14]:
upper_case_word = re.findall(r'[A-Z]\w+', text)
print (upper_case_word[:20])

['Frankenstein', 'Modern', 'Prometheus', 'Mary', 'Wollstonecraft', 'Godwin', 'Shelley', 'CONTENTS', 'Letter', 'Letter', 'Letter', 'Letter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter']


Mange af disse ord er skrevet med stort, fordi de optræder efter et punktum, og på den måde er de ikke, hvad jeg vil kalde for "ægte" ord med stort.

Hvis man vil bortfiltrere de "uægte" ord fra sin liste, så kan man afsløre dem ved at lave et loop og indsætte en betingelse, der kan tjekke om, ordene skulle være skrevet med småt andre steder i teksterne, fordi hvis de er det, så er de "uægte".

In [15]:
true_upper_case = []
for word in upper_case_word:
    if word.lower() not in text:
        true_upper_case.append(word)
print (true_upper_case[0:20])

['Frankenstein', 'Prometheus', 'Mary', 'Wollstonecraft', 'Godwin', 'Shelley', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter', 'Chapter']
