# Der var engang et Grimm-kursus, der gav et lille indblik i RegEx

Online RegEx tester: https://regex101.com/ er en helt fantastisk hjælpsom side til at lære at anvende regulære udtryk (Regex).

W3schools har også en meget brugbar side, der handler om RegEx. https://www.w3schools.com/python/python_regex.asp

RegEx' anvendelse er meget udbredt, fordi RegEx er super smart i relation til tekstbehandling, fordi det kan bruges til at foretage avancerede søgninger. RegEx anvendes til søgemaskiner og til søg og erstat funktioner. At arbejde med RegEx er afgjort en oplevelse for sig, men når man får indblik i omfanget af opgaver, som kan løses med RegEx, så indser man, at det er et utroligt godt værktøj.

Denne notebook forsøger ikke at lære dig alt om RegEx, men den forsøger at skabe læring om det, og kun et fåtal af mulighederne bliver illustreret nedenfor.

Foruden RegEx indeholder denne notebook mange loops, så på den måde kan du også få indblik i, hvordan du skriver den slags.

Kildematerialet (dataen) består i brøderne Grimms. Dataen (grimm_tales.zip) kan downloades herfra: https://github.com/KUBDatalab/datasets

In [None]:
import os

os.chdir('.\\grimm_tales')

file_list = os.listdir()

# check indholdet
file_list

Vi bruger lister til at gemme flere elementer i en variabel. Vi kan tilgå hvert element ved at skrive navnet på variablen efterfulgt af to firkantede parenteser, hvor i vi skriver et tal, der henviser til elementets plads i listen. I python er det første element 0 og ikke 1.

In [None]:
print ('Fil et:', file_list[0])
print ('Fil to;', file_list[1])
print ('De tre første filer:', file_list[0:3])
print ('De tre sidste filer:', file_list[-3:])

## Indlæs tekster
Når man åbner en tekst bruger man open(). Man tilføjer et r, så python kan regne ud at du åbner filen for at læse den, og man tilføjer encoding for at konvertere data til et læsbart format.

I anden linje skriver vi et ny variabelnavn efterfulgt af forrige variabelnavn og .read() til

In [None]:
open_file = open(file_list[0], 'r', encoding='utf-8-sig')
raw_text = open_file.read()
open_file.close()
raw_text

Ovenfor har vi åbnet en tekst og gemt den i en variabel, men vi skal åbne alle tekster. 

I stedet for at skrive mange linjer med kode for at gøre dette, så bygger vi et loop, som kan gøre det i seks linjer, og som udnytter at vi kan gemme flere værdier i en liste.

Vi genbruger koden, som vi lige har skrevet og modificerer den en smule.

In [None]:
raw_texts = []
for item in file_list:
    open_file = open(item, 'r', encoding='utf-8-sig')
    raw_text = open_file.read()
    open_file.close()
    raw_texts.append(raw_text)

# Check indholdet af første tekst    
raw_texts[0]

## Rens teksten
Rensning af tekst kan foregå på flere måder. Metoden nedenfor er på den måde en ud af flere måder.

Vi begynder med at importere RegEx (import re).

RegEx mønsteret er '\b\S+\b'.

\b : \b finder positionen ved grænsen af et ord (word boundary).

\S: \S matcher ethvert ikke-mellemrum

+: + matcher det forrige tegn mellem én og et ubegrænset antal gange, så mange gange som muligt ind til næste tegn. Man siger, at plusset er grådigt.

\b : \b finder positionen ved grænsen af et ord (word boundary).

In [None]:
import re
clean_texts = []
for text in raw_texts:
    text_lower_string = text.lower()
    # RexEx funktionen .findall returnerer en liste af ord
    text_clean_list = re.findall(r'\b\S+\b', text_lower_string)
    # Med ' '.join samles ordlisten til en tekststreng
    string_text = ' '.join(text_clean_list)
    # Med append tilføjes tekststrengen til listen clean_texts
    clean_texts.append(string_text) 

In [None]:
clean_texts[0]

## Sammenligninger

I  litteratur anvender man ofte sammenligninger til at illustrere pointer tydeligere ved at sætte billeder på det man vil beskrive. Sammenligninger bidrager også til at gøre teksten mere levende og intererssant.

Men regex bliver det en overkommelig opgave at hente eksempler på sammenligninger i Grimms eventyr, fordi vi kan finde tekststrenge som følger mønsteret i en typisk sammenligning.

Vi kan illustrere det på følgende måde. Vi leder efter fraser, hvis mønster enten er as a ... eller as an ....

RegEx mønsteret kan skrives således:

'as\sa\s\w+'

Ordet 'as' efterfølges af \s, der betyder white space, der efterfølges af a, derefterføgles af \s, der efterfølges \w, der betyder word charater, der efterfølges af + der betyder "en eller flere af den forrige".

In [None]:
comparisons = []
for text in clean_texts:
    comparison = re.findall(r'as\sa\s\w+', text)
    comparisons.append(comparison)

En liste med en zip funktion, der samler filnavne og sammenligninger giver en fin liste.

In [None]:
list(zip(file_list,comparisons))

## Find et tekstuddrag baseret på søgeord og et interval

Vi vil finde ordet 'king' samt ord, der er beslægtet med ordet, og vi må have noget kontekst med, fordi vi er faktisk interesseret i at pege ned i teksten og se, hvordan konge helt præcist bliver brugt.

Til dette skal vi bruge \w., fordi det giver os flere ordtegn og {30} søger for, at vi får 30 ordtegn før, vi rammer bogstaverne king. \b foran king søger for at vi kun finder ord, der begynder med king og ikke ord, hvor king er en del af ordet, f.eks. looking. Efter king søger \w.{30} for, at vi får endnu 30 ordtegn.

In [None]:
re.findall(r'.{0,30}\bking.{0,30}', clean_texts[20])

Læg regex mønsteret i et loop og få overblikket over, hvordan ordet benyttes.

In [None]:
contexts1 = []
for text in clean_texts:
    context = re.findall(r'.{0,30}\bking.{0,30}', text) # ig 
    contexts1.append(context)

list(zip(file_list,contexts1))

# Skattejagt efter egenavne

Find de ord, der begynder med store bogstaver, men ikke findes med små bogstaver.

Mange af disse ord er skrevet med stort, fordi de optræder efter et punktum, og på den måde er de ikke, hvad jeg vil kalde for "ægte" ord med stort.

Hvis man vil bortfiltrere de "uægte" ord fra sin liste, så kan man afsløre dem ved at lave et loop og indsætte en betingelse, der kan tjekke om, ordene skulle være skrevet med småt andre steder i teksterne, fordi hvis de er det, så er de "uægte".

Konkret gør vi det på den måde at vi looper listen med ord med store bogtaver. Hvis ordet, som vi med .lower() manipulere til kun at bestå af små bogstaver, ikke findes skrevet med et lille begyndelsesbogstav i alle teksterne, så tilføjer vi ordet til vores nye liste med ord med stort begyndelsesbogstav.

NB. vi samler alle tekster i listen raw_texts med ' '.join(). På den måde bliver listen med tekster samlet omkring et mellemrum.

In [None]:
upper_case = []
for text in raw_texts:
    upper_case_words = re.findall(r'[A-Z]\w+', text)
    for word in upper_case_words: 
        if word.lower() not in ' '.join(raw_texts):
            upper_case.append(word)
set(upper_case)

## Find tekstuddrag baseret på to søgeord og et interval
Det sidste eksempel består i at finde tekstuddrag, der er kendetegnet ved at befinde sig mellem to udvalgte ord og ikke er længere end et udvalgt interval.

Det kan f.eks. være relevant, hvis man er interesseret i at identificere tekstuddrag, hvor to vigtige karakterer eller begreber optræder i nærheden af hinanden.

Det nye her er spørgsmålstegnet, der gør koden lazy.

In [None]:
contexts2 = []
for text in raw_texts:
    context = re.findall(r'\bGretel.+?\bHans\w*|\bHans.+?\bGretel\w*', text) # 
    contexts2.append(context)

# indsæt et max interval mellem første og andet ord 
contexts_within_interval = [item for item in contexts2 if len(item) <= 100]


list(zip(file_list,contexts_within_interval))