# E9 Regulære uttrykk

## 12.1 Regulære uttrykk
- Vanlige stringfunksjoner kan brukes til søk, endring og parsing (index(), find(), count(), replace(), split()), men har begrenset bruksområde.
- Dette kan også gjøres ved hjelp av regulære uttrykk. Fordelen er at operasjonene kan gjøres mer dynamiske.
- Regulære uttrykk er et kraftig verktøy, men kan fort bli komplisert og uoversiktlig

__Regex:__
* Bruker et "språk" for å definere et mønster
* Mønsteret brukes:
 * for å finne strenger som matcher mønsteret
 * finne deler av strenger som matcher
 * hente ut enkelt-elementer fra strenger


* https://regex101.com/ lar deg teste regulære uttrykk og eksperimentere. Pass på at du ikke bruker sensitive data!

## 12.2  Regex regler og uttrykk

Utvalg av uttrykk:
- [abc] - match nøyaktig én av gitte bokstaver (a, b eller c)
- [a-z] - match nøyaktig én bokstav fra a til z
- [A-Z] - samme bare for store bokstaver
- [a-z0-9] - match nøyaktig én bokstav fra a til z eller 0 til 9
- {n,m} - match foregående uttrykk/tegn minst n ganger og maks m ganger
- ? - match 0 eller 1 ganger av foregående uttrykk/tegn. Gjør \+ og \* non-greedy
- \+ - match 1 eller flere ganger av foregående uttrykk/tegn
- \* - match 0 eller flere ganger av foregående uttrykk/tegn
- . - en vilkårlig karakter (unntatt linjeskift)
- [^abc] - match hvis etterkommende uttrykk/tegn ikke eksisterer
- [abc]\$ - match hvis et av foregående tegn er på slutten
- ^[abc] - match hvis et av foregående tegn er på begynnelsen
- | - fungerer som "eller". Matcher mønsteret før eller etter
- \\w - alphanumerisk
- \\W - ikke alphanumerisk
- \\d - siffer
- \\D - ikke siffer
- \\s - space
- ^ - linjestart eller not ([^a] ikke a)
- $ - linjeslutt

__Eksempler:__

* `[a-z]+`: ser etter alle uavbrutte sekvenser av små bokstaver
* `[a-z]{5,}`: samme som over, men sekvensene må være 5 karakterer eller lengre
* `^[0-9]{2}.*dogs$`: Ser etter en sekvens som starter med to tall og slutter med "dogs", uavhengig av hva som er mellom
* `[A-Za-z]+`: matcher sekvenser bestående av store og/eller små bokstaver


## 12.3 Python spesifikt
[Python dokumentasjon](https://docs.python.org/3/howto/regex.html)

* Python har innebygd støtte for regulære uttrykk i _re_ modulen
* _re.compile()_ : Kompilerer ett mønster og returnerer ett objekt som kan brukes til matching
 * Er kun nødvendig dersom du bruker og gjenbruker flere ulike regulære uttrykk i programmet
* Flere måter å matche på:
 * _re.match()_ : matcher uttrykket mot starten av sekvensen og returnerer de delene som matcher eller None
 * _re.search()_ : søker gjennom sekvensen og returnerer første match eller None
 * _re.findall()_ : Søker fra starten og returnerer alle matcher i sekvensen som en liste
 * og flere...
* Match objekter
 * Returneres fra match/search funksjoner
 * Inneholder strenger som ble funnet i "grupper"

In [None]:
import re
pattern = "[a-z]+"
string = "Hello world!"

match = re.search(pattern, string)
if match:
    print("Fant:", match.group())
    print(f"Match fra posisjon {match.start()} til posisjon {match.end()}")

__Flere eksempler:__

In [None]:
import re
string = "Cats are smarter than dogs"

match = re.findall('[A-Za-z]+', string)
print(match)

# Capture groups: ()
match = re.match("(.*) are (.*?) .*", string) 
print(match.groups())

## 12.4 Oppgave: regulære uttrykk matching
* Lag ett script som leser en vilkårlig tekst-fil
* Implementer søk etter følgende i filen:
  - html-linker
  - bilder (.png, .jpg, osv)
  - eposter
* Ligger filer som kan testes med i `files/`

## 12.5 Oppgave: regex parsing
* Lag et script som leser en passwd fil (passord-fil fra ett Linux-system)
 * Det ligger en passwd fil som kan brukes i `files/linux`
* Bruker regexp til å parse informasjonen i filen og konverterer den til en liste med tupler
 * En tupel for hver linje i filen