# Introduktion til regulære udtryk i Python

I dette dokument vil vi se på regulære udtryk i Python. Regulære udtryk er en måde at beskrive mønstre i tekst på. De bruges til at finde og manipulere tekst. Regulære udtryk er en del af Python's standardbibliotek, og vi kan bruge dem ved at importere modulet `re`.

De kan bl.a. bruges til at:
- finde tekst i en streng
- erstatte tekst i en streng
- opdele en streng i dele
- validere om en streng overholder et bestemt mønster (fx en email-adresse, tlfnr, osv.)

Regulære udtryk er meget kraftfulde. De kan dog også være svære at læse og forstå. I dette dokument vil vi se på nogle af de mest almindelige metakarakterer og metasekvenser, som bruges i regulære udtryk.

## Metakarakterer

Metakarakterer er specielle karakterer, som har en særlig betydning i regulære udtryk. Her er nogle af de mest almindelige metakarakterer:

- `.`: matcher ethvert tegn undtagen newline
- `^`: matcher starten af en streng
- `$`: matcher slutningen af en streng
- `*`: matcher 0 eller flere forekomster af det foregående tegn
- `+`: matcher 1 eller flere forekomster af det foregående tegn
- `?`: matcher 0 eller 1 forekomst af det foregående tegn
- `[]`: matcher et hvilket som helst tegn i de angivne tegn
- `|`: matcher enten det ene eller det andet
- `()`: grupperer udtryk

## Metasekvenser

Metasekvenser er specielle sekvenser, som har en særlig betydning i regulære udtryk. Her er nogle af de mest almindelige metasekvenser:

- `\d`: matcher ethvert ciffer (0-9)
- `\D`: matcher ethvert tegn undtagen ciffer
- `\w`: matcher ethervt bogstav, ciffer eller underscore
- `\W`: matcher ethvert tegn undtagen bogstav, ciffer eller underscore
- `\s`: matcher ethvert whitespace-tegn (mellemrum, tab, newline)
- `\S`: matcher ethvert tegn undtagen whitespace-tegn

## Eksempler

Lad os se på nogle eksempler på, hvordan vi kan bruge regulære udtryk i Python. Vi starter med at importere modulet `re`:

```python
import re
```

### Eksempel 1: Find tekst i en streng

Vi kan bruge funktionen `re.search()` til at finde tekst i en streng:

```python
text = 'Hello, World!'
pattern = 'World'
result = re.search(pattern, text)
print(result.group())
```

Output:
```
World
```

### Eksempel 2: Erstatte tekst i en streng

Vi kan bruge funktionen `re.sub()` til at erstatte tekst i en streng:

```python
text = 'Hello, World!'
pattern = 'World'
replacement = 'Python'
result = re.sub(pattern, replacement, text)
print(result)
```

Output:
```python
Hello, Python!
```

### Eksempel 3: Opdele en streng i dele

Vi kan bruge funktionen `re.split()` til at opdele en streng i dele:

```python
text = 'Hello, World!'
pattern = ', '
result = re.split(pattern, text)
print(result)
```

Output:
```python
['Hello', 'World!']
```

### Eksempel 4: Validere om en streng overholder et bestemt mønster

Vi kan bruge funktionen `re.match()` til at validere om en streng overholder et bestemt mønster:

```python
text = 'Hello, World!'
pattern = 'Hello'
result = re.match(pattern, text)
print(result.group())
```

Output:
```python
Hello
```

### Eksempel 5: Brug af metakarakterer

Vi kan bruge metakarakterer til at beskrive mere komplekse mønstre:

```python
text = 'Hello, World!'
pattern = 'W.rld'
result = re.search(pattern, text)
print(result.group())
```

Output:
```python
World
```
Her matcher `.` ethvert tegn undtagen newline.

### Eksempel 6: Brug af metasekvenser på cpr-numre

Vi kan bruge metasekvenser til at beskrive mere komplekse mønstre:

```python
text = '123456-7890'
pattern = '\d{6}-\d{4}'
result = re.match(pattern, text)
print(result.group())
```

Output:
```python
123456-7890
```

Her matcher `\d{6}` 6 cifre og `\d{4}` 4 cifre.

### Eksempel 7: Brug af metasekvenser på brugernavne af bogstaver og tal med specifik længde og specielle tegn

Vi kan bruge metasekvenser til at beskrive mere komplekse mønstre:

```python
text = 'user1234'
pattern = '\w{4,10}'
result = re.match(pattern, text)
print(result.group())
```

Output:
```python
user1234
```

Her matcher `\w{4,10}` bogstaver og tal med en længde på 4 til 10 tegn.

### Eksempel 8: Brug af metasekvenser på IP-adresser
Vi kan bruge metasekvenser til at beskrive mere komplekse mønstre herunder IP-adresser:

```python
pattern = r'\b(?:[0-9]{1,3}\.){3}[0-9]{1,3}\b'
text = '192.168.0.1'
result = re.match(pattern, text)
print(result.group())
```

Her matcher `\b(?:[0-9]{1,3}\.){3}[0-9]{1,3}\b` en IP-adresse. \b matcher en grænse, (?:[0-9]{1,3}\.){3} matcher 3 grupper af 1-3 cifre efterfulgt af et punktum, og [0-9]{1,3} matcher 1-3 cifre.





## Opgaver

### Opgave 1: Import af modulet `re`
Start med at importere modulet `re`:

```python
import re
```

### Opgave 2: Find tekst i en streng
Find teksten `'Python'` i strengen `'Hello, Python!'`:


### Opgave 3: Find alle forekomster af et tegn
Find alle forekomster af tegnet `'l'` i strengen `'Hello, World!'`. Du kan bruge funktionen `re.findall()`.

### Opgave 4: Erstat tekst i en streng
Erstat teksten `'World'` med `'Python'` i strengen `'Hello, World!'`.

### Opgave 5: Opdel en streng i dele
Opdel strengen `'Hello, World!'` i dele ved kommaet. Du kan bruge funktionen `re.split()`.

### Opgave 6: Valider om en streng overholder et bestemt mønster
Valider om strengen `'Hello, World!'` starter med `'Hello'`. Du kan bruge funktionen `re.match()`.

### Opgave 7: Brug af metakarakterer
Find teksten `'World'` i strengen `'Hello, World!'` ved at bruge metakarakteren `.`.

### Opgave 8: Brug af metasekvenser på cpr-numre
Valider om strengen `'123456-7890'` er et cpr-nummer. Du kan bruge metasekvensen `\d{6}-\d{4}`.

### Opgave 9: Brug . for at finde en hvilken som helst karakter
Find mønsteret "P...n" i strengen "Jeg elsker Python, Pyt3on, Py89n, Py!on, Pyton, Pthon".

### Opgave 10: Brug \d for at finde ciffer
Find mønsteret "123" i strengen "abc123def".

### Opgave 11: Brug af | for at finde enten det ene eller det andet
Find mønsteret "Python|Java" i strengen "Jeg elsker Python og Java".

### Opgave 12: Brug af () for at gruppere udtryk
Hvad gør følgende kode: 

```python
import re

pattern = "(\d{3})-(\d{3})-(\d{4})"
text = "My phone number is 123-456-7890."
match = re.search(pattern, text)
if match:
    print("Area code:", match.group(1))
    print("Local exchange:", match.group(2))
    print("Line number:", match.group(3))
```

### Opgave 13: Brug af \w for at finde bogstaver, ciffer eller underscore
Find mønsteret "user1234" i strengen

### Opgave 14 Binære strenge
I følgende opgave skal du skrive regulære udtryk til at finde forskellige mønstre i binære strenge. En binær streng er en streng bestående af 0'er og 1'ere.
Skriv regulære udtryk til at finde følgende mønstre i en tekststreng:
- "0" eller "1" (et enkelt ciffer)
- Kun nuller ("0")
- Alle binære strenge pånær den tomme streng
- Alle binære strenge pånær den tomme streng og strengen "0"
- Alle binære strenge pånær den tomme streng og strengen "0" og "1"
- Alle binære strenge der begynder med "1" og slutter med "0"
- Alle binære strenge der indeholder "111"
- Alle binære strenge der indeholder "00" eller "11" som har en længde på mindst 3 tegn
- Alle binære strenge der beskriver et lige tal



In [None]:
# A function that checks if a given string is a valid email address or not.

def is_email(email):
    if email.count('@') != 1:
        return False
    if email.count('.') != 1:
        return False
    if email.find('@') > email.find('.'):
        return False
    return True

def is_email_v2(email):
    # iterate over the email string
    for i in range(len(email)):
        # if the character is @
        if email[i] == '@':
            # if there is no . after the @
            if '.' not in email[i:]:
                return False
            # if the @ is the first character
            if i == 0:
                return False
            # if the @ is the last character
            if i == len(email) - 1:
                return False
            # if the character before the @ is a . or @
            if email[i-1] in ['.', '@']:
                return False
            # if the character after the @ is a . or @
            if email[i+1] in ['.', '@']:
                return False
                # if there is no . after the @
            if '.' not in email[i:]:
                return False   

            return True


# using regular expressions
import re
def is_email_regex(email):
    pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    return bool(re.match(pattern, email))

# the pattern is:
# ^ - start of the string
# [a-zA-Z0-9._%+-]+ - one or more of the characters inside the brackets
# @ - the @ symbol
# [a-zA-Z0-9.-]+ - one or more of the characters inside the brackets
# \. - the . symbol. We write \. because . is a special character in regex
# [a-zA-Z]{2,} - two or more of the characters inside the brackets
# $ - end of the string
# the r in front of the string is to make it a raw string - raw strings treat backslashes as literal characters

print(is_email_regex('example@example.com')) # True