In [78]:
import pandas as pd
import re
from datetime import datetime

text = """Der var tre drenge, der skulle ud i skoven. Den ene hed Jakob; de to andre hed Finn. 
så blev den ene Finn væk, så Jakob sagde til den anden Finn: "Finn find, Finn".
Finn kiggede mærkelig på Jakob og sagde: 'Jakob Jakob Jakob'."""

# Introduktion til Python II - Tid og tekst i Python

## Program

- Opfølgning fra sidste undervisningsgang
- Tekst (strings) i Python
- Introduktion til regular expressions
- Brug af strings metoder og regular expressions i pandas data frames
- Datoer og tid i Python
- Datoer og tid i pandas data frames

# Opfølgning fra sidste undervisningsgang

# LAB ØVELSE: Datahåndtering i Python

## Strings i Python

- Strings er også en *class*
- Har en lang række indbyggede metoder

**Eksempler på string metoder**

| Metode | Forklaring | Objekt returneret |
| --- | --- | --- |
| `.lower()` | Lav om til små bogstaver (lower-case) | String |
| `.replace(old, new)` | Erstat tegn i tekst | String |
| `.startswith()` | Hvorvidt tekst starter med specifikke tegn | Boolean |
| `.split()` | Opdel tekst ved specifikt tegn | Liste |

<table>
<thead>
<tr><th>Metode</th><th>Forklaring</th><th>Objekt returneret</th></tr></thead>
<tbody><tr><td><code>.lower()</code></td><td>Lav om til små bogstaver (lower-case)</td><td>String</td></tr><tr><td><code>.replace(old, new)</code></td><td>Erstat tegn i tekst</td><td>String</td></tr><tr><td><code>.startswith()</code></td><td>Hvorvidt tekst starter med specifikke tegn</td><td>Boolean</td></tr><tr><td><code>.split()</code></td><td>Opdel tekst ved specifikt tegn</td><td>Liste</td></tr></tbody>
</table>

## `in` operatoren i Python

- `in` bruges i flere sammenhænge - er én ting en del af en anden ting?
- Returnerer altid boolean

**String eksempel**

In [3]:
"hello" in "hello there" # er string til vesntre en substring af string til højre?

True

**Liste eksempel**

In [5]:
"hello" in ["hello there", "hello world"] # er værdien til venstre en af værdierne i listen?

False

**Dictionary eksempel**

In [11]:
"hello" in {"hello": "there", "goodbye": "there"} # er værdien til venstre en key i dictionary?

True

In [12]:
"you" in {"hello": "there", "goodbye": "you"} # er værdien til venstre en key i dictionary?

False

## String metoder i pandas

- De fleste string metoder findes i pandas også
- Tilgås under `.str`

**Eksempler (base python - pandas)**

|Base|Pandas|
|--|--|
|`.lower()`|`.str.lower()`|
|`.replace()`|`.str.replace()`|
|`.startswith()`|`.str.startswith()`|
|`in`|`.str.contains()`|

<table>
<thead>
<tr><th>Base</th><th>Pandas</th></tr></thead>
<tbody><tr><td><code>.lower()</code></td><td><code>.str.lower()</code></td></tr><tr><td><code>.replace()</code></td><td><code>.str.replace()</code></td></tr><tr><td><code>.startswith()</code></td><td><code>.str.startswith()</code></td></tr><tr><td><code>in</code></td><td><code>.str.contains()</code></td></tr></tbody>
</table>

# String metoder i Python (live coding)

# Introduktion til regular expressions

https://www.regexpal.com/

## Hvad er regular expressions?

- Samling af tegn der definerer mønster til tekstsøgning
- Er ikke specifikt til Python - implementeret i de fleste programmeringssprog
- Bruges til specifikke søgninger af ord, tekststykker og tekster

**Hvorfor bruge regular expressions?**
- Meget effektiv måde at lave søgninger og filtreringer på
- Mønstre kan lave utroligt specifikke og sofistikerede
- Effektiv til at lave filtreringer af tekststykker (uanset antal)

## Eksempel på regular expression

`^[KT]\w{5,8}\s[\d|\w]+`

*Oversat*: Find tekststykker, der starter med ord på 6-9 karakterer, som starter med enten stort K eller stort T, efterfulgt af et mellemrum, efterfulgt af et eller flere tal eller bogstaver.

*Eksempelvis*: Torvet 5e

## Regular expressions: Match flere tegn

|Forklaring|Tegn|Eksempel mønster|Matcher|
|--|--|--|--|
|Match flere tegn|`[]`|`[jJ]akob`|jakob, Jakob|
|Match flere tegn|`[]`|`[12345]`|Tallene 1-5|
|Range af tegn|`[x-y]`|`[A-Z]`|Et stort bogstav|
|Range af tegn|`[x-y]`|`[0-9]`|Et enkeltciffer|
|Negation|`[^x]`|`[^S]`|Ikke et stort S|
|Match flere tegnsamlinger (fx ord)|`\|`|`Jakob\|Finn`|Jakob eller Finn|

<table>
<thead>
<tr><th>Forklaring</th><th>Tegn</th><th>Eksempel mønster</th><th>Matcher</th></tr></thead>
<tbody><tr><td>Match flere tegn</td><td><code>[]</code></td><td><code>[jJ]akob</code></td><td>jakob, Jakob</td></tr><tr><td>Match flere tegn</td><td><code>[]</code></td><td><code>[12345]</code></td><td>Tallene 1-5</td></tr><tr><td>Range af tegn</td><td><code>[x-y]</code></td><td><code>[A-Z]</code></td><td>Et stort bogstav</td></tr><tr><td>Range af tegn</td><td><code>[x-y]</code></td><td><code>[0-9]</code></td><td>Et enkeltciffer</td></tr><tr><td>Negation</td><td><code>[^x]</code></td><td><code>[^S]</code></td><td>Ikke et stort S</td></tr><tr><td>Match flere tegnsamlinger (fx ord)</td><td><code>\|</code></td><td><code>Jakob\|Finn</code></td><td>Jakob eller Finn</td></tr></tbody>
</table>

## Regular expressions: Wildcard-søgninger

|Forklaring|Tegn|Eksempel mønster|Matcher|
|--|--|--|--|
|Valgfri karakter (match 1 eller 0 gange)|`?`|`Kath?rine`|Kathrine, Katrine|
|Match 0 eller flere gange|`*`|`haa*!`|ha!, haa!, haaa!, haaaa!, ...|
|Match 1 eller flere gange|`+`|`haa+!`|haa!, haaa!, haaaa!, ...|
|Match hvilken som helst karakter|`.`|`.us`|mus, lus, hus, bus|
|Match start af string|`^`|`^F`|**F**inn kiggede mærkeligt|
|Match enden af string|`$`|`t$`|Finn kiggede mærkelig**t**|
|Gentag mønster|`{x,y}`|`Fin{1,2}`|**Fin**n kiggede mærkeligt, **Finn** kiggede mærkeligt|

<table>
<thead>
<tr><th>Forklaring</th><th>Tegn</th><th>Eksempel mønster</th><th>Matcher</th></tr></thead>
<tbody><tr><td>Valgfri karakter (match 1 eller 0 gange)</td><td><code>?</code></td><td><code>Kath?rine</code></td><td>Kathrine, Katrine</td></tr><tr><td>Match 0 eller flere gange</td><td><code>*</code></td><td><code>haa*!</code></td><td>ha!, haa!, haaa!, haaaa!, ...</td></tr><tr><td>Match 1 eller flere gange</td><td><code>+</code></td><td><code>haa+!</code></td><td>haa!, haaa!, haaaa!, ...</td></tr><tr><td>Match hvilken som helst karakter</td><td><code>.</code></td><td><code>.us</code></td><td>mus, lus, hus, bus</td></tr><tr><td>Match start af string</td><td><code>^</code></td><td><code>^F</code></td><td><strong>F</strong>inn kiggede mærkeligt</td></tr><tr><td>Match enden af string</td><td><code>$</code></td><td><code>t$</code></td><td>Finn kiggede mærkelig<strong>t</strong></td></tr><tr><td>Gentag mønster</td><td><code>{x,y}</code></td><td><code>Fin{1,2}</code></td><td><strong>Fin</strong>n kiggede mærkeligt, <strong>Finn</strong> kiggede mærkeligt</td></tr></tbody>
</table>

## Regular expressions: Match typer af tegn

|Forklaring|Tegn|
|--|--|
|Match "word character"|`\w`|
|Match *ikke* "word character"|`\W`|
|Match et tal|`\d`|
|Match et "whitespace"|`\s`|
|Match *ikke* et "whitespace"|`\S`|
|Match et linjeskift|`\n`|
|Match et linjeskift|`\r`|
|Match en ordafgrænsning (tegnsætning, whitespace, linjeskift)|`\b`|

<table>
<thead>
<tr><th>Forklaring</th><th>Tegn</th></tr></thead>
<tbody><tr><td>Match &quot;word character&quot;</td><td><code>\w</code></td></tr><tr><td>Match <em>ikke</em> &quot;word character&quot;</td><td><code>\W</code></td></tr><tr><td>Match et tal</td><td><code>\d</code></td></tr><tr><td>Match et &quot;whitespace&quot;</td><td><code>\s</code></td></tr><tr><td>Match <em>ikke</em> et &quot;whitespace&quot;</td><td><code>\S</code></td></tr><tr><td>Match et linjeskift</td><td><code>\n</code></td></tr><tr><td>Match et linjeskift</td><td><code>\r</code></td></tr><tr><td>Match en ordafgrænsning (tegnsætning, whitespace, linjeskift)</td><td><code>\b</code></td></tr></tbody>
</table>

## Regular expressions: Look ahead / look behind

|Forklaring|Tegn|Eksempel mønster|Matcher|
|--|--|--|--|
|Mønster skal komme efter|`(?=)`|`\w+(?= kig)`|**Finn** kiggede mærkelig på Jakob|
|Mønster skal komme før|`(?<=)`|`(?<=på )\w+`|Finn kiggede mærkelig på **Jakob**|

<table>
<thead>
<tr><th>Forklaring</th><th>Tegn</th><th>Eksempel mønster</th><th>Matcher</th></tr></thead>
<tbody><tr><td>Mønster skal komme efter</td><td><code>(?=)</code></td><td><code>\w+(?= kig)</code></td><td><strong>Finn</strong> kiggede mærkelig på Jakob</td></tr><tr><td>Mønster skal komme før</td><td><code>(?&lt;=)</code></td><td><code>(?&lt;=på )\w+</code></td><td>Finn kiggede mærkelig på <strong>Jakob</strong></td></tr></tbody>
</table>

## Escaping

- *Esccaping* tillader, at man kan danne regular expression, der matcher tegnsætning som ".", "?" og andre tegn brugt i regular expression

- Man *escaper* et tegn (dvs. omgår dens betydning i regular expression) ved brug af `\`

**Eksempel**

|Mønster|Matcher|
|--|--|
|`kat?`|har du en **ka**t?, har du en **kat**?|
|`kat\?`|har du en **kat?**|

<table><thead><tr><th><span>Mønster</span></th><th><span>Matcher</span></th></tr></thead><tbody><tr><td><code>kat?</code></td><td><span>har du en </span><strong><span>ka</span></strong><span>t?, har du en </span><strong><span>kat</span></strong><span>?</span></td></tr><tr><td><code>kat\?</code></td><td><span>har du en </span><strong><span>kat?</span></strong></td></tr></tbody></table>

## Grupper

- Regular expressions kan opdeles i "undermønstre" (mønstre i mønstre) vha. grupper
- En regular expression *gruppe* angives med `()`

**Eksempel:**

`^[A-Z]\w+ (\w+)`

- Hele mønstret matcher tekst, der starter med et ord med stort forbogstav efterfulgt af et andet ord
- Gruppen (gruppe 1) matcher det andet ord

## Regular expressions i Python

- Brug pakken `re` (del af standardbibliotek)

*Definér mønster*: `re.compile()` (danner et  regex objekt `re.pattern`)

*Find match i start af tekst*: `re.match()`

*Find match et eller andet sted i tekst*: `re.search()` (altid det første match)

*Find all matches i en tekst*: `re.findall()` (returnerer altid en liste)

## Regular expressions i Python

In [73]:
import re

text = "Jakob siger: 'Hej med dig, Finn'"

regex = re.compile("[A-Z]\w+")

regex.search(text) # matcher regex med tekst?

<re.Match object; span=(0, 5), match='Jakob'>

In [74]:
regex.findall(text) # hvilke tekststykker matcher?

['Jakob', 'Hej', 'Finn']

## Regular expressions i Python

In [75]:
text = "Jakob siger: 'Hej med dig, Finn'"

regex = re.compile("[A-Z]\w+ (\w+)")

regex.search(text).group(1) # hvad matcher mønstret i gruppe 1?

'siger'

In [76]:
regex.findall(text) # hvilke tekststykker matcher mønstret i gruppe 1?

['siger', 'med']

## Regular expressions i pandas

- Flere metoder i pandas understøtter regular expression (fx `.replace()`, `.str.replace()`, `.str.contains()`)
- Regular expressions kan også bruges til at udlede text fra én kolonne til en anden (med `.str.extract()`)
    - *Bemærk*: Udledning baseret på grupper i regeular expression

In [58]:
s = pd.Series(["cat", "dog", "house"])
s.str.contains("^\w{3}$", regex = True)

0     True
1     True
2    False
dtype: bool

In [57]:
s = pd.Series(["James Holden", "Bobbie Draper"])
s.str.extract("(^[A-Z]\w+)(?= )")

Unnamed: 0,0
0,James
1,Bobbie


# Regular expressions i Python (live-coding)

# Indlæsning af filer i Python

## Indlæsning af filer i Python

- Al indlæsning af filer i Python er baseret på *filstier*
- En *filsti* angiver placeringen af en fil på en computer (kaldt en *file path* på engelsk og omtales typisk *path* i programmering)
- En filsti angiver, hvordan computeren skal navigere igennem mapper (*directories*) for at finde en bestemt fil

## Indlæsning af filer i Python

**Absolutte filstier**

- Angiver *hele* filstien fra compuerens "rod" (*root*)

*Eksempler*: 
- Windows: `C:\Users\kgk\data\datafil.csv`
- Mac: `/Users/kgk/data/datafil.csv`
- Linux: `/usr/kgk/data/datafil.csv`

**Relative filstier**

- Angiver filstien fra *arbejssti* til filen
- *Arbejdssti* typisk den fil, som koden køres fra, men arbejdssti kan også ændres i koden
- `..`: Gå et niveau "op"
- `.`: Den nuværende directory

*Eksempel*: `../../data/datafil.csv`

## Filstier i Python

- Filstier angives blot som strings:

```python
path = "../../data/datafil.csv"
```

- Hvis en funktion forventer en filsti, skal denne blot angives som string:

```python
df = pd.read_csv(path)
```

## `os` modulet

`os` modulet indeholder (blandt andet) en række funktioner til at navigere i filsystemer
- `os.getcwd()` - print nuværende arbejdsmappe ("cwd": current working directory)
- `os.chdir()` - ændr arbejdsmappe 

`os` indeholder også funktionen `join` (`os.path.join()`). Denne gør det muligt at lave systemuafhængige filstier.
- Sti som string: `path = "../../data/datafil.csv"`
- Sti via `os`-modulet: `path = os.path.join("..", "..", "data", "datafil.csv")`


Fordi filstier i princippet blot er sammensatte strings, kan man med fordel arbejde med variable, der angiver placeringen til mapper, som bruges flere gange (fx datamappe, outputmappe eller andet):

```python
datadir = "../../data"
datafile = "datafil.csv"
datapath = os.path.join(datadir, datafile)
```

## `open` funktionen 

Hvordan filer indlæses i Python afhænger både af, hvilken filtype det er samt hvilken datastruktur, det skal læses ind i.

Funktionen `open` er en basisfunktion til at åbne tekstfiler i Python - enten til at skrive eller læse
1. Åben filen via filens sti
2. Angiv funktion(er) for at læse filen ind i korrekt datastruktur

```python
filepath = "../../data/tekstfil.txt"
fileconn = open(filepath, "r") # "r" angiver at filen åbnes i læsetilstand

with fileconn as f:
    data = f.read()
```

# Indlæsning af tekstfiler i Python (live-coding)

# ØVELSE: Regular expression i Python

# Arbejd med længere tekster i Python (live-coding)

# Datoer og tid i Python

## Datoer og tid i Python

Indtil Python er fortalt andet, er datoer også blot strings

En dato giver ikke sig selv! Overvej fx en dato skrevet: "07/08/12"

    - 12. august 2007?
    - 7. august 2012?
    - 8. december 2007?
    - 8. juli 2012?

Python skal derfor informeres om et dato- og tidsformat, for at kunne behandle noget som tid

- `datetime` objekt (year, month, date, hour)
- `timedelta` objekt (days)

## Fra dato-string til dato-objekt

Basismodulet `datetime` kan bruges til at arbejde med datoer og tid.

In [25]:
from datetime import datetime

now = datetime.now()
print(now)

2022-09-11 22:30:39.807528


Fra et `datetime` objekt kan hvert enkelt tidsenhed tilgås som attribute:

In [26]:
print(
    now.year,
    now.month,
    now.day,
    now.hour,
    now.minute,
    now.second,
    sep = "\n"
)

2022
9
11
22
30
39


## Fra dato-string til dato-objekt

Funktionen `datetime.strptime()` bruges til at konvertere en string til et datetime-objekt.

In [24]:
datestring = "12/09-22"
date = datetime.strptime(datestring, "%d/%m-%y")

print(date)

2022-09-12 00:00:00


Python fortælles datoformatet via en række specialtegn (`%d`, `%m`, `%Y` osv.).

**Eksempler:**

|Tegn|Betydning|Eksempel|
|--|--|--|
|`%d`|Dag i måneden (tocifret)|04, 10, 21|
|`%m`|Månede som tal (tocifret|02, 06, 11|
|`%b`|Forkortet måned (baseret på sprogindstilling)|Jan, Mar, Jun|
|`%y`|Tocifret årstal|88, 99, 22|
|`%Y`|Firecifret årstal|1988, 1999, 2022|

<table>
<thead>
<tr><th>Tegn</th><th>Betydning</th><th>Eksempel</th></tr></thead>
<tbody><tr><td><code>%d</code></td><td>Dag i måneden (tocifret)</td><td>04, 10, 21</td></tr><tr><td><code>%m</code></td><td>Månede som tal (tocifret</td><td>02, 06, 11</td></tr><tr><td><code>%b</code></td><td>Forkortet måned (baseret på sprogindstilling)</td><td>Jan, Mar, Jun</td></tr><tr><td><code>%y</code></td><td>Tocifret årstal</td><td>88, 99, 22</td></tr><tr><td><code>%Y</code></td><td>Firecifret årstal</td><td>1988, 1999, 2022</td></tr></tbody>
</table>

Se oversigt over formatkoder her: https://docs.python.org/3/library/datetime.html#strftime-strptime-behavior

## Tidsdifferencer

- Python kan arbejde med tidsdifferencer
- Ved at udregne differnece baseret på to datetime-objekter, dannes et "timedelta" objekt:

In [33]:
date1 = datetime.strptime('01-09-2022', '%d-%m-%Y').date()
datenow = datetime.now().date()

timedif = datenow - date1

timedif.days

10

## Datetime i pandas

Pandas indeholder en del metoder til at arbejde med datetime, der minder om basismodulet
- Tilgås under `.dt`

For at konvertere en data frame kolonne til dato, bruges funktionen `pd.to_datetime()` (fungerer meget ligesom `datetime.strptime()`
- *Bemærk*: Funktion; ikke metode. Tager en Series med datolignende strings og datoformat som argument

In [5]:
dates = pd.Series(["2022-08-02", "2022-08-04", "2022-06-30"])

dates = pd.to_datetime(dates, format = "%Y-%m-%d")

print(dates)

0   2022-08-02
1   2022-08-04
2   2022-06-30
dtype: datetime64[ns]


Efter at kolonnen er konverteret, kan datetime-metoderne under `.dt` tilgås:

In [7]:
print(dates.dt.day)

0     2
1     4
2    30
dtype: int64


# Datoer og tid i Python (live-coding)

## FÆLLES ØVELSE: Datoer og tid i Python

I Eurobarometer-datasættet indeholder kolonnen `p1` datoen for dataindsamlingen for respondenten.

Hvordan kan det undersøges, hvor lang tid det tog at samle data fra de danske respondenter?

## Opsummering

- *Strings* i Python er en class, som har en række indbyggede metoder
- *Regular expressions* (`re` modulet) kan bruges til at lave søgninger på tekstmønstre frem for blot ord
- Regular expressions har mange anvendelser
- Al data indlæses via *filstier*
- `os` modulet bruges til at navigere i filsystemer
- `open` funktionen bruges til at åbne filer
- Datoer i Python er strings, indtil Python er fortalt andet
- `datetime` modulet bruges til at konvertere strings til datoer *uden for pandas*
    - I pandas bruges `pd.to_datetime()`