In [43]:
import pandas as pd
import re
from datetime import datetime

text = """Der var tre drenge, der skulle ud i skoven. Den ene hed Jakob; de to andre hed Finn. 
så blev den ene Finn væk, så Jakob sagde til den anden Finn: "Finn find, Finn".
Finn kiggede mærkelig på Jakob og sagde: 'Jakob Jakob Jakob'."""

# String metoder i Python (live coding)

## String metoder

En tekstværdi kaldes en "string" inden for programmeringssprog. For at arbejde med tekst, er det relevant at vide, hvordan Python arbejder med enkelte tekstværdier.

Vi ser herunder nærmere på indbyggede string-metoder i Python


In [3]:
text = """Der var tre drenge, der skulle ud i skoven. Den ene hed Jakob; de to andre hed Finn. 
så blev den ene Finn væk, så Jakob sagde til den anden Finn: "Finn find, Finn".
Finn kiggede mærkelig på Jakob og sagde: 'Jakob Jakob Jakob'."""

print(text)

Der var tre drenge, der skulle ud i skoven. Den ene hed Jakob; de to andre hed Finn. 
så blev den ene Finn væk, så Jakob sagde til den anden Finn: "Finn find, Finn".
Finn kiggede mærkelig på Jakob og sagde: 'Jakob Jakob Jakob'.


In [5]:
type(text)

str

In [6]:
text.startswith("Der")

True

In [8]:
text.endswith(".")

True

In [9]:
"Finn" in text

True

In [10]:
"finn" in text # findes ikke, da "Finn" står med stort

False

In [11]:
"finn" in text.lower()

True

In [13]:
print(text.upper())

DER VAR TRE DRENGE, DER SKULLE UD I SKOVEN. DEN ENE HED JAKOB; DE TO ANDRE HED FINN. 
SÅ BLEV DEN ENE FINN VÆK, SÅ JAKOB SAGDE TIL DEN ANDEN FINN: "FINN FIND, FINN".
FINN KIGGEDE MÆRKELIG PÅ JAKOB OG SAGDE: 'JAKOB JAKOB JAKOB'.


## String metoder i pandas

Mange string metoder kan anvendes på pandas series - ofte ved at tilføje `.str`

In [22]:
eurob = pd.read_csv(data_path)
eurob['d15a'].head()

0           Retired, unable to work
1                           Student
2     Unskilled manual worker, etc.
3           Retired, unable to work
4    Employed position, service job
Name: d15a, dtype: object

In [23]:
eurob['d15a'].str.startswith("Retired").head()

0     True
1    False
2    False
3     True
4    False
Name: d15a, dtype: bool

In [24]:
eurob['d15a'].str.startswith("Retired").sum() # Hvor mange svar starter med "Retired"?

378

`str.contains()` på en pandas series svarer til at bruge `in` på en string.

In [25]:
eurob['d15a'].str.contains("work").sum() # Hvor mange svar indeholder "work"?

528

Fordi metoder som `str.startswith()` og `str.contains()` returnerer logiske værdier (`True`/`False`), så kan de bruges til subsetting.

In [27]:
eurob_work = eurob.loc[eurob['d15a'].str.contains("work"), :]
eurob_work.head()

Unnamed: 0,uniqid,d11,polintr,qb1,qb3_1,qb3_2,qb3_3,qb3_4,qb3_5,qb3_6,...,d10,d15a,d15b,d25,d63,d1,p1,p2,p3,region_denmark
0,110005573,71,Not at all,Fairly important,Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,...,Man,"Retired, unable to work","Middle management, etc.",Large town,The middle class of society,9,16 Sep 21,13 - 16 h,2099,DK05 - Nordjylland
2,110005575,53,Medium,Very important,Not mentioned,Cyber-attacks and cybercrime such as theft or ...,The difficulty of learning new digital skills ...,Not mentioned,Not mentioned,Not mentioned,...,Woman,"Unskilled manual worker, etc.",Inap. (not 1 to 4 in d15a),Rural area or village,The middle class of society,8,17 Sep 21,13 - 16 h,1738,DK02 - Sjaelland
3,110005576,70,Medium,Very important,Not mentioned,Cyber-attacks and cybercrime such as theft or ...,Not mentioned,The safety and well-being of children,The difficulty some people have accessing the ...,Not mentioned,...,Man,"Retired, unable to work","Middle management, etc.",Rural area or village,The middle class of society,8,17 Sep 21,13 - 16 h,2759,DK02 - Sjaelland
5,110005578,66,Medium,Very important,Not mentioned,Cyber-attacks and cybercrime such as theft or ...,The difficulty of learning new digital skills ...,The safety and well-being of children,The difficulty some people have accessing the ...,Not mentioned,...,Woman,"Retired, unable to work",Skilled manual worker,Small/middle town,The working class of society,5,17 Sep 21,8 - 12 h,3415,DK05 - Nordjylland
6,110005579,85,Medium,Not at all important,Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,The difficulty of disconnecting and finding a ...,...,Man,"Retired, unable to work",Skilled manual worker,Rural area or village,The working class of society,3,17 Sep 21,8 - 12 h,2578,DK05 - Nordjylland


# Regular expressions i Python (live coding)

## `re` modulet

For at arbejde med regular expressions, bruges typisk `re` modulet.

Man danner først regular expression mønster med `re.compile()`. Derefter kan man foretage søgninger i tekst via indbyggede metoder i den dannede regular expression (regex).

In [31]:
import re

pattern = re.compile("[A-Z]\w+\s\w+.?\s([A-Z]\w+)")

pattern.search(text)

<re.Match object; span=(148, 163), match='Finn find, Finn'>

Matches i *groups* tilgås via `.group()`
- `group(0)`: hele matchet
- `group(1)`: match i første gruppe

In [32]:
pattern.search(text).group(1)

'Finn'

## Regular expressions i pandas

Pandas understøtter regular expressions i flere metoder - bl.a. med `str.contains()`

In [37]:
pattern = re.compile("work|retired", re.IGNORECASE)

eurob['d15a'].head()

0           Retired, unable to work
1                           Student
2     Unskilled manual worker, etc.
3           Retired, unable to work
4    Employed position, service job
Name: d15a, dtype: object

In [39]:
eurob['d15a'].str.contains(pattern, regex = True).head()

0     True
1    False
2     True
3     True
4    False
Name: d15a, dtype: bool

# Indlæsning af tekstfiler i Python (live coding)

## Navigér i filsystemer med `os` 

`os` modulet tillader (blandt andet) at man kan navigere rundt i filsystemer (os: operating system).

Fx kan man tjekke ens nuværende arbejdssti:

In [40]:
import os

os.getcwd()

'C:\\repos\\workshops_repos\\course_sds-I\\sessions\\02_python-2\\notebooks'

### Filstier med `os`

Filstier i Python er i princippet blot strings. Hvis en funktion forventer en filsti, kan denne blot angives som en string.

Alternativt kan man også danne stier med `os.path.join()`.

In [46]:
data_dir = os.path.join('..', '..', '..', 'data') # danner sti til datamappe

filename = 'soaf_characters.txt'

filepath = os.path.join(data_dir, filename)

## Åben filer med `open`

`open` modulet bruges til at åbne tekstfiler i Python. Man kan både skrive og læse tekstfiler gennem `open`.
- `'r'`-arugment: læserettighed
- `'w'`-argument: skriverettighed

In [47]:
with open(filepath, 'r') as f:
    soaf_text = f.read()

### Fra tekst til datastruktur

Ved at læse en tekstfil ind gennem `.read()` får man blot hele teksten som én lang string. Hvis datafilen har en eller anden struktur, som man kan drage nytte af, må man selv specificerer det, for at tvinge data om til den rigtige struktur.

In [50]:
soaf_text[0:100]

'Abelar Hightower\nAbelon\nAddam of Duskendale\nAddam Frey\nAddam Hightower\nAddam Marbrand\nAddam Osgrey\nA'

I "soaf_characters.txt" filen er hver karakter adskilt med linjeskift. `.split()` metoden kan derfor bruges til at omdanne til en liste:

In [52]:
soaf_char = soaf_text.split('\n')

In [53]:
soaf_char[0:5]

['Abelar Hightower',
 'Abelon',
 'Addam of Duskendale',
 'Addam Frey',
 'Addam Hightower']

# Arbejd med længere tekster i Python (live-coding)

## Arbejd med længere tekster

Der er principielt ingen grænse for, hvor lang én string kan være (udover den begrænsning computerens harware sætter).

Når man arbejder med hele tekster, vil disse ikke have en givet datastruktur i forvejen. Derfor er man nødt til at arbejde med dem som hele strings og derfra evt. udlede visse informationer, som kan sættes i struktur.

In [57]:
# Indlæser referat fra møde i Folketingssalen (fra 25. august 2022)

parl_dir = os.path.join(data_dir, 'dk_parl')
filename = 'dkpark_125_20220825.txt'
filepath = os.path.join(parl_dir, filename)

with open(filepath, 'r') as f:
    parl_ref = f.read()

### Brug af regular expressions på længere tekster

Regular expressions virker uanset længden af en string. Det er derfor oplagt at bruge disse til at udlede information fra tekst.

In [62]:
import re

names_pattern = re.compile('[A-Z]\w+\s(?:[A-Z]\w+\s)?[A-Z]\w+')

names_pattern.findall(parl_ref)[0:5]

['Valgs PrÃ',
 'Kristian Thulesen Dahl',
 'Rune Lund',
 'Jeppe Bruus',
 'Jesper Petersen']

In [64]:
money_pattern = re.compile('\d{1,3}\.?(?:\d{1,3})?\.?(?:\d{1,3})?\skr\.?')

money_pattern.findall(parl_ref)

['43.500 kr.',
 '44.300 kr.',
 '2.000 kr.',
 '8 kr.',
 '5 kr.',
 '5 kr.',
 '10 kr.',
 '1.900\nkr.',
 '1.900\nkr.',
 '90.000 kr.',
 '6.000 kr.',
 '7.000\nkr.',
 '16 kr.',
 '77 kr.',
 '19 kr.',
 '1\nkr.',
 '1 kr.',
 '1 kr.',
 '10\nkr.',
 '4.000 kr.',
 '4.000 kr.',
 '4.000 kr.',
 '4.000 kr.',
 '4.000 kr.',
 '4.000 kr.',
 '4.000 kr.',
 '5.000 kr.',
 '2.000 kr.',
 '2.000 kr.',
 '2.500 kr.',
 '2.500 kr.',
 '5.000 kr.',
 '2000 kr.',
 '2.000 kr.',
 '500 kr.']

# Datoer og tid i Python (live coding)

## `datetime` modulet

`datetime` modulet bruges til at lave strings om til datoer (uden for pandas).

*Bemærk*: Alle funktioner ligger i `datetime.datetime`, så man kan med fordel importere med `from datetime import datetime`

In [65]:
from datetime import datetime

date_today = datetime.now().date()

date_today

datetime.date(2022, 9, 12)

In [66]:
print(date_today.day,
      date_today.month)

12 9


Man danner datoobjekter fra strings med `datetime.strptime()`.

In [70]:
datestr = '07 08-2021'

date = datetime.strptime(datestr, '%d %m-%Y').date()
date

datetime.date(2021, 8, 7)

In [71]:
print(date.day,
      date.month)

7 8


Ved at trække to datoobjekter fra hinanden, dannes et `timedelta` objekt (tidsdifference).

In [73]:
timedif = date_today - date

timedif

datetime.timedelta(days=401)

Forskellen kan konverteres til numerisk ved at referere til en tidsenhed som attribute:

In [77]:
timedif.days

401

## Datoer og tid i `pandas`

Pandas indeholder en del metoder til at arbejde med datetime, der minder om basismodulet
- Tilgås under `.dt`

For at konvertere en data frame kolonne til dato, bruges funktionen `pd.to_datetime()` (fungerer meget ligesom `datetime.strptime()`
- *Bemærk*: Funktion; ikke metode. Tager en Series med datolignende strings og datoformat som argument

In [78]:
dates = pd.Series(["2022-08-02", "2022-08-04", "2022-06-30"])

dates = pd.to_datetime(dates, format = "%Y-%m-%d")

print(dates)

0   2022-08-02
1   2022-08-04
2   2022-06-30
dtype: datetime64[ns]


In [81]:
dates.dt.day

0     2
1     4
2    30
dtype: int64