# String metoder i Python (live coding)

## String metoder

En tekstværdi kaldes en "string" inden for programmeringssprog. For at arbejde med tekst, er det relevant at vide, hvordan Python arbejder med enkelte tekstværdier.

Vi ser herunder nærmere på indbyggede string-metoder i Python


In [None]:
text = """Der var tre drenge, der skulle ud i skoven. Den ene hed Jakob; de to andre hed Finn. 
så blev den ene Finn væk, så Jakob sagde til den anden Finn: "Finn find, Finn".
Finn kiggede mærkelig på Jakob og sagde: 'Jakob Jakob Jakob'."""

print(text)

In [None]:
type(text)

In [None]:
text.startswith("Der")

In [None]:
text.endswith(".")

In [None]:
"Finn" in text

In [None]:
"finn" in text # findes ikke, da "Finn" står med stort

In [None]:
"finn" in text.lower()

In [None]:
print(text.upper())

## String metoder i pandas

Mange string metoder kan anvendes på pandas series - ofte ved at tilføje `.str`

In [None]:
eurob = pd.read_csv(data_path)
eurob['d15a'].head()

In [None]:
eurob['d15a'].str.startswith("Retired").head()

In [None]:
eurob['d15a'].str.startswith("Retired").sum() # Hvor mange svar starter med "Retired"?

`str.contains()` på en pandas series svarer til at bruge `in` på en string.

In [None]:
eurob['d15a'].str.contains("work").sum() # Hvor mange svar indeholder "work"?

Fordi metoder som `str.startswith()` og `str.contains()` returnerer logiske værdier (`True`/`False`), så kan de bruges til subsetting.

In [None]:
eurob_work = eurob.loc[eurob['d15a'].str.contains("work"), :]
eurob_work.head()

# Regular expressions i Python (live coding)

## `re` modulet

For at arbejde med regular expressions, bruges typisk `re` modulet.

Man danner først regular expression mønster med `re.compile()`. Derefter kan man foretage søgninger i tekst via indbyggede metoder i den dannede regular expression (regex).

In [None]:
import re

pattern = re.compile("[A-Z]\w+\s\w+.?\s([A-Z]\w+)")

pattern.search(text)

Matches i *groups* tilgås via `.group()`
- `group(0)`: hele matchet
- `group(1)`: match i første gruppe

In [None]:
pattern.search(text).group(1)

## Regular expressions i pandas

Pandas understøtter regular expressions i flere metoder - bl.a. med `str.contains()`

In [None]:
pattern = re.compile("work|retired", re.IGNORECASE)

eurob['d15a'].head()

In [None]:
eurob['d15a'].str.contains(pattern, regex = True).head()

# Arbejd med længere tekster i Python (live-coding)

## Arbejd med længere tekster

Der er principielt ingen grænse for, hvor lang én string kan være (udover den begrænsning computerens harware sætter).

Når man arbejder med hele tekster, vil disse ikke have en givet datastruktur i forvejen. Derfor er man nødt til at arbejde med dem som hele strings og derfra evt. udlede visse informationer, som kan sættes i struktur.

In [None]:
# Indlæser referat fra møde i Folketingssalen (fra 25. august 2022)

parl_dir = os.path.join(data_dir, 'dk_parl')
filename = 'dkpark_125_20220825.txt'
filepath = os.path.join(parl_dir, filename)

with open(filepath, 'r') as f:
    parl_ref = f.read()

### Brug af regular expressions på længere tekster

Regular expressions virker uanset længden af en string. Det er derfor oplagt at bruge disse til at udlede information fra tekst.

In [None]:
import re

names_pattern = re.compile('[A-Z]\w+\s(?:[A-Z]\w+\s)?[A-Z]\w+')

names_pattern.findall(parl_ref)[0:5]

In [None]:
money_pattern = re.compile('\d{1,3}\.?(?:\d{1,3})?\.?(?:\d{1,3})?\skr\.?')

money_pattern.findall(parl_ref)