# I mange anvendelser trenger vi å prosessere tekst
- lese tekst fra filer og gjøre om til diverse typer data
- analysere tekst
- autogenerere tekst, f.eks. deler av labrapporter etc. basert på data

Mye av dette kan gjøres med det vi allerede har lært, f.eks.
- bruke løkke for å gå gjennom tekst tegn for tegn
- bruke indeks for å se hva hvert enkelt tegn er
- bruke if-setninger for aksjoner knyttet til visse tegn, etc.

Men ofte fins det enklere måter
- Python har en masse innebygde strengmetoder

## Innerst inne er tekst representert som tall
Hvert tegn har en Unicode-verdi
- som kan finnes med funksjonen __ord()__
- motsatt vei, fra verdi til tegn: __chr()__

Eksempel:

In [1]:
print(ord('A'))
print(chr(65))
print(chr(8747))

65
A
∫


## Noen tegn er usynlige på skjermen
men spiller likevel en viktig rolle i strenger. Eksempel
- linjeskift (newline) er chr(10), men skrives oftest '\n' i Python-kode
- tabulator er chr(9), men skrives oftest '\t' i Python-kode
- __\\__ brukes som spesialtegn foran andre tegn
- hvis vi __vil__ ha baklengs skråstrek (backslash) i teksten vår...
    - må vi derfor skrive to: '\\\\'
- '\u' indikerer at det neste som kommer er en Unicode-verdi
    - oppgitt heksadesimalt (dvs. tallsystem med base 16)
    - chr(8747) for integral kan f.eks. også skrives '\u222B'

In [2]:
# Eksempel, viser at \t og \n gir tabulator og linjeskift
print("Tabulator\tog backslash \\ og linjeskift\nkan skrives slik.")
print(f'Integral: {chr(8747)} eller \u222B')

Tabulator	og backslash \ og linjeskift
kan skrives slik.
Integral: ∫ eller ∫


## Prefiks foran strenger
Det fins noen flere men de to nyttigste er:
- f - indikerer at { } inni strengen inneholder uttrykk som skal evalueres heller enn å gjengis direkte i strengen
    - vist før, forklares ikke mer her
- r - indikerer at strenget skal gjengis akkurat som den står, dvs., også bare vise \\ direkte heller enn å gjøre noe spesielt
    - nyttig særlig for strenger som inneholder filnavn med stier, slipper å doble alle skråstrekene

In [3]:
# Eksempel
filnavn = r'C:\guttorm\test.py'
FEILnavn = 'C:\guttorm\test.py'
filnavn2 = 'C:\\guttorm\\test.py'
print(filnavn)
print(FEILnavn)
print(filnavn2)
print(f'Fila heter {filnavn}')
print('Fila heter {filnavn}')

C:\guttorm\test.py
C:\guttorm	est.py
C:\guttorm\test.py
Fila heter C:\guttorm\test.py
Fila heter {filnavn}


  FEILnavn = 'C:\guttorm\test.py'


## Strengmetoder for store og små bokstaver
Metodene endrer __ikke__ original strengvariabel
- lager i stedet et nytt strengobjekt med litt annerledes innhold
- (nødvendigvis, siden strenger er immuterbare)

In [4]:
tekst = "hei, LUR-inger, håper dere liker Python?"
print(tekst.upper())         # kun store bokstaver
print(tekst.lower())         # kun små
print(tekst.capitalize())    # stor helt fremst, små resten
print(tekst.title())         # stor først i hvert ord, ellers små

HEI, LUR-INGER, HÅPER DERE LIKER PYTHON?
hei, lur-inger, håper dere liker python?
Hei, lur-inger, håper dere liker python?
Hei, Lur-Inger, Håper Dere Liker Python?


## Strengmetoder for å telle, finne, erstatte
### Telle
- string.count(s) - teller antall forekomster av streng s inni streng string
    - kan telle enkeltbokstav eller lenger streng

In [5]:
print("London".count("L"))
print("London".count("on"))
print("London".count("D"))

1
2
0


### Finne
- __string.find(s)__ - finner indeksposisjon til første forekomst av streng __s__ inni streng __string__
    - returnerer __-1__ hvis den ikke fins
- __string.index(s)__ - finner indeksposisjon til første forekomst av streng __s__ inni streng __string__
    - gir feilmelding __ValueEror__ hvis den ikke fins
- __string.rfind(s)__ og __string.rindex(s)__ - virker som find og index,
    - bare at de starter søket fra høyre, ikke fra venstre

In [6]:
print("London".find("o"), "London".index("o"))
print("London".rfind("o"), "London".rindex("o"))
print("London".find("X"))
print("London".index("X"))

1 1
4 4
-1


ValueError: substring not found

### Erstatte
- __string.replace(s1, s2)__ - erstatter alle forekomster av s1 med s2
    - NB: endrer ikke original streng, lager nytt strengobjekt
    - hvis s1 ikke fins returneres en streng med samme innhold

In [None]:
by = "London"
print(by.replace("on", "off"))
print(by.replace("X", "Y"))

#Eksempel på nyttig bruk
#- har tall med norsk komma, trenger desimalpunktum
datalinje = "2,34 3,45 6,01 7,09 2,87 1,11"
fikset_datalinje = datalinje.replace("," , ".")
fikset_datalinje

Loffdoff
London


'2.34 3.45 6.01 7.09 2.87 1.11'

## Metoder for stripping
Ofte har tekst tegn vi ønsker å bli kvitt fremst og bakerst
- f.eks. mellomrom, linjeskift (\\n), tabulator (\\t)

- __string.strip(s)__ - fjerner forekomster av s fremst og bakerst i strengen
    - hvis s ikke oppgis, strippes __whitespace__ (blanke, \\n, \\t)
- __string.lstrip(s)__ - virker som strip, men bare fra venstre side av strengen
- __string.rstrip()__ - bare fra høyre side

In [None]:
print("OSLO".strip("O"))
print("OSLO".lstrip("O"))
print("OSLO".rstrip("O"))
print("OSLO".rstrip("X"))
print("__OSLO__".strip("_"))
print("OSLO.........".rstrip("."))
"\t  OSLO  \n".strip() 

SL
SLO
OSL
OSLO
OSLO
OSLO


'OSLO'

## Metoder for splitting og sammenslåing
- __string.split(s)__ - returnerer ei liste av strenger
    - delt opp på alle forekomster av strengen s i string
    - hvis s ikke oppgis, brukes mellomrom som default separator
- __string.join(liste)__ - går motsatt vei
    - slår sammen ei liste med strenger til én streng
    
### Splitting først...

In [None]:
"LUR er det   mest interessante studiet!".split( )

['LUR', 'er', 'det', 'mest', 'interessante', 'studiet!']

In [None]:
'2.34;3.45;6.01;7.09;2.87;1.11'.split(";")

['2.34', '3.45', '6.01', '7.09', '2.87', '1.11']

In [None]:
'2 + 5 + 8 + 3 + 11'.split(" + ")

['2', '5', '8', '3', '11']

In [None]:
'10:24:07'.split(':')

['10', '24', '07']

### Sammenslåing (join)
Nyttig i mange situasjoner:
- sette sammen data som skal skrives til fil
- forbinde tall med aritmetiske operatorer
- sette sammen navn på lange kjemiske forbindelser
- ...

In [None]:
print(" ".join(['LUR', 'er', 'det', 'mest', 'interessante', 'studiet!']))
print(";".join(['2.34', '3.45', '6.01', '7.09', '2.87', '1.11']))
print(" + ".join(['2', '5', '8', '3', '11']))
print("".join(["methionyl","threonyl","threonyl","glutaminyl","alanyl","…isoleucine"]))

LUR er det mest interessante studiet!
2.34;3.45;6.01;7.09;2.87;1.11
2 + 5 + 8 + 3 + 11
methionylthreonylthreonylglutaminylalanyl…isoleucine


## Sjekke logiske betingelser på strenger
Fins mange ulike funksjoner her, noen mest nyttige:
- __string.isdigit()__ og __string.isdecimal()__
    - sjekker om hele strengen består av siffer
- __string.isalpha()__
    - sjekker om hele strengen er bokstaver

In [None]:
print("234".isdigit(), "234".isdecimal())
print("-234".isdigit(), "-234".isdecimal())
print('2⁵'.isdigit(), '2⁵'.isdecimal())
print("ÅlesundSæbø".isalpha(), "A B C".isalpha())

True True
False False
True False
True False


# Oppsummering
Python har mange nyttige strengmetoder
- for mer info, se f.eks. https://www.geeksforgeeks.org/python-string-methods/ eller andre kilder på nettet

Strengmetoder endrer __aldri__ original streng
- siden strenger er immuterbare
- endring av strengvariabel er mulig, f.eks.
    - __s = s.replace("å", "aa")__
    - adjektiv = adjektiv + "ere"
- men i så fall lages alltid et nytt strengobjekt