# Strenger (engelsk: strings) og printing
En streng er en rekke med tegn som oppfattes som tekst (engelsk: string of characters). Det er mange metoder som kan benyttes for å få fin output på skjermen og når vi lagrer resultatene våre i filer. Vi skal se på de enkleste. En full oversikt finnes på https://docs.python.org/3/, særlig på https://docs.python.org/3/library/stdtypes.html#text-sequence-type-str og https://docs.python.org/3/library/string.html. Mange av metodene for strenger er tilsvarende som kommandoene for lister.

Vi begynner med å se på printing, deretter ser vi på metoder for strenger.

Dette er en kort introduksjon. I dokumentet er det en egen overskrift "Ekstra materiale". Alt som står under denne er stoff man godt kan se over hvis man har tid.

## Printing på skjermen
En sentral ting vi gjør med strenger er å skrive tekst og tall på skjermen. For å printe noe på skjermen skriver vi på en av følgende måter:

print("tekst her")

print('tekst her')

Vi kan velge fritt mellom enkelt og dobbelt sitattegn, men strengen må startes og avsluttes med samme type.

In [1]:
print("Her er det tekst.")
print("Vi kan bruke æ, ø og å, og vi kan bruke tall som 3 og 4, og vi kan bruke symboler som $, [, µ osv. i tekst.")

Her er det tekst.
Vi kan bruke æ, ø og å, og vi kan bruke tall som 3 og 4, og vi kan bruke symboler som $, [, µ osv. i tekst.


Øving: Skriv noen print-kommandoer i cellen under og kjør cellen. Dersom du får noen feilmeldinger må du rette opp i dem før du går videre.

## Printing av variabler og uttrykk
Vi er ikke avhengige av å skrive teksten vi vil printe direkte i print-kommandoen. Vi kan printe verdien av en variabel som vist under. Legg merke til at vi kan printe verdien av x, selv om det er et heltall (engelsk: integer/int) og ikke en string/str. Vi kan også lage et uttrykk inne i print-kommandoen. Python begynner innerst og beregner først verdien av 2*3, og printer deretter resultatet.

In [2]:
x = 3 # Denne linjen printes ikke, x får bare verdien 3. Tilsvarende på linje 2 og 4.
variabeltekst = "Tekst her også."
print(variabeltekst)
variabeltekst = "Nå er det ny tekst her, men jeg bruker samme variabelnavn og print-kommando."
print(variabeltekst)
print(x)
print(2*x)
print(type(variabeltekst))
print(type(x))

Tekst her også.
Nå er det ny tekst her, men jeg bruker samme variabelnavn og print-kommando.
3
6
<class 'str'>
<class 'int'>


Øving: Du skal nå skrive fire linjer kode. 1: Lag en variabel som inneholder en tekst (streng). 2: Bruk en print-kommando for å printe teksten. 3: Gi variabelen nytt innhold. 4. Print det nye innholdet i variabelen.

Dersom vi vil printe en kombinasjon av tall og tekst kan vi transformere tallet til tekst med funksjonen str(). Dette er vist under. Prøv å modifisere koden ved å fjerne kommentartegnet (#) fra den siste linjen, og se på feilmeldingen som oppstår.

In [3]:
tekst = 'Antall elementer er '
tall = 5
print(tekst+str(tall))
# print(tekst+tall)

Antall elementer er 5


Et alternativ er å skrive med komma mellom elementene som skal printes. Legg merke til at det innfører et ekstra mellomrom.

In [4]:
tekst = 'Antall elementer er '
tall = 5
print(tekst,tall)
print('Dette er den',tall,'. gangen jeg er her.')
# Kan slippe det unødvendige mellomrommet ved å bruke + men da må vi gjøre om tallet til string først.
print('Dette er den',str(tall)+'. gangen jeg er her.')

Antall elementer er  5
Dette er den 5 . gangen jeg er her.
Dette er den 5. gangen jeg er her.


## Metoder for strenger
Noen av metodene er på formen streng.metode(). Her er "streng" enten strengen selv, eller navnet til en variabel som inneholder en streng, mens "metode" er navnet på en av metodene som kan brukes på strenger. Parentesen etter "metode" er ofte tom, men for noen metoder skriver vi inn argumenter i denne parentesen for å styre hvordan metoden skal virke akkurat denne gangen.

Andre metoder har andre former, f.eks.:
* streng[4]
* streng_1 + streng_2
* len(streng)

### Elementer og utvalg ved bruk av index
Vi kan plukke ut elementer fra en streng på følgende måter:
* Elementet med index i: streng[i]
* Elementene fra og med index i til (men ikke med) index j: streng[i:j]
* Elementene fra og med index i til (men ikke med) index j, der vi plukker ut hvert element nummer k: streng[i:j:k]

For den siste varianten betyr k=2 at vi tar annethvert element. For k=3 tar vi hvert tredje element.

Vi må være bevisst at strenger i Python har index som begynner på 0. Dersom vi ber om en index som ikke finnes får vi en feilmelding. Under har vi en streng med 10 elementer, det vil si at indexene går fra 0 til 9. Legg merke til at mellomrommet mellom [ og { er et av tegnene.

In [5]:
demotekst = "abc123[ {%"
alpha = demotekst[0]
print(alpha)
beta = demotekst[2]
print(beta)
#gamma = demotekst[10]
#print(gamma)

a
c


Prøv å fjerne de to #-tegnene fra de siste to linjene og kjør den cellen på nytt. Feilmeldingen "IndexError: string index out of range" forteller oss at vi har prøvd å bruke en index som ikke eksisterer for det elementet vi ser på. Pilen peker på linje 6 for å fortelle oss hvor feilen oppsto. Sett #-tegnene tilbake igjen før du går videre. Selv om det er 10 elementer i strengen kan vi ikke be om streng[10], siden det vil være det ellevte elementet.

Øving: Tenk over hva som vil printes dersom følgende kommandoer kjøres. Når du har tenkt over det og skrevet ned resultatet, kjør kommandoene i en ny celle.
* print(demotekst[4])
* print(demotekst[7])

Øving: Skriv ned to linjer som gir følgende print på skjermen når de kjøres:

[

a

#### Negative indexer
Vi kan bruke negative indexer for å referere til elementer en viss avstand fra slutten av strengen. Skriver vi streng[-1] refererer vi til det siste elementet, streng[-2] refererer til det nest siste elementet.

In [6]:
print(demotekst[-1])
print(demotekst[-2])

%
{


Øving: Tenk over hva som vil printes dersom følgende kommandoer kjøres. Når du har tenkt over det og skrevet ned resultatet, kjør kommandoene i en ny celle.
* print(demotekst[-8])
* print(demotekst[-3])

Øving: Skriv ned to linjer som gir følgende to linjer med print på skjermen når de kjøres. Bruk negative indexer.

[

a

#### Utvalg av flere elementer (engelsk: slicing)
Vi kan gjøre et utvalg som vist under. I det første eksempelet velger vi alle elementene med index fra og med 2 til (men ikke med) 6. Effektivt betyr det index 2-5, og det gir element nummer 3-6 (siden indexene begynner på 0).

In [7]:
print(demotekst[2:6])

c123


Øving: Tenk over hva som vil printes dersom følgende kommandoer kjøres. Når du har tenkt over det og skrevet ned resultatet, kjør kommandoene i en ny celle.
* print(demotekst[4:7])
* print(demotekst[0:9])

Øving: Skriv ned to linjer som gir følgende to linjer med print på skjermen når de kjøres:

3[ {

bc

#### Utelatelse av indexer
Vi kan gå til enden av en streng ved å skrive streng[3:]. Ved å ikke ha noe avsluttende element går utvalget helt til og med det siste elementet. Vi kan også utelate den første indexen, da går utvalget fra og med det første elementet (index 0). Ved å kombinere disse kan vi skrive streng[:] for å få alle elementene. For en streng er dette mengingsløst siden vi bare kan skrive strengens navn i seg selv, men for en liste betyr dette noe.

In [8]:
print(demotekst[3:])
print(demotekst[:5])
print(demotekst[:])

123[ {%
abc12
abc123[ {%


Øving: Tenk over hva som vil printes dersom følgende kommandoer kjøres. Etter at du har bestemt deg og skrevet ned svaret ditt, kjør kommandoene og sjekk om det stemte.
* print(demotekst[:-7])
* print(demotekst[-5:])

### Lengden av en streng
Vi kan finne antall elementer i en streng ved å bruke len(streng). Legg merke til at mellomrom teller som et tegn. Dette er en svært nyttig kommando som brukes i mange sammenhenger. For å se det må vi bli bedre kjent med flere verktøy, som f.eks. lister (engelsk: lists) og løkker (engelsk: loops).

In [9]:
print(demotekst)
print(len(demotekst))

abc123[ {%
10


### Legge sammen strenger
Dersom vi har flere strenger kan de slås sammen til én streng. Dette kan gjøres på flere måter, her er en den mest direkte og enkleste (i enkle tilfeller):

In [10]:
ord1 = "Hei"
ord2 = "på"
ord3 = "deg"
tekst = ord1 + ord2 + ord3
print(tekst)

Heipådeg


Det virket, men det mangler noe. Vi kan rette opp i det ved å legge inn mellomrom og et punktum manuelt.

In [11]:
tekst = ord1 + " " + ord2 + " " + ord3 + "."
print(tekst)

Hei på deg.


Dersom det er mange ord blir det kontraproduktivt (og nesten uoverkommelig) å skrive dette manuelt. Da kan vi bruke løkker eller automatisere på annet vis. Se annen del om for-løkker for et eksempel på dette.

Øving: Lag og print en setning på måten vist over.

Under definerer jeg noen variabler. Bruk dem for å lage og printe setningen "Det er 12 måneder i året." med metoden vist over. Bruk den tomme linjen nederst i neste celle.

In [12]:
ord1 = "Det"
ord2 = "er"
ord3 = 12
ord4 = "måneder"
ord5 = "i"
ord6 = "året"


Antageligvis brukte du en av de to metodene under:

> tekst = ord1 + " " + ord2 + " " + ord3 + " " + ord4 + " " + ord5 + " " + ord6 + "."

> print(tekst)

eller 

> print(ord1 + " " + ord2 + " " + ord3 + " " + ord4 + " " + ord5 + " " + ord6 + ".")

I så fall fikk du en feilmelding "TypeError: unsupported operand type(s) for +: 'int' and 'str'". Problemet her er at ord3 er av typen "int" mens de andre er av typen "str". Husk at "int" er integer eller heltall, mens "str" er string eller streng.

Vi kan fikse dette på to måter. Den ene måten er å skrive om definisjonen av ord3:

ord3 = "12"

Den andre og mye kraftigere metoden er å transformere innholdet i variabelen "ord3" til type "str".

In [13]:
ord1 = "Det"
ord2 = "er"
ord3 = 12
ord4 = "måneder"
ord5 = "i"
ord6 = "året"
print(str(ord1) + " " + str(ord2) + " " + str(ord3) + " " + str(ord4) + " " + str(ord5) + " " + str(ord6) + ".")

Det er 12 måneder i året.


Det er selvfølgelig ikke nødvendig å endre typen til de andre ordene, men hvis man ikke vet om typen er "str" eller noe annet er det mulig å gjøre som vist over. Vær forsiktig, ikke alle typer objekter kan transformeres til "str".

Over så vi et lite utvalg av alle metodene som finnes. For å få en fullstendig oversikt kan vi sjekke hjelpeteksten ved å skrive help(str). Hopp over alle linjene som begynner med dobbel understrek, som \__add__(self, value, /). Det finnes veldig mange metoder, det viktigste nå er det som er vist over, og å være klar over hvor man kan finne mer informasjon. Teksten under kan være tunglest pga. formatet, husk at det også er beskrevet på nettsiden: https://docs.python.org/3/library/stdtypes.html#string-methods

In [14]:
help(str)

Help on class str in module builtins:

class str(object)
 |  str(object='') -> str
 |  str(bytes_or_buffer[, encoding[, errors]]) -> str
 |  
 |  Create a new string object from the given object. If encoding or
 |  errors is specified, then the object must expose a data buffer
 |  that will be decoded using the given encoding and error handler.
 |  Otherwise, returns the result of object.__str__() (if defined)
 |  or repr(object).
 |  encoding defaults to sys.getdefaultencoding().
 |  errors defaults to 'strict'.
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __format__(...)
 |      S.__format__(format_spec) -> str
 |      
 |      Return a formatted version of S as described by format_spec.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getatt

# Ekstra materiale
Stoffet under er nyttig, men kan vente til senere om du ikke vil se på det nå.

## Her følger mer om utvalg av elementer

Vi kan bruke negative indekser også når vi slicer en tekst:

In [15]:
demotekst = "abc123[ {%"
print(demotekst[2:-4])
print(demotekst[-5:-1])

c123
3[ {


Øving: Tenk over hva som vil printes dersom følgende kommandoer kjøres. Når du har tenkt over det og skrevet ned resultatet, kjør kommandoene i en ny celle.
* print(demotekst[-6:-3])
* print(demotekst[-9:-1])

Øving: Skriv ned to linjer som gir følgende print på skjermen når de kjøres. Bruk negative indexer for både start- og sluttpunktet.

3[ {

bc

Vi kan også gjøre et utvalg av elementer som ikke følger direkte etter hverandre:

In [16]:
print(demotekst[1:9:2])

b13 


Legg merke til at i det forrige eksempelet fikk vi elementene med index 1, 3, 5 og 7. Det neste ville vært 9, men vi skulle stoppe før 9, så det ble ikke med. Legg særlig merke til at mellomrommet på index 7 er med her, etter 3-tallet. Prøv å markere med musen for å se det.

Øving: Tenk over hva som vil printes dersom følgende kommandoer kjøres. Når du har tenkt over det og skrevet ned resultatet, kjør kommandoene i en ny celle.
* print(demotekst[0:7:3])
* print(demotekst[-9:6:2])

Øving: Skriv ned fire linjer som gir følgende print på skjermen når de kjøres. Gjør det en gang med bare positive indexer og en gang med bare negative indexer for både start- og sluttpunktet.

b3

c3

Dersom vi gjør et utvalg der vi ber om å starte på et element og stoppe på et tidligere element får vi ingen elementer. I eksempelet under produserer print-kommandoen ingenting fordi utvalget blir en streng uten elementer. Dette kan være aktuelt dersom vi ikke vet hvor mange elementer som skal være med, men har en formel for å beregne hva som er første og siste element. Dersom formlene gir en startverdi som er lik eller større enn sluttverdien blir lengden 0.

In [17]:
print(demotekst[4:1])




Øving: Tenk over hva som vil printes dersom følgende kommandoer kjøres. Hvilke av kommandoene gir ingen output? Etter at du har bestemt deg og skrevet ned svaret ditt, kjør kommandoene og sjekk om det stemte.
* print(demotekst[2:5:7])
* print(demotekst[-2:3])
* print(demotekst[-8:-3])
* print(demotekst[-5:7:2])
* print(demotekst[-3:8])

## Gjenta en streng et visst antall ganger.

In [18]:
"tekst" * 4

'teksttekstteksttekst'

## Andre metoder for strenger
Her er noen metoder som kan være nyttige.

In [19]:
tekst = "her er det tEKST og 2-3 tall. Er det sant."
print(tekst.capitalize()) # Gjør første bokstav stor og alle andre små.
print(tekst.title()) # Gjør første bokstav i hvert ord stor og alle andre små.
print(tekst.center(50, "ø")) # Legger på "ø" rundt teksten for at den skal bli 50 tegn lang.
print(tekst.count("e")) # Teller antall forekomster av "e".
print(tekst.find(" er")) # Finner indexen der " er" står første gang.
print(tekst.find("eple")) # Dersom teksten ikke finnes får vi tilbake -1.
print(tekst.isalnum()) # True dersom alle tegnene er bokstaver eller tall. "alnum" står for alphanumeric.
print(tekst.replace("er","var")) # Erstatter alle tilfeller av "er". Merk at "Er" i setning 2 ikke erstattes. Vi mister også "er" inne i ord.
print(tekst.replace(" er "," var ")) # Erstatter alle tilfeller av " er ". Vi kan ta med mellomrom for å sørge for at bare separate ord. Hva skjer dersom siste ord i en setning er "er"? Da har vi ikke " er ", men kanskje " er." eller " er?"
print(tekst.rstrip("asrhe.ln t")) # Begynner på høyre side. Fjerner alle tegn som er gitt som argument. Stopper når et tegn ikke er i argumentet.
print(tekst.strip("asrhe.ln t")) # Går gjennom strengen fra høyre og venstre side. Fjerner alle tegn som er gitt som argument. Stopper når et tegn ikke er i argumentet.

Her er det tekst og 2-3 tall. er det sant.
Her Er Det Tekst Og 2-3 Tall. Er Det Sant.
øøøøher er det tEKST og 2-3 tall. Er det sant.øøøø
4
3
-1
False
hvar var det tEKST og 2-3 tall. Er det sant.
her var det tEKST og 2-3 tall. Er det sant.
her er det tEKST og 2-3 tall. Er d
det tEKST og 2-3 tall. Er d


## Søk i tekst
Vi kan søke i teksten i en streng. Vi kan både sjekke om noe (ikke) finnes der (True/False) og telle antall forekomster av noe, og vi kan sjekke hvor i strengen noe finnes.

In [20]:
demotekst3 = "aaabcdefaklmnaa"
print(demotekst3)
print("aa" in demotekst3)
print("AA" in demotekst3)
print("pqr" not in demotekst3)
print(demotekst3.count("aa"))
print(demotekst3.find("f"))

aaabcdefaklmnaa
True
False
True
2
7


Legg merke til at det betyr noe om vi bruker store eller små bokstaver.

Legg merke til at når "aa" er funnet blant de første tre a-ene kan ikke den andre a-en brukes i et par med den tredje a-en.

## Linjeskift (engelsk: newline) og tegnene \ og " og '

In [21]:
print("Tekst kan inneholde linjeskift ved å skrive\nhvor som helst i teksten.")

print("Den skrå streken indikerer at det kommer en spesiell kommando, f.eks. n for linjeskift.")

print("For å vise \\ må vi skrive to stykker.")

print("for å vise \" må vi skrive \\\", effektivt med tre \\ før \" i selve koden.")

print('Alternativt kan vi bruke enkle sitattegn, de tillater "doble sitattegn" uten videre.')

print("Motsatt ser vi at doble sitattegn tillater 'enkle sitattegn' uten videre.")

Tekst kan inneholde linjeskift ved å skrive
hvor som helst i teksten.
Den skrå streken indikerer at det kommer en spesiell kommando, f.eks. n for linjeskift.
For å vise \ må vi skrive to stykker.
for å vise " må vi skrive \", effektivt med tre \ før " i selve koden.
Alternativt kan vi bruke enkle sitattegn, de tillater "doble sitattegn" uten videre.
Motsatt ser vi at doble sitattegn tillater 'enkle sitattegn' uten videre.


## Største og minste element i en streng
Vi kan finne "største" og "minste" element i en streng ved å bruke max(streng) og min(streng). Når vi gjør dette sorteres tegnene etter rekkefølgen definert i ASCII, se f.eks. denne siden: http://www.theasciicode.com.ar/

Tallene kommer før de store bokstavene som kommer før de små bokstavene. Det innebærer at en liten k er "større" enn en stor N, og at en stor G er "mindre" enn en liten b.

In [22]:
demotekst4 = "gikGNdb"
print(demotekst4)
print(max(demotekst4))
print(min(demotekst4))

gikGNdb
k
G


###### Øystein Grøndahl, oktober 2018