# Listor

## Introduktion

Ofta i våra koder har vi samlingar av objekt som "hör ihop". Det kan vara en lista över molekyler, pKa-värden, resultat av en mätning, osv... Det är alla saker vi kan lagra i en kalkylblad, i en tabell eller rita upp i en graf.

Vi kan tänka oss att skapa en variabel för varje objekt, men det är tråkigt och vi kanske inte vet i förväg hur många de kommer vara.

Istället har Python flera datatyper som är avsedda att hantera samlingar av objekt. Den enklaste av dem är listan.

In [None]:
min_lista = ["det", "är", "en", "lista"]
print(min_lista)

Listan definieras med hjälp av hakparenteser och valfritt antal element separerade med kommatecken.

Du kan lagra vilken datatyp du vill i en lista: flyttal, heltal, strängar (text), booleska värden och till och med en annan lista. Dessutom kan du blanda olika typer av element i samma lista.

In [None]:
tom_lista = []
kemikalier = ["C2H4", "benzen","syre"]
pKa_lista = [6.4, 3.2, 8.5, 7.2]
blandad_lista = ["C2H4",3.4]
lista_av_listor = [["Oxalsyra", "Mjölksyra", "Ättiksyra"],[1.23, 3.86, 4.75]]

Du kan också skapa en lista från en `range`:

In [None]:
range_lista = list(range(5))
print(range_lista)

# Komma åt och ändra listobjekt

Du kan komma åt längden på listan (dvs antalet element) med funktionen "len":

In [None]:
print("Längden på pKa_lista =",len(pKa_lista))
print("Längden på lista_av_listor =",len(lista_av_listor))

I listan av listor räknar len endast 2 element, eftersom det primära listan faktiskt bara innehåller 2 element (som båda är listor med 3 element var).

När listan är skapad kan du komma åt det i:te elementet som `A[i]`. Observera att Python börjar indexeringen vid 0, så det första elementet är faktiskt `A[0]`.

In [None]:
print("Den första kemikalie är", kemikalier[0])
print("Den andra kemikalie är", kemikalier[1])
print("Den första lista är", lista_av_listor[0])
print("Den första syran i listan av listor är ", lista_av_listor[0][0])

Genom att komma åt det specifika objektet i en lista kan du också ändra det:

In [None]:
print(kemikalier)
kemikalier[0] = "eten"
print(kemikalier)

**Övning:**
Loopa över elementen i kemikalier listan och skriv ut dem:

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

Det finns andra (vissa skulle hävda finare) sätt att loopa över element i en lista. Det enklaste är:

In [None]:
for kemikalie in kemikalier:
    print(kemikalie)

Om du behöver både indexet och elementet kan du använda "enumerate":

In [None]:
for i, kemikalie in enumerate(kemikalier):
    print("Kemikalie",i+1,"är",kemikalie)

**Övning:** Här är en lista över syror och en motsvarande lista över pKa-värden. Sortera båda listorna efter stigande pKa-värde (utan att använda färdiga sorteringsfunktioner i Python).

In [None]:
syror = ["Mjölksyra", "Oxalsyra", "Ättiksyra", "Kolsyra", "Bensoesyra", "Citronsyra", "Myrsyra"]
pKa_lista = [3.86, 1.23, 4.75, 6.37, 4.19, 3.08, 3.75]
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert syror == ['Oxalsyra', 'Citronsyra', 'Myrsyra', 'Mjölksyra', 'Bensoesyra', 'Ättiksyra', 'Kolsyra']
assert pKa_lista == [1.23, 3.08, 3.75, 3.86, 4.19, 4.75, 6.37]

Det finns även inbyggda funktioner för att sortera listor:

In [None]:
syror = ["Mjölksyra", "Oxalsyra", "Ättiksyra", "Kolsyra", "Bensoesyra", "Citronsyra", "Myrsyra"]
pKa_lista = [3.86, 1.23, 4.75, 6.37, 4.19, 3.08, 3.75]
print(sorted(pKa_lista)) #numerisk sortering
print(sorted(syror)) #alfabetisk sortering

## Utöka och kombinera listor

Du kan lägga till element i en lista med `append`:

In [None]:
kemikalier.append("sulfat")
print(kemikalier)

**Övning:** Skapa samma lista som `list(range(5))` genom att börja från en tom lista, använda en loop och append-funktionen.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

Du kan också kombinera och multiplicera listor med hjälp av de aritmetiska operatorerna.

In [None]:
stor_list = kemikalier + ["fosfat", "propan"]
print(stor_list)
print(["fosfat", "propan"]*5)

Multiplikation kan vara användbart för att initialisera en lista med 0-värden eller en lista av listor med tomma värden.

In [None]:
viktig_lista = [0]*10
print(viktig_lista)
viktigare_lista = [[]]*7
print(viktigare_lista)

## Slicing (Skärning/Skivning)

Medan det är möjligt att komma åt listelement ett efter ett finns det också sätt att extrahera "skivor" av listan. Den allmänna strukturen liknar range, det vill säga vi kan ange startpunkt, slutpunkt och steg, men de separeras med `:`:

In [None]:
syror == ['Oxalsyra', 'Citronsyra', 'Myrsyra', 'Mjölksyra', 'Bensoesyra', 'Ättiksyra', 'Kolsyra']
print(syror[1:3:1]) # Från 1 (inklusive) till 3 (exklusive) en efter en
print(syror[1:3]) # Om steget utelämnas antas 1
print(syror[4:1:-1]) # Från 1 till 4 men omvänt

Det är möjligt att lämna skivningsindexen tomma, vilket som standard kommer att betyda första eller sista elementet (beroende på sammanhanget):

In [None]:
print(syror[3:]) # Från 3 till sist
print(syror[:3]) # Första 3
print(syror[:]) # Alla
print(syror[::-1]) # Alla omvänt

Mer överraskande kanske är att om du använder negativa tal motsvarar det att räkna från slutet:

In [None]:
print(syror[-1]) # Den sista objekt
print(syror[-3:]) # De sista 3 objekt
print(syror[2:-2]) # Allt utom första och sista 2

**Övning:** Sortera pka arrayen i föregående sorteringsövning i omvänd ordning med `sorted` (bara en textrad!):

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

## Unpacking (Uppackning)

Om du vill tilldela elementen i en lista till individuella variabler kan du använda en genväg som kallas "uppackning":

In [None]:
min_lista = [5.5, 7.8]
a, b = min_lista
print("a =", a)
print("b =", b)

Denna packning/uppackning används implicit när du ger en lista som returvärden till en funktion, och kan också användas för att byta värden mellan två variabler (som vi gjorde i sorteringsövningen):

In [None]:
def få_värden():
    värde1 = 5.5
    värde2 = 7.8
    return värde1, värde2

resultat1, resultat2 = få_värden()
print(resultat1)
print(resultat2)

resultat1, resultat2 = resultat2, resultat1
print("Efter")
print(resultat1)
print(resultat2)

# Tupler

Tupler är på många sätt liknande listor, men den största skillnaden är att de är oföränderliga, vilket innebär att de inte kan ändras efter att de skapats. Detta kan vara användbart för listor som inte bör ändras (till exempel listan över atomsymboler).

För att skapa en tuple använder vi parenteser istället för hakparenteser:

In [None]:
Atomer = ('0', 'H', 'He', 'Li', 'Be', 'B', 'C', 'N', 'O', 'F', 'Ne', 'Na', 'Mg', #Lade till 0 så att Atomer[1] = 'H'
        'Al', 'Si', 'P', 'S', 'Cl', 'Ar', 'K', 'Ca', 'Sc', 'Ti', 'V', 'Cr',
        'Mn', 'Fe', 'Co', 'Ni', 'Cu', 'Zn', 'Ga', 'Ge', 'As', 'Se', 'Br', 'Kr',
        'Rb', 'Sr', 'Y', 'Zr', 'Nb', 'Mo', 'Tc', 'Ru', 'Rh', 'Pd', 'Ag', 'Cd',
        'In', 'Sn', 'Sb', 'Te', 'I', 'Xe', 'Cs', 'Ba', 'La', 'Ce', 'Pr', 'Nd',
        'Pm', 'Sm', 'Eu', 'Gd', 'Tb', 'Dy', 'Ho', 'Er', 'Tm', 'Yb', 'Lu', 'Hf',
        'Ta', 'W', 'Re', 'Os', 'Ir', 'Pt', 'Au', 'Hg', 'Tl', 'Pb', 'Bi', 'Po',
        'At', 'Rn')
print(Atomer[6])
print(Atomer[82])

Om du försöker ändra ett av elementen i en tuple kommer du se att det misslyckas.

Eftersom tupler bara är en nyans av listor kommer vi inte gå djupare in på dem förutom att nämna deras existens.

# Sets (Mängder)

Mängder är en annan nyans av listor, men med något mer praktisk användning. Den största skillnaden jämfört med listor är att mängder inte kan ha dubletter, och deras ordning är odefinierad (den kan variera från det ursprungliga tilldelningen på grund av hur den implementeras internt).

Mängder skapas med hjälp av `{}` istället för `[]`.

In [None]:
molekyl_set = {"C2H4", "benzen","syre"}
print(molekyl_set) # Notera att ordningen kan skilja sig
tom_set = set() # Om du använder {} ska det skapa ett tomt lexikon som vi kommer att se senare

Mängder beter sig på liknande sätt som listor. Dock, eftersom de är oordnade kan du inte komma åt element genom att använda `A[i]` (men du kan fortfarande loopa över alla element). Istället för att använda append för att lägga till element i slutet av en lista, använder du funktionen "add" för att lägga till element i en mängd.

In [None]:
molekyl_set.add("sulfat")
print(molekyl_set)

Om du försöker lägga till ett element som redan finns i mängden kommer det inte att dupliceras:

In [None]:
print(len(molekyl_set))
molekyl_set.add("benzen")
print(len(molekyl_set))

Du kan kombinera mängder genom att använda `|` (eller `union`-funktionen) och du kan också subtrahera mängder för att hitta skillnaden.

In [None]:
print(molekyl_set | {"HCl", "syre"})
print(molekyl_set.union({"HCl", "syre"}))
print(molekyl_set - {"C2H4","sulfat", "HCl"})

Du kan omvandla en lista till en mängd och vice versa:

In [None]:
set_från_list = set(["Den", "var", "en", "lista"])
print(set_från_list) # Som Yoda skulle säga
list_från_set = list(set_från_list)
print(list_från_set) # Ordningen är nu den som mängden hade

Mängder är också den mest effektiva metoden (vilket kan vara viktig för storskaliga tillämpningar) för att kontrollera om ett element finns i en lista.

In [None]:
for molekyl in ("benzen", "fosfat"):
    if molekyl in molekyl_set:
        print(molekyl, "fanns")
    else:
        print(molekyl, "fanns inte")

Jämför utförandetid av de 2 funktioner

In [None]:
stor_lista = list(range(10000))
def prova_lista(k):
    return k in stor_lista
%timeit -n 1000 prova_lista(10)
%timeit -n 1000 prova_lista(100)
%timeit -n 1000 prova_lista(1000)
%timeit -n 1000 prova_lista(9999)
%timeit -n 1000 prova_lista('a')

In [None]:
stor_mängd = set(range(10000))
def prova_mängd(k):
    return k in stor_mängd
%timeit -n 1000 prova_mängd(10)
%timeit -n 1000 prova_mängd(100)
%timeit -n 1000 prova_mängd(1000)
%timeit -n 1000 prova_mängd(9999)
%timeit -n 1000 prova_mängd('a')

**Övning:**

Antag att ditt laboratorium har en lista över kemikalier som finns tillgängliga (lösningsmedel_i_labbet och molekyler_i_labbet) och en uppsättning molekyler som krävs för att syntetisera ibuprofen (ibuprofen_kemikalier).

Du kan använda grundläggande mängdoperationer för att skapa mängden av molekyler som behöver köpas och sedan skapa den totala mängden av molekyler som finns tillgängliga efter köpet.

In [None]:
lösningsmedel_i_labbet = ["aceton", "toluen", "metanol", "etanol", "vatten"]
molekyler_i_labbet = ["HCl", "svavelsyra", "magnesium", "LiAlH4", "NaBH4", "AlCl3", "NaCl"]
ibuprofen_kemikalier = ["isobutylbenzen" , "ättiksanhydrid", "AlCl3", "NaBH4", "metanol", "HCl", "magnesium", "CO2"]

# YOUR CODE HERE
raise NotImplementedError()
assert att_köpa == {'isobutylbenzen', 'ättiksanhydrid', 'CO2'}
assert tillgängliga_efter_köpet == {'aceton', 'metanol', 'AlCl3', 'toluen', 'vatten', 'NaCl', 'NaBH4', 'magnesium', 'CO2', 'ättiksanhydrid', 'HCl', 'LiAlH4', 'svavelsyra', 'isobutylbenzen', 'etanol'}

# Strängar

Vi har manipulerat strängar en liten stund nu, men vi har inte tittat på deras egenskaper. Faktum är att en sträng också är en samling, en samling av enskilda tecken. Det betyder att de kan manipuleras på mycket samma sätt som listor.

In [None]:
molekyl = "isobutylbenzen"
print(len(molekyl))
print(molekyl[0])
print(molekyl[-6:])
for bokstav in molekyl:
    print(bokstav)
print(molekyl + " är en molekyl")

Strängar har också många praktiska funktioner för att hjälpa till att manipulera dem. Listan nedan är inte uttömmande.

In [None]:
# Vilken typ
print("C är en bokstav:","C".isalpha())
print("C är ett nummer:","C".isnumeric())
print("C är en versal:","C".isupper())
print("C is en gemen:","C".islower())
print()

# Omvandla
string = "Butadien"
print("Butadien till gemen blir:", string.lower())
print("Butadien till versal blir:", string.upper())
molekyl = "C6H12O6"
print("Det finns",int(molekyl[3:5]),"väte atomer i", molekyl)
print()

# Hitta tecken
reaktion = " A + B = C "
print("Delar upp en sträng:", reaktion.split("=")) # Dela upp i en lista runt det valda symbolen
print("+ finns i reaktionen: ","+" in reaktion, "på position", reaktion.index("+"))
print("Nu blir det kemi", reaktion.replace("=","->"))
print()

För att få en mer uttömmande lista, glöm inte att du kan be python om hjälp.

In [None]:
help(str)

**Övning:** Skapa en funktion som returnerar mängden av alla atomer som finns i en sträng. Eftersom atomer kan ha antingen en eller två bokstäver (vi kommer att ignorera de med tre bokstäver), när du har en versal bokstav, kontrollera bara om nästa tecken är gemener. Om det är så, bildar de en enda atom, annars är de separata atomer.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert unik_atomlista("NaCl") == {"Na", "Cl"}
assert unik_atomlista("H2O") == {"H", "O"}
assert unik_atomlista("C6H12O6") == {"C", "H", "O"}
assert unik_atomlista("Fe(CN)6") == {"Fe", "C", "N"}
assert unik_atomlista("6CO2 + 6H2O → C6H12O6 + 6O2") == {"C", "O", "H"}

# Dictionaries (Lexikon)

Den sista typen av samling är dictionaries (Lexikon). Till skillnad från de tidigare typerna är lexikon associativa, med ett "ord" och dess "definition". I python-språket refererar vi till "ordet" som "nyckeln" (key) och "definitionen" som värdet (value). Lexikon kan vara användbara när du vill associera 2 variabler med varandra. Vi gjorde det implicit när vi sorterade pKa genom att behålla 2 separata listor, där indexet i listan bibehölls. Men det kan vara mer praktiskt att associera båda variablerna direkt i en struktur.

Lexikon definieras genom att använda `{}`, precis som mängder. Såsom mängder har lexikom ingen ordning och accepterar inte dubbletter, det vill säga 2 identiska nycklar. Nyckeln och värdet associeras med `:`.

In [None]:
pka_dict = {"Mjölksyra":3.86, "Oxalsyra": 1.23, "Ättiksyra": 4.75, "Kolsyra":6.37, "Bensoesyra":4.19}
print(pka_dict)
tom_dict = {}

Elementen i en dictionary kan sedan nås genom att använda nyckeln istället för det vanliga indexet. Med andra ord, `värde = lexikon[nyckel]`:

In [None]:
print("Ättiksyra har en pKa på",pka_dict["Ättiksyra"])

När vi loopar över element i en dictionary kan vi antingen loopa över nycklarna eller över nyckel-värde-paren.

In [None]:
for syra in pka_dict:
    print(syra)

print()
for syra, pka in pka_dict.items():
    print(syra,"har en pKa på", pka)

Du kan komma åt nycklarna och värdena som separata listor:

In [None]:
print(list(pka_dict.keys()))
print(list(pka_dict.values()))

För att lägga till ett nytt nyckel-nyckel par i en lexikon räcker det att tilldela ett värde till en ny nyckel:

In [None]:
print(len(pka_dict))
pka_dict["Citronsyra"] = 3.08
print(len(pka_dict))

**Övning:** Använd ett översättningslexikon för att skapa en funktion som konverterar en DNA-sekvens till dess baspar-sekvens och returnerar den resulterande strängen. Påminnelse, basparen är A-T och C-G, så till exempel skulle sekvensen ATCG konverteras till sekvensen TAGC.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert baspar('ATGGCGATTA') == 'TACCGCTAAT'

**Övning:** Skriv en liknande funktion som nu översätter DNA-sekvensen till en aminosyrasekvens med hjälp av den givna översättningstabellen. Observera att 3 nukleotidbaser kodar för en enda aminosyra. Print-uttrycket bör berätta om du har lyckats...

In [None]:
def DNA_översättning(dna_sekvens):
    översättningstabellen = {
        'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
        'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
        'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
        'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',                
        'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
        'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
        'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
        'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
        'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
        'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
        'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
        'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
        'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
        'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
        'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',
        'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W',
    }
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
print(DNA_översättning('TGGGAGCTTCTATAACCTCTTGCGTATGAAGAC'))