# Listen und Kontrollstrukturen

Computer sind dann äußerst nützlich, wenn sie uns wiederkehrende Aufgaben abnehmen. Listen und Kontrollstrukturen sind zwei der wichtigsten Konzepte in der Programmierung, um solche Aufgaben zu automatisieren. In diesem Notebook lernen Sie, wie Sie Listen in Python erstellen und bearbeiten und wie Sie Kontrollstrukturen wie Schleifen und Bedingungen verwenden, um eigene Algorithmen zu schreiben.

## Listen

Listen sind eine Sammlung von Elementen, die über Buchstaben hinaus gehen können. Ansonsten können Listen in Python alles, was Strings können. Listen können auch leere Elemente enthalten. Listen können auch Listen enthalten. Listen können auch Elemente mit unterschiedlichen Datentypen enthalten.
Listen sind in Python durch eckige Klammern `[]` gekennzeichnet. Die Elemente einer Liste werden durch Kommas getrennt.


In [131]:
my_list : list = [1, 2, 3, 4, 5,"a","Wort", True]

print(my_list[6])

Wort


Häufig ist es sinnvoll gleichartige Daten in einer Liste zu speichern. Zum Beispiel die Expressionswerte verschiedener Gene in einer Zelle. Entsprechend lassen sich dann Auswertungen durchführen, um z.B. den das Maximum, Minimum, den Mittelwert zu berechenen.

In [133]:
my_genes : list[str] = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions : list[float] = [5.3, 2.7, 0.0, 1.2, 3.8]

In [134]:
expression_max : float = max(my_expressions)

print("The maximum expression value is: " + str(expression_max))


The maximum expression value is: 5.3


### ✍️ Aufgabe: Berechnung des Durchschnittlichen Expressionswertes

Nutzen Sie die Funktionen `sum()` und `len()` um den durchschnittlichen Expressionswert im Datenset zu berechnen.	

In [123]:
#@title ❓ Click `Show code` in the code cell to show the solution. { display-mode: "form" }

my_genes : list[str] = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions : list[float] = [5.3, 2.7, 0.0, 1.2, 3.8]

length : int = len(my_genes)
expressions_sum : float = sum(my_expressions)

print("The mean expression value is : " + str(length))

The mean expression value is : 5


### Verändern von Listen

Mittels `append()` kann ein Element am Ende der Liste hinzugefügt werden. Mit `pop()` kann ein Element an einer bestimmten Position entfernt werden.. Mit `reverse()` kann die Liste umgekehrt werden. Mit `copy()` kann eine Kopie der Liste erstellt werden.

Wichtig ist hierbei, dass es sich um sogenannte "in-place" Operationen handelt. Das bedeutet, dass die Liste verändert wird und nicht eine neue Liste erstellt wird. Wir müssen also keine Zuweisung zu einer neuen Variable vornehmen.

In [124]:
my_expressions : list[float] = [5.3, 2.7, 0.0, 1.2, 3.8]

my_expressions.sort()

print("The sorted expression values are: " + str(my_expressions))

The sorted expression values are: [0.0, 1.2, 2.7, 3.8, 5.3]


In [125]:
my_expressions.append(3.7)

print("The expression values with the new value are: " + str(my_expressions))

The expression values with the new value are: [0.0, 1.2, 2.7, 3.8, 5.3, 3.7]


In [126]:
my_expressions.reverse()

print("The expression values in reverse order are: " + str(my_expressions))

The expression values in reverse order are: [3.7, 5.3, 3.8, 2.7, 1.2, 0.0]


In [127]:
my_expressions.pop(2)   # remove the third element

print("The expression values with the third element removed are: " + str(my_expressions))

The expression values with the third element removed are: [3.7, 5.3, 2.7, 1.2, 0.0]


### Sortieren einer Liste

Mit der Funktion `sorted()` können Listen sortiert werden. Die Funktion gibt eine neue Liste zurück, die die sortierte Version der ursprünglichen Liste enthält. Die ursprüngliche Liste bleibt unverändert.

In [128]:
## Listen

my_expressions : list[float] = [5.3, 2.7, 0.0, 1.2, 3.8]

my_expressions_sorted : list[float] = sorted(my_expressions)

print(my_expressions_sorted)

[0.0, 1.2, 2.7, 3.8, 5.3]


### ✍️ Aufgabe: Häufigkeit von Elementen in einer Liste


Der folgenden Code installiert ein Paket (`biopython`), das es ermöglicht die NCBi Datenbank zu durchsuchen und effizient mit Sequenzdaten zu arbeiten. 

Wir gehen davon aus, dass wir eine DNA-Sequenz von einem uns unbekannten Fisch haben. Wir wollen nun bestimmen, um welche Fischart es es sich handelt. Dazu lassen wird die Sequenz in der NCBi Datenbank suchen.

Die Suche gibt uns Treffer (Alignments) zurück. Jeder Treffer verschiedene Eigenschaften, wie z.B. den Namen der Art, die Sequenz, die Länge der Sequenz, den Grad der Übereinstimmung etc.

Wir wollen in erster Näherung davon aus gehen, dass die Art, die am häufigsten vorkommt, die Art ist, zu der unsere Sequenz gehört. Dabei ignorieren wir, die Informationen über die Übereinstimmung und die Länge der Sequenz. Zudem sind Species mit vielen Einträgen in der NCBi Datenbank wahrscheinlich häufiger als solche mit wenigen Einträgen.

In [135]:
# Installation und Modul-Import
!pip install biopython
from Bio.Blast import NCBIWWW
from Bio.Seq import Seq
from Bio.Blast import NCBIXML



In der Folge nutzen wir [`Seq()`](https://biopython.org/docs/1.75/api/Bio.Seq.html), um ein Sequenzobjekt zu erstellen und [`NCBIWWW.qblast()`](https://biopython.org/docs/1.75/api/Bio.Blast.NCBIWWW.html), um eine BLAST-Suche durchzuführen. Die Funktion `qblast()` benötigt die Argumente `program`, `database` und `sequence`. In unserem Fall verwenden wir `blastn` als Programm, `nt` als Datenbank und die Sequenz.


Im folgenden übergeben wir eine Gen-Sequenz, einer unbekannten Fisch-Spezies, an die Funktion `qblast()`. Die Funktion gibt uns eine Liste an Treffern mit der höchsten Übereinstimmung zurück. 

Ihre Aufgabe ist es nun, zu bewerten um welche Art von Fisch es sich handelt. Dazu sollen Sie die fünf größten Übereinstimmungswerte ausgeben.

**Vorsicht: Die Abfrage kann einige Zeit in Anspruch (ca. 2 Minuten) nehmen.**

**Sie können alternativ auch direkt die Zelle darunter ausführen, um das Ergebnis zu sehen.**


In [136]:
# Eingabe der Sequenz
sequence_data = Seq("TGCACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTAATG")

# Abfrage der Sequenz in der Datenbank
result_handle = NCBIWWW.qblast("blastn", "nt", sequence_data, hitlist_size = 50)

# Store the result in a file
with open("my_blast.xml", "w") as out_handle:
    out_handle.write(result_handle.read())
result_handle.close()


In [147]:
# open the result file
result_handle = open("my_blast.xml")

# geht all the organisms in a list

organism_list = []
for blast_record in NCBIXML.parse(result_handle):
    for alignment in blast_record.alignments:
        organism_list.append(alignment.bit_score)

print(organism_list)

AttributeError: 'Alignment' object has no attribute 'bit_score'

Leider haben die Einträge in `titles` keine direkte Übereinstimmung mit den Arten. Sie müssen also die Einträge in `titles` so bearbeiten, dass Sie die Art herauslesen können. Das wird nicht einfach, da die Einträge in `titles` nicht einheitlich sind. Sie müssen also eine Strategie entwickeln, um die Art herauszulesen. Eine Möglichkeit ist es nur die ersten beiden Worten zu verwenden, da diese scheinbar öft (wenn auch nicht immer die Art enthalten).

In [143]:
titles = list(set(organism_list))
titles

['Pinus environmental sample clone CEobese177 18S ribosomal RNA gene, partial sequence',
 'Uncultured eukaryote clone TW-B1-1-11a 18S ribosomal RNA gene, partial sequence',
 'Uncultured eukaryote clone KG.E36# 18S ribosomal RNA gene, partial sequence',
 'Balanophora sp. PML064 small subunit ribosomal RNA gene, partial sequence',
 'Quercus cerris genome assembly, chromosome: 6',
 'Uncultured eukaryote clone TWI-5b 18S ribosomal RNA gene, partial sequence',
 'Balanophora latisepala voucher PC-lat small subunit ribosomal RNA gene, partial sequence',
 'Hedera helix genome assembly, chromosome: 1',
 'Salmo trutta genome assembly, chromosome: 21',
 'Balanophora subcupularis voucher PML051 small subunit ribosomal RNA gene, partial sequence',
 'Balanophora subcupularis voucher PML054 small subunit ribosomal RNA gene, partial sequence',
 'Uncultured Paraglomus clone Sd7 small subunit ribosomal RNA gene, partial sequence',
 'Paspalum notatum var. saurae isolate R1 chromosome 08',
 'Salmo trutta 

In [None]:
 Nutzen Sie dann die Funktion `count(<spezies_name>)` um die Anzahl der Treffer für jedes Organismus zu erhalten.

In [None]:
twp
for title in titles:
    print(title + " : " + str(organism_list.count(title)))
    

## Schleifen

Schleifen sind ein grundlegendes Konzept in der Programmierung. Sie erlauben es, eine Operation mehrmals auszuführen. In Python gibt es zwei Arten von Schleifen: `for` und `while`.

Meistens wird die `for`-Schleife verwendet, wenn Sie über eine Liste oder einen Strings iterieren. Die `for`-Schleife wird durch das Schlüsselwort `for` eingeleitet, gefolgt von einer Variable, die den Wert des aktuellen Elements der Liste enthält, gefolgt von dem Schlüsselwort `in`, gefolgt von der Liste, über die iteriert werden soll, gefolgt von einem Doppelpunkt. Der Code, der in der Schleife ausgeführt werden soll, wird eingerückt.

In [None]:
sequence = ["TGCACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTAATG"]

for letter in sequence_data:
    print(letter)

T
G
C
A
C
C
C
C
T
A
A
T
G
C
C
T
T
C
C
T
T
G
G
A
T
G
T
G
G
T
A
G
C
T
A
T
T
T
T
T
C
T
C
A
G
G
A
T
C
C
C
T
C
T
C
C
G
G
A
A
T
C
G
A
A
C
C
A
T
A
A
C
T
G
A
T
T
T
A
A
T
G


### Schleifen über Zahlensequenzen

Die Funktion `range()` erzeugt eine Sequenz von Zahlen. Sie kann mit einem, zwei oder drei Argumenten aufgerufen werden. Wenn sie mit einem Argument aufgerufen wird, erzeugt sie eine Sequenz von Zahlen von 0 bis zu diesem Argument. Wenn sie mit zwei Argumenten aufgerufen wird, erzeugt sie eine Sequenz von Zahlen von dem ersten Argument bis zum zweiten Argument. Wenn sie mit drei Argumenten aufgerufen wird, erzeugt sie eine Sequenz von Zahlen von dem ersten Argument bis zum zweiten Argument, wobei das dritte Argument der Schritt ist.

Beispielsweise wollen wir alle Codons einer Sequenz durchgehen. Dazu können wir die Länge der Sequenz durchgehen und dann die Sequenz in Dreiergruppen aufteilen.

In [None]:
sequence = ["TGCACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTAATG"]

for start_position in range(0, len(sequence_data), 3):
    codon = sequence_data[start_position:start_position+3]
    print(codon)

Stellen wir uns nun vor, wir wollen Zählen wie oft das Stop-Codon `TAA` in einer Sequenz vorkommt. Dazu können wir die Sequenz in Dreiergruppen aufteilen und dann zählen, wie oft `TAA` vorkommt. Dies können wird durch einen Vergleich mit `==` erreichen. 

In [None]:
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    counter = counter + int(codon == "TAA")    

print(counter)

2


### ✍️ Aufgabe: Normalsierung der Expressionswerte

Bei der Auswertung von Expressionswerten ist es oft sinnvoll die Werte zu normieren, da die Expression Reads sich in völlig verschiedenen Größenordnungen bewegen können. Eine Möglichkeit ist es, die Werte auf den Bereich von 0 bis 1 zu normieren. 
Normieren Sie die Werte in einer neuen Liste `normalized_values` und geben Sie die normierten Werte aus.

Nutzen Sie hierzu die Formel $x_{\text{norm}} = \frac{x - \min(x)}{\max(x) - \min(x)}$.

In [None]:
my_genes = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions = [5.3, 2.7, 0.1, 1.2, 3.8]



In [None]:
#@title ❓ Click `Show code` in the code cell to show the solution. { display-mode: "form" }
my_genes = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions = [5.3, 2.7, 0.1, 1.2, 3.8]

max_expression = max(my_expressions)
min_expression = min(my_expressions)

normalized_values = []

for expression in my_expressions:
    normalized_value = (expression - min_expression) / (max_expression - min_expression)
    normalized_values.append(normalized_value)

print(normalized_values)

[1.0, 0.5, 0.0, 0.2115384615384615, 0.7115384615384615]


## Bedingungen

Bedingungen erlauben es, Code nur unter bestimmten Bedingungen auszuführen. In Python gibt es die Schlüsselwörter `if`, `elif` und `else`. Wie bei Schleifen wird der Code, der unter einer Bedingung ausgeführt werden soll, eingerückt.


Ein gutes Beispiel ist die Suche nach einem bestimmten Element in einer Liste. Dazu können wir eine Schleife nutzen, die über die Liste iteriert und dann mit einer Bedingung prüft, ob das Element gefunden wurde. Der von uns bisher verfasste Code ist nur begrenzt lesebar. Wir ihn auch mit einer `if`-Bedingung umschreiben.

In [None]:
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    counter = counter + int(codon == "TAA")    

print(counter)

2


Der resultierende Code ist näher an der menschlichen Sprache und daher leichter zu lesen.

In [None]:
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    if codon == "TAA":
        counter = counter + 1

print(counter)

2


Außerdem können wir durch eine `else`-Bedingung sicherstellen, dass wir eine Nachricht ausgeben, wenn das Element nicht gefunden wurde.

In [None]:
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    if codon == "TAA":
        counter = counter + 1

# Hier ist die Einrückung wieder vorne, das bedeutet, dass wir wieder auf der gleichen Ebene sind wie die for-Schleife
if counter > 0:
    print("The sequence contains " + str(counter) + " stop codons.")
else:
    print("The sequence does not contain any stop codons.") 


The sequence contains 2 stop codons.


## Dictionaries

Dictionarys sind eine weitere Möglichkeit, Daten zu speichern. Ein Dictionary ist eine Sammlung von Schlüssel-Wert-Paaren. Ein Dictionary ist durch geschweifte Klammern `{}` gekennzeichnet. Die Schlüssel und Werte in einem Dictionary werden durch Doppelpunken `:` getrennt. Die Schlüssel-Wert-Paare in einem Dictionary werden durch Kommas getrennt.

z.B. können wir unsere Expressionswerte in einem Dictionary speichern, wobei der Genname der Schlüssel und der Expressionwert der Wert ist.


In [None]:
my_dict = {}

my_dict = {"BRCA1": 5.3, "TP53": 2.7, "EGFR": 0.1, "PTEN": 1.2, "CDH1": 3.8}

Der Abruf von Werten in einem Dictionary erfolgt durch den Schlüssel in eckigen Klammern.

In [None]:
print(my_dict["BRCA1"])

5.3


Das Hinzufügen von Werten in einem Dictionary erfolgt durch den Schlüssel in eckigen Klammern und den Wert nach einem Gleichheitszeichen.

In [None]:
my_dict["JAK2"] = 4.

print(my_dict)

{'BRCA1': 5.3, 'TP53': 2.7, 'EGFR': 0.1, 'PTEN': 1.2, 'CDH1': 3.8, 'JAK2': 4.0}


Um zu überprüfen, ob ein Schlüssel in einem Dictionary vorhanden ist, können wir das Schlüsselwort `in` verwenden. Dieses funktioniert auch bei Listen.

In [None]:
print("JAK2" in my_dict)


print(2 in [1,2,3])

True
True


### ✍️ Aufgabe: Überführung von Listen in Dictionaries

Überführen Sie die Liste `gene_names` und `expression_values` in ein Dictionary `expression_dict` und geben Sie das Dictionary aus.



In [None]:
my_genes = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions = [5.3, 2.7, 0.1, 1.2, 3.8]


In [None]:
#@title ❓ Click `Show code` in the code cell to show the solution. { display-mode: "form" }
my_genes = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions = [5.3, 2.7, 0.1, 1.2, 3.8]

index = 0
expression_dict = {}

for gene in my_genes:
    expression_dict[gene] = my_expressions[index]
    index = index + 1

print(expression_dict)




{'BRCA1': 5.3, 'TP53': 2.7, 'EGFR': 0.1, 'PTEN': 1.2, 'CDH1': 3.8}


### 🏆 Bestimmung von Codon-Häufigkeiten

In der Genetik ist es oft sinnvoll die Häufigkeit von Codons zu bestimmen. Dazu können wir die Sequenz in Dreiergruppen aufteilen und dann die Häufigkeit der Codons zählen. Erstellen Sie ein Programm, das die Häufigkeit der Codons in einer Sequenz bestimmt. Das Programm soll ein Dictionary zurückgeben, das die Häufigkeit der Codons enthält. Der Schlüssel des Dictionarys soll das Codon sein und der Wert die Häufigkeit.

Sie müssen dazu für jedes Codon überprüfen, ob es bereits im Dictionary enthalten ist. Dann gibt es eine Fallunterscheidung. Wenn ja, erhöhen Sie den Wert dieses Eintrages um 1. Wenn nein, fügen Sie das Codon als Schlüssel hinzu und setzen den Wert auf 1. Printen Sie am Ende das Dictionary aus.



In [None]:
# Orientieren Sie sich an Code von zuvor
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    counter = counter + int(codon == "TAA")    

print(counter)

In [None]:
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

codons_dict = {}

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    if codon in codons_dict:
        codons_dict[codon] = codons_dict[codon] + 1
    else:
        codons_dict[codon] = 1

print(codons_dict)

{'TGC': 1, 'TAA': 2, 'CCC': 1, 'CTA': 1, 'ATG': 2, 'CCT': 2, 'TCC': 1, 'TTG': 1, 'GAT': 2, 'GTG': 1, 'GTA': 1, 'GCT': 1, 'ATT': 1, 'TTT': 1, 'CTC': 2, 'AGG': 1, 'ATC': 1, 'CGG': 1, 'AAT': 1, 'CGA': 1, 'ACC': 1, 'ATA': 1, 'ACT': 1, 'TTA': 1}
