# Listen und Kontrollstrukturen

Computer sind dann √§u√üerst n√ºtzlich, wenn sie uns wiederkehrende Aufgaben abnehmen. Listen und Kontrollstrukturen sind zwei der wichtigsten Konzepte in der Programmierung, um solche Aufgaben zu automatisieren. In diesem Notebook lernen Sie, wie Sie Listen in Python erstellen und bearbeiten und wie Sie Kontrollstrukturen wie Schleifen und Bedingungen verwenden, um eigene Algorithmen zu schreiben.

## Listen

Listen sind eine Sammlung von Elementen, die √ºber Buchstaben hinaus gehen k√∂nnen. Ansonsten k√∂nnen Listen in Python alles, was Strings k√∂nnen. Listen k√∂nnen auch leere Elemente enthalten. Listen k√∂nnen auch Listen enthalten. Listen k√∂nnen auch Elemente mit unterschiedlichen Datentypen enthalten.
Listen sind in Python durch eckige Klammern `[]` gekennzeichnet. Die Elemente einer Liste werden durch Kommas getrennt.


In [1]:
my_list : list = [1, 2, 3, 4, 5,"a","Wort", True]

print(my_list[6])

Wort


H√§ufig ist es sinnvoll gleichartige Daten in einer Liste zu speichern. Zum Beispiel die Expressionswerte verschiedener Gene in einer Zelle. Entsprechend lassen sich dann Auswertungen durchf√ºhren, um z.B. den das Maximum, Minimum, den Mittelwert zu berechenen.

In [2]:
my_genes : list[str] = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions : list[float] = [5.3, 2.7, 0.0, 1.2, 3.8]

In [3]:
expression_max : float = max(my_expressions)

print("The maximum expression value is: " + str(expression_max))


The maximum expression value is: 5.3


### ‚úçÔ∏è Aufgabe: Berechnung des Durchschnittlichen Expressionswertes

Nutzen Sie die Funktionen `sum()` und `len()` um den durchschnittlichen Expressionswert im Datenset zu berechnen.	

In [None]:
my_expressions : list[float] = [5.3, 2.7, 0.0, 1.2, 3.8]


In [4]:
#@title ‚ùì Click `Show code` in the code cell to show the solution. { display-mode: "form" }

my_genes : list[str] = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions : list[float] = [5.3, 2.7, 0.0, 1.2, 3.8]

length : int = len(my_genes)
expressions_sum : float = sum(my_expressions)

print("The mean expression value is : " + str(expressions_sum/length))

The mean expression value is : 5


### Ver√§ndern von Listen

Mittels `append()` kann ein Element am Ende der Liste hinzugef√ºgt werden. Mit `pop()` kann ein Element an einer bestimmten Position entfernt werden.. Mit `reverse()` kann die Liste umgekehrt werden. Mit `copy()` kann eine Kopie der Liste erstellt werden.

Wichtig ist hierbei, dass es sich um sogenannte "in-place" Operationen handelt. Das bedeutet, dass die Liste ver√§ndert wird und nicht eine neue Liste erstellt wird. Wir m√ºssen also keine Zuweisung zu einer neuen Variable vornehmen.

In [5]:
my_expressions : list[float] = [5.3, 2.7, 0.0, 1.2, 3.8]

my_expressions.sort()

print("The sorted expression values are: " + str(my_expressions))

The sorted expression values are: [0.0, 1.2, 2.7, 3.8, 5.3]


In [6]:
my_expressions.append(3.7)

print("The expression values with the new value are: " + str(my_expressions))

The expression values with the new value are: [0.0, 1.2, 2.7, 3.8, 5.3, 3.7]


In [7]:
my_expressions.reverse()

print("The expression values in reverse order are: " + str(my_expressions))

The expression values in reverse order are: [3.7, 5.3, 3.8, 2.7, 1.2, 0.0]


In [8]:
my_expressions.pop(2)   # remove the third element

print("The expression values with the third element removed are: " + str(my_expressions))

The expression values with the third element removed are: [3.7, 5.3, 2.7, 1.2, 0.0]


### Sortieren einer Liste

Mit der Funktion `sorted()` k√∂nnen Listen sortiert werden. Die Funktion gibt eine neue Liste zur√ºck, die die sortierte Version der urspr√ºnglichen Liste enth√§lt. Die urspr√ºngliche Liste bleibt unver√§ndert.

In [9]:
## Listen

my_expressions : list[float] = [5.3, 2.7, 0.0, 1.2, 3.8]

my_expressions_sorted : list[float] = sorted(my_expressions)

print(my_expressions_sorted)

[0.0, 1.2, 2.7, 3.8, 5.3]


### BLAST-Suche mit Python


Der folgenden Code installiert ein Paket (`biopython`), das es erm√∂glicht die NCBi Datenbank zu durchsuchen und effizient mit Sequenzdaten zu arbeiten. 

Wir gehen davon aus, dass wir eine DNA-Sequenz von einem uns unbekannten Organismus haben. Wir wollen nun bestimmen, um welche Organismus es es sich handelt. Dazu lassen wird die Sequenz in der NCBi Datenbank suchen.

Die Suche gibt uns Treffer (Alignments) zur√ºck. Jeder Treffer verschiedene Eigenschaften, wie z.B. den Namen der Art, die Sequenz, die L√§nge der Sequenz, den Grad der √úbereinstimmung etc.

Wir wollen in erster N√§herung davon aus gehen, dass die Art, die am h√§ufigsten vorkommt, die Art ist, zu der unsere Sequenz geh√∂rt. Dabei ignorieren wir, die Informationen √ºber die √úbereinstimmung und die L√§nge der Sequenz. 

In [10]:
# Installation und Modul-Import
!pip install biopython
from Bio.Blast import NCBIWWW
from Bio.Seq import Seq
from Bio.Blast import NCBIXML



In der Folge nutzen wir [`Seq()`](https://biopython.org/docs/1.75/api/Bio.Seq.html), um ein Sequenzobjekt zu erstellen und [`NCBIWWW.qblast()`](https://biopython.org/docs/1.75/api/Bio.Blast.NCBIWWW.html), um eine BLAST-Suche durchzuf√ºhren. Die Funktion `qblast()` ben√∂tigt die Argumente `program`, `database` und `sequence`. In unserem Fall verwenden wir `blastn` als Programm, `nt` als Datenbank und die Sequenz.


Im folgenden √ºbergeben wir eine Gen-Sequenz, einer unbekannten Spezies, an die Funktion `qblast()`. Die Funktion gibt uns eine Liste an Treffern mit der h√∂chsten √úbereinstimmung zur√ºck. 

**Vorsicht: Die Abfrage kann einige Zeit in Anspruch (ca. 2 Minuten) nehmen.**

**Sie k√∂nnen alternativ auch direkt die Zelle darunter ausf√ºhren, um das Ergebnis zu sehen.**


In [11]:
# Eingabe der Sequenz
sequence_data = Seq("TGCACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTAATG")

# Abfrage der Sequenz in der Datenbank
result_handle = NCBIWWW.qblast("blastn", "nt", sequence_data, hitlist_size = 50)

# Store the result in a file
with open("your_blast.xml", "w") as out_handle:
    out_handle.write(result_handle.read())
result_handle.close()


Schauen Sie sich die [Datei](https://github.com/jhumci/2024_SoSe_BioInformatik/blob/main/docs/data/my_blast.xml) an, die Sie heruntergeladen haben. Welches Feld hat am ehesten die Information, die Sie suchen?

In [12]:
# Im Folgenden ziehen wir die Relevanten Informationen aus der XML-Datei

# Lade Datei von github auf den Server
!wget https://raw.githubusercontent.com/jhumci/2024_SoSe_BioInformatik/main/docs/my_blast.xml

# open the result file
result_handle = open("my_blast.xml")

# geht all the organisms in a list

organism_list = []
for blast_record in NCBIXML.parse(result_handle):
    for alignment in blast_record.alignments:
        organism_list.append(str(alignment.hit_def.split(" ")[0:1][0]))

print(organism_list)

['Salmo', 'Salmo', 'Salmo', 'Salmo', 'Salmo', 'Salmo', 'Salmo', 'Triticum', 'Brassica', 'Ziziphus', 'Kuwaitiella', 'Kuwaitiella', 'Agrostemma', 'Aplysina', 'PREDICTED:', 'Pinus', 'Uncultured', 'Uncultured', 'Uncultured', 'Uncultured', 'Uncultured', 'Uncultured', 'Uncultured', 'Paspalum', 'Quercus', 'Balanophora', 'Hedera', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'Balanophora', 'PREDICTED:']


Leider haben die Eintr√§ge in `hit_def` keine direkte √úbereinstimmung mit den Arten. Sie m√ºssen also die Eintr√§ge in `hit_def` so bearbeiten, dass Sie die Art herauslesen k√∂nnen. Das wird nicht einfach, da die Eintr√§ge in `hit_def` nicht einheitlich sind. Sie m√ºssen also eine Strategie entwickeln, um die Art herauszulesen. Eine M√∂glichkeit ist es nur die ersten beiden Worten zu verwenden, da diese scheinbar √∂fter (wenn auch nicht immer) die Art enthalten).

Mit dem `set()` Befehl k√∂nnen Sie die einzigartigen Eintr√§ge in einer Liste ausgeben. Das kann Ihnen helfen, die Eintr√§ge in `hit_def` zu verstehen.

In [13]:
titles = list(set(organism_list))
titles

['Agrostemma',
 'Triticum',
 'Brassica',
 'Salmo',
 'Uncultured',
 'Balanophora',
 'Kuwaitiella',
 'Ziziphus',
 'Paspalum',
 'Hedera',
 'Aplysina',
 'Quercus',
 'PREDICTED:',
 'Pinus']

### ‚úçÔ∏è Aufgabe: H√§ufigkeit von Elementen in einer Liste

Nutzen Sie die Methode `<list>.count(<entry>)`, um heraus zu finden, wie oft ein Eintrag in einer Liste `organism_list` vorkommt.

In [14]:
#@title ‚ùì Click `Show code` in the code cell to show the solution. { display-mode: "form" }
organism_list.count("Salmo")

7

In [15]:
#@title ‚ùì Click `Show code` in the code cell to show the solution. { display-mode: "form" }
organism_list.count("Pinus")

1

### ‚úçÔ∏è Aufgabe: Diskussion

Diskutieren Sie mit ihren Kommilitonen, in wie fern Sie diese Methode f√ºr die Bestimmung der Art geeignet halten. Was sind die Vor- und Nachteile?

1. Bez√ºglich der Treffer: Ist diese Art die Art zu bestimmen sinnvoll oder kann es hier zu Fehlern kommen?
1. Bez√ºglich Programmierung: Ist dies eher aufwendiger oder schneller als eine Suche auf der BLAST-Webseite? Was w√ºrden Sie gerne weiter automatisieren?

In [16]:
#@title ‚ùì Click `Show code` in the code cell to show the solution. { display-mode: "form" }

# 1. Da wir nicht wissen, wie viele Sequenzen von welchem Organismus in der Datenbank vorhanden sind, k√∂nnen wir nicht sagen, ob wir viele Treffer unter den ersten 50 finden, weil die Treffer gut sind oder weil es viele Treffer in der Datenbank gibt. Wir k√∂nnen erwarten, dass Spezies, die in der Datenbank h√§ufiger vorkommen, auch h√§ufiger unter den Treffern sind.

# 2. Aktuell muss wird die Anzahl der Treffer f√ºr jede Spezies einzeln z√§hlen. Das ist umst√§ndlich und fehleranf√§llig. Wir k√∂nnten die Anzahl der Treffer f√ºr jede Spezies in einer Schleife z√§hlen und in einem Dictionary speichern. Das w√ºrde die Auswertung vereinfachen und das lernen wir als n√§chstes.

## Schleifen

Schleifen sind ein grundlegendes Konzept in der Programmierung. Sie erlauben es, eine Operation mehrmals auszuf√ºhren. In Python gibt es zwei Arten von Schleifen: `for` und `while`.

Meistens wird die `for`-Schleife verwendet, wenn Sie √ºber eine Liste oder einen Strings iterieren. Die `for`-Schleife wird durch das Schl√ºsselwort `for` eingeleitet, gefolgt von einer Variable, die den Wert des aktuellen Elements der Liste enth√§lt, gefolgt von dem Schl√ºsselwort `in`, gefolgt von der Liste, √ºber die iteriert werden soll, gefolgt von einem Doppelpunkt. Der Code, der in der Schleife ausgef√ºhrt werden soll, wird einger√ºckt.


![](https://raw.githubusercontent.com/jhumci/2024_SoSe_BioInformatik/main/docs/images/loop_act.png)

In [17]:
sequence = ["TGCACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTAATG"]

for letter in sequence_data:
    print(letter)

T
G
C
A
C
C
C
C
T
A
A
T
G
C
C
T
T
C
C
T
T
G
G
A
T
G
T
G
G
T
A
G
C
T
A
T
T
T
T
T
C
T
C
A
G
G
A
T
C
C
C
T
C
T
C
C
G
G
A
A
T
C
G
A
A
C
C
A
T
A
A
C
T
G
A
T
T
T
A
A
T
G


### Schleifen √ºber Zahlensequenzen

Die Funktion `range()` erzeugt eine Sequenz von Zahlen. Sie kann mit einem, zwei oder drei Argumenten aufgerufen werden. Wenn sie mit einem Argument aufgerufen wird, erzeugt sie eine Sequenz von Zahlen von 0 bis zu diesem Argument. Wenn sie mit zwei Argumenten aufgerufen wird, erzeugt sie eine Sequenz von Zahlen von dem ersten Argument bis zum zweiten Argument. Wenn sie mit drei Argumenten aufgerufen wird, erzeugt sie eine Sequenz von Zahlen von dem ersten Argument bis zum zweiten Argument, wobei das dritte Argument der Schritt ist.

Beispielsweise wollen wir alle Codons einer Sequenz durchgehen. Dazu k√∂nnen wir die L√§nge der Sequenz durchgehen und dann die Sequenz in Dreiergruppen aufteilen.

In [18]:
sequence = ["TGCACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTAATG"]

for start_position in range(0, len(sequence_data), 3):
    codon = sequence_data[start_position:start_position+3]
    print(codon)

TGC
ACC
CCT
AAT
GCC
TTC
CTT
GGA
TGT
GGT
AGC
TAT
TTT
TCT
CAG
GAT
CCC
TCT
CCG
GAA
TCG
AAC
CAT
AAC
TGA
TTT
AAT
G


Stellen wir uns nun vor, wir wollen Z√§hlen wie oft das Stop-Codon `TAA` in einer Sequenz vorkommt. Dazu k√∂nnen wir die Sequenz in Dreiergruppen aufteilen und dann z√§hlen, wie oft `TAA` vorkommt. Dies k√∂nnen wird durch einen Vergleich mit `==` erreichen. 

In [19]:
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    counter = counter + int(codon == "TAA")    

print(counter)

2


### ‚úçÔ∏è Aufgabe: Normalsierung der Expressionswerte

Bei der Auswertung von Expressionswerten ist es oft sinnvoll die Werte zu normieren, da die Expression Reads sich in v√∂llig verschiedenen Gr√∂√üenordnungen bewegen k√∂nnen. Eine M√∂glichkeit ist es, die Werte auf den Bereich von 0 bis 1 zu normieren. 
Normieren Sie die Werte in einer neuen Liste `normalized_values` und geben Sie die normierten Werte aus.

Nutzen Sie hierzu die Formel $x_{\text{norm}} = \frac{x - \min(x)}{\max(x) - \min(x)}$.

Hinweise: 
- Nutzen Sie die Funktionen `min()` und `max()`, um in zwei Variablen das Minimum und Maximum zu speichern.
- Nutzen Sie eine `for`-Schleife, um √ºber die Werte zu iterieren
- Erstellen Sie eine neue leere Liste `normalized_values = []` und f√ºgen Sie die normierten Werte mittels `append()` hinzu.

In [20]:
my_genes = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions = [5.3, 2.7, 0.1, 1.2, 3.8]



In [21]:
#@title ‚ùì Click `Show code` in the code cell to show the solution. { display-mode: "form" }
my_genes = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions = [5.3, 2.7, 0.1, 1.2, 3.8]

max_expression = max(my_expressions)
min_expression = min(my_expressions)

normalized_values = []

for expression in my_expressions:
    normalized_value = (expression - min_expression) / (max_expression - min_expression)
    normalized_values.append(normalized_value)

print(normalized_values)

[1.0, 0.5, 0.0, 0.2115384615384615, 0.7115384615384615]


## Bedingungen

Bedingungen erlauben es, Code nur unter bestimmten Bedingungen auszuf√ºhren. In Python gibt es die Schl√ºsselw√∂rter `if`, `elif` und `else`. Wie bei Schleifen wird der Code, der unter einer Bedingung ausgef√ºhrt werden soll, einger√ºckt.


Ein gutes Beispiel ist die Suche nach einem bestimmten Element in einer Liste. Dazu k√∂nnen wir eine Schleife nutzen, die √ºber die Liste iteriert und dann mit einer Bedingung pr√ºft, ob das Element gefunden wurde. Der von uns bisher verfasste Code ist nur begrenzt lesebar. Wir ihn auch mit einer `if`-Bedingung umschreiben.


![](https://github.com/jhumci/2024_SoSe_BioInformatik/blob/main/docs/images/loop_condition.png?raw=true)


In [22]:
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    counter = counter + int(codon == "TAA")    

print(counter)

2


Der resultierende Code ist n√§her an der menschlichen Sprache und daher leichter zu lesen.

In [23]:
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    if codon == "TAA":
        counter = counter + 1

print(counter)

2


Au√üerdem k√∂nnen wir durch eine `else`-Bedingung sicherstellen, dass wir eine Nachricht ausgeben, wenn das Element nicht gefunden wurde.

In [24]:
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    if codon == "TAA":
        counter = counter + 1

# Hier ist die Einr√ºckung wieder vorne, das bedeutet, dass wir wieder auf der gleichen Ebene sind wie die for-Schleife
if counter > 0:
    print("The sequence contains " + str(counter) + " stop codons.")
else:
    print("The sequence does not contain any stop codons.") 


The sequence contains 2 stop codons.


## Dictionaries

Dictionarys sind eine weitere M√∂glichkeit, Daten zu speichern. Ein Dictionary ist eine Sammlung von Schl√ºssel-Wert-Paaren. Ein Dictionary ist durch geschweifte Klammern `{}` gekennzeichnet. Die Schl√ºssel und Werte in einem Dictionary werden durch Doppelpunken `:` getrennt. Die Schl√ºssel-Wert-Paare in einem Dictionary werden durch Kommas getrennt.

z.B. k√∂nnen wir unsere Expressionswerte in einem Dictionary speichern, wobei der Genname der Schl√ºssel und der Expressionwert der Wert ist.


In [25]:
my_dict = {}

my_dict = {"BRCA1": 5.3, "TP53": 2.7, "EGFR": 0.1, "PTEN": 1.2, "CDH1": 3.8}

Der Abruf von Werten in einem Dictionary erfolgt durch den Schl√ºssel in eckigen Klammern.

In [26]:
print(my_dict["BRCA1"])

5.3


Das Hinzuf√ºgen von Werten in einem Dictionary erfolgt durch den Schl√ºssel in eckigen Klammern und den Wert nach einem Gleichheitszeichen.

In [27]:
my_dict["JAK2"] = 4.

print(my_dict)

{'BRCA1': 5.3, 'TP53': 2.7, 'EGFR': 0.1, 'PTEN': 1.2, 'CDH1': 3.8, 'JAK2': 4.0}


Um zu √ºberpr√ºfen, ob ein Schl√ºssel in einem Dictionary vorhanden ist, k√∂nnen wir das Schl√ºsselwort `in` verwenden. Dieses funktioniert auch bei Listen.

In [28]:
print("JAK2" in my_dict)


print(2 in [1,2,3])

True
True


### ‚úçÔ∏è Aufgabe: √úberf√ºhrung von Listen in Dictionaries

√úberf√ºhren Sie die Liste `gene_names` und `expression_values` in ein Dictionary `expression_dict` und geben Sie das Dictionary aus.

Sie k√∂nnen dazu eine Variable `index` nutzen, um die Position in der Liste zu speichern damit Sie auf die gleiche Position in der anderen Liste zugreifen k√∂nnen.



In [29]:
my_genes = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions = [5.3, 2.7, 0.1, 1.2, 3.8]


In [30]:
#@title ‚ùì Click `Show code` in the code cell to show the solution. { display-mode: "form" }
my_genes = ["BRCA1", "TP53", "EGFR", "PTEN", "CDH1"]
my_expressions = [5.3, 2.7, 0.1, 1.2, 3.8]

index = 0
expression_dict = {}

for gene in my_genes:
    expression_dict[gene] = my_expressions[index]
    index = index + 1

print(expression_dict)




{'BRCA1': 5.3, 'TP53': 2.7, 'EGFR': 0.1, 'PTEN': 1.2, 'CDH1': 3.8}


### üèÜ Bestimmung von Codon-H√§ufigkeiten

In der Genetik ist es oft sinnvoll die H√§ufigkeit von Codons zu bestimmen. Dazu k√∂nnen wir die Sequenz in Dreiergruppen aufteilen und dann die H√§ufigkeit der Codons z√§hlen. Erstellen Sie ein Programm, das die H√§ufigkeit der Codons in einer Sequenz bestimmt. Das Programm soll ein Dictionary zur√ºckgeben, das die H√§ufigkeit der Codons enth√§lt. Der Schl√ºssel des Dictionarys soll das Codon sein und der Wert die H√§ufigkeit.

Sie m√ºssen dazu f√ºr jedes Codon √ºberpr√ºfen, ob es bereits im Dictionary enthalten ist. Dann gibt es eine Fallunterscheidung. Wenn ja, erh√∂hen Sie den Wert dieses Eintrages um 1. Wenn nein, f√ºgen Sie das Codon als Schl√ºssel hinzu und setzen den Wert auf 1. Printen Sie am Ende das Dictionary aus.



In [31]:
# Orientieren Sie sich an Code von zuvor
sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    counter = counter + int(codon == "TAA")    

print(counter)

2


In [32]:
#@title ‚ùì Click `Show code` in the code cell to show the solution. { display-mode: "form" }

sequence = "TGCTAACCCCTAATGCCTTCCTTGGATGTGGTAGCTATTTTTCTCAGGATCCCTCTCCGGAATCGAACCATAACTGATTTATAAATG"

codons_dict = {}

counter = 0

for start_position in range(0, len(sequence), 3):

    codon = sequence[start_position:start_position+3]
    
    if codon in codons_dict:
        codons_dict[codon] = codons_dict[codon] + 1
    else:
        codons_dict[codon] = 1

print(codons_dict)

{'TGC': 1, 'TAA': 2, 'CCC': 1, 'CTA': 1, 'ATG': 2, 'CCT': 2, 'TCC': 1, 'TTG': 1, 'GAT': 2, 'GTG': 1, 'GTA': 1, 'GCT': 1, 'ATT': 1, 'TTT': 1, 'CTC': 2, 'AGG': 1, 'ATC': 1, 'CGG': 1, 'AAT': 1, 'CGA': 1, 'ACC': 1, 'ATA': 1, 'ACT': 1, 'TTA': 1}


## ü§ì User-Input

Der User-Input ist ein wichtiger Bestandteil der Programmierung. Er erm√∂glicht es, dass der Benutzer mit dem Programm interagieren kann. In Python k√∂nnen wir den User-Input mit der Funktion `input()` erhalten. Die Funktion `input()` gibt den User-Input als String zur√ºck.

In [35]:
the_input = input("Please enter a number: ")

print("The input is: " + the_input)


The input is: 


Verbunden mit einer `while`-Schleife k√∂nnen wir den User-Input so lange abfragen, bis der User das Programm beendet (indem sie z.B. `q` eingibt). Dazu k√∂nnen wir eine `if`-Bedingung nutzen, die den User-Input auf eine bestimmte Zeichenkette pr√ºft.

In [37]:
while True:
    the_input = input("Please enter a number or `q` to quit: ")
    if the_input == "q":
        break
    else:
        print("The input is: " + the_input)

Stellen Sie sich vor, Sie m√∂chten ein Programm schreiben, um m√∂glichst bequem zu speichern, wie oft Ihnen ein bestimmtes Tier begegnet. Sie k√∂nnten das Programm so schreiben, dass es den User f√ºr jedes Tier einen Buchstaben eingeben l√§sst. Wenn der User `q` eingibt, beendet das Programm und gibt die H√§ufigkeit der Tiere aus.

Das Programm soll dann f√ºr jeden Buchstaben die Zahl, wie oft dieser schon eingegeben wurde in einem Dictionary speichern. Wenn der Buchstabe schon im Dictionary vorhanden ist, soll der Wert um 1 erh√∂ht werden. Wenn der Buchstabe noch nicht im Dictionary vorhanden ist, soll der Buchstabe als Schl√ºssel hinzugef√ºgt und der Wert auf 1 gesetzt werden. 

Nach einer Eingabe soll das Dictionary ausgegeben werden. Wenn der User `q` eingibt, soll das Programm beendet werden. Im besten Fall erfolgt die Ausgabe sortiert nach den H√§ufigkeiten.