# Variablen und Operatoren

- Variablen sind Speicherorte für Werte.
- Wie genau die Daten im Speicher abgelegt werden, ist für uns nicht relevant.
- Wichtig ist, dass es verschiedene Datentypen gibt, die z.B. unterschiedlich viel Speicherplatz benötigen (eine Zahl an Versuchen vs. eine DNA-Sequenz).
- Zunächst lernen wir die wichtigsten Datentypen kennen:
    - `int` Integer (Ganzzahlen) 
    - `float` Float (Fließkommazahlen)
    - `str` String (Zeichenketten)
    - `bool` Boolean (Wahrheitswerte)

## Integer (ganze Zahlen) und Float (Dezimalzahlen)


### Deklaration und Initialisierung

- hier wird eine Variable `var1` deklariert und mit dem Wert `0` initialisiert
- die Variable ist nach Ausführung der Zelle im Arbeitsspeicher des PC vorhanden 
- Beim Ausdruck `var1 : int = 0` ist 
    - `var1` der Name der Variable, den wir willkürlich aber sinnvoll wählen
    - `: int` ist der Datentyp der Variable, hier `int` für ganze Zahlen
    - `=` ist der Zuweisungsoperator, mit der wir der Variable den Wert `0` zuweisen

In [1]:
var1 : int = 0

### Print-Befehl und Laufzeit

- der Print-Befehl gibt den Wert der Variable `var1` aus
- alle Variablen und Befehle in einer Zelle werden nacheinander ausgeführt

In [2]:
print(var1)
print(1)

0
1


### ✍️ Aufgabe

- Starten Sie die Laufzeit neu (Menü `Laufzeit` > `Sitzung neu starten`)
- Führen Sie die Zelle mit den `print`-Befehlen erneut aus
- Nun erscheint der folgende Fehler, welcher immer auftritt, wenn der Python-Interpreter auf etwas trifft, das er nicht kennt

```python
NameError                                 Traceback (most recent call last)
Cell In[1], line 1
----> 1 print(var1)
      2 print(1)

NameError: name 'var1' is not defined
```

- Führen Sie auch die Zelle mit der Deklaration und Initialisierung der Variable `var1` aus
- Führen Sie die Zelle mit den `print`-Befehlen erneut aus

## Floats

- Ganze Zahlen sind nur ein Teil der Zahlen, die wir im Alltag verwenden
- Wir verwenden auch Dezimalzahlen, die wir als `float` bezeichnen
- Der Name `float` kommt von "floating point number", was auf die Art und Weise hinweist, wie diese Zahlen im Speicher abgelegt werden
- In den meisten Fällen können wir `int` und `float` gleich behandeln

In [3]:
var2 : float = 0.1
var3 : float = -0.2

#### Umwandlung von `int` in `float`

- Wir können eine `int`-Variable in eine `float`-Variable umwandeln, indem wir den Wert der `int`-Variable mit `float()` umschließen
- Entsprechend funktioniert die Umwandlung von `float` in `int` mit `int()` und auch für andere Datenstrukturen

In [4]:
print(var1)
print(float(var1))

0
0.0


### ✍️ Aufgabe

- Schreiben Sie drei `print()` Befehle, um sowohl die beiden Variable `var1`, `var2`, `var3` auszugeben. Alle sollen als `float` angezeigt werden.

In [5]:
#@title ❓ Click `Show code` in the code cell to show the solution. { display-mode: "form" }

print(float(var1))
print(float(var2))
print(float(var3))

0.0
0.1
-0.2


## Operatoren

### Arithmetische Operatoren

Für Berechnungen stehen uns verschiedene Operatoren zur Verfügung:

- `+, -, *, /` verhalten sich wie gewohnt
- `()` können verwendet werden, um die Reihenfolge der Operationen zu steuern
- `**` ist der Potenz-Operator $2^3$ wird als `2**3` geschrieben
- Es gibt noch einige weitere Operatoren, die in der Programmiersprache Python häufiger verwendet werden können:
    - `%` ist der Modulo-Operator, der den Rest einer Division berechnet
    - `//` ist der Floor-Operator, der den ganzzahligen Anteil einer Division berechnet
    - `@` ist der Matrix-Multiplikations-Operator




### ✍️ Aufgabe: Proteingehalt berechnen

Schreibe ein Python-Programm, das den Proteingehalt einer Aminosäuresequenz berechnet. Verwende dazu die mathematischen Operatoren für die Addition.

Die Sequenz lautet `"ARNDC"`

Legen Sie je eine Variable z.B. `mass_A_dalton` für die Aminosäuren `A`, `R`, `N`, `D`, `C` an und weisen Sie ihnen die Werte `71.07`, `156.18`, `114.04`, `115.08`, `103.01` in [Dalton](https://de.wikipedia.org/wiki/Atomare_Masseneinheit) zu.
Addieren Sie die Werte der Aminosäuren und speichern Sie das Ergebnis in einer Variable `protein_mass_dalton` und printen Sie das Ergebnis.
Rechen Sie das Ergebnis in Kilodalton um und speichern Sie das Ergebnis in einer Variable `protein_mass_kdalton` und printen Sie das Ergebnis.

In [6]:
#@title ❓ Click `Show code` in the code cell to show the solution. { display-mode: "form" }

# Definiere die Masse der einzelnen Aminosäuren
mass_a_dalton : float  = 71.07
mass_r_dalton : float = 156.18
mass_n_dalton : float = 114.04
mass_d_dalton : float = 115.08
mass_c_dalton : float = 103.01

# Berechne den Proteingehalt
protein_content_dalton : float = mass_a_dalton + mass_r_dalton + mass_n_dalton + mass_d_dalton + mass_c_dalton
protein_content_kilodalton : float = protein_content_dalton / 1000

# Gib den Proteingehalt aus
print(protein_content_dalton)

# Gib den Proteingehalt aus
print(protein_content_kilodalton)

559.38
0.55938


In [7]:
#@title ❓ Click `Show code` in the code cell to show the solution. { display-mode: "form" }

# Definiere die Masse der einzelnen Aminosäuren
mass_a_dalton : float = 71.07
mass_r_dalton : float = 156.18
mass_n_dalton : float = 114.04
mass_d_dalton : float = 115.08
mass_c_dalton : float = 103.01

# Berechne den Proteingehalt
protein_content_dalton : float = mass_a_dalton + mass_r_dalton + mass_n_dalton + mass_d_dalton + mass_c_dalton
protein_content_kilodalton : float = protein_content_dalton / 1000

# Gib den Proteingehalt aus
print("Der Proteingehalt beträgt:"+ str(protein_content_dalton) + " Dalton")

# Gib den Proteingehalt aus
print("Der Proteingehalt beträgt:"+ str(protein_content_kilodalton) + " KiloDalton")

Der Proteingehalt beträgt:559.38 Dalton
Der Proteingehalt beträgt:0.55938 KiloDalton


### Vergleichsoperatoren

Verwenden Sie die Vergleichsoperatoren helfen uns dabei herauszufinden, ob zwei Werte gleich sind oder ob ein Wert größer oder kleiner ist als ein anderer Wert. Zunächst beschränken wir uns auf die Vergleichsoperatoren für Zahlen (Viele Vergleichsoperatoren können auch auf andere Datenstrukturen angewendet werden, aber das ist ein Thema für später). Hier sind die wichtigsten Vergleichsoperatoren:

* `==` prüft, ob zwei Werte gleich sind
* `!=` prüft, ob zwei Werte ungleich sind
* `>` prüft, ob der linke Wert größer ist als der rechte Wert
* `<` prüft, ob der linke Wert kleiner ist als der rechte Wert
* `>=` prüft, ob der linke Wert größer oder gleich ist wie der rechte Wert
* `<=` prüft, ob der linke Wert kleiner oder gleich ist wie der rechte Wert

In [8]:
print(1==1)

True


In [9]:
print(2.0>=1)

True


### ✍️ Aufgabe: Proteingehalt berechnen

- Kopieren Sie die Lösung von oben und ergänzen Sie ein Statement, welches prüft, ob der Proteingehalt größer als der Wert in einer Variable `threshold = 500` Dalton ist und printen Sie das Ergebnis.

In [10]:
#@title ❓ Click `Show code` in the code cell to show the solution. { display-mode: "form" }

# Definiere Threshold
threshold : int = 500

# Definiere die Masse der einzelnen Aminosäuren
mass_a_dalton : float = 71.07
mass_r_dalton : float = 156.18
mass_n_dalton : float = 114.04
mass_d_dalton : float = 115.08
mass_c_dalton : float = 103.01

# Berechne den Proteingehalt
protein_content_dalton : float = mass_a_dalton + mass_r_dalton + mass_n_dalton + mass_d_dalton + mass_c_dalton

print(protein_content_dalton>threshold)



True


## Wahrheitswerte  und Boolsche Variabeln

- Boolsche Variablen können nur zwei Werte annehmen: `True` oder `False`
- Sie sind der wichtigste Datentyp in der IT und Digitaltechnik, da alle Datentypen und Operationen hierauf zurückgeführt werden können
- Boolsche Variablen können z.B. durch Vergleichsoperatoren erzeugt werden oder direkt deklariert werden
- Oft macht es Sinn die Variable mit einem sinnvollen Namen zu benennen, z.B. `is_<>`zu benennen, um zu verdeutlichen, dass es sich um einen Wahrheitswert handelt

In [11]:
is_very_heavy_protein : bool = False
is_toxic : bool = True

### Logische Operatoren

Helfen uns Wahrheitswerte zu verknüpfen. Hier sind die wichtigsten logischen Operatoren:
- `and` verknüpft zwei Wahrheitswerte mit einem logischen UND
- `or` verknüpft zwei Wahrheitswerte mit einem logischen ODER
- `not` negiert einen Wahrheitswert
- `( )` können verwendet werden, um die Reihenfolge der Operationen zu steuern

#### Logisches UND	

Die Auswertung eines logischen UND ist nur dann wahr, wenn beide Operanden wahr sind. In allen anderen Fällen ist das Ergebnis falsch. Dies Operatoren können als Wahrheitstabelle dargestellt werden:

| `a` | `b` | `a and b` |
|---|---|---------|
| `F` | `F` | `F`       |
| `F` | `T` | `F`       |
| `T` | `F` | `F`       |
| `T` | `T` | `T`       |

In [12]:
### Vergleichsoperatoren
a : bool = True
b : bool = False
c : bool = a and b
print(c)

False


Beispielsweise lässt sich so automatisiert auswerten, ob wir ein Protein vorliegen haben, das gleichzeitig schwer und toxisch ist.

In [13]:
is_very_heavy_protein : bool = True
is_toxic : bool = False
is_very_heavy_protein_and_toxic : bool = is_very_heavy_protein and is_toxic
print(is_very_heavy_protein_and_toxic)

False


#### Logisches ODER

Die Auswertung eines logischen ODER ist wahr, wenn mindestens einer der Operanden wahr ist. In allen anderen Fällen ist das Ergebnis falsch. Dies Operatoren können als Wahrheitstabelle dargestellt werden:

| `a` | `b` | `a or b` |
|---|---|---------|
| `F` | `F` | `F`       |
| `F` | `T` | `T`       |
| `T` | `F` | `T`       |
| `T` | `T` | `T`       |

In [14]:
is_very_heavy_protein : bool = True
is_toxic : bool = False
is_either_very_heavy_protein_or_toxic : bool = is_very_heavy_protein or is_toxic
print(is_either_very_heavy_protein_or_toxic)

True


#### Logisches NICHT

Die Auswertung eines logischen NICHT ist wahr, wenn der Operand falsch ist. In allen anderen Fällen ist das Ergebnis falsch. Dies Operatoren können als Wahrheitstabelle dargestellt werden:

| `a` | `not a` |
|---|---------|
| `F` | `T`       |
| `T` | `F`       |

#### Verknüpfung von logischen Operatoren

Die logischen Operatoren können auch miteinander verknüpft werden. Die Reihenfolge der Auswertung ist dabei wie folgt:
* Klammern
* NICHT
* UND
* ODER

In [15]:
is_very_heavy_protein : bool = True
is_toxic : bool = False
is_very_light_protein_and_toxic : bool = not(is_very_heavy_protein) and is_toxic
print(is_very_light_protein_and_toxic)

False


### Logik Gatter

Diese Logischen Operatoren lassen sich elektrotechnisch leicht umsetzen sind sind auch heute noch in miniturisierter Form in jedem Computer verbaut.
![](https://blog.to.com/wp-content/uploads/2019/10/2-logikgatter-wie-rechnet-der-computer.jpg)


### ✍️ Aufgabe: Automatisierte Entscheidung über Vorliegen einer Krankheit

Gegeben ist eine vereinfachte Wahrheitstabelle für die Proteinexpression für drei Proteine `prot_A`, `prot_B`, `prot_C` und die Krankheit `K`. Die Wahrheitstabelle beschreibt, bei welchen Expressionsmustern die  Krankheit vor liegt. Schreiben Sie ein Python-Programm, das die Wahrheitstabelle auswertet und entscheidet, ob die Krankheit vorliegt.

| `prot_A` | `prot_B` | `prot_C` | `K` |	
|---|---|---|---|
| `F` | `F` | `F` | `F` |
| `F` | `F` | `T` | `T` |
| `F` | `T` | `F` | `F` |
| `F` | `T` | `T` | `T` |
| `T` | `F` | `F` | `F` |
| `T` | `F` | `T` | `F` |
| `T` | `T` | `F` | `F` |
| `T` | `T` | `T` | `T` |


Erstellen Sie einen Ausdruck, der prüft, ob die Krankheit vorliegt und printen Sie das Ergebnis.

```python
prot_A : bool = False
prot_B : bool = True
prot_C : bool = False
```

Gehen Sie wie folgt vor:
* beachten Sie nur die Zeilen, die für die der Wert `K` wahr ist
* Formulieren Sie für jeder dieser Zeilen eine Bedingung, die wahr ist, wenn die Bedingung erfüllt ist
* Verknüpfen Sie die Bedingungen mit dem logischen ODER

In [16]:
#@title ❓ Click `Show code` in the code cell to show the solution. { display-mode: "form" }

prot_A : bool = False
prot_B : bool = True
prot_C : bool = True


zeile2 : bool = (not(prot_A) and not(prot_B) and prot_C)
zeile4 : bool = (not(prot_A)  and prot_B and prot_C)
zeile8 : bool = (prot_A and prot_B and prot_C)

k : bool = zeile2 or zeile4 or zeile8

print(k)

True


## Strings (Zeichenketten)

Häufig müssen wir mit Texten arbeiten, um Informationen an User zu übermitteln oder um Sequenzdaten zu verarbeiten. In Python werden Texte als `str` (für String) bezeichnet. Ein String ist eine Sequenz von Zeichen, die in Anführungszeichen eingeschlossen sind. Python erkennt automatisch, ob ein Wert ein String ist, wenn er in Anführungszeichen eingeschlossen ist. Es gibt drei Möglichkeiten, Strings zu definieren:
- mit einfachen Anführungszeichen: `'Hallo'`
- mit doppelten Anführungszeichen: `"Hallo"`
- mit dreifachen Anführungszeichen: `'''Hallo'''` oder `"""Hallo"""`
Alle drei Varianten sind gleichwertig, aber die doppelten Anführungszeichen sind in der Praxis am häufigsten anzutreffen.

### Konkatenations-Operator

Die Einfachsten Operationen, die wir auf Strings anwenden können, sind die Konkatenation und die Vervielfältigung. Der Konkatenations-Operator `+` verbindet zwei Strings zu einem neuen String. Der Vervielfältigungs-Operator `*` vervielfältigt einen String um eine bestimmte Anzahl von Malen.
- Strings können mit dem `+`-Operator aneinandergehängt werden
- Strings können mit dem `*`-Operator vervielfacht werden

Dies hilft uns z.B. Dabei, Informationen in einer für den User verständlichen Form zu präsentieren. Z.B. können wir Berechnung des Proteingehalts in einer für den User verständlichen Form präsentieren.



In [17]:
# Definiere Threshold
threshold : int = 500

# Definiere die Masse der einzelnen Aminosäuren
mass_a_dalton : float = 71.07
mass_r_dalton : float = 156.18
mass_n_dalton : float = 114.04
mass_d_dalton : float = 115.08
mass_c_dalton : float = 103.01

# Berechne den Proteingehalt
protein_content_dalton : float = mass_a_dalton + mass_r_dalton + mass_n_dalton + mass_d_dalton + mass_c_dalton

print(protein_content_dalton>threshold)

print("Der Proteingehalt beträgt: "+ str(protein_content_dalton) + " Dalton")

True
Der Proteingehalt beträgt: 559.38 Dalton


Wichtig ist dabei, dass Python keine automatische Typumwandlung vornimmt. Das bedeutet, dass wir z.B. eine Zahl in einen String umwandeln müssen, wenn wir sie mit einem anderen String verknüpfen wollen. Dazu verwenden wir die Funktion `str()`.

In [18]:
print("Der Proteingehalt beträgt: "+ protein_content_dalton + " Dalton")

TypeError: can only concatenate str (not "float") to str

### String-Methoden

Methoden sind Funktionen, die auf einem Objekt aufgerufen werden. Ein String ist ein Objekt und hat daher eine Reihe von Methoden, die wir verwenden können, um den String zu manipulieren. Hier sind einige der wichtigsten Methoden:
- `upper()` wandelt alle Buchstaben in Großbuchstaben um
- `lower()` wandelt alle Buchstaben in Kleinbuchstaben um
- `replace()` ersetzt einen Teil des Strings durch einen anderen Teil

Beispielsweise wird RNA-Sequenz in Kleinbuchstaben übergeben, die wird mit einer weiteren in Großbuchstaben vergleichen wollen.

In [None]:
seq_1 : str = "ACGT"
seq_2 : str = "acgt"

print(seq_1 == seq_2)

False


Durch die Anwendung von `upper()` und `lower()` können wir sicherstellen, dass die Groß- und Kleinschreibung keine Rolle spielt.

In [None]:
print(seq_1.upper() == seq_2.upper())

Ein weiteres häufiges Problem ist, dass wir in einem String nach einem bestimmten Muster suchen wollen. Dazu verwenden wir die Methode `find()`. Diese Methode gibt die Position des ersten Vorkommens eines Musters in einem String zurück. Wenn das Muster nicht gefunden wird, gibt die Methode `-1` zurück.

Der `find()`-Methode können wir in den Klammern Parameter übergeben, die die Suche einschränken. Hierzu ist es wichtig, die [Dokumentation](https://www.w3schools.com/python/ref_string_find.asp) zu lesen, um die Methode korrekt zu verwenden. An den Beispielen erkennen wird, dass die Methode `find()` die Position des ersten Vorkommens eines Musters in einem String zurückgibt und wir ihr einen zweiten String übergeben können, nach dem wir suchen wollen.

`<string_in_dem_wir_suchen>.find(<string_den_wir_suchen>)`

In [None]:
string_in_dem_wir_suchen : str = "ATGGTACGTCGA"
string_den_wir_suchen : str = "TCG"
position : int = string_in_dem_wir_suchen.find(string_den_wir_suchen)
print("Found it at position: " + str(position))

Found it at position: 8


### ✍️ Aufgabe: Angleichen von Sequenzdaten

Ein weiteres häufiges Problem ist, dass wird zwei Sequenzen vergleichen wollen, wobei aber z.B. umbenannte Basen (z.B. `U` statt `T`) oder Leerzeichen (z.B. ` ` statt `-`) vorkommen. Bevor wird diese vergleichen können, müssen wir die Sequenzen in eine einheitliche Form bringen.
Hier hilft uns die `replace()`-[Methode](https://www.w3schools.com/python/ref_string_replace.asp).

`string_den_wir_verändern.replace(<was_wir_ersetzen>, <womit_wir_ersetzen>)`

Untersuchen Sie, ob die Sequenz `seq1` in der Sequenz `seq2` vorkommt nachdem Sie mittels `upper()` und `replace()` die Sequenzen in eine einheitliche Form gebracht haben. Speichern Sie das Ergebnis in einer Boolean-Variable `seq1_in_seq2` und printen Sie das Ergebnis.


In [None]:
seq_1 : str = "ATGGTACGT*CGTACGTCA*TACGTACGTCTA**CGTGGTACGTCGTCTC"
seq_2 : str = "tcg_g"


In [None]:
#@title ❓ Click `Show code` in the code cell to show the solution. { display-mode: "form" }

seq_1 : str = "ATGGTACGT*CGTACGTCA*TACGTACGTCTA**CGTGGTACGTCGTCTC"
seq_2 : str = "tcg_g"

seq_1 = seq_1.replace("*", "*")
seq_2 = seq_2.replace("_", "_")
seq_1 = seq_1.upper()
seq_2 = seq_2.upper()
position : int = seq_1.find(seq_2)

print("Found: " + str(position>=0))

Found: False


### Index- und Slice-Operatoren

- Der Index-Operator `[]` gibt das Zeichen an einer bestimmten Position in einem String zurück
- Der Slice-Operator `[:]` gibt eine Teilsequenz eines Strings zurück
- Der Slice-Operator kann auch mit einem dritten Parameter verwendet werden, um die Schrittweite anzugeben
- Der Index-Operator kann auch mit einem negativen Index verwendet we

In Python und vielen anderen Sprachen beginnt die Indexierung des ersten Elements mit `0`

In [None]:
seq_1 : str = "ATGGTACGT*CGTACGTCA*TACGTACGTCTA**CGTGGTACGTCGTCTC"

seq_1[0]

'A'

Mittels `<start>:<end>` können Bereiche ausgewählt werden

In [None]:
seq_1 : str = "ATGGTACGT*CGTACGTCA*TACGTACGTCTA**CGTGGTACGTCGTCTC"

seq_1[0:3]

'ATG'

Dadurch, dass die Nummerierung bei `0` startet, erhalten wir die Position des letzten Elements, indem wir die Länge des Strings verwenden und 1 abziehen. Die Länge eines Strings können wir mit der Funktion `len()` ermitteln.

In [None]:
seq_1 : str = "ATGGTACGT*CGTACGTCA*TACGTACGTCTA**CGTGGTACGTCGTCTC"

len(seq_1)

50

In [None]:
seq_1[len(seq_1)]

IndexError: string index out of range

In [None]:
seq_1[len(seq_1)-1]

'C'

### 🏆 Aufgabe: Letztes vollständiges Codon

Überprüfen Sie die Länge der Sequenz `seq1` und ob die Länge einem Vielfachen von 3 entspricht und printen Sie das letzte vollständige Codon. Behelfen Sie sich dabei, dass Sie die Operatoren `//` und `%` verwenden können. Googlen Sie deren Funktionen.

In [None]:
#@title ❓ Click `Show code` in the code cell to show the solution. { display-mode: "form" }
seq_1 :str = "ATGGTACGT*CGTACGTCA*TACGTACGTCTA**CGTGGTACGTCGTCTC"

lenth_seq1 = len(seq_1)
print("Length: " + str(lenth_seq1))

is_multiple_3 = lenth_seq1 % 3 == 0
print("The lenth is a multiple of 3: " + str(is_multiple_3))

last_index = lenth_seq1 // 3 *3
print("The last index of the Last codon is: " + str(last_index))

print("The last full codon is: " + seq_1[last_index-3:last_index])


Length: 50
The lenth is a multiple of 3: False
The last index of the Last codon is: 48
The last full codon is: GTC
