## imports

In [None]:
#data
import os
from IPython.display import Video
import MDAnalysis as mda
import nglview as nv
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np
from Simulation import *

## functions

In [None]:
def three_to_one(resname):
    # Dictionary mapping three-letter codes to one-letter codes
    three_to_one_dict = {
        'ALA': 'A', 'ARG': 'R', 'ASN': 'N', 'ASP': 'D',
        'CYS': 'C', 'GLN': 'Q', 'GLU': 'E', 'GLY': 'G',
        'HIS': 'H', 'ILE': 'I', 'LEU': 'L', 'LYS': 'K',
        'MET': 'M', 'PHE': 'F', 'PRO': 'P', 'SER': 'S',
        'THR': 'T', 'TRP': 'W', 'TYR': 'Y', 'VAL': 'V'
    }
    one_letter_code = three_to_one_dict.get(resname, 'X')  # 'X' for unknown or non-standard residues

    return one_letter_code

In [None]:
def one_to_three(one_letter):
    # Dictionary mapping one-letter codes to three-letter codes
    one_to_three_dict = {
        'A': 'ALA', 'R': 'ARG', 'N': 'ASN', 'D': 'ASP',
        'C': 'CYS', 'Q': 'GLN', 'E': 'GLU', 'G': 'GLY',
        'H': 'HIS', 'I': 'ILE', 'L': 'LEU', 'K': 'LYS',
        'M': 'MET', 'F': 'PHE', 'P': 'PRO', 'S': 'SER',
        'T': 'THR', 'W': 'TRP', 'Y': 'TYR', 'V': 'VAL'
    }
    
    return one_to_three_dict.get(one_letter, 'UNK')

In [None]:
def plot_letter_histograms(strings, labels):
    plt.figure()
    filename="residue_types_"+"".join(labels)
    all_letters = sorted(set("".join(strings)))  # Get all unique letters in alphabetical order
    transformed_labels = [one_to_three(letter) for letter in all_letters]
    x = np.arange(len(all_letters))  # X positions for bars
    width = 0.2  # Width of each bar
    
    for i, string in enumerate(strings):
        letter_counts = Counter(string)
        total_letters = sum(letter_counts.values())
        densities = [letter_counts.get(letter, 0) / total_letters if total_letters > 0 else 0 for letter in all_letters]
        plt.bar(x + i * width, densities, width=width, label=labels[i], alpha=0.7, color=colors["lines"][i+1])

 

    
    plt.xticks(x + (len(strings) - 1) * width / 2, transformed_labels,rotation=90)  # Adjust x-axis ticks
    plt.xlabel("Amino acid type")
    plt.ylabel("number fraction")
    #plt.title("Letter Frequency Histograms")
    plt.legend()
    plt.savefig(filename +'.png')
    plt.show()

In [None]:
#plots
plt.rcParams['figure.figsize'] = (20,20)  # Adjust the tuple for the desired figure size
plt.rcParams['font.size'] = 25
plt.rcParams['axes.labelsize'] = 25
plt.rcParams['axes.titlesize'] = 25
plt.rcParams['xtick.labelsize'] = 25
plt.rcParams['ytick.labelsize'] = 25
plt.rcParams['legend.fontsize'] = 20
p=0.05 #percentage of values that are labeled
file_res=600


plt.style.use('tableau-colorblind10')  # Example: 'ggplot', 'seaborn-dark', 'bmh', 'tableau-colorblind10'

# Custom color palette (optional)
colors = {
    "background": "#f5f5f5",
    "grid": "#d3d3d3",
    "text": "#333333",
    "lines": ["#1f77b4", "#ff7f0e", "#2ca02c", "#d62728", "#9467bd"]
}

# Apply custom colors
plt.rcParams['axes.facecolor'] = colors["background"]
plt.rcParams['axes.edgecolor'] = colors["text"]
plt.rcParams['axes.grid'] = True
plt.rcParams['grid.color'] = colors["grid"]
plt.rcParams['text.color'] = colors["text"]
plt.rcParams['xtick.color'] = colors["text"]
plt.rcParams['ytick.color'] = colors["text"]

## Willkommen im  STELZL LAB

In [None]:
#start here
from PIL import Image
import matplotlib.pyplot as plt

# Load the images
group1 = Image.open("group2.jpeg")
group2 = Image.open("group1.jpeg")

# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(15, 7))

# Display the first image
axes[0].imshow(group1)
axes[0].axis("off")
axes[0].set_title("Unsere Forschungsgruppe bei der Arbeit")

# Display the second image
axes[1].imshow(group2)
axes[1].axis("off")
axes[1].set_title("Unsere Forschungsgruppe auf dem Weihnachtsmarkt")

# Show the images
plt.show()

## Wir sind eine Computational Biophysics Arbeitsgruppe - wir modelieren und simulieren proteine mit  Hilfe von High performance computing und Molekular Dynamik Simulationen and Machine Learning.

## Hands-on

### Was ist ein Protein (Eiweiß)?

In [None]:
from PIL import Image
import matplotlib.pyplot as plt

# Load the images
muscle = Image.open("arm-muscle-biceps-skeleton-muscle-tension-human-hand-white-background-bones-joints-male-silhouette-medical-354517032.jpg")
protein_content = Image.open("nutrition_de_yogurt.jpg")

# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(15, 7))

# Display the first image
axes[0].imshow(protein_content)
axes[0].axis("off")
axes[0].set_title("Unser Essen enhält Protein al einen \n wichtigen Bestandteil")

# Display the second image
axes[1].imshow(muscle)
axes[1].axis("off")
axes[1].set_title("Unser Körper nutzt Proteine \n um Muskeln zu bilden und zu versorgen.")

# Show the images
plt.show()


### Woraus besteht ein Protein?

In [None]:
# Load the images
protein_structure1 = Image.open("levels-of-protein-structure-1.jpg")
protein_structure2 = Image.open("sticks_surface_ray-5_highres.webp")

# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Display the first image
axes[0].imshow(protein_structure1)
axes[0].axis("off")
axes[0].set_title("Proteine besten aus \n Aminosäuren")

# Display the second image
axes[1].imshow(protein_structure2)
axes[1].axis("off")
axes[1].set_title("So sieht ein Protein aus (als Molekül)")

# Show the images
plt.show()

### Was sind Amino Säuren?

In [None]:
# Load the image
amino_acids = Image.open("Basic_Protein_Structure.png")

# Create a single plot
fig, ax = plt.subplots(figsize=(15, 10))

# Display the image
ax.imshow(amino_acids)
ax.axis("off")
ax.set_title("Atome (C, H, O, N) binden zusammen Amino Säuren, \n Amino Säuren binden zusammen Proteine")

# Show the image
plt.show()

## Lass uns zusammen Protein Sequencen und Strukturen entdecken!

Jedes Protein besteht aus einer bestimmten Reihenfolge von Aminosäuren – so wie Perlen an einer Kette. Man kann diese Reihenfolge mit Buchstaben aufschreiben, wobei jeder Buchstabe für eine bestimmte Aminosäure steht.

Im Labor kann man solche Reihenfolgen herausfinden, zum Beispiel mit fluoreszierenden Markierungen.

Für uns als Wissenschaftler am Computer ist diese Buchstabenreihe der Anfangspunkt. Zu diesem Zeitpunkt wissen wir noch nicht, wie das Protein aussieht.

In [None]:
top='PEI1_07d79.pdb'
name='PEI-1'
u_PEI1=mda.Universe(top)
ca_PEI1=u_PEI1.atoms.intersection(u_PEI1.select_atoms('name CA'))
l=[three_to_one(item) for item in u_PEI1.residues.resnames]
PEI1_sequ=''.join(l)
PEI1_sequ

Um zu verstehen, wie ein Protein aussieht, müssen wir herausfinden, wie es sich zusammenfaltet.

Das wurde lange mit besonderen Experimenten erforscht, zum Beispiel mit Röntgenstrahlen oder sehr starken Mikroskopen (wie Kryo-Elektronenmikroskopie).

Heute kann man dafür auch ein Computerprogramm namens AlphaFold benutzen. Es wurde mit vielen bekannten Daten trainiert und kann jetzt vorhersagen, wie ein Protein gefaltet ist.

## Task: ein Protein falten
https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb

## Task: eine Struktur erforschen:

Open the structure full screen, you can turn and move it around with your mouse. 

In [None]:
#vizualize PEI1
view_PEI1= nv.show_mdanalysis(u_PEI1, default_representation=False) #structure
view_PEI1.add_cartoon(u_PEI1.residues, color="lightblue",opacity=0.5,depthWrite=True)
view_PEI1.center()
view_PEI1

Support for third party widgets will remain active for the duration of the session. To disable support:

### Frage: Wie viele Helices (Spiralen) kannst du finden?

Mach die Struktur auf dem Bildschirm ganz groß und schau sie dir genau an. Schreib deine Antwort dann hier auf.

### Frage: Welche Amino Säuren sind in unserem Protein?

In [None]:
view_PEI1_2= nv.show_mdanalysis(u_PEI1, default_representation=False) #structure
view_PEI1_2.add_cartoon(u_PEI1.residues, color="resname",opacity=0.5,depthWrite=True)
view_PEI1_2.center()
view_PEI1_2

### Frage: Welche Amino Säuren sind grau, in grün und gelb? 

Schreibe deine Antwort hier: 

### Frage: Was ist der Name der häufigsten Amino Säure?

Du kannst die Funktion benutzen:

In [None]:
strings = [PEI1_sequ]
labels = ["PEI1"]

In [None]:
plot_letter_histograms(strings,labels) 

Schreibe deine Antwort hier:

## Task: Wie sehen die unterschiedlichen Amino Säure aus?

In [None]:
tyrosines = u_PEI1.select_atoms("resname TYR")
argenines = u_PEI1.select_atoms("resname ARG")
#serines = u_PEI1.select_atoms("resname []")
#please find all serines (SER)
#[]

In [None]:
view_PEI1_2= nv.show_mdanalysis(u_PEI1, default_representation=False) #structure
view_PEI1_2.add_ball_and_stick(u_PEI1.residues, color="resname",opacity=0.5,depthWrite=True)
view_PEI1_2.add_surface(tyrosines.residues, color="blue",opacity=0.5,depthWrite=True)
view_PEI1_2.add_surface(argenines.residues, color="orange",opacity=0.5,depthWrite=True)
view_PEI1_2.add_surface(serines.residues, color="red",opacity=0.5,depthWrite=True)

#please color all serines (SER) red
#[]
view_PEI1_2.center()
view_PEI1_2

### Frage: Was siehst du wenn du einzoomst? Wie unterscheinden sich Tyrosines und Argenines in ihrer Struktur? 

 Schreibe deine Antwort hier:

### Erinnerung: Ist die AlphaFold Struktur fertig?

## Task: Starte deine eigene Simulation!

### **Starte deine eigene Simulation!**

### Proteine zur Auswahl:
- Vreteno_L1S2
- Vreteno_L1S3
- Vreteno_L2S1
- Vreteno_L4
- Vreteno_S2
- Vreteno_S3
- Vreteno_S4

---

### GROMACS:
GROMACS ist eine Software zur Simulation von Proteinen. Heute nutzen wir sie, um unsere eigene Simulation durchzuführen. Dabei simulieren wir, wie sich ein Protein unter bestimmten Bedingungen verhält.

---

### Ablauf:
Der Ablauf einer Simulation in GROMACS folgt einem bestimmten "Rezept", das aus mehreren Schritten besteht:

1. **Dateiformat anpassen (`pdb_to_gro`)**:
   - Die meisten Proteinstrukturen sind als `.pdb`-Dateien gespeichert. GROMACS arbeitet jedoch mit `.gro`-Dateien.
   - Daher wandeln wir das Proteinformat um, sodass es in GROMACS verwendet werden kann.

2. **Box definieren (`define_box`)**:
   - Da wir das Protein simulieren, benötigen wir einen Bereich, in dem es sich bewegen kann.
   - Diese "Box" stellt den Raum dar, in dem unser Protein existiert. Sie hat periodische Randbedingungen (PBC = Periodic Boundary Condition), was bedeutet, dass das Protein nicht einfach gegen eine Wand stößt, sondern sich wie in einer unendlichen Umgebung verhält.

3. **Solvatisierung (`solvate`)**:
   - Proteine existieren in biologischen Systemen oft in Wasser.
   - Wir fügen Wasser in unsere Box hinzu, damit sich das Protein natürlich bewegen kann.
   - Zudem werden Konterionen hinzugefügt, um das System elektrisch neutral zu halten.

4. **Equilibrierung (`equilibration`)**:
   - In diesem Schritt bringen wir unser System auf eine bestimmte Temperatur und einen bestimmten Druck.
   - Das simuliert die realen Bedingungen, unter denen das Protein funktioniert.
   - Dieser Schritt stellt sicher, dass sich unser Protein natürlich verhält, bevor wir die eigentliche Simulation starten.

5. **Produktionslauf (`production_md`)**:
   - Jetzt beginnt die eigentliche Molekulardynamik-Simulation (MD-Simulation).
   - Das Protein bewegt sich unter realistischen Bedingungen, und wir beobachten seine Struktur und Verhaltensweisen.
   - Unsere Simulation dauert 100 Nanosekunden (1 ns = 0,000000001 s). Auch wenn das sehr kurz erscheint, reicht es, um viele wichtige Prozesse auf atomarer Ebene zu analysieren.


### Befehle:
Wir verwenden einen sogenannten **SimulationManager**, um die Simulation durchzuführen.

Diesem übergeben wir den Namen unseres Proteins:
  ```python
  SimulationManager("Mein Protein")
  ```
Da wir dieses Objekt mehrfach nutzen wollen, speichern wir es in einer Variablen:
  ```python
  sim = SimulationManager("Mein Protein")
  ```
Ab jetzt können wir jeden Simulationsschritt auf **"sim"** ausführen.
Dafür nutzen wir die `execute_step()`-Funktion, die folgende Schritte ausführen kann:
  - `pdb_to_gro`
  - `define_box`
  - `solvate`
  - `equilibration`
  - `production_md`

Diese Befehle werden als Strings (also mit `""`) übergeben:
  ```python
  sim.execute_step("pdb_to_gro")
  ```
  Führt man diesen Befehl aus, wird nach kurzer Zeit das Protein sichtbar.

Um den aktuellen Fortschritt der Simulation zu sehen, kann man folgendes nutzen:
  ```python
  sim.show_progress()
  ```
#### Und jetzt seid ihr dran! Sucht euch eins der Proteine aus und geht die Schritte durch. 

## WICHTIG: Wartet am besten immer bevor euer Protein angezeigt wird bevor ihr den nächsten Schritt macht! Sonst kann es sein, dass unser Programm einfriert 


## Task: Starte deine Simulation

In [None]:
sim = SimulationManager("Vreteno_S2")

In [None]:
sim.execute_step("production_md")

## Task: Schau dir eine Simulation aus unserer Gruppe an

In [None]:
Video("Rde2_recruitment.mp4",width=800)

### Wir untersuchen wie sich Kondensate bilden und wie andere Proteine in das Kondensat aufgenommen werden.

Achte darauf: Die großen Proteinketten (in Grau gezeigt) kommen zusammen und bilden ein Kondensat – ähnlich wie ein Öltropfen im Wasser. Das kleinere Protein (in Orange gezeigt) wird mit der Zeit in dieses große Kondensat aufgenommen.