# DNABio Project - Genetics10
##### Copyright Joan Alcaide Núñez, 2024, er darf unter der MIT-Lizenz verwendet werden
##### Weitere Informationen und das Benutzerhandbuch finden Sie im Repository auf [Joanalnu's GitHub](https://github.com/joanalnu/Genetics10)

In [None]:
!pip install py3dmol

In [4]:
# Führen Sie diese Zelle am Anfang nur 1 Mal aus

# clone alphfold repository
#!git clone https://github.com/deepmind/alphafold.git
#!cd alphafold

# importieren von nötige Libraries
from random import randint
import pandas as pd
import os
import requests
import py3Dmol


class Genetics10():
    def __init__(self):
        # Variablen einrichten
        self.sample = 1
        self.dirpath = os.path.dirname(os.path.abspath(__doc__))

    def dna2rna(self, dna):
        """Gibt RNA-String durch Eingabe eines DNA-Strings zurück"""
        rna = ""
        for base in dna:
            if base=='A' or base=='a':
                rna+='U'
            elif base=='T' or base=='t':
                rna+='A'
            elif base=='C' or base=='c':
                rna+='G'
            elif base=='G' or base=='g':
                rna+='C'
            else:
                print('Fehler: Die angegebene DNA-Zeichenkette konnte nicht gelesen werden.')
        return rna

    def rna2amino(self, rna):
        """Gibt Aminosäuren durch Eingabe einer RNA-Zeichenkette zurück"""
        amino=''
        codon_catalog = {'UUU': 'Phe', 'UUC': 'Phe', 'UUA': 'Leu', 'UUG': 'Leu',
            'UCU': 'Ser', 'UCC': 'Ser', 'UCA': 'Ser', 'UCG': 'Ser',
            'UAU': 'Tyr', 'UAC': 'Tyr', 'UAA': 'STOP', 'UAG': 'STOP',
            'UGU': 'Cys', 'UGC': 'Cys', 'UGA': 'STOP', 'UGG': 'Trp',
            'CUU': 'Leu', 'CUC': 'Leu', 'CUA': 'Leu', 'CUG': 'Leu',
            'CCU': 'Pro', 'CCC': 'Pro', 'CCA': 'Pro', 'CCG': 'Pro',
            'CAU': 'His', 'CAC': 'His', 'CAA': 'Gln', 'CAG': 'Gln',
            'CGU': 'Arg', 'CGC': 'Arg', 'CGA': 'Arg', 'CGG': 'Arg',
            'AUU': 'Ile', 'AUC': 'Ile', 'AUA': 'Ile', 'AUG': 'Met',
            'ACU': 'Thr', 'ACC': 'Thr', 'ACA': 'Thr', 'ACG': 'Thr',
            'AAU': 'Asn', 'AAC': 'Asn', 'AAA': 'Lys', 'AAG': 'Lys',
            'AGU': 'Ser', 'AGC': 'Ser', 'AGA': 'Arg', 'AGG': 'Arg',
            'GUU': 'Val', 'GUC': 'Val', 'GUA': 'Val', 'GUG': 'Val',
            'GCU': 'Ala', 'GCC': 'Ala', 'GCA': 'Ala', 'GCG': 'Ala',
            'GAU': 'Asp', 'GAC': 'Asp', 'GAA': 'Glu', 'GAG': 'Glu',
            'GGU': 'Gly', 'GGC': 'Gly', 'GGA': 'Gly', 'GGG': 'Gly'
        }
        for i in range(0, len(rna)-2, 3):
            codon = str(rna[i]+rna[i+1]+rna[i+2])
            if codon in codon_catalog:
                if codon_catalog[codon]=='STOP':
                    break
                amino+= ' ' + codon_catalog[codon]
            else:
                return f'Error: invalid codon {codon}'
        return amino

    def dna2amino(self, dna):

        rna = ""
        for base in dna:
            if base=='A' or base=='a':
                rna+='U'
            elif base=='T' or base=='t':
                rna+='A'
            elif base=='C' or base=='c':
                rna+='G'
            elif base=='G' or base=='g':
                rna+='C'
            else:
                print('Fehler: Die angegebene DNA-Zeichenkette konnte nicht gelesen werden.')
        
        amino=''
        """Gibt Aminosäuren durch Eingabe einer DNA-Zeichenkette zurück"""
        codon_catalog = {'UUU': 'Phe', 'UUC': 'Phe', 'UUA': 'Leu', 'UUG': 'Leu',
            'UCU': 'Ser', 'UCC': 'Ser', 'UCA': 'Ser', 'UCG': 'Ser',
            'UAU': 'Tyr', 'UAC': 'Tyr', 'UAA': 'STOP', 'UAG': 'STOP',
            'UGU': 'Cys', 'UGC': 'Cys', 'UGA': 'STOP', 'UGG': 'Trp',
            'CUU': 'Leu', 'CUC': 'Leu', 'CUA': 'Leu', 'CUG': 'Leu',
            'CCU': 'Pro', 'CCC': 'Pro', 'CCA': 'Pro', 'CCG': 'Pro',
            'CAU': 'His', 'CAC': 'His', 'CAA': 'Gln', 'CAG': 'Gln',
            'CGU': 'Arg', 'CGC': 'Arg', 'CGA': 'Arg', 'CGG': 'Arg',
            'AUU': 'Ile', 'AUC': 'Ile', 'AUA': 'Ile', 'AUG': 'Met',
            'ACU': 'Thr', 'ACC': 'Thr', 'ACA': 'Thr', 'ACG': 'Thr',
            'AAU': 'Asn', 'AAC': 'Asn', 'AAA': 'Lys', 'AAG': 'Lys',
            'AGU': 'Ser', 'AGC': 'Ser', 'AGA': 'Arg', 'AGG': 'Arg',
            'GUU': 'Val', 'GUC': 'Val', 'GUA': 'Val', 'GUG': 'Val',
            'GCU': 'Ala', 'GCC': 'Ala', 'GCA': 'Ala', 'GCG': 'Ala',
            'GAU': 'Asp', 'GAC': 'Asp', 'GAA': 'Glu', 'GAG': 'Glu',
            'GGU': 'Gly', 'GGC': 'Gly', 'GGA': 'Gly', 'GGG': 'Gly'
        }
        for i in range(0, len(rna)-2, 3):
            codon = str(rna[i]+rna[i+1]+rna[i+2])
            if codon in codon_catalog:
                if codon_catalog[codon]=='STOP':
                    break
                amino+= ' ' + codon_catalog[codon]
            else:
                return f'Fehler: ungültiges Codon {codon}'
        return amino

    def vergleichen(self, original, copy):
        """Vergleicht zwei verschiedene Zeichenketten (Original, Kopie) und gibt die Unterschiede"""
        if len(original) != len(copy):
            return 'not same length'
        else:
            for i in range(len(original)):
                if original[i]!=copy[i]:
                    return f'Unterschiede in der {i} Base/Aminosäure'
            return "Identisch"

    def checken(self, string):
        if len(string)%3 == 0:
            if string[:-3]=='TAC' and (string[-3]=='ATT' or string[-3]=='ATC' or string[-3]=='ACC'):
                return 'Gültiger DNA-String'
            elif string[:-3]=='AUG' and (string[-3]=='UAA' or string[-3]=='UAG' or string[-3]=='UGG'):
                return 'Gültiger RNA-String'
            else:
                return 'Ungültiger String (Start-/Endcodons nicht gefunden)'

    def input_lesen(self, path):
        """Wenn string, wird string zurückgegeben; wenn ein txt-Dateipfad, wird string in file zurückgegeben"""
        if path[-3:]=='txt':
            try:
                file = open(f'{self.dirpath}/{path}', 'r')
                contents = list()
                for line in file:
                    contents.append(line.replace('\n', ''))
                return contents
            except OSError or KeyError:
                return 'Die Datei konnte nicht geöffnet werden, bitte sehen Sie im Benutzerhandbuch nach.'
        else:
            return path

    def mutation_erstellen(self, string):
        mutated = ""
        muttype = randint(1, 6)
        index = randint(0, len(string)-1)
        for i in range(len(string)):
            if i == index:
                if muttype==1: # change for A
                    mutated+='A'
                elif muttype==2: # change for T
                    mutated+='T'
                elif muttype==3: # change for C
                    mutated+='C'
                elif muttype==4: # change for G
                    mutated+='G'
                elif muttype==5: # remove base
                    continue
                elif muttype==6: # add random base
                    base = randint(1, 4)
                    if base==1: mutated+='A'
                    elif base==2: mutated+='T'
                    elif base==3: mutated+='C'
                    elif base==4: mutated+='G'
            else:
                mutated+=string[i]
        return mutated

    def iterieren(self, strings, functions):
        """Erstellt eine CSV-Datei in Ihrem Verzeichnis mit den von Ihnen angeforderten Informationen."""
        """Das Argument besteht aus einer Liste von Zeichenketten und einer Liste von Funktionen"""
        columns = ['input']+[function for function in functions]
        df = pd.DataFrame(columns=columns)
        
        for string in strings:
            memory = [string]
            for function in functions:
                result = getattr(self, function)(memory[-1])
                memory.append(result)
            df = pd.concat([df, pd.DataFrame([memory], columns=columns)], ignore_index=True)
        
        df.to_csv(f'{self.dirpath}/Ergebnis.csv', index=False)
        return df

    def zueinfach(self, sin):
        inp = sin.split()
        sout=''
        for base in inp:
            sout+=base[0]
        return sout

    def alphafold_struktur(self, uniprot_id):
        url = f'https://alphafold.ebi.ac.uk/api/prediction/{uniprot_id}'
        response = requests.get(url)
        if response.status_code == 200:
            request_output = response.json()
            return request_output[0]
        else:
            print(f'Daten können nicht abgerufen werden: {response.status_code}')
            return None
    
    def download_pdb(self, url):
        response = requests.get(url)
        if response.status_code == 200:
            with open(f'{self.dirpath}/alphafold_protein__struktur.pdb', 'wb') as f:
                f.write(response.content)
            return True
        else:
            return False

    def protein_generieren(self, structure_dict):
        url = structure_dict['pdbUrl']
        
        if self.download_pdb(url):
            filepath = f'{self.dirpath}/alphafold_protein__struktur.pdb'
            pdb_file = open(filepath).read()
            view = py3Dmol.view(width=400, height=400)
            view.addModel(pdb_file, 'pdb')
            view.setStyle({'cartoon': {'color': 'spectrum'}})
            view.zoomTo()
            return view.show()

biogen = Genetics10()

ModuleNotFoundError: No module named 'py3Dmol'

# Schreibe dein eingenen Code mit Hilfe der Funktionen

### Verfügbare Funktionen der Klasse biogen:

1. ```dna2rna(string)```
    Umschreib die angegebene DNA-Zeichenkette in eine RNA-Zeichenkette durch Änderung der Basen (A->U, T-> A, C->G, G->C).
   
2. ```rna2amino(string)```
    Umschreib den angegebenen RNA-String in einen Aminosäurestring, indem er Codons (3x Basen) liest und den Katalog verwendet.

3. ```dna2amino(string)```
    Umschreibt DNA-Strings direkt in Aminosäurestrings, es ist eine Verschmelzung der Funktionen ```dna2rna``` und ```rna2amino```.

4. ```vergleichen(string, string)```
    Vergleicht die Strings (unabhängig davon, ob es sich um DNA, RNA oder Aminosäuren handelt) und gibt immer wo sich die Strings unterscheiden.

5. ```checken(string)```
    Prüft, ob der angegebene String ein gültiger DNA- oder RNA-String ist. Aminosäureketten werden nicht geprüft.

6. ```input_lesen(string)```
    Wird verwendet, um Dateien zu öffnen, wenn ein Weg (path) statt eines DNA-Strings als Input angegeben wird.

7. ```mutation_erstellen(string)```
    Gibt einen neuen String mit einer Mutation zurück (nur 1 pro Lauf). Die Mutation kann eine Base verändern, eine Base löschen oder eine neue an einer beliebigen Position hinzufügen.
   
8. ```iterieren(list, list)```
    Sie müssen eine Liste von Eingaben (z.B. DNAs) und eine Liste von Funktionen (z.B. ['dna2rna', 'rna2amino']) eingeben. Dann gibt diese Funktion eine Tabelle mit allen Eingaben für jede Eingabe zurück.

9. ```zueinfach()```
   Bei Eingabe einer Aminosäuresequenz mit drei Buchstaben wird eine Aminosäuresequenz mit einem Buchstaben zurückgegeben. ('Met Val' -> 'MV')

10. ```alphafold_struktur(string)```
    Diese Funktion gibt die Ausgabe (dictionary) des Alphafold-Modells zurück, wenn eine UniProt-ID eingegeben wird.

11. ```generate_protein(dictionary)```
    Diese Funktion liefert eine Visualisierung eines Proteins durch Eingabe der Ausgabe der Funktion ```alphafold_struktur()```.

# Beispiel für die Übersetzung von DNA in RNA und Amionsäuren

In [10]:
# input
dna = 'TACCACGTGGACTGAGGACTCCTCATT' # DNA-String verfügen

# Umschreibung in RNA
rna = biogen.dna2rna(dna)
print(rna)

# Umschreibung in Aminosäuren
amino = biogen.rna2amino(rna)
print(amino)

AUGGUGCACCUGACUCCUGAGGAGUAA
 Met Val His Leu Thr Pro Glu Glu


# Beispiel für die Entstehung einer Mutation

In [11]:
# input
dna = 'TACCACGTGGACTGAGGACTCCTCATT' #DNA-String verfügen

# Mutation erzeugen
mutation = biogen.mutation_erstellen(dna)
print(mutation)

# den Ort finden, an dem die Mutation stattgefunden hat
index = biogen.vergleichen(dna, mutation)
print(index)

TACCACGTGGACTGAAGACTCCTCATT
Difference in 15 base/amino


# Beispiel für das Öffnen einer txt-Datei und die Verwendung der Iteration

In [12]:
# input Datei lesen
dnas = biogen.input_lesen('my_dnas.txt') # Beachten Sie, dass Sie eine Datei mit demselben Namen in demselben Ordner wie diese Datei gespeichert haben müssen.
functions = ['mutation_erstellen', 'dna2rna', 'rna2amino'] # Welche Funktionen möchten Sie ausführen?
output = biogen.iterieren(dnas, functions) # Iterationsfunktionen aufrufen
output # Ausgabe von iterate() anzeigen

Unnamed: 0,input,mutation_erstellen,dna2rna,rna2amino
0,TACCACGTGGACTGAGGACTCCTCATT,TACCACGTGGACTGATGACTCCTCATT,AUGGUGCACCUGACUACUGAGGAGUAA,Met Val His Leu Thr Thr Glu Glu
1,TACCACGTCTGAGGACTCCTCATT,TACCACGTCTGAGGACTCCTCATT,AUGGUGCAGACUCCUGAGGAGUAA,Met Val Gln Thr Pro Glu Glu
2,TACGTGGACTGAGGACTCATT,GACGTGGACTGAGGACTCATT,CUGCACCUGACUCCUGAGUAA,Leu His Leu Thr Pro Glu


# Beispiel für die Visualisierung eines Proteins

In [5]:
# dies ist die Aminosäuresequenz des Proteins
# Hier wird die Aminosäuresequenz mit dem ersten Buchstaben jeder Aminosäure dargestellt (anstelle der vorherigen 3 Buchstaben)
amino = 'MAGELVSFAVNKLWDLLSHEYTLFQGVEDQVAELKSDLNLLKSFLKDADAKKHTSALVRYCVEEIKDIVYDAEDVLETFVQKEKLGTTSGIRKHIKRLTCIVPDRREIALYIGHVSKRITRVIRDMQSFGVQQMIVDDYMHPLRNREREIRRTFPKDNESGFVALEENVKKLVGYFVEEDNYQVVSITGMGGLGKTTLARQVFNHDMVTKKFDKLAWVSVSQDFTLKNVWQNILGDLKPKEEETKEEEKKILEMTEYTLQRELYQLLEMSKSLIVLDDIWKKEDWEVIKPIFPPTKGWKLLLTSRNESIVAPTNTKYFNFKPECLKTDDSWKLFQRIAFPINDASEFEIDEEMEKLGEKMIEHCGGLPLAIKVLGGMLAEKYTSHDWRRLSENIGSHLVGGRTNFNDDNNNSCNYVLSLSFEELPSYLKHCFLYLAHFPEDYEIKVENLSYYWAAEEIFQPRHYDGEIIRDVGDVYIEELVRRNMVISERDVKTSRFETCHLHDMMREVCLLKAKEENFLQITSNPPSTANFQSTVTSRRLVYQYPTTLHVEKDINNPKLRSLVVVTLGSWNMAGSSFTRLELLRVLDLVQAKLKGGKLASCIGKLIHLRYLSLEYAEVTHIPYSLGNLKLLIYLNLHISLSSRSNFVPNVLMGMQELRYLALPSLIERKTKLELSNLVKLETLENFSTKNSSLEDLRGMVRLRTLTIELIEETSLETLAASIGGLKYLEKLEIDDLGSKMRTKEAGIVFDFVHLKRLRLELYMPRLSKEQHFPSHLTTLYLQHCRLEEDPMPILEKLLQLKELELGHKSFSGKKMVCSSCGFPQLQKLSISGLKEWEDWKVEESSMPLLLTLNIFDCRKLKQLPDEHLPSHLTAISLKKCGLEDPIPTLERLVHLKELSLSELCGRIMVCTGGGFPQLHKLDLSELDGLEEWIVEDGSMPRLHTLEIRRCLKLKKLPNGFPQLQNLHLTEVEEWEEGMIVKQGSMPLLHTLYIWHCPKLPGEQHFPSHLTTVFLLGMYVEEDPMRILEKLLHLKNVSLFQSFSGKRMVCSGGGFPQLQKLSIREIEWEEWIVEQGSMPLLHTLYIGVCPNLKELPDGLRFIYSLKNLIVSKRWKKRLSEGGEDYYKVQHIPSVEFDD'

# Dies ist die UniProt ID für dieses Protein
uniprot_id = 'Q8W3K0'

# Jetzt holen wir uns die Vorhersage der alphafold-Struktur
struktur = biogen.alphafold_struktur(uniprot_id)

# Schließlich rufen wir generate_protein() auf, um die Vorhersage zu zeigen
protein = biogen.protein_generieren(struktur)

NameError: name 'biogen' is not defined