# `Einführung in das Programmieren`

## `Prüfung - 3. Termin`

Sie haben 90 Minuten Zeit, um die Aufgaben zu lösen. Sie können von validem Input ausgehen, ausschließlich der explizit erwähnten Überprüfungen/Exceptions in der Angabe.

# **Prüfungsaufgabe:**

Erstellen Sie eine Klasse `DNASequence` und eine separate Klasse `SequenceAnalyzer`, um DNA-Sequenzen zu verwalten und einfache Analysen durchzuführen. Implementieren Sie die folgenden Anforderungen:

## **Klasse** **`DNASequence`** **(40 Punkte)**

Die Klasse `DNASequence` verwaltet eine Sammlung von DNA-Sequenzen in einem einfachen Dictionary-Format.

### **Instanzattribute**

- `sequences: dict[str, str]`
  Speichert DNA-Sequenzen als Schlüssel-Wert-Paare. Der Schlüssel ist der Sequenzname, der Wert ist die DNA-Sequenz.
- `metadata: dict[str, str]`
  Speichert zusätzliche Informationen zu jeder Sequenz. Der Schlüssel ist der Sequenzname, der Wert ist der Organismus.

### **Instanzmethoden**

1. **`__init__(self)`** **(0 Punkte)**
   - **Funktionalität:** Initialisiert leere Dictionaries für sequences und metadata.
   - **Output:** Keine Rückgabe.
2. **`add_sequence(self, name: str, sequence: str, organism: str)`** **(10 Punkte)**
   - **Input:** Name der Sequenz, DNA-Sequenz, Organismus
   - **Funktionalität:** Fügt eine neue Sequenz hinzu. Wirft einen ValueError falls der Name leer ist oder die Sequenz ungültige Zeichen enthält (erlaubt sind nur A, T, G, C. Groß-/Kleinschreibung muss nicht beachtet werden).
   - **Output:** Keine Rückgabe.
   - **Beispiel:**
      ```python
      dna.add_sequence("seq1", "ATGCGA", "Homo sapiens")
      print(dna.sequences["seq1"])  # "ATGCGA"
      print(dna.metadata["seq1"])   # "Homo sapiens"
      ```
3. **`get_sequence(self, name: str) -> tuple[str, str]`** **(5 Punkte)**
   - **Input:** Name der Sequenz
   - **Funktionalität:** Gibt die Sequenz und den Organismus zurück
   - **Output:** Tupel mit (Sequenz, Organismus)
   - **Beispiel:**
      ```python
         dna.get_sequence("seq1")  # ("ATGCGA", "Homo sapiens")
      ```

4. **`remove_sequence(self, name: str)`** **(5 Punkte)**
   - **Input:** Name der Sequenz
   - **Funktionalität:** Entfernt eine Sequenz aus beiden Dictionaries
   - **Output:** Keine Rückgabe
   - **Beispiel:**
      ```python
      dna.remove_sequence("seq1")
      print("seq1" in dna.sequences)  # False
      print("seq1" in dna.metadata)   # False
      ```

5. **`get_sequences_by_organism(self, organism: str) -> list[str]`** **(10 Punkte)**
   - **Input:** Organismus
   - **Funktionalität:** Gibt alle Sequenznamen zurück, die zu diesem Organismus gehören
   - **Output:** Liste von Sequenznamen
   - **Beispiel:**
      ```python
      dna.add_sequence("seq2", "ATGCGT", "Homo sapiens")
      dna.add_sequence("seq3", "TTTAAA", "Mus musculus")
      dna.get_sequences_by_organism("Homo sapiens")  # ["seq2"]
      ```

6. **`get_sequence_lengths(self) -> dict[str, int]`** **(10 Punkte)**
   - **Input:** Keine
   - **Funktionalität:** Berechnet die Länge jeder Sequenz
   - **Output:** Dictionary mit Sequenzname als Schlüssel und Länge als Wert
   - **Beispiel:**
      ```python
      dna.get_sequence_lengths()  # {"seq2": 6, "seq3": 6}
      ```



In [None]:
# your code here
class DNASequence:
    def __init__(self):
        self.sequences={} # key: name, value: DNA sequences
        self.metadata={} # key: name, value: organism
        pass
    
    def add_sequence(self, name: str, sequence: str, organism: str):
        if name == None :
            raise KeyError("Name can not be empty")
        if sequence in self.sequences:
            raise KeyError("ID already exists.")
        if not set(sequence).issubset({'A', 'T', 'C', 'G'}):
            raise KeyError("Invalid characters")
        self.sequences[name] = sequence
        self.metadata[name] = organism
        # pass

    def get_sequence(self, name: str) -> tuple[str, str]:
        return (self.sequences[name], self.metadata[name])

    def remove_sequence(self, name: str):
        del self.sequences[name]
        del self.metadata[name]

    def get_sequences_by_organism(self, organism: str) -> list[str]:
        # self.sequences={} # key: name, value: DNA sequences
        # self.metadata={} # key: name, value: organism
        sequences_2=[]
        for key, value in self.metadata.items():
            if organism == value:
                sequences_2.append(key)
        return sequences_2

    def get_sequence_lengths(self) -> dict[str, int]:
        #seq_len={} :/
        #return {key: self.name }
        pass

# test cases
dna = DNASequence()
dna.add_sequence("seq1", "ATGCG", "Homo sapiens")
print(dna.sequences["seq1"]) # "ATGCGA"
print(dna.metadata["seq1"]) # "Homo sapiens"
print(dna.get_sequence("seq1")) # (“ATGCGA”, “Homo sapiens”)
print(type(dna.get_sequence("seq1"))) # tuple

dna.remove_sequence("seq1")
print("seq1" in dna.sequences) # False
print("seq1" in dna.metadata) # False
    
dna.add_sequence("seq2", "ATGCGT", "Homo sapiens")
dna.add_sequence("seq3", "TTTAAA", "Mus musculus")
dna.get_sequences_by_organism("Homo sapiens") # [“seq2”]
print(dna.get_sequences_by_organism("Homo sapiens")) # [“seq2”]


ATGCG
Homo sapiens
('ATGCG', 'Homo sapiens')
<class 'tuple'>
False
False
['seq2']


## **Klasse** **`SequenceAnalyzer`** **(60 Punkte)**

Die Klasse `SequenceAnalyzer` führt einfache Analysen auf DNA-Sequenzen durch.

### **Instanzattribute**

- `dna_sequences: DNASequence`
  Referenz auf ein `DNASequence`-Objekt

### **Instanzmethoden**

1. **`__init__(self, dna_sequences: DNASequence)`** **(0 Punkte)**
   - **Input:** Ein `DNASequence`-Objekt
   - **Funktionalität:** Speichert die Referenz
   - **Output:** Keine Rückgabe
   - **Beispiel:**
      ```python
      analyzer = SequenceAnalyzer(dna)
      print(analyzer.dna_sequences is dna)  # True
      ```

2. **`calculate_gc_content(self, sequence_name: str) -> float`** **(15 Punkte)**
   - **Input:** Name der Sequenz
   - **Funktionalität:** Berechnet den GC-Gehalt (Prozentsatz von G und C) in der Sequenz.
   - **Output:** GC-Gehalt als float (0.0 bis 1.0)
   - **Beispiel:**
      ```python
      analyzer.calculate_gc_content("seq2")  # 0.5
      ```

3. **`find_longest_sequence(self) -> tuple[str, int]`** **(15 Punkte)**
   - **Input:** Keine
   - **Funktionalität:** Findet die längste Sequenz. (Falls mehrere Sequenzen die max. Länge haben, wird eine beliebige dieser Sequenzen zurückgegeben)
   - **Output:** Tupel mit (Sequenzname, Länge)
   - **Beispiel:**
      ```python
      analyzer.find_longest_sequence()  # ("seq2", 6)
      ```

4. **`get_sequence_statistics(self) -> dict[str, float]`** **(15 Punkte)**
   - **Input:** Keine
   - **Funktionalität:** Berechnet durchschnittliche Sequenzlänge und durchschnittlichen GC-Gehalt über alle gespeicherten Sequenzen
   - **Output:** Dictionary mit 'avg_length' und 'avg_gc_content' als Schlüssel
   - **Beispiel:**
      ```python
      analyzer.get_sequence_statistics()
      # {"avg_length": 6.0, "avg_gc_content": 0.25}
      ```

5. **`count_nucleotides(self, sequence_name: str) -> dict[str, int]`** **(15 Punkte)**
   - **Input:** Name der Sequenz
   - **Funktionalität:** Zählt die Häufigkeit jedes Nukleotids (A, T, G, C)
   - **Output:** Dictionary mit Nukleotiden als Schlüssel und Häufigkeiten als Werte
   - **Beispiel:**
      ```python
      analyzer.count_nucleotides("seq2")
      # {"A": 1, "T": 1, "G": 2, "C": 2}
      ```

In [None]:
# your code here
class SequenceAnalyzer:
    def __init__(self, dna_sequences: DNASequence):
        self.dna_sequences=dna_sequences
        self.DNASequence=DNASequence

    def calculate_gc_content(self, sequence_name: str) -> float:
        count=0
        if set(sequence_name).issubset({'C', 'G'}):
            count += 1
        return float(count)
            
    def find_longest_sequence(self) -> tuple[str, int]:
        # return (self.sequence)
        pass

dna = DNASequence()
dna.add_sequence("seq1", "ATGCG", "Homo sapiens")
dna.add_sequence("seq2", "ATGCG", "Homo sapiens")

analyzer = SequenceAnalyzer(dna)
print(analyzer.dna_sequences is dna) # True
analyzer.calculate_gc_content("seq2") # 0.5


