# `Einführung in das Programmieren`

## `Prüfung - 1. Antritt`
Sie haben 90 Minuten Zeit, um die Aufgaben zu lösen.

# **Prüfungsaufgabe:**

Erstellen Sie eine Klasse `DNARepository` und eine Tochterklasse `AnalyzedRepository`, um Genom-Daten zu verwalten und Analysen durchzuführen. Implementieren Sie die folgenden Anforderungen:

## **Klasse `DNARepository` (60 Punkte)**

Die Klasse `DNARepository` verwaltet eine Sammlung von DNA-Sequenzen, die in einem Dictionary gespeichert werden. Jede Sequenz wird mit einem eindeutigen Identifier (Key) verknüpft.

### **Instanzattribute**
- `sequences: dict[str, str]`  
  Speichert die DNA-Sequenzen als Schlüssel-Wert-Paare, wobei der Schlüssel eine eindeutige ID (z. B. `"seq1"`, `"seq2"`) ist und der Wert die DNA-Sequenz.

### **Instanzmethoden**

1. **`__init__(self, sequences: dict[str, str])` (0 Punkte)**  
   Initialisiert die DNA-Sammlung.  

2. **`add_sequence(self, id: str, sequence: str)` (5 Punkte)**  
   Fügt eine neue Sequenz mit einer ID hinzu.  
   - Falls die ID bereits existiert, werfen Sie einen `KeyError("ID already exists.")`.

3. **`remove_sequence(self, id: str)` (5 Punkte)**  
   Entfernt die Sequenz mit der angegebenen ID.  
   - Falls die ID nicht existiert, werfen Sie einen `KeyError("ID not found.")`.

4. **`get_sequence_by_id(self, id: str) -> str` (5 Punkte)**  
   Gibt die Sequenz zurück, die mit der ID verknüpft ist.  
   - Falls die ID nicht existiert, werfen Sie einen `KeyError`.

5. **`check_validity(self) -> list[str]` (10 Punkte)**  
   Überprüft für alle DNA-Sequenzen in `self.sequences`, ob sie gültig sind.  
   - Eine Sequenz ist gültig, wenn sie ausschließlich die Zeichen `'A'`, `'T'`, `'C'`, `'G'` enthält.  
   - Die Methode gibt eine Liste der IDs zurück, deren Sequenzen nicht gültig sind.

6. **`deduplicate(self) -> list[str]` (20 Punkte)**  
   Entfernt doppelte Sequenzen aus dem Dictionary.  
   - Wenn dieselbe DNA-Sequenz unter mehreren IDs gespeichert ist, wird nur einer der Einträge (z. B. der erste gefundene) beibehalten.  
   - Die Methode gibt eine Liste der IDs zurück, die entfernt wurden.  
   - Nach dem Aufruf soll `self.sequences` ein neues Dictionary ohne Duplikate sein.

- **`Vergleich von zwei Instanzen` (15 Punkte)**  
   Implementieren Sie die Möglichkeit, zwei Instanzen von `DNARepository` miteinander zu vergleichen.  
   - Zwei Instanzen sollen gleich sein, wenn die enthaltenen Sequenzen (auch die Anzahl) identisch sind (unabhängig von den IDs). 
   - Falls das andere Objekt kein `DNARepository`-Objekt ist, soll `False` zurückgegeben werden.  
   - Beispiel:  
     - `repo1 = DNARepository({"seq1": "ATG", "seq2": "CGT"})`  
     - `repo2 = DNARepository({"seqA": "ATG", "seqB": "CGT"})`  
       -> `repo1 == repo2` soll `True` zurückgeben.  
     - `repo1 == "not_a_repository"` soll `False` zurückgeben.
   - `Hinweis`: Hier könnte es hilfreich sein, mit sets zu arbeiten.

In [None]:
class DNARepository:
    #1
    def __init__(self, sequences: dict[str, str]):
        self.sequences = sequences
    
    #2
    def add_sequence(self, id: str, sequence: str):
        if id in self.sequences:
            raise KeyError("ID already exists.")
        self.sequences[id] = sequence

    #3
    def remove_sequence(self, id: str):
        if id not in self.sequences:
            raise KeyError("ID not found.")
        del self.sequences[id]

    #4
    def get_sequence_by_id(self, id: str) -> str:
        if id not in self.sequences:
            raise KeyError("ID not found.")
        return self.sequences[id]
    
    #5
    def check_validity(self) -> list[str]:
        invalid = []
        valid = {'A', 'T', 'C', 'G'}
        for id, seq in self.sequences.items():
            for base in seq:
                if base not in valid:
                    invalid.append(id)
        return invalid
    
    #6
    def deduplicate(self) -> list[str]:
        unique = {}
        removed_ids = []
        for id, seq in list(self.sequences.items()):
            #print(seq)
            #print(unique)
            if seq in unique:
                #print(self.sequences[id])
                removed_ids.append(id)
                del self.sequences[id]
            else:
                #print(id)
                unique[seq] = id
        return removed_ids
    
    #7
    def __eq__(self, other):
        if not isinstance(other, DNARepository):
            return False
        return set(self.sequences.values()) == set(other.sequences.values())

    #self_test
    def display(self):
        print(self.sequences)


In [125]:
repo = DNARepository({
    "seq1": "ATGCCG",
    "seq2": "TTAACG",
    "seq3": "ATGCCG",  # Duplikat von seq1
    "seq4": "AACCTT",
    "seq5": "ATBGCC"  # Ungültig
})

#repo.add_sequence("seq6", "ATTGCC")
#repo.remove_sequence("seq2")
#repo.get_sequence_by_id("seq1")
#invalid_ids = repo.check_validity()
#print("Ungültige IDs:", invalid_ids) 
repo1 = DNARepository({"seq1": "ATG", "seq2": "CGT"})
repo2 = DNARepository({"seqA": "ATG", "seqB": "CGT"})
print(repo1 == repo2)

print(repo1 == "not")
# Duplikate entfernen
removed_ids = repo.deduplicate()
print("Entfernte IDs:", removed_ids)  # Output: ['seq3']
#print(repo.sequences)

# Output: {'seq1': 'ATGCCG', 'seq2': 'TTAACG'}#

repo.display()

True
False
seq1
seq2
seq4
seq5
Entfernte IDs: ['seq3']
{'seq1': 'ATGCCG', 'seq2': 'TTAACG', 'seq4': 'AACCTT', 'seq5': 'ATBGCC'}


```python
# Initialisierung
repo = DNARepository({
    "seq1": "ATGCCG",
    "seq2": "TTAACG",
    "seq3": "ATGCCG",  # Duplikat von seq1
    "seq4": "AACCTT",
    "seq5": "ATBGCC"  # Ungültig
})

# Gültigkeitsprüfung
invalid_ids = repo.check_validity()
print("Ungültige IDs:", invalid_ids)  # Output: ['seq5']

# Entfernen der ungültigen Sequenz
repo.remove_sequence("seq5")
print(repo.sequences)
# {'seq1': 'ATGCCG', 'seq2': 'TTAACG', 'seq3': 'ATGCCG', 'seq4': 'AACCTT'}

# Duplikate entfernen
removed_ids = repo.deduplicate()
print("Entfernte IDs:", removed_ids)  # Output: ['seq3']
print(repo.sequences)
# {'seq1': 'ATGCCG', 'seq2': 'TTAACG', 'seq4': 'AACCTT'}

# Hinzufügen einer neuen Sequenz
repo.add_sequence("seq6", "GGGCCC")
print(repo.sequences)
# {'seq1': 'ATGCCG', 'seq2': 'TTAACG', 'seq4': 'AACCTT', 'seq6': 'GGGCCC'}

repo1 = DNARepository({"seq1": "ATG", "seq2": "CGT"})
repo2 = DNARepository({"seqA": "ATG", "seqB": "CGT"})
repo1 == repo2 #True

repo1 == "not_a_repository" # False


## **Klasse `AnalyzedRepository` (40 Punkte)**

Die Klasse `AnalyzedRepository` erbt von `DNARepository` und fügt einfache Analyse- und Filtermöglichkeiten hinzu.

### **Neue Instanzmethoden**
1. **`filter_by_length(self, min_length: int, max_length: int) -> dict[str, str]` (20 Punkte)**  
   Filtert Sequenzen basierend auf ihrer Länge.  
   - Nur Sequenzen, deren Länge zwischen `min_length` und `max_length` liegt (beides inklusive), werden in das Ergebnis aufgenommen.  
   - Gibt ein Dictionary zurück, das die IDs und Sequenzen enthält, die die Kriterien erfüllen.

2. **`compare_sequences(self, id1: str, id2: str) -> dict[str, int]` (20 Punkte)**  
   Vergleicht zwei Sequenzen und gibt ein Dictionary zurück, das die Anzahl der Übereinstimmungen und Unterschiede in den Basen speichert:  
   - `'matches': int` - Anzahl der übereinstimmenden Basen.  
   - `'mismatches': int` - Anzahl der unterschiedlichen Basen.  
   - Falls die Sequenzen unterschiedliche Längen haben, werfen Sie einen `ValueError("Sequences must have the same length.")`.  
   - Falls eine oder beide der übergebenen IDs nicht in `self.sequences` enthalten ist, werfen Sie einen `KeyError("No sequence is available for given key(s)").`


In [142]:
class AnalyzedRepository(DNARepository):
    def filter_by_length(self, min_length: int, max_length: int) -> dict[str, str]:
        filtered = {}
        for seq_id, seq in self.sequences.items():
            if min_length <= len(seq) <= max_length:
                filtered[seq_id] = seq
        return filtered

analyzed_repo = AnalyzedRepository({
    "seq1": "ATGCCG",
    "seq2": "TTAACG",
    "seq3": "AT",
    "seq4": "AACCTTAA",
    "seq5": "GGG"
})

filtered_by_length = analyzed_repo.filter_by_length(4, 6)
print(filtered_by_length)

{'seq1': 'ATGCCG', 'seq2': 'TTAACG'}


### Beispiel - Aufrufe

#### `filter_by_length`

```python
# Initialisierung des Repositories
analyzed_repo = AnalyzedRepository({
    "seq1": "ATGCCG",
    "seq2": "TTAACG",
    "seq3": "AT",
    "seq4": "AACCTTAA",
    "seq5": "GGG"
})

# Filterung nach Sequenzen mit einer Länge zwischen 4 und 6
filtered_by_length = analyzed_repo.filter_by_length(4, 6)
print(filtered_by_length)
# Output: {'seq1': 'ATGCCG', 'seq2': 'TTAACG'}


#### `compare_sequences`

```python
# Initialisierung des Repositories
analyzed_repo = AnalyzedRepository({
    "seq1": "ATGCCG",
    "seq2": "TTAACG",
    "seq3": "AACCTTG"
})

# Vergleich von zwei Sequenzen
comparison = analyzed_repo.compare_sequences("seq1", "seq2")
print(comparison)
# Output: {'matches': 3, 'mismatches': 3}

# Vergleich von Sequenzen mit unterschiedlichen Längen (löst ValueError aus)
try:
    comparison = analyzed_repo.compare_sequences("seq1", "seq3")
except ValueError as e:
    print(e)  # Output: "Sequences must have the same length."

# Vergleich von nicht existierenden IDs (löst KeyError aus)
try:
    comparison = analyzed_repo.compare_sequences("seq1", "seq4")
except KeyError as e:
    print(e)  # Output: "No sequence is available for given key(s)."
