## Aufgabe: Nukleotid-Häufigkeiten

Erstellen Sie eine Klasse `NucleotideCounter`, die für DNA-Sequenzen die Häufigkeiten von Nukleotiden berechnet und diese manipuliert. Entwickeln Sie außerdem eine Unterklasse `WeightedNucleotideCounter`, die zusätzliche Gewichtungen für die Nukleotide berücksichtigt.

### Klasse `NucleotideCounter`

Die Klasse `NucleotideCounter` besitzt die folgenden Instanzattribute:

- `sequence: str`  
  Eine Zeichenkette, die eine DNA-Sequenz repräsentiert (bestehend aus den Buchstaben `A`, `T`, `C`, `G`).

- `counts: dict`  
  Ein Wörterbuch, das die Häufigkeiten der Nukleotide in der Form `{"A": int, "T": int, "C": int, "G": int}` speichert.

Die Klasse besitzt die folgenden Methoden:

- `__init__(self, sequence: str)`  
  Initialisiert die Sequenz und berechnet die Nukleotid-Häufigkeiten. Falls die Sequenz ungültige Zeichen enthält, wird ein `ValueError` mit der Meldung *"Invalid DNA sequence."* geworfen.

- `count(self, nucleotide: str) -> int`  
  Gibt die Häufigkeit eines gegebenen Nukleotids zurück. Falls das Nukleotid nicht `A`, `T`, `C` oder `G` ist, wird ein `ValueError` mit der Meldung *"Invalid nucleotide."* geworfen.

- `__add__(self, other)`  
  Wenn `other` eine Instanz von `NucleotideCounter` ist, summiert diese Methode die Nukleotid-Häufigkeiten beider Objekte und gibt ein neues `NucleotideCounter`-Objekt zurück. Die Sequenz des neuen Objekts wird als *"MergedSequence"* gesetzt. Andernfalls wird `NotImplemented` zurückgegeben.

- `__repr__(self)`  
  Gibt einen String zurück, der die Sequenz und die Häufigkeiten anzeigt, z. B.:  
  `"NucleotideCounter(sequence='ATCG', counts={'A': 1, 'T': 1, 'C': 1, 'G': 1})"`

- `__str__(self)`  
  Gibt die Häufigkeiten in einer lesbaren Form zurück, z. B.:  
  `"A: 1, T: 1, C: 1, G: 1"`

- `most_frequent(self) -> str`  
  Gibt das Nukleotid mit der höchsten Häufigkeit zurück. Wenn mehrere Nukleotide gleich häufig sind, wird das erste in der Reihenfolge `A`, `T`, `C`, `G` zurückgegeben.

- `normalize(self)`  
  Normalisiert die Sequenz, indem sie nur gültige DNA-Zeichen enthält (alle anderen Zeichen werden entfernt). Aktualisiert die Häufigkeiten entsprechend.

### Unterklasse `WeightedNucleotideCounter`

Erstellen Sie eine Unterklasse `WeightedNucleotideCounter`, die folgende zusätzlichen Methoden und Attribute besitzt:

- `weights: dict`  
  Ein Wörterbuch in der Form `{"A": float, "T": float, "C": float, "G": float}`, das Gewichtungen für die Nukleotide speichert.

- `__init__(self, sequence: str, weights: dict)`  
  Initialisiert die Sequenz und die Gewichtungen. Falls Gewichtungen fehlen oder ungültig sind, wird ein `ValueError` mit der Meldung *"Invalid weights."* geworfen.

- `weighted_count(self, nucleotide: str) -> float`  
  Gibt die gewichtete Häufigkeit eines Nukleotids zurück (Häufigkeit × Gewicht). Falls das Nukleotid nicht existiert, wird ein `ValueError` geworfen.

- `total_weighted_count(self) -> float`  
  Gibt die Summe der gewichteten Häufigkeiten für alle Nukleotide zurück.

### Zusätzliche Anforderungen

- **Schleifen**: Verwenden Sie Schleifen, um die Häufigkeiten und gewichteten Werte zu berechnen.
- **Fehlerprüfung**: Überprüfen Sie Eingabewerte und werfen Sie geeignete Fehler.
- **Datentypen**: Stellen Sie sicher, dass die Attribute `sequence` und `counts` entsprechend verarbeitet werden.

In [None]:
class NucleotideCounter:
    def __init__(self, sequence: str):
        # Entfernen ungültiger Zeichen, bevor die Sequenz gesetzt wird
        self.sequence = ''.join([nucleotide for nucleotide in sequence if nucleotide in 'ATCG'])
        
        # Überprüfen, ob die Sequenz nach dem Entfernen leer ist
        if not self.sequence:
            raise ValueError("Invalid DNA sequence.")
        
        self.counts = {"A": 0, "T": 0, "C": 0, "G": 0}
        
        # Häufigkeiten der Nukleotide berechnen
        for nucleotide in self.sequence:
            if nucleotide in self.counts:
                self.counts[nucleotide] += 1

    def count(self, nucleotide: str) -> int:
        if nucleotide not in self.counts:
            raise ValueError("Invalid nucleotide.")
        return self.counts[nucleotide]

    def __add__(self, other):
        if isinstance(other, NucleotideCounter):
            # Summieren der Häufigkeiten beider Objekte
            merged_counts = self.counts.copy()
            for nucleotide in other.counts:
                merged_counts[nucleotide] += other.counts[nucleotide]
            merged_sequence = "MergedSequence"
            return NucleotideCounter(merged_sequence)  # Neue Instanz zurückgeben
        return NotImplemented

    def __repr__(self):
        return f"NucleotideCounter(sequence='{self.sequence}', counts={self.counts})"

    def __str__(self):
        return ", ".join([f"{nucleotide}: {count}" for nucleotide, count in self.counts.items()])

    def most_frequent(self) -> str:
        # Finden des häufigsten Nukleotids
        max_count = max(self.counts.values())
        for nucleotide in "ATCG":
            if self.counts[nucleotide] == max_count:
                return nucleotide

    def normalize(self):
        # Entfernen ungültiger Zeichen
        self.sequence = ''.join([nucleotide for nucleotide in self.sequence if nucleotide in 'ATCG'])
        self.counts = {"A": 0, "T": 0, "C": 0, "G": 0}
        # Häufigkeiten nach Normalisierung neu berechnen
        for nucleotide in self.sequence:
            self.counts[nucleotide] += 1


# Beispielaufruf:

seq1 = "ATCGATCGxATC!"  # Ungültige Zeichen "x" und "!" enthalten
counter = NucleotideCounter(seq1)

print("Vor der Normalisierung:")
print(counter)  # Gibt die Häufigkeiten der gültigen Nukleotide aus

# Normalisieren der Sequenz
counter.normalize()

print("\nNach der Normalisierung:")
print(counter)  # Gibt die Häufigkeiten nach der Bereinigung und Normalisierung aus


ValueError: Invalid DNA sequence.