## Aufgabe: Nukleotid-Häufigkeiten

Erstellen Sie eine Klasse `NucleotideCounter`, die für DNA-Sequenzen die Häufigkeiten von Nukleotiden berechnet und diese manipuliert. Entwickeln Sie außerdem eine Unterklasse `WeightedNucleotideCounter`, die zusätzliche Gewichtungen für die Nukleotide berücksichtigt.

### Klasse `NucleotideCounter`

Die Klasse `NucleotideCounter` besitzt die folgenden Instanzattribute:

- `sequence: str`  
  Eine Zeichenkette, die eine DNA-Sequenz repräsentiert (bestehend aus den Buchstaben `A`, `T`, `C`, `G`).

- `counts: dict`  
  Ein Wörterbuch, das die Häufigkeiten der Nukleotide in der Form `{"A": int, "T": int, "C": int, "G": int}` speichert.

Die Klasse besitzt die folgenden Methoden:

- `__init__(self, sequence: str)`  
  Initialisiert die Sequenz und berechnet die Nukleotid-Häufigkeiten. Falls die Sequenz ungültige Zeichen enthält, wird ein `ValueError` mit der Meldung *"Invalid DNA sequence."* geworfen.

- `count(self, nucleotide: str) -> int`  
  Gibt die Häufigkeit eines gegebenen Nukleotids zurück. Falls das Nukleotid nicht `A`, `T`, `C` oder `G` ist, wird ein `ValueError` mit der Meldung *"Invalid nucleotide."* geworfen.

- `__add__(self, other)`  
  Wenn `other` eine Instanz von `NucleotideCounter` ist, summiert diese Methode die Nukleotid-Häufigkeiten beider Objekte und gibt ein neues `NucleotideCounter`-Objekt zurück. Die Sequenz des neuen Objekts wird als *"MergedSequence"* gesetzt. Andernfalls wird `NotImplemented` zurückgegeben.

- `__repr__(self)`  
  Gibt einen String zurück, der die Sequenz und die Häufigkeiten anzeigt, z. B.:  
  `"NucleotideCounter(sequence='ATCG', counts={'A': 1, 'T': 1, 'C': 1, 'G': 1})"`

- `__str__(self)`  
  Gibt die Häufigkeiten in einer lesbaren Form zurück, z. B.:  
  `"A: 1, T: 1, C: 1, G: 1"`

- `most_frequent(self) -> str`  
  Gibt das Nukleotid mit der höchsten Häufigkeit zurück. Wenn mehrere Nukleotide gleich häufig sind, wird das erste in der Reihenfolge `A`, `T`, `C`, `G` zurückgegeben.

- `normalize(self)`  
  Normalisiert die Sequenz, indem sie nur gültige DNA-Zeichen enthält (alle anderen Zeichen werden entfernt). Aktualisiert die Häufigkeiten entsprechend.

### Unterklasse `WeightedNucleotideCounter`

Erstellen Sie eine Unterklasse `WeightedNucleotideCounter`, die folgende zusätzlichen Methoden und Attribute besitzt:

- `weights: dict`  
  Ein Wörterbuch in der Form `{"A": float, "T": float, "C": float, "G": float}`, das Gewichtungen für die Nukleotide speichert.

- `__init__(self, sequence: str, weights: dict)`  
  Initialisiert die Sequenz und die Gewichtungen. Falls Gewichtungen fehlen oder ungültig sind, wird ein `ValueError` mit der Meldung *"Invalid weights."* geworfen.

- `weighted_count(self, nucleotide: str) -> float`  
  Gibt die gewichtete Häufigkeit eines Nukleotids zurück (Häufigkeit × Gewicht). Falls das Nukleotid nicht existiert, wird ein `ValueError` geworfen.

- `total_weighted_count(self) -> float`  
  Gibt die Summe der gewichteten Häufigkeiten für alle Nukleotide zurück.

### Zusätzliche Anforderungen

- **Schleifen**: Verwenden Sie Schleifen, um die Häufigkeiten und gewichteten Werte zu berechnen.
- **Fehlerprüfung**: Überprüfen Sie Eingabewerte und werfen Sie geeignete Fehler.
- **Datentypen**: Stellen Sie sicher, dass die Attribute `sequence` und `counts` entsprechend verarbeitet werden.

In [None]:
class NucleotideCounter:
    def __init__(self, sequence: str):
        for nucleotide in sequence:
            if nucleotide not in "ATCG":
                raise ValueError("Invalid DNA sequence")
        
        self.sequence = sequence

        counts = {"A": 0, "T": 0, "C": 0, "G": 0}
        for nucleotide in sequence:
            if nucleotide in counts:
                counts[nucleotide] += 1
        
        self.counts = counts

    def count(self, nucleotide: str) -> int:
        if nucleotide not in "ATCG":
            raise ValueError("Invalid Nucleotide")

        nucleotide_dict = {"A": 0, "T": 0, "C": 0, "G": 0}
        for nucleotide in self.sequence:
            if nucleotide == nucleotide:
                nucleotide_dict[nucleotide] += 1

        return nucleotide_dict.get(nucleotide, 0)

    def __add__(self, other):
        if isinstance(other, NucleotideCounter):
            MergedSequence = self.sequence + other.sequence
            return MergedSequence
        else:
            raise NotImplemented
    
    def __repr__(self):
        return f"{self.__class__.__name__}(sequence='{self.sequence}', counts='{self.counts}')"

    def __str__(self):
        result = ""
        for nucleotide, count in self.counts.items():
            result += f"{nucleotide}: {count}, "
        return result[:-2]

    def most_frequent(self) -> str:
        max_count = max(self.counts.values())
        for nucleotide, count in self.counts.items():
            if count == max_count:
                return nucleotide  
    
    def normalize(self):
        valid_sequence = ""
        for nucleotide in self.sequence:
            if nucleotide in "ATCG":
                valid_sequence += nucleotide
        
        self.sequence = valid_sequence


    def display(self):
        print(self.sequence)
 
class WeightedNucleotideCounter(NucleotideCounter):
    def __init__(self, sequence: str, weights: dict):
        # Validierung der Gewichtungen
        for nucleotide in weights:
            if nucleotide not in "ATCG":
                raise ValueError("Invalid weights")
        
        super().__init__(sequence)
        self.weights = weights

    def weighted_count(self, nucleotide: str) -> float:
        if nucleotide not in self.counts:
            raise ValueError("Invalid nucleotide.")
        print(self.counts[nucleotide])
        return self.counts[nucleotide] * self.weights.get(nucleotide, 1.0)

    def total_weighted_count(self) -> float:
        # Summe der gewichteten Häufigkeiten
        total = 0
        for nucleotide in self.counts:
            total += self.weighted_count(nucleotide)
        return total

# Beispielaufrufe:

# NucleotideCounter Beispiel
seq1 = "CTGAA"
seq2 = "CCCTG"
counter1 = NucleotideCounter(seq1)
counter2 = NucleotideCounter(seq2)

counter3 = counter1 + counter2
print(counter3)
#print(counter1)  # Ausgabe der Häufigkeiten
#print(counter1.most_frequent())  # Häufigstes Nukleotid

# WeightedNucleotideCounter Beispiel
weights = {"A": 1.2, "T": 1.1, "C": 0.9, "G": 1.3}
weighted_counter = WeightedNucleotideCounter(seq1, weights)
print(weighted_counter.weighted_count("A"))  # Gewichtete Häufigkeit für "A"
#print(weighted_counter.total_weighted_count())  # Gesamtsumme der gewichteten Häufigkeiten

CTGAACCCTG
2
2.4


In [None]:
# Claude Ideas


def validate_sequence(self, sequence):
    # Validate DNA sequence contains only valid bases
    valid_bases = set('ATCG')
    return all(base in valid_bases for base in sequence)

def gc_content(self):
    # Calculate GC content percentage
    gc_count = sum(base in 'GC' for base in self.sequence)
    return (gc_count / len(self.sequence)) * 100