# Einführung in das Programmieren - Übung  5

### Bitte lösen Sie die folgenden Aufgaben. Falls erforderlich, dürfen Sie auch Konzepte oder Funktionen verwenden, die nicht im Unterricht behandelt wurden, aber keine zusätzlichen packages importieren.

## Aufgabe 1: Palindrom-Erkennung

Schreiben Sie eine Funktion `is_palindrome(word: str) -> bool`, die überprüft, ob ein eingegebenes Wort ein Palindrom ist.

**Anforderungen:**

- Ein Palindrom ist ein Wort, das vorwärts und rückwärts gleich gelesen werden kann.

- Ignorieren Sie Leerzeichen und Groß-/Kleinschreibung.



Beispiel-Aufrufe und Ergebnisse:



`is_palindrome("Lagerregal")` → `True`

`is_palindrome("Python")` → `False`

In [9]:
# your code here
def is_palindrome(word: str) -> bool:
    word_lower = word.lower().replace(" ", "")
    return word_lower == word_lower[::-1]

## Aufgabe 2: Zählen von Wörtern

Schreiben Sie eine Funktion `count_words(text: str) -> dict`, die die Anzahl der Vorkommen jedes Wortes in einem Text zählt.

**Anforderungen:**

- Die Wörter sollen unabhängig von Groß-/Kleinschreibung gezählt werden.

- Rückgabe soll ein Dictionary sein, wobei der Schlüssel das Wort und der Wert die Anzahl der Vorkommen ist.



Beispiel-Aufruf und Ergebnis:



`count_words("Das ist ein Test. Test ist gut.")` → `{'das': 1, 'ist': 2, 'ein': 1, 'test': 2, 'gut': 1}`

In [None]:
def count_words(text: str) -> dict:
    counter = {}
    clean_text = ""
    
    # only keep alphabetic characters and spaces (will remove numbers!)
    for char in text.lower():
        # we keep the space so we can split the words later
        if char.isalpha() or char.isspace():
            clean_text += char

    # creates list of words by splitting on the spaces
    words = clean_text.split()

    # if the key exists, increment counter, else add a new entry to the dictionary
    for word in words:
        try:
            counter[word] += 1
        except KeyError:
            counter[word] = 1

    # more compact and elegant, but arguably less expressive:
    # for word in words:
    #     counter[word] = counter.get(word, 0) + 1
    return counter
count_words("Das ist ein 3 Test. Test ist gut.")

{'das': 1, 'ist': 2, 'ein': 1, 'test': 2, 'gut': 1}

## Aufgabe 3: Matrixtransposition

Schreiben Sie eine Funktion `transpose_matrix(matrix: list) -> list`, die die Transponierte einer gegebenen Matrix berechnet.

**Anforderungen:**

- Die Funktion soll eine neue Matrix zurückgeben, die durch die Transposition der ursprünglichen Matrix entsteht.

- Eine Matrix wird als eine Liste von Listen dargestellt.

- Sie können davon ausgehen, dass alle inneren Listen die gleiche Länge haben (rechteckige Matrix).



**Erwarteter Input:**

- `matrix` ist eine Liste von Listen (2D-Liste), wobei jedes Element eine Liste von ganzen Zahlen (integers) ist.



Beispiel-Aufrufe und Ergebnisse:

- `transpose_matrix([[1, 2, 3], [4, 5, 6]])` → `[[1, 4], [2, 5], [3, 6]]`

- `transpose_matrix([[1, 2], [3, 4], [5, 6]])` → `[[1, 3, 5], [2, 4, 6]]`


In [32]:
# your code here
def transpose_matrix(matrix: list) -> list:
    # make a copy so we do not change values of passed matrix
    transposed_matrix = []
    num_cols = len(matrix[0])
    for _ in range(num_cols):
        transposed_matrix.append([])
    # or
    #transposed_matrix = [[] for col in range(num_cols)]
    for row in matrix:
        for col_idx, col_val in enumerate(row):
            transposed_matrix[col_idx].append(col_val)
    return transposed_matrix
transpose_matrix([[1, 2, 3], [4, 5, 6]])
transpose_matrix([[1, 2], [3, 4], [5, 6]])



[[1, 4], [2, 5], [3, 6]]

## Aufgabe 4: N-Gramm-Generierung

Schreiben Sie eine Funktion `generate_n_grams(text: str, n: int) -> list`, die eine Liste von N-Grammen (Folgen von `n` aufeinanderfolgenden Wörtern) aus einem gegebenen Text generiert.

**Anforderungen:**

- Die Funktion soll den Text in Wörter zerlegen und N-Gramme mit der Länge `n` erstellen.

- Wenn `n` größer ist als die Anzahl der Wörter im Text, soll eine leere Liste zurückgegeben werden.

- Groß-/Kleinschreibung soll ignoriert werden.



**Erwarteter Input:**

- `text` ist eine Zeichenkette (string), die Wörter und Leerzeichen enthält.

- `n` ist eine positive ganze Zahl (integer), die angibt, wie viele Wörter ein N-Gramm umfassen soll.



Beispiel-Aufrufe und Ergebnisse:

- `generate_n_grams("das ist ein einfacher Test", 2)` → `[["das", "ist"], ["ist", "ein"], ["ein", "einfacher"], ["einfacher", "test"]]`

- `generate_n_grams("hello world", 3)` → `[]`

- `generate_n_grams("n-gram test case", 1)` → `[["n-gram"], ["test"], ["case"]]`


In [4]:
# your code here
def generate_n_grams(text: str, n: int) -> list:

    n_grams = []
    words = text.lower().split()
    word_count = len(words)

    if n > word_count:
        return []
    
    for start in range(word_count):
        end = start + n
        if end > word_count:
            return n_grams
        n_grams.append(words[start:end])
    return n_grams

print(generate_n_grams("das ist ein einfacher Test", 2))
print(generate_n_grams("hello world", 3))
print(generate_n_grams("n-gram test case", 1))

[['das', 'ist'], ['ist', 'ein'], ['ein', 'einfacher'], ['einfacher', 'test']]
[]
[['n-gram'], ['test'], ['case']]


## Aufgabe 5: Buchstabenhäufigkeit analysieren

Schreiben Sie eine Funktion `letter_frequency_analysis(text: str) -> dict`, die die Häufigkeit jedes Buchstabens in einem gegebenen Text berechnet und ein Dictionary mit den Buchstaben als Schlüssel und deren Häufigkeit als Wert zurückgibt.

**Anforderungen:**

- Groß-/Kleinschreibung wird ignoriert (d.h., 'A' und 'a' zählen als derselbe Buchstabe).

- Nicht-alphabetische Zeichen sollen ignoriert werden.



**Erwarteter Input:**

- `text` ist eine Zeichenkette (string), die beliebige Zeichen enthält.



Beispiel-Aufrufe und Ergebnisse:

- `letter_frequency_analysis("Hello World!")` → `{'h': 1, 'e': 1, 'l': 3, 'o': 2, 'w': 1, 'r': 1, 'd': 1}`

- `letter_frequency_analysis("Das ist ein Test!")` → `{'d': 1, 'a': 1, 's': 3, 'i': 2, 't': 3, 'e': 2, 'n': 1}`


In [24]:
# your code here
def letter_frequency_analysis(text : str):
    letter_frequencies = {}
    for letter in text.lower():
        if letter.isalpha():
            letter_frequencies[letter] = letter_frequencies.get(letter, 0) + 1
    return letter_frequencies
print(letter_frequency_analysis("Hello World!"))
print(letter_frequency_analysis("Das ist ein Test!"))

{'h': 1, 'e': 1, 'l': 3, 'o': 2, 'w': 1, 'r': 1, 'd': 1}
{'d': 1, 'a': 1, 's': 3, 'i': 2, 't': 3, 'e': 2, 'n': 1}


## Aufgabe 6: Zahlen in Wörter umwandeln

Schreiben Sie eine Funktion `number_to_words(n: int) -> str`, die eine gegebene Zahl in ihre Wortdarstellung umwandelt.

**Anforderungen:**

- Die Funktion soll Zahlen zwischen 0 und 99 unterstützen.



Beispiel-Aufrufe und Ergebnisse:



`number_to_words(42)` → `"zweiundvierzig"`

`number_to_words(99)` → `"neunundneunzig"`


In [None]:
# your code here

## Aufgabe 7: Hamming-Distanz zwischen zwei DNA-Sequenzen

Schreiben Sie eine Funktion `hamming_distance(dna1: str, dna2: str) -> int`, die die Hamming-Distanz zwischen zwei DNA-Sequenzen berechnet.

**Anforderungen:**

- Die Hamming-Distanz ist die Anzahl der Positionen, an denen zwei gleich lange DNA-Sequenzen unterschiedliche Nukleotide aufweisen.

- Wenn die Sequenzen unterschiedliche Längen haben, soll die Funktion `None` zurückgeben.

- Groß-/Kleinschreibung soll ignoriert werden.



**Erwarteter Input:**

- `dna1` und `dna2` sind Zeichenketten (strings), die aus den Nukleotiden A, T, C und G bestehen.



Beispiel-Aufrufe und Ergebnisse:

- `hamming_distance("GAGCCT", "GATCCT")` → `1`

- `hamming_distance("AAAA", "AAAT")` → `1`

- `hamming_distance("AGCT", "TCGA")` → `4`

- `hamming_distance("AGCT", "AGCTT")` → `None` (unterschiedliche Längen)


In [32]:
# your code here
def hamming_distance(dna1:str, dna2: str) -> int:
    
    if len(dna1) != len(dna2):
        return None
    
    hamming = 0
    seq1 = dna1.lower()
    seq2 = dna2.lower()

    for pos1, pos2 in zip(seq1,seq2):
        if pos1 != pos2:
            hamming += 1
            
    #or

    # for idx, pos in enumerate(seq1):
    #     if pos != seq2[idx]:
    #         hamming += 1
    return hamming

print(hamming_distance("GAGCCT", "GATCCT"))

print(hamming_distance("AAAA", "AAAT"))

print(hamming_distance("AGCT", "TCGA"))

print(hamming_distance("AGCT", "AGCTT"))

1
1
4
None


## Aufgabe 8: Motif-Suche in DNA-Sequenzen

Schreiben Sie eine Funktion `find_motif(dna: str, motif: str) -> list`, die alle Startpositionen eines Motifs (einer kürzeren Sequenz) in einer DNA-Sequenz findet.

**Anforderungen:**

- Die Startpositionen sollen 1-basiert zurückgegeben werden (d.h., die erste Position ist 1, nicht 0).

- Wenn das Motiv nicht in der Sequenz vorkommt, soll eine leere Liste zurückgegeben werden.

- Groß-/Kleinschreibung soll ignoriert werden.



**Erwarteter Input:**

- `dna` ist eine Zeichenkette (string), die aus den Nukleotiden A, T, C und G besteht.

- `motif` ist eine kürzere Zeichenkette (string), die ebenfalls aus A, T, C und G besteht.



Beispiel-Aufrufe und Ergebnisse:

- `find_motif("ACGTACGTAC", "CGT")` → `[2, 6]`

- `find_motif("AAAAA", "AA")` → `[1, 2, 3, 4]`

- `find_motif("ATGCGC", "GG")` → `[]` (Motif nicht vorhanden)


In [44]:
# your code here
def find_motif(dna: str, motif: str) -> list:
    # not a requirement here
    if not all([dna, motif]):
        raise ValueError("Both, dna and motif have to be given")
    
    dna, motif = dna.upper(), motif.upper()
    start_pos = motif[0]
    match_positions = []

    for idx, pos in enumerate(dna.upper()):
        if pos == start_pos:
            start, end = idx, idx + (len(motif))
            if dna[start : end] == motif:
                match_positions.append(idx+1)
    return match_positions

print(find_motif("ACGTACGTAC", "CGT"))
print(find_motif("AAAAA", "AA"))
print(find_motif("ATGCGC", "GG"))


[2, 6]
[1, 2, 3, 4]
[]
