# Aufgabensatz 2
## Into the rabbit hole
Die Python Library https://docs.python.org/3/library/index.html bietet eine große Menge an Funktionalität, mit der sich viele Aufgaben deutlich vereinfachen lassen. In den folgenden Aufgaben sind die Pakete
- https://docs.python.org/3/library/stdtypes.html#str
- https://docs.python.org/3/library/re.html
- https://docs.python.org/3/library/os.html
- https://docs.python.org/3/library/os.path.html

von Vorteil.

## 2a)
Finde in einem String alle Buchstabenfolgen *sch*.

Beim Arbeiten mit freiem Text ist es oft notwendig nach bestimmten Mustern zu suchen: Mail-Adressen, Telefonnummern, Postanschriften. Dabei helfen Reguläre Ausdrücke.

In [8]:
def words_with_sch(in_string: str) -> list:
    r"""
        Die Funktion erhält einen String und gibt jedes Wort zurück in dem sich ein *sch* befindet.
        
        Beispiel
        ========
        >>> words_with_sch('Ich ging als Mensch über ein Feld mit Röschen und schunkelte im Takt')
        ['Mensch', 'Röschen', 'schunkelte']
        >>> words_with_sch('Ich wünsche dir einen schönen Tag. Scheint die Sonne nicht?')
        ['wünsche', 'schönen', 'Scheint']
    """
    # YOUR CODE HERE
    words = in_string.split(" ")
    matching = [word for word in words if "SCH" in word.upper()]
    return matching

In [9]:
assert words_with_sch('Ich ging als Mensch über ein Feld mit Röschen und schunkelte im Takt') == ['Mensch', 'Röschen', 'schunkelte']
assert words_with_sch('Ich wünsche dir einen schönen Tag. Scheint die Sonne nicht?') == ['wünsche', 'schönen', 'Scheint']

## 2b)
csv (Comma Separated Value) https://de.wikipedia.org/wiki/CSV_(Dateiformat) ist ein Dateiformat zum Austausch von
strukturierten Daten. In der Python Library exsistiert bereits ein Modul um solche Datein zu parsen. Hier sollen Sie aber eine eigene Version davon schreiben. Dabei sollen auch andere Trenner als das Komma zugelassen werden, zum Beispiel Tabs `\t`

In [None]:
def parse_dsv(delimited_string: str, delimiter: str = ',', header: bool = True) -> dict:
    r"""
        Erhält ein Dateiobjekt und optional einen Separator und verarbeitet diese wie eine delimiter separated
        value Datei. Die erste Reihe des Strings wird dabei als Header genommen, wenn header=True. Ist kein header
        vorhanden werden die Spalten durchnummeriert.
        
        Beispiel
        ========
        >>>parse_dsv("Tag,Einkommen,Ausgaben\n1,100,5\n2,0,5\n3,0,12\n4,0,9")
        {'Tag': [1, 2, 3, 4], 'Einkommen': [100, 0, 0, 0], Ausgaben: [5, 5, 12, 9]}
        >>> parse_dsv('''Stunde\tMontag\tDienstag\tMittwoch\tDonnerstag\tFreitag
          1\tMathematik\tDeutsch\tEnglisch\tMathematik\tKunst\n2\tSport\tFranzösisch\tGeschichte\tSport\tGeschichte
          3\tSport\t"Religion (ev, kath)"\tKunst\t\tKunst''', delimiter='\t')
        {'Stunde': [1, 2, 3], 'Montag': ['Mathemaik', 'Sport', 'Sport'],
         'Dienstag': ['Deutsch', 'Französisch', 'Religion (ev, kath)'],
         'Mittwoch': ['Englisch', 'Geschichte', 'Kunst'], 'Donnerstag': ['Mathematik', 'Sport', ''],
         'Freitag': ['Kunst', 'Geschichte', 'Kunst']}
    """
    # YOUR CODE HERE
    obj = {}
    columnNames = []
    rows = delimited_string.split("\n")
    for idxRow, row in enumerate(rows):
      cells = row.split(delimiter)
      for idxCell, cell in enumerate(cells):
        columnName =  cell if header else "column " + str(idxCell + 1)
        if (idxRow == 0):
          columnNames.append(columnName)
          obj[columnName] = []
        else:
          obj[columnNames[idxCell]].append(cell)
          
    return obj
    
assert parse_dsv("Tag,Einkommen,Ausgaben\n1,100,5\n2,0,5\n3,0,12\n4,0,9") == {'Tag': [1, 2, 3, 4],
                                                                              'Einkommen': [100, 0, 0, 0],
                                                                              'Ausgaben': [5, 5, 12, 9]}

In [None]:

assert parse_dsv("""Stunde\tMontag\tDienstag\tMittwoch\tDonnerstag\tFreitag
1\tMathematik\tDeutsch\tEnglisch\tMathematik\tKunst
2\tSport\tFranzösisch\tGeschichte\tSport\tGeschichte
3\tSport\t"Religion (ev, kath)"\tKunst\t\tKunst""", delimiter='\t') == {
    'Stunde': [1, 2, 3], 'Montag': ['Mathematik', 'Sport', 'Sport'],
    'Dienstag': ['Deutsch', 'Französisch', 'Religion (ev, kath)'],
    'Mittwoch': ['Englisch', 'Geschichte', 'Kunst'], 'Donnerstag': ['Mathematik', 'Sport', ''],
    'Freitag': ['Kunst', 'Geschichte', 'Kunst']
}

## 2c)
Selten befinden sich alle Daten in einer einzigen Datei. Manchmal gibt es sogar für jeden Datensatz eine eigene Datei. Hier ist es hilfreich ganze Ordner nach Dateien zu durchsuchen und alle passenden zu bearbeiten.

Schreibe eine Funktion, welche einen Pfad erhält und eine Dateiendung. Die Funktion öffnet **und schließt** alle Dateien in dem Ordner und gibt deren Inhalt als Liste von Strings zurück

## Tipp
Schauen Sie sich das `os` Modul an, dort gibt es einen sehr hilfreiche Funktionen mit https://docs.python.org/3/library/os.html#os.scandir und https://docs.python.org/3/library/os.html#os.listdir

In [7]:
def search_directory(directory: str, file_ending: str) -> list:
    r"""
        Durchsucht die gegebene *directory* nach allen Dateien mit Endung *file_ending* und gibt deren Inhalt in
        einer Liste aus
        
        Beispiel
        ========
        >>> search_directory('probe/', file_ending='txt')
        ["Du mußt verstehn!", "Aus Eins mach’ Zehn,", "Und Zwei laß gehn,", "Und Drei mach’ gleich,",
         "So bist Du reich.", "Verlier’ die Vier!", "Aus Fünf und Sechs,", "So sagt die Hex’,",
         "Mach’ Sieben und Acht,", "So ist’s vollbracht:", "Und Neun ist Eins,", "Und Zehn ist keins.",
         "Das ist das Hexen-Einmal-Eins!"]
    """
    # YOUR CODE HERE
    # from os import walk
    # f = []
    # for root, dirs, files in walk(directory):
    #     for file in files:
    #         f.append(open(file, "r", encoding='utf-8').read())
    import glob
    
    searchPattern = directory + "*." + file_ending
    files = glob.glob(searchPattern)
    f = []
    for file in files:
        f.append(open(file, "r", encoding='utf-8').read().replace("\n", ""))
    return f

In [8]:
assert search_directory('probe/', file_ending='txt') == [
    "Du mußt verstehn!", "Aus Eins mach’ Zehn,", "Und Zwei laß gehn,", "Und Drei mach’ gleich,",
    "So bist Du reich.", "Verlier’ die Vier!", "Aus Fünf und Sechs,", "So sagt die Hex’,",
    "Mach’ Sieben und Acht,", "So ist’s vollbracht:", "Und Neun ist Eins,", "Und Zehn ist keins.",
    "Das ist das Hexen-Einmal-Eins!"
]

## 2d)
Suche in einer Datei alle Email Adressen und Telefonnummern. Die Email Adressen haben dabei das Format

`<vorname>.<nachname>@<firma>.<endung>`

Die `<endung>` sind entweder 2 Buchstaben, wie etwa `de` oder 3 Buchstaben `com`.

Die Telefonnummern haben das Format

`+<land> (<region>) <nummer>`

`<land>` ist eine 1 bis 3 stellige `(<region>)` ist optional und hat eine beliebige Länge. Die `<nummer>` hat ebenfalls eine beliebige Länge

In [25]:
def search_contacts(in_string: str) -> list:
    r"""
        Diese Funktion erhält einen String, in dem sich Telefonnummern und Email Adressen befinden. Die Funktion 
        gibt zwei **sortierte** Listen zurück.
        
        Beispiel
        ========
        >>> search_contacts("laura.mueller@un.com +123 985123045 bernd.koehler@finanzen.net +49 (30) 221478")
        [["bernd.koehler@finanzen.net", "laura.mueller@un.com"], ["+123 985123045", "+49 (30) 221478"]]
    """
    # Explanation:

    # \+ matches the plus sign.
    # \d{1,3} matches between one and three digits for the country code.
    # \s matches a whitespace character.
    # (\(\d{1,3}\))? makes the group of up to three digits enclosed in parentheses optional.
    # (\d{1,3})? makes the group of up to three digits without parentheses optional.
    # \s matches a whitespace character.
    # \d{6,9} matches any sequence of between six and nine digits for the phone number.
    
    import re
    email_regex = r'[\w.+-]+@[\w-]+\.[\w.-]+'
    emailAdresses = re.findall(email_regex, in_string)
    phone_regex = r'\+\d{1,3}\s(\(\d{1,3}\))?(\d{1,3})?\s\d{6,9}'
    phoneNumbers = re.findall(phone_regex, in_string)
    contacts = []
    for email, number in zip(emailAdresses, phoneNumbers):
        contacts.append([email, number])
    return contacts
    
assert search_contacts("laura.mueller@un.com +123 985123045 bernd.koehler@finanzen.net +49 (30) 221478") == [
    ["bernd.koehler@finanzen.net", "laura.mueller@un.com"], ["+123 985123045", "+49 (30) 221478"]
]

KeyboardInterrupt: 

AssertionError: 