# Einführung in das Programmieren - Übung 7

### Sie dürfen für diese Übung auch Konzepte/Funktionen verwenden, die wir nicht bereits behandelt haben, und zusätzliche packages importieren.

Recherchieren Sie gute Wege, diese Aufgaben zu lösen. Für Aufgabe 2 ist das Modul pandas eventuell interessant.

Recherchieren Sie folgende Konzepte/packages:

- `character encoding/decoding`
- `os`
- `glob`
- `pandas`
- `pickle/dill`

Bei der Übungspräsentation sollten Sie folgende Fragen beantworten können:
- `Was ist es / Was kann man damit machen?`
- `Wieso war es für diese Übung wichtig?` (wenn zutrifft)
    

## Aufgabe 1

Schreiben Sie eine Funktion `file_statistics(path: str)`, die die Statistiken einer angegebenen Datei wie folgt ausgibt:

- `path` gibt den Pfad zu einer Textdatei an.
- Verwenden Sie die UTF-8-Codierung beim Lesen der Datei.
- Die Funktion soll die Anzahl der Zeilen, Wörter, Zeichen und Ziffern der Datei ausgeben.
- Wenn `path` keinen korrekten Pfad angibt, soll eine `OSError` ausgelöst werden, die den Benutzer auf einen falschen Pfad hinweist.
- Wenn `path` ein korrekter Pfad ist, aber keine `.txt`-Datei, soll ein `ValueError` ausgelöst werden, der den Benutzer auf den falschen Dateityp hinweist.
- Sie können die erwarteten Ergebnisse mit den gegebenen Dateien `ex1_1.txt`, `ex1_2.txt`, `ex1_3.txt` und `ex1_4.py` testen.

**Hinweise:**
- Wörter können dadurch identifiziert werden, dass sie durch Leerzeichen getrennt sind.
- Alles außer Zeilenumbrüchen zählt als Zeichen (einschließlich Ziffern und Leerzeichen, ausgenommen `\r` und `\n`).



### Erwartete Ergebnisse:

##### `file_statistics('ex1_1.txt')`
--------------------
**Statistics of file `ex1_1.txt`:**
- Number of lines: 79
- Number of words: 3578
- Number of characters: 21966
- Number of digits: 0
--------------------

##### `file_statistics('ex1_2.txt')`
--------------------
**Statistics of file `ex1_2.txt`:**
- Number of lines: 612
- Number of words: 22308
- Number of characters: 140742
- Number of digits: 193
--------------------

##### `file_statistics('ex1_3.txt')`
--------------------
**Statistics of file `ex1_3.txt`:**
- Number of lines: 124453
- Number of words: 901325
- Number of characters: 5458195
- Number of digits: 3190
--------------------

##### `file_statistics('ex1_4.py')`
--------------------
**ValueError**: Path `ex1_4.py` is not a text file

##### `file_statistics('ex1_5.txt')`
--------------------
**OSError**: Path `ex1_5.txt` does not exist


In [None]:
# your code here
import os


def file_statistics(path: str):
    # - Wenn `path` ein korrekter Pfad ist, aber keine `.txt`-Datei, soll ein `ValueError` ausgelöst werden, der den Benutzer auf den falschen Dateityp hinweist.
    # Muss vor isfile sein, sonst wird immer OSError geraised
    if not path.lower().endswith('.txt'):
        raise ValueError(f"File {os.path.basename(path)} is not a text file")


    # - Wenn `path` keinen korrekten Pfad angibt, soll eine `OSError` ausgelöst werden, die den Benutzer auf einen falschen Pfad hinweist.
    if not os.path.isfile(path):
        raise OSError(f"Path to {os.path.basename(path)} does not exist")


    # - Verwenden Sie die UTF-8-Codierung beim Lesen der Datei.
    # with open damit file automatisch wieder geschlossen wird
    with open(path, 'r', encoding = 'utf-8')as file:

        # - Die Funktion soll die Anzahl der Zeilen, Wörter, Zeichen und Ziffern der Datei ausgeben.
        # Counter Initiierung
        lines = 0 
        characters = 0
        word_count = 0
        numbers = 0

        for line in file:
            # Lines
            lines += 1
            # Words
            words = line.split() #macht liste ohne whitespaces
            word_count += len(words)
            # Characters
            characters += len(line) #inkl. whitespaces
            # Digits
            for chars in line:
                if chars.isdigit():
                    numbers += 1
        

        print(f"- Number of lines: {lines}")
        print(f"- Number of words: {word_count}")
        print(f"- Number of characters: {characters}")
        print(f"- Number of digits: {numbers}")


# Um warning zu vermeiden \\
# File 1 wurde verändert: Lörem ipusm, mit UTF-8 Anzahl stimmt, ohne UTF8 anzahl stimmt nicht (1 extra Char)
path1 = "test_files\\ex1_1.txt"
path2 = "test_files\\ex1_2.txt"
path3 = "test_files\\ex1_3.txt"
path4 = "test_files\\ex1_4.py"


file_statistics(path1)


#- Number of lines: 79
#- Number of words: 3578
#- Number of characters: 21966
#- Number of digits: 0
#
#- Number of lines: 612
#- Number of words: 22308
#- Number of characters: 140742
#- Number of digits: 193
#
#- Number of lines: 124453
#- Number of words: 901325
#- Number of characters: 5458195
#- Number of digits: 3190

- Number of lines: 79
- Number of words: 3578
- Number of characters: 21967
- Number of digits: 0


## Aufgabe 2

Schreiben Sie eine Funktion 
`merge_csv_files(*paths: str, delimiter = ';': str, only_shared_columns = False : bool)` 
die eine beliebige Anzahl von CSV-Dateien zu einer einzigen Datei zusammenführt.

- `*paths` ist eine beliebige Anzahl von Pfaden zu CSV-Dateien (Sie können annehmen, dass es mindestens einen gibt).
- `delimiter` gibt an, wie die Werte innerhalb der CSV-Dateien getrennt sind.
- `only_shared_columns` ändert, welche Spalten zusammengeführt werden sollen. Wenn `True`, soll die zusammengeführte Datei nur Spalten enthalten, die in allen ursprünglichen Dateien existieren. Wenn `False`, sollen alle Spalten verwendet und fehlende Werte mit `NaN` aufgefüllt werden.
- Die zusammengeführte CSV-Datei sollte `merged.csv` heißen und im gleichen Verzeichnis wie alle ursprünglichen Dateien gespeichert werden. Sehen Sie sich die ursprünglichen Dateien `ex2_1.csv`, `ex2_2.csv`, `ex2_3.csv` und die resultierenden zusammengeführten Dateien `merged_all.csv` und `merged_shared.csv` an, um die erwarteten Ergebnisse für zwei Aufrufe dieser Funktion zu sehen. (Mit allen Dateien und `only_shared_columns = False` bzw. `only_shared_columns = True`)

**Hinweise:**
- Stellen Sie sicher, dass Sie denselben `delimiter` für die Eingabe- und Ausgabedateien verwenden.
- Prüfen Sie, ob die zusammengeführte Datei die Spaltennamen enthält und keine zusätzlichen Zeilen aufweist.
- Die Spalten können in der Eingabe und Ausgabe beliebig geordnet sein.


In [1]:
# your code here
import pandas as pd
import os

def merge_csv_files(*paths: str, delimiter = ';', only_shared_columns = False):
    #print(path1, path2, path3)
    #Jedes Dataframe in Liste Speichern
    dataframes = []

    for path in paths:
        df = pd.read_csv(path, delimiter=delimiter)
        dataframes.append(df)

    #print(dataframes[0])
    # Überprüfe True/False von only_shared
    # pd.concat() nimmt column names zum joinen, muss daher nicht extra definiert werden!
    if only_shared_columns:
        
        merged_df = pd.concat(dataframes, join='inner')
    else:
        
        merged_df = pd.concat(dataframes, join='outer')

    # Pandas method fillna für alle leeren Einträge
    merged_df = merged_df.fillna('NaN')

    # Speichere in dem Ordner von der ersten Datei paths[0]
    #output_path = os.path.join(os.path.dirname(paths[0]), 'merged_False.csv')
    output_path = os.path.join(os.path.dirname(paths[0]), 'merged.csv')
    #print(output_path)
    #index = false, sonst extra column mit index
    merged_df.to_csv(output_path, sep=delimiter, index=False)


path1 = "test_files/ex2_1.csv"
path2 = "test_files/ex2_2.csv"
path3 = "test_files/ex2_3.csv"

merge_csv_files(path1, path2, path3, only_shared_columns=False)
print("Data merged!")


Data merged!
