# Code Along

## Vorstellung Use Case und Datensatz
Wir möchten eine Liste mit Kontaktdaten einlesen und verarbeiten. (keine echten Kontakte, Achtung Datenschutz!)

Dabei lernen wir den Datenimport und einfache Analysen mit Python Grundfunktionen kennen.
- Einlesen der Daten (gesamt, zeilenweise, als dictionary,...)
- Prüfen und Ändern von Datentypen
- Fehlerbehandlung und Datenbereinigung
- Erste Auswertung mit den Daten

## 1) CSV mit Excel oder Editor öffnen

## 2) Datei lesen und anzeigen

Mit der Funktion [`open()`](https://docs.python.org/3/library/functions.html#open) wird die Datei `.csv` aus dem Ordner `data` geöffnet und die Referenz dazu (ein file-Objekt) der Variable `csvfile` zugewiesen. Der Ausdruck `"data/Kontakte.csv"` ist eine Zeichenkette vom Datentyp [`str`](https://docs.python.org/3/library/stdtypes.html#textseq).

Mit `csvfile.read()` wird der Inhalt der Datei gelesen der Variable `data` zugewiesen.

Die `print()`-Funktion gibt eine Textdarstellung der ihr übergebenen Parameter (in diesem Fall `data`) in der Kommandozeile aus.

Nach dem Arbeiten mit einer Datei sollte diese (hier mit `csvfile.close()`) wieder geschlossen werden. Sonst kann es vorkommen, dass das Schreiben in eine Datei nicht korrekt abgeschlossen wird, bevor das Programm endet.

In [1]:
csvfile = open("data/Kontakte.csv")
data = csvfile.read()
csvfile.close()
print(data[:1000]) # zeige die ersten 1000 Zeichen

Anrede,Titel,Vorname,Nachname,Adresse,Firma,E-Mail,Telefon-Nr.,Geburtstag
Frau,Dr.,Emma,Kambs,"GÃ¼nter-Lange-StraÃŸe 3, 77839 Borken",Sorgatz,emma.kambs@sorgatz.eu,+49(0) 182838907,02.07.1975
Herr,Dr.,Michael,Kaul,"Nikola-Wohlgemut-Weg 78, 91098 Zerbst",Pieper Haering AG,michael.kaul@pieper_haering.eu,0303777834,17.11.1983
Herr,,Noah,Stiebitz,"Biggengasse 47, 80687 Heiligenstadt",Cichorius MatthÃ¤i GmbH,noah.stiebitz@cichoriusmatthaei.eu,02507 48374,07.03.1963
Herr,,Markus,Tlustek,"Albert-Wirth-Weg 2, 71781 Strausberg",Keudel GmbH,markus.tlustek@keudelgmbh.eu,+49(0) 253232786,27.09.1970
Frau,,Laura,Thies,"Blochplatz 27, 43917 Erbisdorf",Trupp KG,laura.thies@truppkg.eu,(06930) 24803,03.11.1982
Frau,,Anna,Seip,"Julian-Schmidtke-Ring 8, 87766 Regen",Riehl,anna.seip@riehl.com,+49(0) 224032903,31.12.1954
Frau,,Marie,Jacob,"KramerstraÃŸe 20, 86067 GÃ¼nzburg",Heintze,marie.jacob@heintze.com,(01935) 879148,12.12.1959
Frau,Prof. Dr.,Heidi,Thanel,"Stiffelweg 90, 51519 Leipziger Land",Ebert AG,he

### schlanker und einfacher mit "with" statement
Einen sicheren Umgang mit dem Öffnen und Schließen von Dateien bietet das [`with`-Statement](https://docs.python.org/3/reference/compound_stmts.html#with).

Einrückungen haben eine Bedeutung in Python: sie definieren zusammengehörige Code-Blöcke. In diesem Fall ist die vom File-Objekt `csvfile` repräsentierte Datei nur im eingerückten Code-Block unter dem `with`-Statement verfügbar und wird danach wieder ordnungsgemäß geschlossen.

Python Grundlagen: [Dateien Lesen und Schreiben](#dateien-lesen-und-schreiben), [Strings](#strings)

In [2]:
with open("data/Kontakte.csv") as csvfile:
    data = csvfile.read()
    print(data[:1000])

Anrede,Titel,Vorname,Nachname,Adresse,Firma,E-Mail,Telefon-Nr.,Geburtstag
Frau,Dr.,Emma,Kambs,"GÃ¼nter-Lange-StraÃŸe 3, 77839 Borken",Sorgatz,emma.kambs@sorgatz.eu,+49(0) 182838907,02.07.1975
Herr,Dr.,Michael,Kaul,"Nikola-Wohlgemut-Weg 78, 91098 Zerbst",Pieper Haering AG,michael.kaul@pieper_haering.eu,0303777834,17.11.1983
Herr,,Noah,Stiebitz,"Biggengasse 47, 80687 Heiligenstadt",Cichorius MatthÃ¤i GmbH,noah.stiebitz@cichoriusmatthaei.eu,02507 48374,07.03.1963
Herr,,Markus,Tlustek,"Albert-Wirth-Weg 2, 71781 Strausberg",Keudel GmbH,markus.tlustek@keudelgmbh.eu,+49(0) 253232786,27.09.1970
Frau,,Laura,Thies,"Blochplatz 27, 43917 Erbisdorf",Trupp KG,laura.thies@truppkg.eu,(06930) 24803,03.11.1982
Frau,,Anna,Seip,"Julian-Schmidtke-Ring 8, 87766 Regen",Riehl,anna.seip@riehl.com,+49(0) 224032903,31.12.1954
Frau,,Marie,Jacob,"KramerstraÃŸe 20, 86067 GÃ¼nzburg",Heintze,marie.jacob@heintze.com,(01935) 879148,12.12.1959
Frau,Prof. Dr.,Heidi,Thanel,"Stiffelweg 90, 51519 Leipziger Land",Ebert AG,he

**DISKUSSION**
- Welcher Datentyp ist data?
- Umlaute (ä,ü,ö) werden nicht korrekt ausgegeben. Wie kann der Fehler behoben werden? 

## 3) Zeilenweise lesen

Anstatt des gesamten Dateiinhalts kann auch nur eine einzelne Zeile ausgelesen werden:

In [100]:
with open("data/Kontakte.csv") as csvfile:
    line = csvfile.readline()
    print(line)

Anrede,Titel,Vorname,Nachname,Adresse,Firma,E-Mail,Telefon-Nr.,Geburtstag



Damit nicht nur eine, sondern alle Zeilen einzeln ausgelesen werden, müsste die `readline()`-Funktion mehrmals wiederholt werden. Für Wiederholungen von Anweisungen gibt es in Programmiersprachen **Schleifen**. Da das zeilenweise Lesen von Textdateien sehr häufig vorkommt, gibt es dafür in Python eine besondere Schreibweise:

In [104]:
with open("data/Kontakte.csv") as csvfile:
    for line in csvfile:
        # print(line, end="")

IndentationError: expected an indented block after 'for' statement on line 2 (2223658089.py, line 3)

Es wird eine `for`-Schleife definiert. Hier wird über `csvfile` iteriert. Nacheinander wird der Variable `line` der Inhalt einer Zeile zugewiesen und damit der eingerückte Code ausgeführt.

Die `print()`-Funktion wird hier mit dem zusätzlichen Parameter `end=""` aufgerufen. Standardmäßig wird an die Ausgabe von `print()` ein Zeilenumbruch (`end="\n"`) angehängt. Da die Zeileninhalte `line` jedoch schon mit Zeilenumbrüchen enden, wird der zusätzliche Umbruch damit entfernt.

Python-Grundlagen: [Schleifen](#schleifen)

## 4) Zeilen in Spalten trennen

Jetzt können wir beginnen, die einzelnen Zeilen in ihre Spalten aufzutrennen:

In [105]:
with open("data/Kontakte.csv", encoding="utf-8") as csvfile:
    fieldnames = csvfile.readline().split(",")    
    print(fieldnames)
    for line in csvfile:
        values = line.split(",")
        # print(values)

['Anrede', 'Titel', 'Vorname', 'Nachname', 'Adresse', 'Firma', 'E-Mail', 'Telefon-Nr.', 'Geburtstag\n']


**DISKUSSION**
- Am Ende jeder Zeile erscheint ein sogenanntes newline Zeichen. Wir möchten dieses Zeichen aber nicht in den Daten haben. Versuche es mithilfe des replace Befehls zu entfernen.

Zuerst wird nur die erste Zeile (Beschreibung der Datenfelder) eingelesen und bei jedem Vorkommen eines Kommas (`,`) mit der [String-Funktion `split()`](https://docs.python.org/3/library/stdtypes.html#str.split) getrennt. Diese **Liste** von Datenfeldnamen wird der Variable `fieldnames` zugewiesen und ausgegeben.

Ebenso werden die Datenwerte in den folgenden Zeilen von `csvfile` getrennt und ausgegeben.

Jetzt können nur einzelne Spalten angezeigt werden, beispielsweise nur `Anrede`, `Nachname` und `Firma`. Diese befinden sich in den `fieldnames` bzw. in den Datenwerten an den Indizes 0, 3, 6. (Die Zählung beginnt bei Null.)

In [106]:
with open("data/Kontakte.csv", encoding="utf-8") as csvfile:
    fieldnames = csvfile.readline().split(",")
    print(fieldnames[0], fieldnames[3], fieldnames[6])
    for line in csvfile:
        values = line.split(",")
        # print(values[0], values[3], values[6])

Anrede Nachname E-Mail


**DISKUSSION**
- Was fällt bei der Datenausgabe auf? Passen Überschrift und Inhalt zusammen?
- Wie kannd er Fehler behoben werden? Hinweis: Verwendung von Kommas

## 5) Einlesen als dictionary
Anstatt einer nummerierten Liste von Werten pro Datensatz können wir auch ein **[`dict`](https://docs.python.org/3/library/stdtypes.html#mapping-types-dict) ([Dictionary]{lang="en"})** verwenden, das Datenwerte mit Schlüsselwörtern speichert:

In [107]:
with open("data/Kontakte.csv", encoding="utf-8") as csvfile:
    fieldnames = csvfile.readline().split(",")
    print(fieldnames[0], fieldnames[3], fieldnames[5])
    for line in csvfile:
        values = line.split(",")
        row = dict()
        for index, key in enumerate(fieldnames):
            row[key] = values[index]
        # print(row["Anrede"], row["Nachname"], row["Firma"])

Anrede Nachname Firma


Zuerst wird ein neues Dictionary `row` definiert. Dann wird über `fieldnames` iteriert, wobei durch die Funktion [`enumerate()`](https://docs.python.org/3/library/functions.html#enumerate) zu jedem Wert `key` auch eine Zählvariable `index` zurückgegeben wird. Dann wird in `row` jedem `key` der entsprechende Wert von `values` am Index `index` zugewiesen.

Dadurch kann auf die Entsprechenden Werte von `row` jetzt über die Schlüsselwörter `Anrede`, `Nachname` und `Firma` zugegriffen werden.

`row` kann auch mit einem einzeiligen [Python-Generator](https://wiki.python.org/moin/Generators) erzeugt werden.

Python Grundlagen: [Listen](#liste), [Dictionaries](#dictionary)

In [108]:
with open("data/Kontakte.csv", encoding="utf-8") as csvfile:
    fieldnames = csvfile.readline().split(",")
    print(fieldnames[0], fieldnames[3], fieldnames[6])
    for line in csvfile:
        values = line.split(",")
        row = {key: values[index] for index, key in enumerate(fieldnames)}
        # print(row["Anrede"], row["Nachname"], row["Firma"])

Anrede Nachname E-Mail


## 6) Lesen mit csv Modul
Da das CSV-Format (Comma Separated Values, kommagetrennte Werte) eins der verbreitetsten
Formate für den Austausch von tabularen Daten ist, sind Funktionen für das Lesen und
Schreiben von CSV-Dateien in der Python-Standardbibliothek enthalten.

In [112]:
import csv

with open("data/Kontakte.csv", encoding="utf-8") as csvfile:
    kontakt_reader = csv.DictReader(csvfile, delimiter=",")
    for row in kontakt_reader:
        # print(row["Anrede"], row["Nachname"], row["E-Mail"])

IndentationError: expected an indented block after 'for' statement on line 5 (2836931029.py, line 6)

Mit der Funktion `csv.reader()` wird ein Reader-Objekt `kontakt_reader` erzeugt, das die Referenz zur Datei `csvfile` sowie die Information über das verwendete Trennzeichen (`delimiter`) enthält.

### Datentypen anzeigen
Auf die einzelnen Werte der Datensätze kann jetzt bequem zugegriffen werden. Allerdings sind
die Werte bisher noch alle Zeichenketten:

In [14]:
with open("data/Kontakte.csv", encoding="utf-8") as csvfile:
    kontakt_reader = csv.DictReader(csvfile, delimiter=",")
    first_row = next(kontakt_reader)
    for key, value in first_row.items():
        print(f"{key:20}: {value.__class__}")

Anrede              : <class 'str'>
Titel               : <class 'str'>
Vorname             : <class 'str'>
Nachname            : <class 'str'>
Adresse             : <class 'str'>
Firma               : <class 'str'>
E-Mail              : <class 'str'>
Telefon-Nr.         : <class 'str'>
Geburtstag          : <class 'str'>


Mit der next()-Funktion wird das erste Zeilenelement aus dem Generator evaluation_reader geholt.
Beim Iterieren über ein Dictionary werden standardmäßig nur die Schlüsselwörter zurückgegeben.
Um zusätzlich die Werte zu erhalten, muss die items()-Funktion benutzt werden.
Mit einem Format-String können Repräsentationen von Variablen- und Funktionswerten in Strings zusammengefasst und formatiert werden.
Das spezielle __class__-Attribut gibt Auskunft über die Klasse einer (Variablen-)Instanz.

### Datentypen ändern
In unserem Beispiel wird in der letzten Spalte das Geburtsdatum der Kontakte gespeichert. Wenn wir weitere Analysen mit dieser Information machen möchten, zum Beispiel das aktuelle Alter oder das durchschnittliche Alter berechnen, ist es zielführend, das Format von str abzuändern.
Python bietet speziell für Datums- und Zeitangaben das Modul `datetime`.



In [18]:
from datetime import date
today = date.today()
print(f"Today's date: {today}")

Today's date: 2023-07-26


In [22]:
date_str = '03.05.1962'
date(date_str)

TypeError: 'str' object cannot be interpreted as an integer

In [28]:
date(int(date_str.split('.')[2]), int(date_str.split('.')[1]), int(date_str.split('.')[0]))

datetime.date(1962, 5, 3)

In [113]:
DATE_VALUES = ["Geburtstag"]

with open("data/Kontakte.csv", encoding="utf-8") as csvfile:
    kontakt_reader = csv.DictReader(csvfile, delimiter=",")
    # first_row = next(kontakt_reader)
    for row in kontakt_reader:
        for key in DATE_VALUES:
            date_str_list = row[key].split('.')
            row[key] = date(int(date_str_list[2]), int(date_str_list[1]), int(date_str_list[0]))
        # print(f"{row['Geburtstag']}")

## 7) Erstellen einer Funktion
Ein Codeblock kann für leichteres Wiederverwenden und bessere Verständlichkeit als Funktion definiert werden.

In [33]:
DATE_VALUES = ["Geburtstag"]

def read_kontakt_file(file_name):
    rows = []
    with open(file_name, encoding="utf-8") as csvfile:
        kontakt_reader = csv.DictReader(csvfile, delimiter=",")
        for row in kontakt_reader:
            for key in DATE_VALUES:
                date_str_list = row[key].split('.')
                row[key] = date(int(date_str_list[2]), int(date_str_list[1]), int(date_str_list[0]))
            rows.append(row)
            # print(row["Anrede"], row["Nachname"], row["E-Mail"])
    return rows

In [34]:
kontakte = read_kontakt_file("data/Kontakte.csv")
kontakte[0]

{'Anrede': 'Frau',
 'Titel': 'Dr.',
 'Vorname': 'Emma',
 'Nachname': 'Kambs',
 'Adresse': 'Günter-Lange-Straße 3, 77839 Borken',
 'Firma': 'Sorgatz',
 'E-Mail': 'emma.kambs@sorgatz.eu',
 'Telefon-Nr.': '+49(0) 182838907',
 'Geburtstag': datetime.date(1975, 7, 2)}

In [35]:
# Wie viele Einträge hat die Datei?
print('Es sind ' + str(len(kontakte)) + ' Kontakte eingetragen.')

Es sind 213 Kontakte eingetragen.


## 8) Auswertung der Geburtstage
Wir möchten eine Auswertung der Geburtstage und des Alters der Teilnehmer vornehmen.

a) Wie viele Teilnehmer haben im April Geburtstag?

In [59]:
counter = 0
for kontakt in kontakte:
    if kontakt['Geburtstag'].month == 4:
        counter += 1

print(f"{counter} Kontakte haben im April Geburtstag.")

19 Kontakte haben im April Geburtstag.


b) Wie hoch ist das Durchschnittsalter der Kontakte?

In [41]:
time_diff = date.today() - kontakte[0]['Geburtstag']
alter = time_diff.days // 365
print(alter)

48


In [42]:
# Erzeuge eine Liste des aktuellen Alters der Kontakte
today = date.today() 
list_Alter = []
for kontakt in kontakte:
    list_Alter.append((today - kontakt['Geburtstag']).days // 365)

In [63]:
def get_mean(data):
    summe = sum(data)
    mean = summe / len(data)
    return mean

In [66]:
alter_durchschnitt = round(get_mean(list_Alter))
print(f"Das durchschnittliche Alter der Kontakte beträgt {alter_durchschnitt} Jahre.")

Das durchschnittliche Alter der Kontakte beträgt 44 Jahre.


c) Wie heißt der oder die älteste Teilnehmer/Teilnehmerin?

In [61]:
max(list_Alter)

70

In [68]:
today = date.today() 
max_Alter = 0
kontakt_alt = []
for kontakt in kontakte:
    if (today - kontakt['Geburtstag']).days > max_Alter:
        max_Alter = (today - kontakt['Geburtstag']).days
        kontakt_alt = kontakt

print(f"Mit {max_Alter//365} Jahren ist {kontakt_alt['Vorname']} {kontakt_alt['Nachname']} die älteste Person.")

Mit 70 Jahren ist Sofia Roskoth die älteste Person.


### Diskussion und Anregungen
Ideen für weitere Analysen und Übungen:
- Telefonnummern sind nicht einheitlich formatiert. Das kann zu Fehlern führen! Wie kann dies behoben werden?
- Überprüfen von ungültigen Einträgen bei der Postleitzahl

---
# Übungen
---

## Übung 1
### Aufgabe 1

### Aufgabe 2

### Aufgabe 3

## Übung 2
### Aufgabe 1

### Aufgabe 2

### Aufgabe 3

### Aufgabe 4

## Übung 3
### Aufgabe 1

In [103]:
print(fieldnames)

['Anrede', 'Titel', 'Vorname', 'Nachname', 'Adresse', 'Firma', 'E-Mail', 'Telefon-Nr.', 'Geburtstag\n']


### Aufgabe 2

### Aufgabe 3

In [98]:
print(my_dict)

{'Titel': 'Dr.', 'Adresse': 'Günter-Lange-Straße 3, 77839 Borken', 'Firma': 'Sorgatz', 'Telefon-Nr.': '+49(0) 182838907', 'Geburtstag': datetime.date(1975, 7, 2)}


### Aufgabe 4