<a href="https://colab.research.google.com/github/michael-wettach/pythonsamples/blob/main/Python_4_Erweiterte_Datentypen.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1>Erweiterte Datentypen im Modul collections</h1>

Ich will noch einige Module vorstellen, die die Basisfunktionalität von Python erweitern. Da gibt es natürlich über 300.000 Projekte in https://pypi.org/ (viele davon sind kleine Privatprojekte und schaffen es nicht in die offizielle Python Dokumentation docs.python.org). Da in der letzten Sitzung noch einmal das Dictionary nachgefragt wurde, beginne ich mit dem Thema Datentypen. 

Das Dictionary selbst und die eingebauten iterierbaren Typen wurden bereits in Teil 1 meiner Kurseinheiten vorgestellt. Das Modul collections erweitert diese um einige Typen für spezielle Anwendungsgebiete, die man oft theoretisch auch als Dictionary abbilden könnte, die innerhalb des Moduls collections aber effizienter implementiert sind. Einige Einführungen findet man hier:
* https://docs.python.org/3/library/collections.html 
* https://www.digitalocean.com/community/tutorials/how-to-use-the-collections-module-in-python-3-de 
* https://www.geeksforgeeks.org/python-collections-module/


In [5]:
# Zunächst nochmal die Wiederholung: ein Dictionary speichert Werte für benannte Inhalte.
# Jeder Inhalts-Name kommt nur einmal in dem Dictionary vor, diese heißen daher auch Keys.
my_dict = {'Name': 'Nemo', 'Gattung': 'Clownfisch', 'Standort': 'Aquarium 1'}
print(my_dict)
print(my_dict.keys())      # Liefert eine Liste aller Namen, zu denen etwas im Dictionary steht
print(my_dict.items())     # Liefert alle Namen und deren Wert als eine Liste von Tupeln
print(my_dict['Name'])     # Liefert den Wert zu einem einzelnen eingetragenen Namen

{'Name': 'Nemo', 'Gattung': 'Clownfisch', 'Standort': 'Aquarium 1'}
dict_keys(['Name', 'Gattung', 'Standort'])
dict_items([('Name', 'Nemo'), ('Gattung', 'Clownfisch'), ('Standort', 'Aquarium 1')])
Nemo


Man kann sich den Inhalt des Dictionaries auch vorstellen als einen Datensatz in einer Datenbank.
<table width="50%">
<tr><td>Name</td><td>Gattung</td><td>Standort</td></tr>
<tr><td>Nemo</td><td>Clownfisch</td><td>Aquarium 1</td></tr>
</table>


Um das Ganze zu einer richtigen Tabelle wie in einer Datenbank auszubauen, müsste man eine Liste von solchen Dictionaries anlegen. Blöd ist dann allerdings, dass jedes einzelne Dictionary wieder die Keys Name, Gattung und Standort definieren muss. 


<h2>Named Tuple</h2>

Für so etwas gibt es im Modul Pandas den Dataframe, im Modul Collections das Named Tuple. Ein Artikel auf realpython.com gibt an, dass ein Named Tuple ungefähr 1/3 des Speicherplatzes eines analogen Dictionaries benötigt.

In [36]:
# Jetzt machen wir das mal mit einem Named Tuple
from collections import namedtuple

# Der folgende Aufruf erzeugt eine Klasse mit dem Namen "Fisch" 
Fisch = namedtuple('Fisch', ['Name', 'Gattung', 'Standort'])

# Alternativ kann statt einer Liste auch ein String mit Leerzeichen übergeben werden.
Reptil = namedtuple('Reptil', 'Name Gattung Standort')

# Der folgende Aufruf instantiiert die Klasse mit Werten
Nemo = Fisch('Nemo', 'Clownfisch', 'Aquarium 1')
Kaa = Reptil('Kaa', 'Schlange', 'Indien')

# Alternativ kann die Klasse auch aus einem Dictionary instantiiert werden.
# Zur Auflösung des Dictionaries in Einzelwerte nutzen wir den ** Operator.
my_dict = {'Name': 'Dorie', 'Gattung': 'Paletten-Doktorfisch', 'Standort': 'Südsee'}
Dorie = Fisch(**my_dict)

print(Nemo)
print(Kaa)
print(Dorie)

Fisch(Name='Nemo', Gattung='Clownfisch', Standort='Aquarium 1')
Reptil(Name='Kaa', Gattung='Schlange', Standort='Indien')
Fisch(Name='Dorie', Gattung='Paletten-Doktorfisch', Standort='Südsee')


In [13]:
# Zugriff auf einzelne Werte
print(Nemo.Name, "/", Nemo.Gattung, "/", Nemo.Standort)

Nemo / Clownfisch / Aquarium 1


In [16]:
# Der Datentyp eignet sich gut zur Verarbeitung von tabellarischen Daten
# Beispiel aus https://realpython.com/python-namedtuple/#reading-tabular-data-from-files-and-databases 
all_the_text = """name,job,email
"Linda","Technical Lead","linda@example.com"
"Joe","Senior Web Developer","joe@example.com"
"Lara","Project Manager","lara@example.com"
"David","Data Analyst","david@example.com"
"Jane","Senior Python Developer","jane@example.com"
"""
with open("Employees.csv", mode='w') as my_csv:
  my_csv.write(all_the_text)

In [21]:
# Jetzt lesen wir die CSV Datei mal ein
import csv

with open("Employees.csv", "r") as csv_file:
    reader = csv.reader(csv_file)

    # Die erste Zeile enthält die Spaltenüberschriften zur Definition der Klasse
    Employee = namedtuple("Employee", next(reader), rename=True)
    
    # Die restlichen Zeilen können wir in einer For-Schleife abarbeiten
    for row in reader:
        employee = Employee(*row)
        print(employee.name, "works as", employee.job, "at", employee.email)

Linda works as Technical Lead at linda@example.com
Joe works as Senior Web Developer at joe@example.com
Lara works as Project Manager at lara@example.com
David works as Data Analyst at david@example.com
Jane works as Senior Python Developer at jane@example.com


Ein Named Tuple hat im Vergleich zu einem Dictionary abweichende Eigenschaften:
* Ein Named Tuple ist immutable. <br/>
  (Es gibt zwar eine Funktion _update() um Werte anzupassen, damit wird aber eine Kopie mit neuer Identität erzeugt.)
* Ein Named Tuple ist geordnet und die einzelnen Elemente können per Index angesprochen werden.
* Die Instanzen von namedtuple haben zusätzliche Attribute und Methoden.

In [32]:
# Verschiedene Möglichkeiten, Werte von Named Tuples zu lesen
print(Nemo[1]) 
print(Nemo.Gattung)
print(getattr(Nemo, 'Gattung'))

Clownfisch
Clownfisch
Clownfisch


In [34]:
# Die Attribute und Methoden sind trotz des führenden Unterstrichs im Namen öffentlich
print(Nemo._fields)        # Attribut, enthält die vorhandenen Feldnamen als Tupel
print(Nemo._asdict())      # Erzeugt ein OrderedDict, siehe weiter unten
Cora = Fisch._make(Nemo)   # Erzeugt eine Kopie mit gleichen Eigenschaften
Cora._replace(Name='Cora') # Ändert den Wert eines benannten Attributs
print(Cora)                # Warum ist der Name hier nicht geändert?
print(Cora._replace(Name='Cora'))

('Name', 'Gattung', 'Standort')
OrderedDict([('Name', 'Nemo'), ('Gattung', 'Clownfisch'), ('Standort', 'Aquarium 1')])
Fisch(Name='Nemo', Gattung='Clownfisch', Standort='Aquarium 1')
Fisch(Name='Cora', Gattung='Clownfisch', Standort='Aquarium 1')


<h2>Ordered Dictionary</h2>

Ein OrderedDict ist nichts weiter als ein Dictionary, das die Reihenfolge der Einträge so beibehält, wie sie eingefügt wurden. Änderungen von Werten ändern die Reihenfolge nicht, das Löschen und neue Einfügen eines Keys allerdings schon (der erscheint dann am Ende). Dieses Verhalten ist seit einigen Versionen von Python 3 Standard auch für normale Dictionaries, so dass dieser Datentyp nicht wirklich einen Mehrwert bringt. Im Ausdruck mit print() sieht er etwas anders aus, da es sich um eine Klasse handelt; im Code wird er aber genauso verwendet wie ein normales Dictionary.

In [39]:
my_asc = {}
my_asc['A'] = 65
my_asc['B'] = 66
my_asc['E'] = 69
my_asc['C'] = 67
my_asc['D'] = 68
print(my_asc)
print(my_asc['A'])

{'A': 65, 'B': 66, 'E': 69, 'C': 67, 'D': 68}
65


In [41]:
from collections import OrderedDict
my_asc = OrderedDict()
my_asc['A'] = 65
my_asc['B'] = 66
my_asc['E'] = 69
my_asc['C'] = 67
my_asc['D'] = 68
print(my_asc)
print(my_asc['A'])

OrderedDict([('A', 65), ('B', 66), ('E', 69), ('C', 67), ('D', 68)])
65
