<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Skriptsprachen
### Sommersemester 2021
Prof. Dr. Heiner Giefers

## Excel-Tabellen mit Python verarbeiten

Für die Verarbeitung von Excel-Tabellen eignet sich die Bibliothek **openpyxl**.
Wie *openpyxl* funktioniert, erfahren Sie auf der [Homepage des Projekts](https://openpyxl.readthedocs.io/en/stable/).
Eine weitere gute Quelle für die Arbeit mit *openpyxl* ist das Buch [*Automate the Boring Stuff with Python* von Al Sweigart](https://nostarch.com/automatestuff2).
Die zweite Ausgabe des Buches ist als [OpenBook](https://automatetheboringstuff.com) verfügbar, relevant für die Aufgabe ist das [Kapitel 13](https://automatetheboringstuff.com/2e/chapter13/).

Die wichtigsten Befehle von *openpyxl* lassen sich allerdings kurz zusammenfassen.
Im folgenden Beispiel finden Sie alle Funktionen, die Sie zur Umsetzung der ersten Aufgabe benötigen.

Nach dem import der Bibliothek *openpyxl* erzeugen Sie eine neue Arbeitsmappe mit `openpyxl.Workbook()`.
In der Arbeitsmappe selektieren Sie ein Arbeitsblatt.
Wir setzen hier den Titel des Arbeitsblatts auf *Mein erstes Blatt* und speichern die ansonsten leere Tabelle mit `save()`.

Ein Arbeitsblatt funktioniert wie ein assoziatives Array (bzw. *Dictionary*).
Um auf die einzelnen Zellen der Arbeitsblätter zuzugreifen, verwenden Sie die Zellen-ID als Zeichenkette.

In [None]:
import openpyxl
arbeitsmappe = openpyxl.Workbook()  # Erzeige eine neue Arbeitsmappe
blatt = arbeitsmappe.active         # blatt verweist auf das aktive Arbeitsblatt
blatt.title = 'Mein erstes Blatt'   # Setze den Titel des Arbeitsblatts
arbeitsmappe.save("Meine_Leere_Excel_Datei.xlsx")                     # Speichere die Arbeitsmappe als Datei
arbeitsmappe = openpyxl.load_workbook('Meine_Leere_Excel_Datei.xlsx') # Bestehende Arbeitsmappe laden
blatt = arbeitsmappe.active         # blatt verweist auf das aktive Arbeitsblatt
blatt['A1'] = 'Test'                # Schreibe in Zelle "A1"
blatt['B1'] = 1                     # Schreibe in Zelle "B1"
blatt['C1'] = blatt['B1'].value + 1 # Zelle  "B1" lesen
arbeitsmappe.save("Meine_Excel_Datei.xlsx")                           # Speichere die Arbeitsmappe als Datei

Für die Aufgabe benötigen wir zusätzlich noch das Modul **random** aus der Standardbibliothek.
Wie Sie sicher schon ahnen, können wir damit Zufallszahlen erzeugen.
Mit *random* können verschiedene Arten von Zufalszahlen erzeugt werden.
Wir benötigen an dieser stelle recht einfache, ganzzahlige Werte aus einem vorzugebenden Bereich.
Die Funktion dazu ist `randint(a,b)`.
Sie liefert gleichverteilte Integer-Werte aus dem Bereich von `a` bis `b`, wobei `a` und `b` selbst als Werte vorkommen können.
Wenn Sie mehr über *random* wissen wollen, schlagen Sie einfach mit `help` in den Hilfeseiten nach.

In [None]:
import random
help(random.randint)

Um den Zufallszahlengenerator zu initialisieren, kann ein *Seed* angegeben werden.
Dies hat den Vorteil, dass die generierte Zahlenfolge zwar *zufällig* ist, bei gleichem *Seed* aber eine immer identische Folge von Werten erzeugt wird.
So sind Ergebnisse im nachhinein besser vergleichbar.

In [None]:
random.seed(123)
for i in range(0,10):
    print(random.randint(0,2), end=" ")


## Aufgaben

In der folgenden Aufgabe sollen Sie zwei Excel Dateien erzeugen, in den Namen und Matrikelnummern aufgelistet sind.
Um hier keine *echten* Namen verwenden zu müssen, generieren wir uns einfach zufällige Namen.
Dazu finden Sie in der folgenden Code-Zelle zwei Listen, `vornamen` und `nachnamen`.

Diese beiden Listen enthalten die häufigsten Vor- und Nachnamen der letzten Jahre in Deutschland.
Wir wollen nun Namen erzeugen, indem wir zufällige Kombinationen von je einem Vor- und Nachnamen aus diesen Listen auswählen.

Listen habe wir bereits verwendet und werden ihre genauen Eigenschaften später noch genauer betrachten.
Hier nur nochmal kurz das Wichtigste und was Sie fir die kommende Aufgabe benötigen:

In Listen können Sie beliebige Folgen von Elementen aufnehmen.
Bei unseren Namenslisten sind die Elemente allesamt vom Typ `str`.
Wichtig ist, die Elemente sind geordnet und können über einen numerischen Index zugegriffen werden.
Listen funktionieren also wie Arrays.

Häufig möchte man Listen erweitern, z.B. einfach ein neues Element ans Ende der Liste anhängen.
Das geht in Python mit der Methode `append`.
Auf einem Listen-Objekt aufgerufen, erweitert Sie die Liste indem Sie das als Parameter übergebene Objekt ans Ende der Liste anfügt.

In [None]:
vornamen = ['Mia','Milan','Emilia','Leon','Lina','Noah','Emma','Jonas','Lara','Ben']
nachnamen = ['Müller','Schmidt','Schneider','Fischer']

In [None]:
nachnamen.append('Weber')
nachnamen

Ob ein Element in der Liste vorkommt, kann einfach mit `in` überprüft werden.
`1000 in my_list` ist genau dann wahr, wenn mindestens ein Element den Wert 1000 hat.
Mit `not in` kann entsprechend geprüft werden, ob ein Wert *nicht* in der Liste vorkommt.

In [None]:
if 'Meyer' not in nachnamen:
    print("Meyer ist nicht dabei!")

Dass hier wirklich nur die Werte überprüft werden zeigt folgendes Beispiel.
In der Liste `my_list` sind verschiedenartige Elemente, darunter auch eine *ganzzahlige* `1000`.
Überprüft man nun, ob der Wert `1000.0` in der Liste ist, ist das Ergebnis `True`.
Es ist hier also egal, dass `1000.0` eine Fließkommazahl ist, der *Wert* ist schließlich 1000.

In [None]:
my_list = [1000, 'hello', 3]
1000.0 in my_list

### Aufgabe 1
Nun sind Sie aber an der Reihe.
In der folgenden Code-Zelle soll die Funktion `generiere_teilnehmerliste` ausimplementiet werden.
Die Parameter der Funktion sind
- der Dateiname, der neu erzeugten Excel-Datei
- die Anzahl von Einträgen (Namen) in der Datei
- die Listen mit den Vor- und Nachnamen aus denen zufällig ausgewählt wird
- ein Bool'scher Parameter `mit_matrikelnummer` mit dem festgelegt wird, ob vor der Spalte mit den Namen noch eine Spalte mit zufällig generierten Matrikelnummern erzeugt werden soll

Die Erzeugten Excel-Tabellen sollen wie in der Abbildung unten aussehen.

mit den Aufrufen\
`generiere_teilnehmerliste('TN-A.xlsx', 5, vornamen, nachnamen)`\
und \
`generiere_teilnehmerliste('TN-B.xlsx', 5, vornamen, nachnamen, False)`\
werden Zwei Excel Dateien angelegt. Beide haben Arbeitsblatt mit dem Titel *Teilnehmer*.
Die erste Tabelle hat 5 Namenseinträge in der zweiten Spalte und jeweils eine zugehörige Matrikelnummer in der ersten Spalte.
Die Matrikelnummern sollen 7-Stellig sein, es sollen keine führenden Nullen vorkommen.

![](spreadsheets.png)

In [None]:
import openpyxl
import random

random.seed(42) # Seed, um immer gleiche Namen zu erzeugen

def generiere_teilnehmerliste(dateiname, anzahl, vornamen, nachnamen, mit_matrikelnummer=True):
    ''' Erzeuge eine Excel Datei mit zufälligen Namen und Matrikelnummern
    
    Parameter:
    # dateiname (str): Name der Excel Ziel-Datei
    # anzahl (int): Anzah der Namen in der Tabelle
    # vornamen: Liste mit Vornamen, aus denen zufällig ausgewählt wird
    # nachnamen: Liste mit Nachnamen, aus denen zufällig ausgewählt wird
    # mit_matrikelnummer (bool): Legt fest, ob eine Spalte mit Matrikelnummern vorangestellt sein soll
    
    '''
    namen = [] # Leere Liste für Namen
    wb = openpyxl.Workbook()
    sheet = wb.active
    sheet.title = 'Teilnehmer'
    # YOUR CODE HERE
    raise NotImplementedError()

generiere_teilnehmerliste('TN-A.xlsx', 30, vornamen, nachnamen)
generiere_teilnehmerliste('TN-B.xlsx', 20, vornamen, nachnamen, False)

In [None]:
wbA = openpyxl.load_workbook('TN-A.xlsx')
wbB = openpyxl.load_workbook('TN-B.xlsx')
sheetA = wbA['Teilnehmer']
sheetB = wbB['Teilnehmer']
assert sheetA.max_row==31, "Falsche anzahl von Zeilen in TN-A.xlsx"
assert sheetB.max_row==21, "Falsche anzahl von Zeilen in TN-B.xlsx"


### Aufgabe 2

Wir haben nun zwei Excel Arbeitsmappen `'TN-A.xlsx` und `'TN-B.xlsx`, wobei die erste Namen und Matrikelnummern enthält, die zweite nur Namen.

Wir wollen nun sicherstellen, das in der ersten Tabelle ausschließlich Namen vorkommen, die auch in der zweiten Datei vorkommen.
Die nicht in beiden Tabellen vorkommenden Namen sollen also komplett, mit Matrikelnummer gelöscht werden.
Hierzu können Sie eine neue Datei anlegen, oder Sie schauen nach, wie man in *openpyxl* Zeilen löschen kann.
Die Hilfe-Funktion kann hier nützlich sein (`help(openpyxl.worksheet.worksheet.Worksheet)`), oder Sie suchen im Netz nach *delete rows* im Zusammenhang mit *openpyxl*.

In [None]:
wbA = openpyxl.load_workbook('TN-A.xlsx')
wbB = openpyxl.load_workbook('TN-B.xlsx')

sheetA = wbA['Teilnehmer']
sheetB = wbB['Teilnehmer']


# YOUR CODE HERE
raise NotImplementedError()


wbA.save('TN-A.xlsx')  
print(f"Blatt 'TN-A.xlsx' hat noch {sheetA.max_row} Zeilen")
    

In [None]:
from nose.tools import assert_in

wbA = openpyxl.load_workbook('TN-A.xlsx')
wbB = openpyxl.load_workbook('TN-B.xlsx')
sheetA = wbA['Teilnehmer']
sheetB = wbB['Teilnehmer']