# Mensen
In diesem Projekt werfen Sie von außen einen Blick in den Speiseplan der [Mensen des Studierendenwerks Thüringen](https://www.stw-thueringen.de/mensen/). Der Schwerpunkt liegt dabei auf der Verarbeitung vieler HTML-Dateien und der Extraktion von Wissen aus diesen. Sie benötigen dazu zwangsweise Wissen über den Aufbau von HTML-Dokumenten.

## Inhaltsverzeichnis
- [Datensatz](#Datensatz)
- [Aufgabenstellung](#Aufgabenstellung)

## Datensatz
Sie erhalten zwei Dateien:
- `mensen_info.csv` enthält grundlegende Informationen über alle Mensen in Thüringen. Dazu zählt eine eindeutige ID, die jeder Mensa vom Studierendenwerk zugewiesen und auch auf der Website verwendet wird.
- `mensen_html.tar.gz` enthält eine Sammlung von HTML-Dateien. Sie sind nach dem Muster `<id>-<jahr>-<monat>-<tag>.html` benannt und enthalten jeweils die angebotenen Gerichte einer Mensa an einem bestimmten Tag. Den Inhalt der HTML-Dateien bekommen Sie jeweils angezeigt, wenn Sie auf [einer der Seiten](https://www.stw-thueringen.de/mensen/ilmenau/mensa-ehrenberg.html) eine Mensa und einen Tag auswählen. Filter wurden vor dem Abspeichern nicht gesetzt, sodass alle Gerichte enthalten sind.

Tarballs mit der Endung `.tar`, nach Kompression beispielsweise auch `.tar.gz` oder `.tar.bz2`, sind eine der einfachsten Möglichkeiten, Dateien "zusammenzukleben", um diese anschließend gemeinsam zu komprimieren. Auf der Kommandozeile können Sie das Archiv wie folgt entpacken. Beachten Sie dabei aber, dass hunderte kleine Dateien geschrieben werden.

```bash
tar -vxzf mensen_html.tar.gz
```

Alternativ können Sie die Datei auch mit Python lesen. Der nachfolgende Codeausschnitt zeigt, wie Sie auf die Dateien im komprimierten Tarball zugreifen und den Inhalt laden können.

In [None]:
import tarfile

# Tarball öffnen. Kompression wird durch 'r:gz' automatisch behandelt
with tarfile.open('mensen_html.tar.gz', 'r:gz', encoding='utf-8') as tar:
    # über enthaltene Dateien iterieren
    for member in tar.getmembers():
        # enthaltene Datei öffnen
        with tar.extractfile(member) as file:
            name = member.name
            html = file.read()

        # Beispieldatum ausgeben und Schleife unterbrechen
        print(name, html[:81])
        break

## Aufgabenstellung
Legen Sie ein Jupyter Notebook an, laden Sie den Datensatz und verschaffen Sie sich einen Überblick über die enthaltenen Informationen.

Beantworten Sie anschließend zwei der folgenden Fragen.
- An welchen Tagen ist das Angebot an Pommes-Frites am größten?
- Sind einige Gerichte oder Zusätze auf bestimmte Wochentage begrenzt?
- Wie verändert sich das Preisniveau der Gerichte?

Wählen Sie zusätzlich eine eigene, komplexere Fragestellung, die Sie anschaulich mit den Daten beantworten. Verwenden Sie dazu eine der erweiterten Data Science Methoden, also beispielsweise Clustering, Klassifikation oder Graphanalyse. Falls Ihnen bei der Beantwortung der vorangegangen Fragen Ungereimtheiten oder interessante Tatsachen auffallen, sind diese möglicherweise ein günstiger Anfang.

Verstehen Sie die Fragestellung bitte als Anreiz für eine Beschäftigung mit dem Datensatz. Das Wort "Donnerstag" mag eine korrekte Antwort sein, weckt aber weder das Interesse noch den Forschergeist des Adressaten. Verwenden Sie Tabellen und Graphen, suchen Sie Zusammenhänge und graben Sie tiefer.

Achten Sie bei Ihren Antworten und Herleitungen außerdem darauf, dass diese immer verständlich und nachvollziehbar dokumentiert sind. Verwenden Sie dazu auch Kommentare in den Quelltextabschnitten. Stellen Sie Ihre Ergebnisse immer Interesse weckend dar.