# Data Science I
### Klausur I im Sommersemester 2024

## Allgemeine Informationen

* Sie haben eine Woche Zeit, um die Klausur zu bearbeiten.

* Sie können alle Quellen verwenden, müssen sie jedoch korrekt benennen. Wenn Sie ChatGPT oder eine ähnliche Software verwenden, müssen Sie dies kenntlich machen und den verwendeten Prompt angeben.

* Sie sollten die folgenden Pakete verwenden: `numpy, pandas, scipy, geopy, scikit-learn/sklearn, matplotlib, seborn, openPyxl` und Pythons Standardlibraries. Diese sind ausreichend, um die Klausur zu lösen. Falls Sie andere Pakete verwenden, rechtfertigen Sie deren Verwendung.

* Der Code muss ausreichend kommentiert und verständlich sein. Schreiben Sie Funktionen beim Wiederverwenden von Code. Befolgen Sie im Allgemeinen die Richtlinien aus der Vorlesung. Punkte können aufgrund eines schlecht strukturierten oder unverständlichen Codes abgezogen werden.

* **Begründen Sie Entscheidungen** zur Auswahl von Plots, Hypothesentest usw. und **interpretieren Sie** Ihre Ergebnisse.

* Sie dürfen in keiner Form Hilfe oder Rat von Dritten in Anspruch nehmen.

* Bitte laden Sie Ihre vollständige Lösung der Klausur als `.zip`-Datei mit dem Dateinamen `vorname_matrikelnummer.zip` bis 8. August 2024 um 12:00 Uhr auf StudIP in den Ordner `Submission - Exam 1` hoch.

* Fügen Sie der `.zip` Datei auch die unterschriebene Eigenständigkeitserklärung hinzu.

* Wenn Sie Fragen haben, kontaktieren Sie uns bitte rechtzeitig über Rocketchat.

In [None]:
# IMPORT LIBRARIES
import numpy as np, pandas as pd, matplotlib.pyplot as plt, openpyxl, warnings, os, dsplotter, logging

from scipy.stats import ttest_ind
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier



In [None]:
debug = False

In [None]:

if debug:
    logging.basicConfig(level=logging.ERROR)
    warnings.filterwarnings("ignore", category=UserWarning, module='openpyxl')

## Aufgaben und Punkte:

<table>
  <thead>
    <tr>
      <th colspan="3">Aufgabe 1 - Data Preprocessing</th>
      <th colspan="2">Aufgabe 2 - Plotting</th>
      <th colspan="2">Aufgabe 3 - Statistics</th>
      <th colspan="2">Aufgabe 4 - Machine Learning </th>
    </tr>
    <tr>
      <th>Aufgabe 1.1</th>
      <th>Aufgabe 1.2</th>
      <th>Aufgabe 1.3</th>
      <th>Aufgabe 2.1</th>
      <th>Aufgabe 2.2</th>
      <th>Aufgabe 3.1</th>
      <th>Aufgabe 3.2</th>
      <th>Aufgabe 4.1</th>
      <th>Aufgabe 4.2</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>10 Punkte </td>
      <td>12 Punkte </td>
      <td>2 Punkte </td>
      <td>11 Punkte</td>
      <td>27 Punkte </td>
      <td>13 Punkte </td>
      <td>5 Punkte </td>
      <td>10 Punkte </td>
      <td>10 Punkte </td>
    </tr>
    <!-- Add more rows as needed -->
  </tbody>
</table>


_____
## Aufgabe 0: Setup

Der Klausurordner enthält ein `Dockerfile`, in dem alle relevanten Pakete definiert sind. Das `Dockerfile` baut auf dem Jupyter Server Image auf. Verwenden Sie dieses Dockerfile, um zuerst ein Docker Image zu erstellen und dann einen Docker Container von diesem Image zu starten. Benutzen Sie anschließend die Jupyter Server Instanz, um an der Klausur zu arbeiten. Wir empfehlen dringend, die Docker-Umgebung zu verwenden, um Versionskonflikte zwischen den verschiedenen Paketen zu vermeiden. Code, der in dieser Umgebung nicht ausführbar ist, wird als **nicht funktional** bewertet.

____
## Aufgabe 1: Data Preprocessing (24 Punkte)

### Datenbeschreibung

Im Ordner `data` finden Sie die monatlichen Parkdaten der Stadt Göttingen für das Jahr 2023 (Feb.-Dez.). Die Parkschein-Verkäufe an den stationären Parkscheinautomaten befinden sich in den Dateien, deren Namen mit `Cale` beginnt, und die mit der Parkster-App gekauften Parkscheine befinden sich in den Dateien, deren Namen mit `Parkster` beginnen.<br>
Die Datei `parkzone_latlong.csv` enthält weitere geografische Informationen zu den Parkzonen und die Datei `psa_latlong.csv` enthält geografische Informationen über die Parkscheinautomaten innerhalb der Parkzone.

Die bereitgestellten Parkdaten sind echte Rohdaten und stammen direkt von der Stadt Göttingen. Wir haben lediglich die geografischen Informationen hinzugefügt.

*Bitte beachten Sie:*
- *Obwohl wir nur Daten von Februar bis Dezember haben, bezeichnen wir diese im Folgenden als jährlich.*
- *Aufgrund der Größe der Daten sollten Sie Ihren Arbeitsspeicher effizient verwenden. Vermeiden Sie daher die Speicherung mehrerer Kopien desselben DataFrames.*

#### Aufagbe 1.1 - Laden der Daten (10 Punkte)
Laden Sie die Dateien für die Parkscheinautomaten (`Cale-*`) und für die App (`Parkster-*`) und fügen Sie diese **jeweils** zu einem Dataframe zusammen, der die jährlichen Verkäufe für Parkscheinautomaten und App beinhaltet. <br>
Laden Sie auch die weiteren Informationen zu den Parkscheinautomaten (`psa_latlong.csv`) und Parkzonen (` parkzones_latlong.csv`).

Sie werden die Werte `0` und `999` in der Spalte `Automaten -ID` für die Daten der Parkscheinautomaten finden. <br> Ändern Sie die `0`en in `1`en und löschen Sie alle Einträge mit `999`.
Überprüfen Sie auch auf Zeilen-Duplikate und löschen Sie diese gegebenenfalls. 

##### Load Automaten

In [None]:
# Load data for Parkscheinautomaten
print("automaten starts")
automaten_files = list(filter(lambda x: x.startswith('Cale-'), os.listdir('data')))
automaten_df = pd.concat([pd.read_excel(f"data/{file}", skiprows=2) for file in automaten_files])
print("automaten finish\n----------------")

if debug: print(automaten_df)

In [None]:
# remote PA and convert number to int -> easier replacement + easier connection in task 1b
automaten_df['Automat - Automaten ID'] = automaten_df['Automat - Automaten ID'].str.replace("PA", "").astype(int)

##### Load App

In [None]:
# Load data for App
print("app start")
app_files = list(filter(lambda x: x.startswith('Parkster-'), os.listdir('data')))
app_df = pd.concat([pd.read_excel(f"data/{file}") for file in app_files])
app_df['Parkgebühren inkl. MwSt. in EUR'] = app_df['Parkgebühren inkl. MwSt. in EUR'].str.replace(',', '.').astype(float) # to compare floats
print("app finish\n----------------")

if debug: print(app_df)

##### Load Parkscheinautomaten

In [None]:
# Load data for Parkscheinautomaten information
print("Parkscheinautomaten start")
psa_info_df = pd.read_csv('data/psa_latlong.csv')
print("Parkscheinautomaten finish\n----------------")

if debug: print(psa_info_df)

##### Load Parkzonen

In [None]:
# Load data for Parkzonen information
print("Parkzonen start")
parkzone_info_df = pd.read_csv('data/parkzones_latlong.csv')
print("Parkzonen finish\n----------------")
if debug: print(parkzone_info_df)

##### Remove and replace Automaten-IDs

In [None]:
# Change 0s to 1s in Automaten -ID column
automaten_df['Automat - Automaten ID'] = automaten_df['Automat - Automaten ID'].replace(0, 1)

In [None]:
# Drop entry with id 999
automaten_df = automaten_df[automaten_df['Automat - Automaten ID'] != 999]

In [None]:
# Check for and drop duplicate rows
automaten_df = automaten_df.drop_duplicates()
app_df = app_df.drop_duplicates()

In [None]:
if debug:
    print(automaten_df.columns)
    print(app_df.columns)

#### Aufgabe 1.2 - Zusammenführen und Formatieren (12 Punkte)
Erstellen Sie einen DataFrame für beide Verkaufsarten, indem Sie die beiden zuvor erstellen DataFrames zusammenführen. Nutzen Sie dazu die Parkzonen Informationen *(in `parkzones_latlong.csv`)* und die Parkscheinautomatennummer *(in` pa_latlong.csv`)*. Stellen Sie sicher, dass sich in Ihrem DataFrame die geografischen Informationen für Parkscheinautomaten und Parkzonen befinden.
Verwenden Sie die Spalten `Kaufdatum Lokal` und `Start` für das Kaufdatum, codieren Sie die Spalte als `datetime`-Objekt und verwenden Sie sie als Indexspalte. Stellen Sie außerdem sicher, dass die anderen Spalten ein angemessenes Datenformat haben.

*Hinweis: Es ist zu erwarten, dass `Nan`-Werte für einige Spalten in den Zeilen zu Appkäufen auftauchen.*

In [None]:
# create dataframe

data = { # define structure
    'time': 'datetime64[ns]',
    'machine_ID': pd.Int64Dtype(),
    'fee': 'float64',
    'category': 'object',
    'street': 'object',
    'latitude_machine': 'float64',
    'longitude_machine': 'float64',
    'zone': 'int64',
    'latitude_zone': 'float64',
    'longitude_zone': 'float64'}

df = pd.DataFrame(columns=data.keys()).astype(data) # init dataframe
df.set_index('time', inplace=True) # set index

##### Merge automaten_df into main dataframe

In [None]:
# convert the overlapping row_name to string -> better to merge
automaten_df['Automat - Automaten ID'] = automaten_df['Automat - Automaten ID'].astype(str)
psa_info_df['PSA'] = psa_info_df['PSA'].astype(str)

In [None]:
# create temp merge dataframe to create temp_df simpler and more structured
temp_merged_df = pd.merge(automaten_df, psa_info_df, left_on='Automat - Automaten ID', right_on='PSA', how='inner')

In [None]:
# init temp df to merge better into main df
temp_df = pd.DataFrame({
    'time': pd.to_datetime(temp_merged_df['Kaufdatum Lokal'], format='%d.%m.%Y %H:%M:%S'),
    'machine_ID': temp_merged_df['Automat - Automaten ID'].astype(int),
    'fee': temp_merged_df['Betrag'],
    'category': 'machine',
    'street': temp_merged_df['location'],
    'latitude_machine': temp_merged_df['latitude'],
    'longitude_machine': temp_merged_df['longitude'],
    'zone': temp_merged_df['zone'],
    'latitude_zone': np.nan,
    'longitude_zone': np.nan
})

temp_df.set_index('time', inplace=True) # set time as index

In [None]:
# debug
if debug:
    print(temp_df)
    print(temp_df.dtypes)

In [None]:
# merge temp_df into main df
df = pd.concat([df, temp_df], ignore_index=False)

In [None]:
# debug
if debug:
    print(df)

##### Merge app_df into main dataframe

In [None]:
# create temp merge dataframe to create temp_df simpler and more structured
merged_temp_df = pd.merge(app_df, parkzone_info_df, left_on='Parkzone', right_on='Zonencode', how='inner')

In [None]:
# init temp df to merge better into main df
additional_df = pd.DataFrame({
    'time': pd.to_datetime(merged_temp_df['Start'], format='%Y-%m-%d %H:%M:%S'),
    'machine_ID': pd.NA,
    'fee': merged_temp_df['Parkgebühren inkl. MwSt. in EUR'],
    'category': 'app',
    'street': np.nan,
    'latitude_machine': np.nan,
    'longitude_machine': np.nan,
    'zone': merged_temp_df['Parkzone'],
    'latitude_zone': merged_temp_df['latitude'],
    'longitude_zone': merged_temp_df['longitude']
})

additional_df.set_index('time', inplace=True)  # set time as index


In [None]:
# debug
if debug:
    print(merged_temp_df)
    print(merged_temp_df.dtypes)

In [None]:
# merge temp_df into main df
df = pd.concat([df, additional_df], ignore_index=False)

In [None]:
# debug
if debug:
    print(df)

#### Aufgabe 1.3 - DataFrame Check (2 Punkte)
Der bereinigte und vollständige DataFrame für die folgenden Aufgaben sollte der Datei `data/clean_dataframe.csv` entsprechen, der wie folgt eingelesen werden kann:

##### Load and Sort clean_dataframe

In [None]:
df_compare = pd.read_csv('data/clean_dataframe.csv', parse_dates=['time'], index_col='time', dtype={
                                                                            'machine_ID': 'Int64', 
                                                                            'fee': 'float64', 
                                                                            'category': 'object', 
                                                                            'street': 'object', 
                                                                            'latitude_machine': 'float64', 
                                                                            'longitude_machine': 'float64', 
                                                                            'zone': 'int64', 
                                                                            'latitude_zone': 'float64', 
                                                                            'longitude_zone': 'float64'})

In [None]:
if debug: print(df_compare)

##### Sort dataframes

In [None]:
df_compare = df_compare.sort_values(by=['time', 'fee', 'zone', 'machine_ID'])
df = df.sort_values(by=['time', 'fee', 'zone', 'machine_ID'])

In [None]:
if debug:
    print(df)
    print(df_compare)

##### compare dataframes

In [None]:
print(df.equals(df_compare))

# Unterschiede anzeigen
differences = df.compare(df_compare)

for col in differences.columns.levels[0]:
    diff = differences[col]
    if not diff.dropna().empty:
        print(f"Unterschiede in der Spalte '{col}':")
        print(diff.dropna())
        print()
        
# Ergebnis anzeigen
print(differences)

Stellen Sie sicher, dass Ihr DataFrame mit `clean_dataframe.csv` übereinstimmt. Verwenden Sie dazu die Funktion [`pandas.DataFrame.equals`](https://pandas.pydata.org/docs/reference/api/pandas.dataframe.equals.html).

Sollte `pandas.DataFrame.equals` nach Ihren Anpassungen nicht `True` zurückgeben, arbeiten Sie bitte mit `clean_dataframe.csv` weiter und geben Sie dies in einer Markdown-Zelle an. In diesem Fall erhalten Sie keine Punkte für die Teilaufgabe 1.3.

_____
## Aufgabe 2: Plotting (38 Punkte)



In [None]:
df = pd.read_csv('data/clean_dataframe.csv', parse_dates=['time'], index_col='time', dtype={
                                                                            'machine_ID': 'Int64', 
                                                                            'fee': 'float64', 
                                                                            'category': 'object', 
                                                                            'street': 'object', 
                                                                            'latitude_machine': 'float64', 
                                                                            'longitude_machine': 'float64', 
                                                                            'zone': 'int64', 
                                                                            'latitude_zone': 'float64', 
                                                                            'longitude_zone': 'float64'})
df = df[df.index.year == 2023]
df_machines = df[df['category'] == 'machine']

In [None]:
psa_latlong = pd.read_csv('data/psa_latlong.csv')

### Aufgabe 2.1 - Analyse der Parkscheinautomaten (11 Punkte)
Die Stadt Göttingen möchte einen Überblick über die Umsätze der einzelnen **Parkscheinautomaten** erhalten und stellt Sie für eine anfängliche explorative Analyse des Verkaufsvolumens und der geografischen Anordnung der Automaten ein.

#### 2.1.1 (6 Punkte)
Finden Sie die fünf umsatzstärksten Parkscheinautomaten im Jahr 2023 und visualisieren Sie den **wöchentlichen** Umsatz im Laufe des Jahres.

In [None]:
# Group the data by week and calculate the total sales for each parking meter
weekly_sales = df_machines.groupby([pd.Grouper(freq='W-MON'), 'machine_ID'])['fee'].sum().reset_index()

# Sort the parking meters by total sales in descending order
top_5_automaten = weekly_sales.groupby('machine_ID')['fee'].sum().nlargest(5).index

# Filter the data for the top 5 parking meters
top_5_sales = weekly_sales[weekly_sales['machine_ID'].isin(top_5_automaten)]

##### Die Top-5 Automaten

In [None]:
print(top_5_sales.groupby("machine_ID")["fee"].sum())

##### Verlauf über das Jahr

In [None]:
# Plot the weekly sales for the top 5 parking meters
plt.figure(figsize=(12, 6))
for machine_id, data in top_5_sales.groupby('machine_ID'):
    plt.plot(data['time'], data['fee'], label=f'MachineID {machine_id}')
plt.xlabel('Time')
plt.ylabel('Sales')
plt.title('Weekly Sales for Top 5 Revenue-Generating Parking Meters in 2023')
plt.legend()
plt.show()

**Zusammenfassung**

- Zeigt den wöchentlichen Umsatz der fünf umsatzstärksten Parkscheinautomaten im Jahr 2023.
- Jeder Automat ist durch eine eigene Farbe und Linie dargestellt.
- Schwankungen im Umsatzverlauf des Jahres sind sichtbar.
- Automat mit MachineID 53 hat durchgehend hohe Umsätze.

**Begründung der Visualisierung**

Eine Liniengrafik wurde gewählt, um den wöchentlichen Umsatz der Parkscheinautomaten darzustellen, da sie einen klaren Vergleich der Umsatztrends im Zeitverlauf ermöglicht. Diese Darstellung macht es einfach, Muster und Unterschiede zwischen den Automaten zu erkennen und die zeitliche Entwicklung sowie Schwankungen im Umsatz zu visualisieren. Dadurch können Spitzen und Täler leicht identifiziert werden, was Hinweise auf saisonale Effekte oder besondere Ereignisse geben kann.

#### 2.1.2 (5 Punkte)
Der Standort der Parkscheinautomaten könnte auch einen Einfluss auf deren Umsatz haben.

Machen Sie sich mit der Funktion `plot_map` aus der Bibliothek `dsplotter` vertraut. Verwenden Sie die Funktion, um den jährlichen Umsatz für jeden Automaten auf einer Karte zu visualisieren. Machen Sie die Farbe **und** den Radius der Standortmarkierung abhängig vom jährlichen Umsatz. Was haben Automaten mit einem hohen jährlichen Umsatz gemeinsam?

In [None]:
# Calculation of the annual turnover for each vending machine
annual_revenue = df_machines.groupby(['machine_ID', 'latitude_machine', 'longitude_machine'])['fee'].sum().reset_index()

# Preparation of data for visualization
total_revenue = annual_revenue.groupby(['machine_ID', 'latitude_machine', 'longitude_machine'])['fee'].sum().reset_index()
total_revenue.columns = ['machine_ID', 'latitude_machine', 'longitude_machine', 'total_fee']

# Creating the map with plot_map
dsplotter.plot_map(
    data=total_revenue,
    color_col='total_fee',
    radius_col='total_fee',
    radius_scale=15,
    alpha=0.8
)

**Zusammenfassung**

- Alle Automaten, welche höhere Jahresumsätze verzeichnen, befinden sich alle in der Innenstadt/Kern von Göttingen und bei der Universität.
    - Abseits des Universitätsautomaten, sind die Kosten pro Stunde in der Innenstadt ebenfalls höher.

### Aufgabe 2.2 - Analyse der Automaten- und Appnutzung pro Parkzone (27 Punkte)
Im Rahmen der Digitalisierungsinitiative der Stadt wurde die Parkster-App vor einigen Jahren als Alternative zu Parkscheinautomaten eingeführt.
Bisher wurden nur die Parkscheinautomaten in die Analyse eingeschlossen und daher einen Großteil des Ticketverkaufs, der über die App stattfand, nicht beachtet.

Die Stadt möchte für 2023 eine erste visuelle Analyse der Akzeptanz der App in den einzelnen Parkzonen durchführen und anschließend den gesamten Umsatz analysieren.

*Hinweis: Beachten Sie, dass wir die Umsätze aus der Appnutzung nur einschließen können, indem wir die Gesamtauswertung auf Ebene der Parkzonen durchführen.*

#### 2.2.1 (6 Punkte)
Bevorzugen Parkende die App- oder die Parkscheinautomatennutzung? 

Verwenden Sie einen geeigneten Plot, um die durchschnittliche Automaten- bzw. Appnutzungsrate pro **Parkzone** für das gesamte Jahr 2023 zu visualisieren. Was können Sie dem Plot entnehmen?

In [None]:
# Calculate the usage rates per park zone
usage_rate = df.groupby(['zone', 'category'])['fee'].count().unstack().fillna(0)
usage_rate['total'] = usage_rate.sum(axis=1)
usage_rate['app_rate'] = usage_rate['app'] / usage_rate['total']
usage_rate['machine_rate'] = usage_rate['machine'] / usage_rate['total']

# Sorting zones by zone number
usage_rate = usage_rate.sort_index()

# Plotting the absolute usage per park zone for the entire year 2023
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(14, 16))
width = 0.35  # the width of the bars
indices = np.arange(len(usage_rate))

# Plotting the absolute usage
app_bars = ax1.bar(indices - width/2, usage_rate['app'], width, label='App', color='skyblue')
machine_bars = ax1.bar(indices + width/2, usage_rate['machine'], width, label='Machine', color='salmon')

# Add some text for labels, title and custom x-axis tick labels, etc.
ax1.set_xlabel('Park Zone', fontsize=14)
ax1.set_ylabel('Number of Uses', fontsize=14)
ax1.set_title('Absolute App and Machine Usage per Park Zone in 2023', fontsize=16)
ax1.set_xticks(indices)
ax1.set_xticklabels(usage_rate.index, rotation=45, ha='right', fontsize=12)
ax1.legend(fontsize=12)

# Adding value labels to the absolute plot
def add_labels(bars, ax):
    for bar in bars:
        height = bar.get_height()
        ax.annotate(f'{height:.0f}',
                    xy=(bar.get_x() + bar.get_width() / 2, height),
                    xytext=(0, 3),  # 3 points vertical offset
                    textcoords="offset points",
                    ha='center', va='bottom', fontsize=10)

add_labels(app_bars, ax1)
add_labels(machine_bars, ax1)

# Plotting the relative usage per park zone for the entire year 2023
app_rate_bars = ax2.bar(indices - width/2, usage_rate['app_rate'], width, label='App', color='skyblue')
machine_rate_bars = ax2.bar(indices + width/2, usage_rate['machine_rate'], width, label='Machine', color='salmon')

# Add some text for labels, title and custom x-axis tick labels, etc.
ax2.set_xlabel('Park Zone', fontsize=14)
ax2.set_ylabel('Usage Rate', fontsize=14)
ax2.set_title('Relative App and Machine Usage per Park Zone in 2023', fontsize=16)
ax2.set_xticks(indices)
ax2.set_xticklabels(usage_rate.index, rotation=45, ha='right', fontsize=12)
ax2.legend(fontsize=12)

# Adding value labels to the relative plot
def add_labels_relative(bars, ax):
    for bar in bars:
        height = bar.get_height()
        ax.annotate(f'{height:.2f}',
                    xy=(bar.get_x() + bar.get_width() / 2, height),
                    xytext=(0, 3),  # 3 points vertical offset
                    textcoords="offset points",
                    ha='center', va='bottom', fontsize=10)

add_labels_relative(app_rate_bars, ax2)
add_labels_relative(machine_rate_bars, ax2)

plt.tight_layout()
plt.show()


In [None]:
f"Die durchschnittliche Appnutzungsrate beträgt {int(usage_rate['app_rate'].mean()*100)}%"

**Begründung**

1. Bevorzugung der Automaten (Absolute Nutzung, Oberes Diagramm):
- Hochfrequentierte Zonen: In den Zonen 37001, 37005, 37009 werden Automaten viel häufiger genutzt als die App.
- Dominanz der Automaten: Insgesamt zeigen die meisten Zonen eine deutlich höhere Nutzung der Automaten im Vergleich zur App.

2. Relative Nutzung (Unteres Diagramm):
- Automaten bevorzugt: In den meisten Zonen sind die Automaten dominanter.
- App-Nutzung in einigen Zonen: Einige Zonen wie 37102 und 37106 zeigen eine hohe relative Nutzung der App, teils sogar dominierend.

**Zusammenfassung**
- Automaten werden generell bevorzugt, vor allem in hochfrequentierten Zonen. (63% zu 37% -> Automat zu App)
- Einige Zonen zeigen eine Präferenz für die App, was auf spezifische Nutzerpräferenzen oder bessere App-Promotion hinweisen könnte.

Diese Informationen helfen, strategische Entscheidungen für die Förderung der App-Nutzung oder die Verbesserung der Automaten zu treffen.


**Begründung für die Darstellung**

Diese Darstellung wurde gewählt, um die Nutzungsmuster von Parkscheinautomaten und Apps in verschiedenen Parkzonen zu vergleichen. Das obere Diagramm zeigt die absolute Anzahl der Transaktionen, um die Gesamtbelastung jeder Zone zu verdeutlichen, während das untere Diagramm die relative Nutzungsrate darstellt, um die Präferenz der Nutzer zwischen App und Automat zu visualisieren. Diese Kombination ermöglicht eine umfassende Analyse der Nutzungsmuster und hilft dabei, gezielte Verbesserungen der Parkinfrastruktur vorzunehmen.


#### 2.2.2 (9 Punkte)
Wie stark werden die einzelnen Parkzonen genutzt? 

Visualisieren Sie die Gesamtzahl der Verkäufe und die Automaten- bzw. Appnutzungrate für jede Parkzone im Jahr 2023 **in einem Diagramm**. Verwenden Sie für die y-Achse eine `log`-Skalierung. Was können Sie dem Plot entnehmen?

In [None]:

# Calculate the usage rates per park zone
usage_rate = df.groupby(['zone', 'category'])['fee'].count().unstack().fillna(0)
usage_rate['total'] = usage_rate.sum(axis=1)
usage_rate['app_rate'] = usage_rate['app'] / usage_rate['total']
usage_rate['machine_rate'] = usage_rate['machine'] / usage_rate['total']

# Sorting zones by zone number
usage_rate = usage_rate.sort_index()

# Plotting the total sales and usage rates per park zone for the entire year 2023
fig, ax1 = plt.subplots(figsize=(14, 8))
width = 0.4  # the width of the bars
indices = np.arange(len(usage_rate))

# Plotting the total sales with log scale
color = 'tab:blue'
ax1.set_xlabel('Park Zone', fontsize=14)
ax1.set_ylabel('Total Sales (log scale)', color=color, fontsize=14)
bars = ax1.bar(indices, usage_rate['total'], width, color=color, alpha=0.6)
ax1.tick_params(axis='y', labelcolor=color)
ax1.set_yscale('log')

# Adding value labels to the bars
def add_labels(bars, ax):
    for bar in bars:
        height = bar.get_height()
        ax.annotate(f'{height:.0f}',
                    xy=(bar.get_x() + bar.get_width() / 2, height),
                    xytext=(0, 3),  # 3 points vertical offset
                    textcoords="offset points",
                    ha='center', va='bottom', fontsize=10)

add_labels(bars, ax1)

# Creating a second y-axis for the usage rates
ax2 = ax1.twinx()
color = 'tab:red'
ax2.set_ylabel('Usage Rate', color=color, fontsize=14)
ax2.plot(indices, usage_rate['app_rate'], color='skyblue', marker='o', label='App Rate')
ax2.plot(indices, usage_rate['machine_rate'], color='salmon', marker='x', label='Machine Rate')
ax2.tick_params(axis='y', labelcolor=color)
ax2.legend(loc='upper right', fontsize=12)

# Adding some titles and formatting
plt.title('Total Sales and Usage Rates per Park Zone in 2023', fontsize=16)
ax1.set_xticks(indices)
ax1.set_xticklabels(usage_rate.index, rotation=45, ha='right', fontsize=12)
plt.tight_layout()
plt.show()


**Begrüdung**

Der Plot, der die Gesamtzahl der Verkäufe und die App- bzw. Automaten-Nutzungsrate pro Parkzone im Jahr 2023 zeigt, bietet folgende Erkenntnisse:

Gesamtzahl der Verkäufe (Balken, linke y-Achse, log-Skalierung):
- Hohe Nutzung: Parkzonen 37001, 37005, 37008 haben die höchsten Verkaufszahlen, was auf eine intensive Nutzung hinweist.
- Geringe Nutzung: Zonen wie 37105, 37106, 37107, 37207, 37208 zeigen deutlich niedrigere Verkaufszahlen.

Automaten- und Appnutzungsrate (Linien, rechte y-Achse):
- App-Nutzung: In einigen Zonen wie 37102, 37106, 37108 ist die App-Nutzungsrate höher (blaue Linie).
- Automatennutzung: In den meisten Zonen, z.B. 37001, 37005, 37008, ist die Automatennutzung höher (rote Linie).

**Zusammenfassung**
1. Hohe Verkaufszahlen in zentralen Zonen: Zonen wie 37001 und 37005 sind stark genutzt, was auf zentrale oder beliebte Parkplätze hinweist.
2. Bevorzugung der Automaten: In den meisten Zonen werden Automaten häufiger genutzt als die App, was auf Nutzerpräferenzen oder Verfügbarkeit hinweisen könnte.

Diese Informationen sind wertvoll für die Planung und Optimierung von Parkzonen und der Zahlungsinfrastruktur. Es könnte sinnvoll sein, in Zonen mit hoher App-Nutzung die App weiter zu fördern, während in Zonen mit hoher Automaten-Nutzung die Automaten modernisiert oder zusätzlich auf App-Zahlungen hingewiesen wird.

**Begründung für die Darstellung**

Diese Darstellung kombiniert zwei Informationen: die Gesamtzahl der Verkäufe pro Automat und die Automaten- bzw. Appnutzungsrate pro Parkzone im Jahr 2023. Der Plot nutzt eine logarithmische Skalierung für die y-Achse, um Unterschiede in den Verkaufszahlen besser darzustellen.

#### 2.2.3 (7 Punkte)
Der vorherige Plot gibt uns eine Vorstellung von der Gesamtzahl der Parktickets *pro Parkzone*. Diese korreliert sehr wahrscheinlich stark mit der Anzahl der Parkplätze pro Zone. Um Parkzonen mit einer unterschiedlichen Anzahl an Parkplätzen zu vergleichen, sollten wir diese mithilfe der Anzahl der verfügbaren Parkplätze je Zone relativieren. Auf diese Weise können wir herausfinden, welche Zonen, relativ zu ihrer Größe, am häufigsten verwendet werden. Da wir nicht die Anzahl der Parkplätze für jede Zone zur Verfügung haben, können wir nur die Anzahl der Parkscheinautomaten als grobe Annäherung verwenden. 

Verwenden Sie die Informationen aus `psa_latlong.csv` und reproduzieren Sie den vorherigen mit Plot der Gesamtzahl der Verkäufe pro Automat für jede Parkzone. Verwenden Sie für die y-Achse eine `log`-Skalierung. Welche Parkzone wird am meisten genutzt?

In [None]:

# Calculation of the number of machines per parking zone
automat_count_per_zone = psa_latlong['zone'].value_counts().sort_index()

# Calculation of total sales per parking zone
total_sales_per_zone = df.groupby('zone')['fee'].count()

# Calculation of sales per machine per parking zone
sales_per_automat = total_sales_per_zone / automat_count_per_zone

# Creation of a DataFrame with the results
sales_per_automat_df = sales_per_automat.reset_index()
sales_per_automat_df.columns = ['zone', 'sales_per_automat']
sales_per_automat_df = sales_per_automat_df.sort_values(by='zone')

# Plotting the results
fig, ax = plt.subplots(figsize=(14, 8))
width = 0.4  # die Breite der Balken
indices = np.arange(len(sales_per_automat_df))

# Plot of sales per machine with logarithmic scaling of the y-axis
color = 'tab:blue'
ax.set_xlabel('Park Zone', fontsize=14)
ax.set_ylabel('Total Sales per Automat (log scale)', color=color, fontsize=14)
bars = ax.bar(indices, sales_per_automat_df['sales_per_automat'], width, color=color, alpha=0.6)
ax.tick_params(axis='y', labelcolor=color)
ax.set_yscale('log')

# Adding value labels to the bars
def add_labels(bars, ax):
    for bar in bars:
        height = bar.get_height()
        ax.annotate(f'{height:.0f}',
                    xy=(bar.get_x() + bar.get_width() / 2, height),
                    xytext=(0, 3),  # 3 Points vertical distance
                    textcoords="offset points",
                    ha='center', va='bottom', fontsize=10)

add_labels(bars, ax)

# Adding titles and formatting
plt.title('Total Sales per Automat per Park Zone in 2023', fontsize=16)
ax.set_xticks(indices)
ax.set_xticklabels(sales_per_automat_df['zone'], rotation=45, ha='right', fontsize=12)
plt.tight_layout()
plt.show()

**Kernaussage:**
- Verkäufe pro Automat: Dieser Plot zeigt, welche Parkzonen relativ zu ihrer Größe (basierend auf der Anzahl der Parkscheinautomaten) am häufigsten genutzt werden.
- Am meisten genutzte Parkzone: Die Parkzone mit den höchsten Verkäufen pro Automat wird durch die Höhe des Balkens angezeigt.
- Die Parkzone 37202 zeigt die höhste Nutzung auf. 


**Begründung für die Darstellung**

Ein Balkendiagramm wurde gewählt, da es Übersichtlichkeit und einfache Vergleichbarkeit der Verkaufszahlen pro Automat in verschiedenen Parkzonen bietet. Diese Darstellungsform ermöglicht es, Unterschiede in der Nutzung auf einen Blick zu erkennen und die absoluten Werte klar zu visualisieren. Zudem sind Balkendiagramme intuitiv und leicht verständlich, was die Interpretation der Daten für ein breites Publikum erleichtert.

#### 2.2.4 (5 Punkte)
Bisher haben wir die geografischen Informationen der Parkzonen nicht mit einbezogen. 

Verwenden Sie erneut die Funktion `plot_map`, um den Standort aller Parkzonen, ihre durchschnittlichen Tickets pro Automat und die Automaten- bzw. Appnutzungsrate zu visualieren. Färben Sie den Kartenmarker mithilfe der Automaten- bzw. Appnutzungsrate und legen Sie den Radius mit den durschnittlich verkauften Tickets pro Automat fest. Was können Sie der Darstellung entnehmen?

In [None]:

# Calculation of the number of machines per parking zone
automat_count_per_zone = psa_latlong['zone'].value_counts().sort_index()

# Calculation of total sales per parking zone
total_sales_per_zone = df.groupby('zone')['fee'].count()

# Calculation of sales per machine per parking zone
sales_per_automat = total_sales_per_zone / automat_count_per_zone

# Calculation of usage per category and parking zone
usage_rate = df.groupby(['zone', 'category'])['fee'].count().unstack().fillna(0)
usage_rate['total'] = usage_rate.sum(axis=1)
usage_rate['app_rate'] = usage_rate['app'] / usage_rate['total']
usage_rate['machine_rate'] = usage_rate['machine'] / usage_rate['total']

# Combining the data
combined_df = sales_per_automat.to_frame().join(usage_rate[['app_rate', 'machine_rate']])
combined_df.reset_index(inplace=True)
combined_df = combined_df.merge(psa_latlong.drop_duplicates('zone')[['zone', 'latitude', 'longitude']], on='zone')
combined_df.columns = ['zone', 'sales_per_automat', 'app_rate', 'machine_rate', 'latitude', 'longitude']

# Plotting the map with plot_map function
dsplotter.plot_map(
    data=combined_df,
    color_col='app_rate',  # or 'machine_rate' to color by machine usage rate
    radius_col='sales_per_automat',
    radius_scale=10,
    alpha=0.9
)

**Kernaussage:**
1. Geografische Nutzungsmuster: Die Karte zeigt die geografische Verteilung der Parkzonen und wie stark sie genutzt werden.
2. Nutzungsraten:** Durch die Farbgebung der Marker können Sie erkennen, in welchen Zonen die App-Nutzung bzw. die Automaten-Nutzung bevorzugt wird.
3. Durchschnittliche Verkäufe pro Automat: Der Radius der Marker gibt Auskunft darüber, wie viele Tickets durchschnittlich pro Automat in einer Zone verkauft werden. Größere Marker deuten auf höhere Verkäufe hin.

___
## Aufgabe 3: Statistics (18 Punkte)


#### Aufgabe 3.1 - t-Test (13 Punkte)
Zusätzlich zu der visuellen Analyse möchte die Stadt nun auch eine statistische Untersuchung der Verwendung von Parkscheinautomaten und Apps durchführen.

Bestimmen Sie dazu zunächst die Automaten- bzw. Appnutzungsrate pro Parkzone für jeden Kalendertag. Führen Sie anschließend für **jede Parkzone** einen t-Test durch, der testet, ob Parkende es vorziehen die App in der jeweiligen Zone zu verwenden. Schreiben Sie das entsprechende Hypothesenpaar auf, führen Sie den Test durch und interpretieren Sie Ihre Testergebnisse. Verwenden Sie für Ihre Testentscheidung ein Signifikanzniveau von 0.05. Welche grundlegende Annahme von statistischen Tests könnte bei diesem Vorgehen verletzt werden?

##### Step 1: Calculation of the usage rate per calendar day and parking zone

In [None]:
# Calculation of the daily usage rate per parking zone
daily_usage = df.groupby([df.index.date, 'zone', 'category'])['fee'].count().unstack().fillna(0)
daily_usage['total'] = daily_usage.sum(axis=1)
daily_usage['app_rate'] = daily_usage['app'] / daily_usage['total']
daily_usage['machine_rate'] = daily_usage['machine'] / daily_usage['total']
daily_usage.reset_index(inplace=True)


##### Step 2: Performing the t-test for each parking zone

In [None]:
# List of zones
zones = daily_usage['zone'].unique()

# Hypothesis pair
# H0: The average usage rate of the app is equal to that of the vending machines (no preference)
# H1: The average usage rate of the app is not equal to that of the vending machines (there is a preference)

t_test_results = []

for zone in zones:
    zone_data = daily_usage[daily_usage['zone'] == zone]
    app_rate = zone_data['app_rate']
    machine_rate = zone_data['machine_rate']
    
    t_stat, p_value = ttest_ind(app_rate, machine_rate)
    
    t_test_results.append({
        'zone': zone,
        't_stat': t_stat,
        'p_value': p_value,
        'reject_null': p_value < 0.05
    })

t_test_results_df = pd.DataFrame(t_test_results)


##### Step 3: Interpretation of the results

In [None]:
# Output of the results of the t-test
t_test_results_df

##### Interpretation
Für jede Zone, für die die Nullhypothese abgelehnt wird (reject_null == True), kann gefolgert werden, dass es eine Präferenz für die App-Nutzung oder Automaten-Nutzung gibt.


#### Aufgabe 3.2 - Statistisches Verständnis (5 Punkte)
Angenommen, für die Zone `37106` beträgt die durchschnittliche Automaten- bzw. Appnutzungsrate `0.5`.
Die Stadt sendet Ihnen die Daten für 2024. 

An wie vielen Tagen können Sie erwarten, dass die Appnutzung signifikant höher ist, wenn Sie weiterhin von einem Signifikanzniveau von `0.05` ausgehen? Erklären Sie, warum dies der Fall ist. Nehmen Sie an, dass sich das Verhalten der Parkenden im Vergleich zu 2023 nicht geändert hat.

In [None]:
# Number of days in 2024
num_days = 366

# Significance level
alpha = 0.05

# Expected number of days
expected_significant_days = num_days * alpha
expected_significant_days

# Calculate significance level
expected_significant_days = 366 * 0.05
print(expected_significant_days)



**Warum ist das der Fall?**

1. Signifikanzniveau und Type-I-Fehler: Bei einem Signifikanzniveau von 0,05 akzeptieren wir eine 5%ige Wahrscheinlichkeit, die Nullhypothese fälschlicherweise abzulehnen. Dies bedeutet, dass bei jedem einzelnen Test eine 5%ige  Wahrscheinlichkeit besteht, dass wir fälschlicherweise eine Präferenz für die App-Nutzung feststellen.
2. Viele Tests: Da wir jeden Tag einen Test durchführen (insgesamt 366 Tests), erwarten wir, dass 5% dieser Tests fälschlicherweise eine signifikante Präferenz zeigen. Diese 5% sind der erwartete Anteil der Tage, an denen der Type-I-Fehler auftritt.
3. Unverändertes Verhalten: Wenn das Verhalten der Parkenden unverändert bleibt und die Nutzungsrate bei 0,5 bleibt, gibt es keine echte Präferenz. Daher basieren die signifikanten Ergebnisse ausschließlich auf zufälligen Schwankungen und dem festgelegten Signifikanzniveau.

___
## Aufgabe 4: Machine Learning (20 Punkte)

Nutzen Sie ein K-Nearest-Neighbors (KNN) Modell, um die Automaten- bzw. Appnutzungsrate mithilfe des Standortes (`latitude`, `longitude`) und der Parkgebühr (`fee`) vorherzusagen. Verwenden Sie ausschließlich Datenreihen mit Parkgebühren zwischen 2 Euro und 7 Euro.



#### Aufgabe 4.1 - Modell-Training and Hyperparameter-Suche (10 Punkte)
Bereiten Sie die Daten sinnvoll auf, führen Sie eine Hyperparameter-Suche nach optimalem K-Wert aus, visualisieren Sie die Ergebnisse der Hyperparameter-Suche und verwenden Sie schließlich Ihren optimalen K-Wert, um das Modell zu trainieren.

*Hinweis: Verwenden Sie 30% aller Daten zur Bestimmung des optimalen K-Wertes, um die Hyperparameter-Suche zu beschleunigen, und den gesamten Datensatz für das Modell-Training.*


In [None]:
# Remove unnecessary columns
data_training = df.drop(["machine_ID", "street", "zone", "latitude_machine", "longitude_machine"], axis=1)

# Adapt data to the conditions and display the category in binary form
data_training = data_training[(data_training["fee"] <= 7) & (data_training["fee"] >= 2)]
data_training["binary_app"] = (data_training["category"] == "app").astype(int)

# Use 30% of the data
data_training_sampled = data_training.sample(frac=0.3, random_state=42)

# Define samples, labels and number of folds
samples = data_training_sampled[["latitude_zone", "longitude_zone", "fee"]]
labels = data_training_sampled["binary_app"]
folds = 5

# Method to determine the folds for the samples and labels
def create_folds(samples, labels, folds):
    fold_size = len(samples) // folds
    samples_folds = []
    labels_folds = []
    for i in range(folds):
        fold_sample = samples.iloc[i * fold_size:(i + 1) * fold_size]
        fold_label = labels.iloc[i * fold_size:(i + 1) * fold_size]
        samples_folds.append(fold_sample)
        labels_folds.append(fold_label)
    return samples_folds, labels_folds

samples_folds, labels_folds = create_folds(samples, labels, folds)

acc_val = []

# Iterate through the folds and use KNN to determine the best k-value
for i in range(folds):
    val_samples = samples_folds[i]
    val_labels = labels_folds[i]
    train_samples = pd.concat([s for j, s in enumerate(samples_folds) if j != i]).values
    train_labels = pd.concat([l for j, l in enumerate(labels_folds) if j != i]).values

    acc_v = []
    for k in range(1, 10):
        kneigh_cross = KNeighborsClassifier(n_neighbors=k)
        kneigh_cross.fit(train_samples, train_labels)
        acc_v.append(kneigh_cross.score(val_samples, val_labels))
    acc_val.append(acc_v)

acc_val = np.asarray(acc_val)
acc_mean = [np.mean(acc_val[:, k-1]) for k in range(1, 10)]

# Maximum accuracy and corresponding k output
best_k = np.argmax(acc_mean) + 1
print(f"Größte Accuracy {np.max(acc_mean)} bei k = {best_k}")


In [None]:
# Plot results to find the correct k
plt.plot(range(1, 10), acc_mean, marker='o')
plt.title('k vs. Cross-Validation Accuracy')
plt.xlabel('k')
plt.ylabel('Accuracy')
plt.xticks(range(1, 10))
plt.grid(True)
plt.show()

In [None]:
# Calculate model accuracy
kneigh = KNeighborsClassifier(n_neighbors=best_k)
kneigh.fit(samples, labels)
print(f"Model Accuracy mit k={best_k}: {kneigh.score(samples, labels)}")

#### Aufgabe 4.2 - Visualisierung der Modell-Vorhersage (10 Punkte)
Erstellen Sie ein `100 x 100` Grid aus Längen-/Breitengradwerten unter Verwendung der minimalen und maximalen Werte in Ihrem Datensatz. Visualisieren Sie die Vorhersagen des KNN-Modells **für drei verschiedene Parkgebühren** - 3, 5 und 7 Euro. Verwenden Sie dazu die Funktion `plot_map`. Färben Sie den Marker entsprechend der Modell-Vorhersage. Beschreiben Sie mindestens 2 visuelle Veränderungen des vorhergesagten Nutzungsmusters auf der Karte.

In [None]:
# Determine the limits of longitude and latitude
longitude_bounds = (data_training["longitude_zone"].min(), data_training["longitude_zone"].max())
latitude_bounds = (data_training["latitude_zone"].min(), data_training["latitude_zone"].max())

# Generation of 100 evenly distributed points between the limit values
longitudes = np.linspace(longitude_bounds[0], longitude_bounds[1], 100)
latitudes = np.linspace(latitude_bounds[0], latitude_bounds[1], 100)

# Creating a grid from the points
grid_long, grid_lat = np.meshgrid(latitudes, longitudes)

# Conversion of the grid into a DataFrame
coordinates = np.c_[grid_long.ravel(), grid_lat.ravel()]
coordinates_df = pd.DataFrame(coordinates, columns=["latitude_zone", "longitude_zone"])

# Forecast and visualization for different parking fees
def predict_and_plot(grid_df, fee, model, title):
    grid_df = grid_df.copy()
    grid_df["fee"] = fee
    predictions = model.predict(grid_df)
    grid_df["prediction"] = predictions
    print(title)
    dsplotter.plot_map(grid_df, color_col="prediction")

# Forecast for parking fees -3, 5 and 7 and visualization
fees_to_predict = [-3, 5, 7]
titles = ["Prediction for fee = -3", "Prediction for fee = 5", "Prediction for fee = 7"]

for fee, title in zip(fees_to_predict, titles):
    predict_and_plot(coordinates_df, fee, kneigh, title)

In dieser Visualisierung repräsentiert Blau (0) die Nutzung von Parkscheinautomaten und Rot (1) die Nutzung der App.

Bei einer Parkgebühr (fee) von -3 und 5 zeigt das Modell ausschließlich eine Vorhersage für die Nutzung von Parkscheinautomaten. Wenn die Gebühr auf 7 steigt, deutet das Modell darauf hin, dass im nördlichen Teil des Grids die App bevorzugt verwendet wird, während im südlichen Teil weiterhin die Automaten dominieren.
