# Test Exam: Management & Nutzung Relationale Daten

### Persönliche Angaben (bitte ergänzen)

<table>
  <tr>
    <td>Vorname:</td>
    <td></td>
  </tr>
  <tr>
    <td>Nachname:</td>
    <td></td>
  </tr>
  <tr>
    <td>Immatrikulationsnummer:</td>
    <td></td>
  </tr>
  <tr>
    <td>Modul:</td>
    <td>Data Science</td>
  </tr>
  <tr>
    <td>Prüfungsdatum / Raum / Zeit:</td>
    <td>07.10.2024 / Raum: SF O3.54 / 8:00 – 11:45</td>
  </tr>
  <tr>
    <td>Hilfsmittel:</td>
    <td>w.MA.XX.DS.24HS (Data Science)<br>Open Book, Eigener Computer, Internet-Zugang</td>
  </tr>
</table>

## Bewertungskriterien

### <b style="color: gray;">(max. erreichbare Punkte: 44)</b>

<table>
  <thead>
    <tr>
      <th>Kategorie</th>
      <th>Beschreibung</th>
      <th>Punkteverteilung</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>Code nicht lauffähig oder Ergebnisse nicht sinnvoll</td>
      <td>Der Code enthält Fehler, die verhindern, dass er ausgeführt werden kann (z.B. Syntaxfehler) oder es werden Ergebnisse ausgegeben, welche nicht zur Fragestellung passen.</td>
      <td>0 Punkte</td>
    </tr>
    <tr>
      <td>Code lauffähig, aber mit gravierenden Mängeln</td>
      <td>Der Code läuft, aber die Ergebnisse sind aufgrund wesentlicher Fehler unvollständig (z.B. fehlende Joins, gravierende Fehler in SQL-Abfragen). Nur geringer Fortschritt erkennbar.</td>
      <td>25% der max. erreichbaren Punkte</td>
    </tr>
    <tr>
      <td>Code lauffähig, aber mit mittleren Mängeln</td>
      <td>Der Code läuft und liefert teilweise korrekte Ergebnisse, aber es gibt grössere Fehler (z.B. fehlende Spalten, unvollständige SQL-Abfragen). Die Ergebnisse sind nachvollziehbar, aber unvollständig oder ungenau.</td>
      <td>50% der max. erreichbaren Punkte</td>
    </tr>
    <tr>
      <td>Code lauffähig, aber mit minimalen Mängeln</td>
      <td>Der Code läuft und liefert ein weitgehend korrektes Ergebnis, aber kleinere Fehler (z.B. falsche oder fehlende Sortierung, Rundung von Werten falsch) beeinträchtigen die Vollständigkeit des Ergebnisses.</td>
      <td>75% der max. erreichbaren Punkte</td>
    </tr>
    <tr>
      <td>Code lauffähig und korrekt</td>
      <td>Der Code läuft einwandfrei und liefert das korrekte Ergebnis ohne Mängel.</td>
      <td>100% der max. erreichbaren Punkte</td>
    </tr>
  </tbody>
</table>



## Python Libraries und Settings

In [None]:
# Libraries
import os
import sqlite3
import pandas as pd
from sqlalchemy import create_engine, text

# Settings
import warnings
warnings.filterwarnings("ignore")

# Working directory
print(os.getcwd())

## <b>Vorbereitung (Hinweis: dieser Teil wird nicht bewertet)</b>

#### <b>1.) Starten Sie eine GitHub Codespaces Instanz auf Basis Ihres Forks des folgenden GitHub Repositories:</b>

##### GitHub-Repository: https://github.com/mario-gellrich-zhaw/python_postgresql_pgadmin


#### <b>2.) Erstellen und Testen Sie die Datenbankverbindung mit der 'postgres' Datenbank.</b>

In [None]:
# Set up für Datenbankverbindung
user = "pgadmin"
password = "geheim"
host = "localhost"
port = "5432"
database = "postgres"

# Erstellen der Connection URL
db_connection_url = "postgresql://" + user + ":" + password +\
                    "@" + host + ":" + port + "/" + database

# Erstellen SQLAlchemy Engine
engine = create_engine(db_connection_url)

# Test der Datenbankverbindung
with engine.connect() as connection:
    result = connection.execute(text('SELECT current_database()'))
    print(result.fetchone())

# Verbindung trennen
engine.dispose()

#### <b>3.) Lesen Sie die Tabellenblätter aus 'smartphone_dealer_data.xlsx' ein, und speichern Sie diese in separaten DataFrames.</b>

In [None]:
# Pfad zur .xlsx Datei
path = 'workspace/smartphone_dealer_data.xlsx'

# Einlesen der Daten aus Excel File
df_phones = pd.read_excel(path, sheet_name='Phones')
df_customers = pd.read_excel(path, sheet_name='Customers')
df_sales = pd.read_excel(path, sheet_name='Sales')
df_salespersons = pd.read_excel(path, sheet_name='SalesPersons')
df_technicians = pd.read_excel(path, sheet_name='Technicians')
df_servicerecords = pd.read_excel(path, sheet_name='ServiceRecords')

# Anpassen der Spaltennamen zu 'lowercase'
df_phones.columns = df_phones.columns.str.lower()
df_customers.columns = df_customers.columns.str.lower()
df_sales.columns = df_sales.columns.str.lower()
df_salespersons.columns = df_salespersons.columns.str.lower()
df_technicians.columns = df_technicians.columns.str.lower()
df_servicerecords.columns = df_servicerecords.columns.str.lower()


#### <b>4.) Schreiben Sie die erstellten DataFrames in separate Tabellen in Ihrer Datenbank.</b>

In [4]:
# Engine für Datenbankverbindung erstellen
engine = create_engine(db_connection_url)

# Schreiben der DataFrames in die Datenbank
df_phones.to_sql('phones', engine, if_exists='replace', index=False)
df_customers.to_sql('customers', engine, if_exists='replace', index=False)
df_sales.to_sql('sales', engine, if_exists='replace', index=False)
df_salespersons.to_sql('salespersons', engine, if_exists='replace', index=False)
df_technicians.to_sql('technicians', engine, if_exists='replace', index=False)
df_servicerecords.to_sql('servicerecords', engine, if_exists='replace', index=False)

# Datenbankverbindung trennen
engine.dispose()

<div style="background-color: #F0EAD6;">

#### <b> Hinweis! 

#### Falls etwas mit Ihrer PostgreSQL Verbindung nicht funktionieren sollte, verwenden Sie für die folgenden Aufgaben die SQLite Datenbank 'smartphone_dealer_data.db'. Sie finden diese auf Moodle in der Woche 4 im Order 'AP01'. Schieben (per drag and drop) Sie dazu die SQLite-Datenbank von Ihrem lokalen PC in Ihre GitHub Codespaces Environment.</b>

#### <b> Das folgende Python-Codebeispiel demonstriert den Verbindungsaufbau mit der SQLite Datenbank mit Hilfe von Python.</b>

```python
# Engine für Datenbankverbindung erstellen
engine = create_engine('sqlite:///workspace/smartphone_dealer_data.db')

# SQL Abfrage
df_sub = pd.read_sql_query("""SELECT *
                              FROM phones;""",
                          con=engine)

# Schliessen der Datenbankverbindung
engine.dispose()

df_sub 
```
</div>

## <b>Aufgaben (Hinweis: Dieser Teil wird bewertet)</b>
<b style="color:blue;">Hinweise zu den folgenden Aufgaben:</b>
<ul style="color:blue;">
  <li>Erstellen Sie je Aufgabe eine SQL Abfrage und integrieren Sie diese in Ihren Python Code.</li>
  <li>Speichern Sie je Aufgabe die Ergebnistabelle in einem DataFrame und stellen Sie diesen ganz oder in Teilen (z.B. erste 5 Zeilen) dar.</li>
</ul>

#### <b>Aufgabe (1): Listen Sie alle Kunden auf, welche mit Vornamen John oder Sophia heissen.</b>
<b>Details zur Aufgabenstellung:</b>
- Sie finden die benötigte Informationen in der Tabelle 'Customers'.

<b style="color: gray;">(max. erreichbare Punkte: 4)</b>

In [None]:
# Engine für Datenbankverbindung erstellen


# Abfrage erstellen und Ergebnis in einem DataFrame speichern


# Datenbankverbindung trennen


# Ergebnis anzeigen


#### <b>Aufgabe (2): Selektieren Sie die Telefone von "Samsung", und geben Sie deren Preise als Ganzzahlen (INTEGER) zurück.</b>
<b>Details zur Aufgabenstellung:</b>
- Sie finden die benötigten Informationen in der Tabelle 'Phones'.
- Die Ergebnistabelle muss die Spalten: 'PhoneID',  'Brand' und den Price als Ganzzahl (INTEGER) enthalten.
- Ordnen Sie die Tabelle absteigend nach Price als Ganzzahl (INTEGER).
- Limitieren Sie die Anzahl der mit der SQL Abfrage zurückgegebenen Phones auf 10.

<b style="color: gray;">(max. erreichbare Punkte: 4)</b>

In [None]:
# Engine für Datenbankverbindung erstellen


# Abfrage erstellen und Ergebnis in einem DataFrame speichern


# Datenbankverbindung trennen


# Ergebnis anzeigen



#### <b>Aufgabe (3): Welches sind alle Telefonmodelle, die zwischen 2021 und 2023 auf den Markt kamen, einen IMEI-Wert haben und mehr als 800 USD kosten?</b>
<b>Details zur Aufgabenstellung:</b>
- Sie finden die benötigten Informationen in der Tabelle 'Phones'.
- Ordnen Sie die Ergebnisse absteigend nach Price.

<b style="color: gray;">(max. erreichbare Punkte: 4)</b>

In [None]:
# Engine für Datenbankverbindung erstellen


# Abfrage erstellen und Ergebnis in einem DataFrame speichern


# Datenbankverbindung trennen


# Ergebnis anzeigen


#### <b>Aufgabe (4): Ermitteln Sie alle Verkäufe, die von der Verkäuferin "Diana Morris" durchgeführt wurden.</b>
<b>Details zur Aufgabenstellung:</b>
- Geben Sie Verkaufspreis, Datum und die Namen der Kunden aus.
- Sie finden die benötigten Informationen in den Tabellen 'Sales', 'SalesPersons' und 'Customers'.

<b style="color: gray;">(max. erreichbare Punkte: 4)</b>

In [None]:
# Engine für Datenbankverbindung erstellen


# Abfrage erstellen und Ergebnis in einem DataFrame speichern


# Datenbankverbindung trennen


# Ergebnis anzeigen


#### <b>Aufgabe (5): Ermitteln Sie die Namen der Kunden und die Modelle der Telefone, welche diese gekauft haben, aber nur die Verkäufe über 600 USD.</b>
<b>Details zur Aufgabenstellung:</b>
- Sie finden die benötigten Informationen in den Tabellen 'Sales', 'Customers' und 'Phones'.
- Ordnen Sie die Tabelle absteigend nach SaleDate.

<b style="color: gray;">(max. erreichbare Punkte: 4)</b>

In [None]:
# Engine für Datenbankverbindung erstellen


# Abfrage erstellen und Ergebnis in einem DataFrame speichern


# Datenbankverbindung trennen


# Ergebnis anzeigen


#### <b>Aufgabe (6): Ermitteln Sie den durchschnittlichen Verkaufspreis und die Anzahl der Verkäufe für jeden Verkäufer, aber nur für Verkäufer, die mehr als 10 Verkäufe getätigt haben.</b>
<b>Details zur Aufgabenstellung:</b>
- Sie finden die benötigten Informationen in den Tabellen 'SalesPersons' und 'Sales'.
- Ordnen Sie die Tabelle absteigend nach der Anzahl der Verkäufe.

<b style="color: gray;">(max. erreichbare Punkte: 8)</b>

In [None]:
# Engine für Datenbankverbindung erstellen


# Abfrage erstellen und Ergebnis in einem DataFrame speichern


# Datenbankverbindung trennen


# Ergebnis anzeigen


#### <b>Aufgabe (7): Ermitteln Sie die Anzahl der Reparaturen, die von jedem Techniker durchgeführt wurden.</b>
<b>Details zur Aufgabenstellung:</b>
- Sie finden die benötigten Informationen in den Tabellen 'Technicians' und 'ServiceRecords'.
- Geben Sie den Vornamen und Nachnamen des Technikers sowie die Anzahl der Reparaturen an.
- Ordnen Sie die Ergebnistabelle absteigend nach Anzahl der Reparaturen.

<b style="color: gray;">(max. erreichbare Punkte: 8)</b>

In [None]:
# Engine für Datenbankverbindung erstellen


# Abfrage erstellen und Ergebnis in einem DataFrame speichern


# Datenbankverbindung trennen


# Ergebnis anzeigen


#### <b>Aufgabe (8): Ermitteln Sie die Anzahl der Verkäufe pro Verkäufer und den durchschnittlichen Verkaufspreis pro Verkäufer.</b>
<b>Details zur Aufgabenstellung: </b>
- Sie finden die benötigten Informationen in den Tabellen 'SalesPersons' und 'Sales'.
- Verwenden Sie nur Verkäufe, deren Verkaufspreis über 500 USD liegt.
- Runden Sie den durchschnittlichen Verkaufspreis auf zwei Nachkommastellen.
- Sortieren Sie die Ergebnisse nach der Anzahl der Verkäufe und zeigen Sie nur die Top 5 Verkäufer an.

<b style="color: gray;">(max. erreichbare Punkte: 8)</b>

In [None]:
# Engine für Datenbankverbindung erstellen


# Abfrage erstellen und Ergebnis in einem DataFrame speichern


# Datenbankverbindung trennen


# Ergebnis anzeigen


### Jupyter notebook --footer info-- (please always provide this at the end of each notebook)

In [None]:
import os
import platform
import socket
from platform import python_version
from datetime import datetime

print('-----------------------------------')
print(os.name.upper())
print(platform.system(), '|', platform.release())
print('Datetime:', datetime.now().strftime("%Y-%m-%d %H:%M:%S"))
print('Python Version:', python_version())
print('IP Address:', socket.gethostbyname(socket.gethostname()))
print('-----------------------------------')