# Arbeitspaket (AP) 2: Management & Nutzung Temporale Daten

### Persönliche Angaben (bitte ergänzen)

<table>
  <tr>
    <td>Vorname:</td>
    <td>Jannes</td>
  </tr>
  <tr>
    <td>Nachname:</td>
    <td>Zünd</td>
  </tr>
  <tr>
    <td>Immatrikulationsnummer:</td>
    <td>xyz</td>
  </tr>
  <tr>
    <td>Modul:</td>
    <td>Data Science</td>
  </tr>
  <tr>
    <td>Prüfungsdatum / Raum / Zeit:</td>
    <td>07.10.2024 / Raum: SF O3.54 / 8:00 – 11:45</td>
  </tr>
  <tr>
    <td>Erlaubte Hilfsmittel:</td>
    <td>w.MA.XX.DS.24HS (Data Science)<br>Open Book, Eigener Computer, Internet-Zugang</td>
  </tr>
  <tr>
  <td>Nicht erlaubt:</td>
  <td>Nicht erlaubt ist der Einsatz beliebiger Formen von generativer KI (z.B. Copilot, ChatGPT) <br> sowie beliebige Formen von Kommunikation oder Kollaboration mit anderen Menschen.</td>
</tr>
</table>

## Bewertungskriterien

### <b style="color: gray;">(max. erreichbare Punkte: 48)</b>

<table>
  <thead>
    <tr>
      <th>Kategorie</th>
      <th>Beschreibung</th>
      <th>Punkteverteilung</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>Code nicht lauffähig oder Ergebnisse nicht sinnvoll</td>
      <td>Der Code enthält Fehler, die verhindern, dass er ausgeführt werden kann (z.B. Syntaxfehler) oder es werden Ergebnisse ausgegeben, welche nicht zur Fragestellung passen.</td>
      <td>0 Punkte</td>
    </tr>
    <tr>
      <td>Code lauffähig, aber mit gravierenden Mängeln</td>
      <td>Der Code läuft, aber die Ergebnisse sind aufgrund wesentlicher Fehler unvollständig (z.B. fehlende Joins, gravierende Fehler in SQL-Abfragen). Nur geringer Fortschritt erkennbar.</td>
      <td>25% der max. erreichbaren Punkte</td>
    </tr>
    <tr>
      <td>Code lauffähig, aber mit mittleren Mängeln</td>
      <td>Der Code läuft und liefert teilweise korrekte Ergebnisse, aber es gibt grössere Fehler (z.B. fehlende Spalten, unvollständige SQL-Abfragen). Die Ergebnisse sind nachvollziehbar, aber unvollständig oder ungenau.</td>
      <td>50% der max. erreichbaren Punkte</td>
    </tr>
    <tr>
      <td>Code lauffähig, aber mit minimalen Mängeln</td>
      <td>Der Code läuft und liefert ein weitgehend korrektes Ergebnis, aber kleinere Fehler (z.B. falsche oder fehlende Sortierung, Rundung von Werten falsch) beeinträchtigen die Vollständigkeit des Ergebnisses.</td>
      <td>75% der max. erreichbaren Punkte</td>
    </tr>
    <tr>
      <td>Code lauffähig und korrekt</td>
      <td>Der Code läuft einwandfrei und liefert das korrekte Ergebnis ohne Mängel.</td>
      <td>100% der max. erreichbaren Punkte</td>
    </tr>
  </tbody>
</table>



## <b>Vorbereitung (Dieser Teil wird <u>nicht</u> bewertet!)</b>

#### <b>1.) Python Libraries und Settings importieren:</b>

In [1]:
# Libraries
import pandas as pd
import csv
from tinyflux import TinyFlux, Point, FieldQuery, TagQuery, TimeQuery
from datetime import datetime, timezone, timedelta

# Settings
import warnings
warnings.filterwarnings("ignore")

# Abkürzungen für Query-Typen
time = TimeQuery()
tags = TagQuery()
field = FieldQuery()

#### <b>2.) Funktion für die Erstellung eines Dataframes aus Query-Resultaten in den Arbeitsspeicher laden:</b>

In [2]:
# Define the function to transform the list of Point objects into a DataFrame
def points_to_dataframe(points_list):
    data = []
    
    # Extract the relevant information
    for point in points_list:
        data.append({
            "time": point.time,  # Access time attribute
            "sender_id": point.tags['sender_id'],  # Access sender_id from tags dictionary
            "receiver_id": point.tags['receiver_id'],  # Access receiver_id from tags dictionary
            "status": point.tags['status'],  # Access status from tags dictionary
            "amount": point.fields['amount'],  # Access amount from fields dictionary
            "fee": point.fields['fee']  # Access fee from fields dictionary
        })

    # Create a DataFrame
    df = pd.DataFrame(data)

    # Convert time to datetime
    df['time'] = pd.to_datetime(df['time'])

    return df

#### <b>3.) Starten Sie eine GitHub Codespaces Instanz auf Basis Ihres Forks des folgenden GitHub Repositories:</b>

##### GitHub-Repository: https://github.com/MariaPelli/tinyflux


#### <b>4.) Erstellen Sie mit Tinyflux eine Datenbank mit dem Namen "blockchain.db".</b>

In [3]:
# Erstellung der Tinyflux-Datenbank (wird bereitgestellt)
db = TinyFlux("blockchain.db")

## <b>Aufgaben: Erstellung der Datenbank und Einlesen der Daten (Dieser Teil wird bewertet!)</b>

#### <b>Aufgabe (1): Lesen Sie die CSV-Datei 'blockchain.csv' in ein Dataframe mit dem Namen "df" ein, zeigen Sie die ersten 10 Records und geben deskriptive Statistiken des Dataframes aus.</b>

<b>Details zur Aufgabenstellung:</b>

- Das Laden der CSV-Datei kann mittels der Pandas-Funktion "read_csv" (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) erfolgen
- Achten Sie darauf, den Zeitstempel mittels der Pandas-Funktion __df['timestamp']= pd.to_datetime(df['timestamp'], format='mixed')__ auf das Format datetime zu setzen (https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)
- Die ersten 10 Records können mittels der Pandas-Funktion "df.head()" wiedergegeben werden (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html) 
- Deskriptive Statistiken können mittels Pandas-Funktion "df.describe()" (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) wiedergegeben werden. Geben Sie diese für quantitative und kategoriale Variablen aus, indem Sie den Parameter include auf 'all' setzen.

<b style="color: gray;">(max. erreichbare Punkte: 4)</b>

In [5]:
# CSV-Datei in Dataframe laden
df = pd.read_csv('AP2/synthetic_blockchain_transactions.csv')

# Das Format des Zeitstempels in Pandas setzen
df['time']= pd.to_datetime(df['time'], format='mixed')

FileNotFoundError: [Errno 2] No such file or directory: 'AP2/synthetic_blockchain_transactions.csv'

In [None]:
# Erste 10 Records des Dataframes anzeigen
df.head(10)

In [None]:
# Deskriptive Statistiken des Dataframes
df.describe(include="all")

#### <b>Aufgabe (2): Schreiben Sie den Inhalt der CSV-Datei 'blockchain.csv' in die erstellte Tinyflux-Datenbank "blockchain.db" und weisen sie Time, Fields und Tags zu.</b>

<b style="color: gray;">(max. erreichbare Punkte: 8)</b>

In [None]:
# Einlesen der CSV-Datei in Tinyflux
with open("AP2/synthethic_blockchain_transactions.csv", mode="r") as file:
    reader = csv.DictReader(file)
    for row in reader:
        point = Point(
            time=datetime.strptime(row["time"], "%Y-%m-%d %H:%M:%S"),
            measurement="blockchain_transactions",
            fields={
                "amount": float(row["amount"]),
                "fee": float(row["fee"])
                }, 
            tags={
                "sender_id": row["sender_id"],
                "receiver_id": row["receiver_id"],
                "status": row["status"]
            }
        )
        db.insert(point)

#### <b>Aufgabe (3): Fügen Sie die folgenden vier Transaktionen manuell in die Datenbank ein und weisen Sie Time, Fields und Tags gleichermassen zu, wie beim Inhalt der CSV-Datei.</b>

<b style="color: gray;">(max. erreichbare Punkte: 4)</b>

| timestamp | sender_id | receiver_id | amount | fee | status |
| --- | --- | --- | --- | --- | --- |
| 2024-01-01 00:00:00 | 1700 | 1000 | 4.596327 | 0.064793 | confirmed |
| 2024-01-01 07:00:00 | 1800 | 2000 | 7.463891 | 0.034658 | confirmed |
| 2024-01-01 08:00:00 | 1900 | 3000 | 3.546987 | 0.075311 | pending |
| 2024-01-01 09:00:00 | 2000 | 4000 | 1.347962 | 0.942864 | pending |

In [None]:
# Einlesen von manuellen Records
# Create manual records
p1 = Point(
    time=datetime(2024, 1, 1, 0, 0, 0, tzinfo=timezone.utc),
    measurement="blockchain_transactions",
    tags={"sender_id": "1700", "receiver_id": "1000", "status": "confirmed"},
    fields={"amount": 4.596327, "fee": 0.064793}
)

p2 = Point(
    time=datetime(2024, 1, 1, 7, 0, 0, tzinfo=timezone.utc),
    measurement="blockchain_transactions",
    tags={"sender_id": "1800", "receiver_id": "2000", "status": "confirmed"},
    fields={"amount": 7.463891, "fee": 0.034658}
)

p3 = Point(
    time=datetime(2024, 1, 1, 9, 0, 0, tzinfo=timezone.utc),
    measurement="blockchain_transactions",
    tags={"sender_id": "1900", "receiver_id": "3000", "status": "pending"},
    fields={"amount": 3.546987, "fee": 0.075311}
)

p4 = Point(
    time=datetime(2024, 1, 1, 9, 0, 0, tzinfo=timezone.utc),
    measurement="blockchain_transactions",
    tags={"sender_id": "2000", "receiver_id": "4000", "status": "pending"},
    fields={"amount": 1.347962, "fee": 0.942864}
)

# Insert into the DB.
db.insert_multiple([p1, p2])

<div style="background-color: #F0EAD6;">

#### <b> Hinweis! 

#### Falls etwas mit der Erstellung der Datenbank nicht funktioniert, verwenden Sie für die folgenden Aufgaben die Tinyflux Datenbank 'blockchain_fallback.db'. Gehen Sie davon aus, dass diese unter denselben, obigen Bedingungen erstellt wurde.</b>
    
#### <b>Erstellen der Verbindung mit der Tinyflux-Datenbank mit dem Namen "blockchain_fallback.db":</b>
</div>

In [None]:
# Erstellung der Tinyflux-Datenbank (wird bereitgestellt)
db = TinyFlux("blockchain_fallback.db")

## <b>Aufgaben: Abfragen (Queries) (Dieser Teil wird bewertet!)</b>

<b style="color:blue;">Hinweise zu den folgenden Aufgabenstellungen:</b>
<ul style="color:blue;">
  <li>Erstellen Sie je Aufgabe eine Time-, Field- oder Tag Abfrage bzw. eine Kombination von diesen und integrieren Sie diese in Ihren Python Code.</li>
  <li>Speichern Sie je Aufgabe die Ergebnistabelle mittels der zu Beginn dieses Notebooks bereitgestellten Funktion <b>points_to_dataframe</b> in einem DataFrame und stellen Sie diesen bzw. dessen Eigenschaften ganz oder in Teilen (z.B. erste 5 Zeilen) dar.</li>
</ul>

#### <b>Aufgabe (4): Geben Sie die vier zuletzt, manuell hinzugefügten Records aus</b>

<b style="color: gray;">(max. erreichbare Punkte: 4)</b>

In [None]:
# Definieren der Query


# Datenabfrage mittels der definierten Query


# Erstellung eines Dataframes aus den Query-Resultaten


#### <b>Aufgabe (5): Ermitteln Sie, welche Sender bereits vor dem manuell eingetragenen Zeitraum Transaktionen in Auftrag gegeben hatten</b>

<b style="color: gray;">(max. erreichbare Punkte: 4)</b>

In [None]:
# Definieren der Queries


# Datenabfrage mittels der definierten Queries


# Erstellung eines Dataframes aus den Query-Resultaten


#### <b>Aufgabe (6): Ermitteln Sie für das Jahr 2023 die Anzahl Transaktionen pro Quartal</b>

<b>Details zur Aufgabenstellung:</b>
- Die Anzahl Transaktionen kann mittels len(df_result), angewendet auf das Dataframe oder die Rohausgabe des Queries, herausgegeben werden

<b style="color: gray;">(max. erreichbare Punkte: 8)</b>

In [None]:
# Definieren der Queries


# Datenabfrage mittels der definierten Queries


# Erstellung eines Dataframes aus den Query-Resultaten


# Ausgabe der aggregierten Resultate


#### <b>Aufgabe (7): Ermitteln Sie den durchschnittlichen Amount-Betrag pro Status</b>

<b>Details zur Aufgabenstellung:</b>
- Alle im Datensatz vorhandenen Status können Sie mittels der Pandas-Funktion "df.attributname.unique()" (https://pandas.pydata.org/docs/reference/api/pandas.unique.html) ermitteln
- Den Durchschnitt über eine Spalte können Sie mittels der Pandas-Funktion df[['spaltenname']].mean() https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html ermitteln

<b style="color: gray;">(max. erreichbare Punkte: 8)</b>

In [None]:
df.status.unique()

In [None]:
# Definieren der Queries


# Datenabfrage mittels der definierten Queries


# Erstellung eines Dataframes aus den Query-Resultaten


# Ausgabe der aggregierten Resultate


#### <b>Aufgabe (8): Ermitteln Sie pro Quartal für das Jahr 2023 die Anzahl Transaktionen, die höhere Gebühren (fee) aufweisen, als der Median von fee.</b>

<b>Details zur Aufgabenstellung:</b>
- Die Anzahl Transaktionen kann mittels len(df_result), angewendet auf das Dataframe oder die Rohausgabe des Queries, herausgegeben werden
- Der Median ist den zu Beginn dieses Notebooks erstellten, deskriptiven Statistiken (50%) ausgeführt

<b style="color: gray;">(max. erreichbare Punkte: 8)</b>

In [None]:
# Definieren der Queries


# Datenabfrage mittels der definierten Queries


# Erstellung eines Dataframes aus den Query-Resultaten


# Ausgabe der aggregierten Resultate


### Jupyter notebook --footer info-- (please always provide this at the end of each notebook)

In [None]:
import os
import platform
import socket
from platform import python_version
from datetime import datetime

print('-----------------------------------')
print(os.name.upper())
print(platform.system(), '|', platform.release())
print('Datetime:', datetime.now().strftime("%Y-%m-%d %H:%M:%S"))
print('Python Version:', python_version())
print('IP Address:', socket.gethostbyname(socket.gethostname()))
print('-----------------------------------')