In [None]:
import httpx
import pandas as pd
import os 
import json

from src.download.patients import PatientsDownload
from src.download.abwasser_downloader import SewagedataDownloader
from src.utils.graph_configurations import get_sewagedata_timeline_plot

### Use Case: Von einer Datei alle Patienten extrahieren und für einzelne Patienten Abwasserdaten anschauen

In [None]:
# INPUT from the User Interface 
START_DATE = input("Bitte geben Sie den Startzeitpunkt der Datenabfrage ein (Format: YYYY-MM-DD): ")
END_DATE = input("Bitte geben Sie den Endzeitpunkt der Datenabfrage ein (Format: YYYY-MM-DD): ")

In [None]:
# Load Patient Data - test data
file = open("data/raw/2024-12-02_mii_testdaten_small.json")
data = json.load(file)

In [None]:
# Extract Patients from Data + select an interesting patient
patients = PatientsDownload()
patients.extract_patients(data = data)
interesting_patient = patients.get_patient_by_id("595")

In [None]:
# Get Abwasser Daten for Patient
sewage_data = SewagedataDownloader()
data = sewage_data.get_sewage_data_patient(start_date = START_DATE, end_date= END_DATE, longitude = interesting_patient.address.longitude, latitude = interesting_patient.address.latitude)

In [None]:
data.head()

### Use Case: Additional filtering - Filterung nach Typ

In [None]:
START_DATE = input("Bitte geben Sie den Startzeitpunkt der Datenabfrage ein (Format: YYYY-MM-DD): ")
END_DATE = input("Bitte geben Sie den Endzeitpunkt der Datenabfrage ein (Format: YYYY-MM-DD): ")
VIRUS_TYPE = input("Bitte geben Sie den Virus-Typ ein. Optionen sind: SARS-CoV-2, Influenza A, Influenza B oder Influenza A+B:")

In [None]:
# Load Patient Data - test data
file = open("data/raw/2024-12-02_mii_testdaten_small.json")
data = json.load(file)

In [None]:
# Extract Patients from Data + select an interesting patient
patients = PatientsDownload()
patients.extract_patients(data = data)
interesting_patient = patients.get_patient_by_id("595")

In [None]:
# Get Abwasser Daten for Patient
sewage_data = SewagedataDownloader()
data = sewage_data.get_sewage_data_patient(start_date = START_DATE, end_date= END_DATE, longitude = interesting_patient.address.longitude, latitude = interesting_patient.address.latitude, virus_type = VIRUS_TYPE)

In [None]:
# data without missings
data_ = data.dropna(subset=['viruslast']) # Drop rows with NaN values in the column
get_sewagedata_timeline_plot(data = data_, column = 'viruslast')

### Use Case: Additional filtering - Filterung nach Normalisierung

In [None]:
START_DATE = input("Bitte geben Sie den Startzeitpunkt der Datenabfrage ein (Format: YYYY-MM-DD): ")
END_DATE = input("Bitte geben Sie den Endzeitpunkt der Datenabfrage ein (Format: YYYY-MM-DD): ")
IS_NORMALISIERT = input("Bitte geben Sie an ob die Werte normalisiert sein sollen. Optionen: ja oder nein")

In [None]:
# Load Patient Data - test data
file = open("data/raw/2024-12-02_mii_testdaten_small.json")
data = json.load(file)

In [None]:
# Extract Patients from Data + select an interesting patient
patients = PatientsDownload()
patients.extract_patients(data = data)
interesting_patient = patients.get_patient_by_id("595")

In [None]:
# Get Abwasser Daten for Patient
sewage_data = SewagedataDownloader()
data = sewage_data.get_sewage_data_patient(start_date = START_DATE, end_date= END_DATE, longitude = interesting_patient.address.longitude, latitude = interesting_patient.address.latitude, is_normalsierung = IS_NORMALISIERT)

### Use Case: Daten noch weiter verarbeiten (Mean / Median)

In [None]:
START_DATE = input("Bitte geben Sie den Startzeitpunkt der Datenabfrage ein (Format: YYYY-MM-DD): ")
END_DATE = input("Bitte geben Sie den Endzeitpunkt der Datenabfrage ein (Format: YYYY-MM-DD): ")
VIRUS_TYPE = input("Bitte geben Sie den Virus-Typ ein. Optionen sind: SARS-CoV-2, Influenza A, Influenza B oder Influenza A+B:")

In [None]:
# Load Patient Data - test data
file = open("data/raw/2024-12-02_mii_testdaten_small.json")
data = json.load(file)

In [None]:
# Extract Patients from Data + select an interesting patient
patients = PatientsDownload()
patients.extract_patients(data = data)
interesting_patient = patients.get_patient_by_id("595")

In [None]:
# Get Abwasser Daten for Patient
sewage_data = SewagedataDownloader()
data = sewage_data.get_sewage_data_patient(start_date = START_DATE, end_date= END_DATE, longitude = interesting_patient.address.longitude, latitude = interesting_patient.address.latitude, virus_type = VIRUS_TYPE)

In [None]:
# apply mean to the data
print(f"Durchschnittlich gemessene Viruslast (mean) in Genkopien pro Liter für den Zeitraum {START_DATE} bis {END_DATE} für den Virus-Typ {VIRUS_TYPE}: {round(data['viruslast'].mean())} (gerundet)")
print(f"Durchschnittlich vorhergesagte Viruslast (mean) in Genkopien pro Liter für den Zeitraum {START_DATE} bis {END_DATE} für den Virus-Typ {VIRUS_TYPE}: {round(data['loess_vorhersage'].mean())} (gerundet)")

In [None]:
# apply median to the data
print(f"Durchschnittlich gemessene Viruslast (median) in Genkopien pro Liter für den Zeitraum {START_DATE} bis {END_DATE} für den Virus-Typ {VIRUS_TYPE}: {round(data['viruslast'].median())} (gerundet)")
print(f"Durchschnittlich vorhergesagte Viruslast (median) in Genkopien pro Liter für den Zeitraum {START_DATE} bis {END_DATE} für den Virus-Typ {VIRUS_TYPE}: {round(data['loess_vorhersage'].median())} (gerundet)")

### Use Case: über mehrere Patienten loopen und einen Datensatz für alle

In [None]:
# INPUT from the User Interface 
START_DATE = input("Bitte geben Sie den Startzeitpunkt der Datenabfrage ein (Format: YYYY-MM-DD): ")
END_DATE = input("Bitte geben Sie den Endzeitpunkt der Datenabfrage ein (Format: YYYY-MM-DD): ")

In [None]:
# Load Patient Data - test data
file = open("data/raw/2024-12-02_mii_testdaten_large.json")
data = json.load(file)

In [None]:
# Extract Patients from Data + select an interesting patient
patients = PatientsDownload()
patients.extract_patients(data = data)

sewage_data = SewagedataDownloader()
return_data = sewage_data.get_sewage_data_patient_collection(patients= patients.patients, start_date = START_DATE, end_date = END_DATE)

In [None]:
return_data.head()

In [None]:
# simple table to show how many patient are in which standort
return_data_deduplicated = return_data.drop_duplicates(subset=['standort', 'patient_id'])
grouped = return_data_deduplicated.groupby('standort')['patient_id'].count().reset_index()
grouped.columns = ['standort', 'num_patients']

print(grouped)