# Historische Daten laden

In [None]:
# import pandas as pd
# from sqlalchemy import create_engine

# # Datenbankverbindung aufbauen
#engine = create_engine('postgresql://username:password@localhost:5432/mydatabase')
# # SQL-Abfrage
# query = """
# SELECT 
#     d.box_id,
#     d.sensor_id,
#     d.timestamp,
#     d.value,
#     s.title AS sensor_title,
#     s.unit AS sensor_unit
# FROM 
#     data d
# JOIN 
#     sensors s ON d.sensor_id = s.id
# """

# # Daten extrahieren
# data = pd.read_sql(query, con=engine)

# # Daten in eine lokale Datei speichern
# data.to_csv('umweltmonitoring_data.csv', index=False)


# Datenvorverarbeitung Historischer Daten

In [None]:
import pandas as pd
import missingno as mno
# Daten laden
data = pd.read_csv('umweltmonitoring_data.csv')

In [None]:
# Daten überprüfen
data.head()

In [None]:
len(data)

In [None]:
mno.matrix(data)

In [None]:
data.isnull().sum()

In [None]:
# Zeitbasierte Features hinzufügen
data['timestamp'] = pd.to_datetime(data['timestamp'])
data['hour'] = data['timestamp'].dt.hour
data['weekday'] = data['timestamp'].dt.weekday

In [None]:
# DataFrame nach 'timestamp' sortieren
data = data.sort_values(by='timestamp', ascending=True)

In [None]:
# Daten in Trainings- und Testset aufteilen
train_data = data[data['timestamp'] < '2024-01-01']
test_data = data[data['timestamp'] >= '2024-01-01']

In [None]:
# Speichern der aufbereiteten Daten
train_data.to_csv('train_data.csv', index=False)
test_data.to_csv('test_data.csv', index=False)

In [None]:
# Daten speichern nach Bereinigung
data.to_csv('umweltmonitoring_clean.csv', index=False)

In [None]:
import pandas as pd
import plotly.express as px

# Daten laden
data = pd.read_csv('umweltmonitoring_data.csv')

# Eindeutige Sensortitel und Einheiten extrahieren
sensors = data[['sensor_title', 'sensor_unit']].drop_duplicates()

# Boxplots für jeden Sensortitel erstellen
for index, row in sensors.iterrows():
    sensor_title = row['sensor_title']
    sensor_unit = row['sensor_unit']
    filtered_data = data[(data['sensor_title'] == sensor_title) & (data['sensor_unit'] == sensor_unit)]
    
    # Erstellen des Boxplots
    fig = px.box(filtered_data, y='value', title=f'{sensor_title} ({sensor_unit})', labels={'value': 'Werte'})
    
    # Boxplot anzeigen
    fig.show()


In [None]:

# Eindeutige Sensortitel extrahieren
sensor_titles = data['sensor_title'].unique()

# Histogramme für jeden Sensortitel erstellen
for sensor_title in sensor_titles:
    filtered_data = data[data['sensor_title'] == sensor_title]
    
    # Histogramm erstellen
    fig = px.histogram(filtered_data, x='value', nbins=50, title=f'Histogramm von {sensor_title}')
    
    # X-Achsen und Y-Achsen Bezeichnungen hinzufügen
    fig.update_layout(
        xaxis_title=f'Werte von {sensor_title}',
        yaxis_title='Häufigkeit'
    )
    
    # Histogramm anzeigen
    fig.show()

In [None]:
import plotly.express as px
# Filter für die relative Luftfeuchtigkeit
humidity_data = data[data['sensor_title'] == 'rel. Luftfeuchte']

# Histogramm der relativen Luftfeuchtigkeit erstellen
fig = px.histogram(humidity_data, x='value', nbins=100, title='Histogramm der relativen Luftfeuchtigkeit')
fig.update_layout(xaxis_title='Relative Luftfeuchtigkeit (%)', yaxis_title='Häufigkeit')
fig.show()


In [None]:
# Visuelle und statistische Analyse für jede Box durchführen
box_ids = humidity_data['box_id'].unique()
for box_id in box_ids:
    box_data = humidity_data[humidity_data['box_id'] == box_id]
    
    # Histogramm erstellen
    fig = px.histogram(box_data, x='value', nbins=50, title=f'Histogramm der relativen Luftfeuchtigkeit für Box {box_id}')
    fig.show()
    
    # Statistische Kennzahlen berechnen
    mean = box_data['value'].mean()
    std_dev = box_data['value'].std()
    max_value = box_data['value'].max()
    min_value = box_data['value'].min()
    
    print(f"Box ID: {box_id}")
    print(f"Mean: {mean}, Std Dev: {std_dev}, Max: {max_value}, Min: {min_value}\n")

In [None]:
# Daten der betroffenen Sensebox filtern
box_data = data[(data['box_id'] == '5d9ef41e25683a001ad916c3') & (data['sensor_title'] == 'rel. Luftfeuchte')]

# Timestamp in Datetime umwandeln für bessere Visualisierung
box_data['timestamp'] = pd.to_datetime(box_data['timestamp'])

# Zeitreihendiagramm der relativen Luftfeuchtigkeit erstellen
fig = px.line(box_data, x='timestamp', y='value', title='Zeitreihe der relativen Luftfeuchtigkeit',
              labels={'value': 'Relative Luftfeuchtigkeit (%)', 'timestamp': 'Zeit'})

# Diagramm anzeigen
fig.show()

In [None]:
problematic_box_id = '5d9ef41e25683a001ad916c3'
filtered_data = data[((data['box_id'] != problematic_box_id) | (data['timestamp'] >= '2023-12-21'))]


In [None]:

# ID der Sensebox, die entfernt werden soll
removed_box_id = '5bf93ceba8af82001afc4c32'

# Daten filtern, um alle Einträge dieser Box zu entfernen
filtered_data = data[data['box_id'] != removed_box_id]
filtered_data.to_csv('cleaned_data.csv', index=False)

In [None]:
len(filtered_data)

In [None]:
len(data)

In [None]:
removed_data = data[data['box_id'] == removed_box_id]

In [None]:
len(removed_data)

In [None]:
filtered_data.to_csv('cleaned_data.csv', index=False)