### Datensätze zur Auswahl:
#### Bike Sharing Nutzung:
Der Datensatz dient dazu, die benötigte Anzahl an Mietfahrrädern pro Stunde vorherzusagen, um eine stabile Versorgung sicherzustellen. Ziel ist es, Wartezeiten zu minimieren und die Verfügbarkeit der Fahrräder in Städten zu optimieren. Dafür enthält der Datensatz: Wetterdaten wie Temperatur, Luftfeuchtigkeit, Windgeschwindigkeit, Sichtweite, Taupunkt, Sonneneinstrahlung, Schneefall und Regen, die stündliche Anzahl der ausgeliehenen Fahrräder sowie Datumsangaben.
#### Energie Effizienz von Gebäuden:
Der Datensatz umfasst 768 simulierte Gebäudemodelle, die sich hinsichtlich Form, Verglasungsfläche, deren Verteilung, Ausrichtung und weiteren Parametern unterscheiden. Für jede Probe stehen 8 Merkmale zur Verfügung, die dazu dienen, zwei kontinuierliche Zielwerte vorherzusagen. Alternativ kann der Datensatz auch für Klassifikationsprobleme genutzt werden, indem die Zielwerte auf ganze Zahlen gerundet werden. Der Zweck der Datenerhebung liegt in der Analyse des Energieverbrauchs basierend auf den Designparametern der Gebäude, um Erkenntnisse für energieeffizientes Bauen zu gewinnen.
#### Wein Qualität
Leon macht das....

### Auswahl
Wir haben uns für den Datensatz "Bike Sharing Nutzung" entschieden

## Beschreibung des Datensatzes:


### Package and Data Imports 

In [1]:
import numpy as np
import matplotlib
import pandas as pd

# Define the mappings
season_mapping = {
    "Spring": 1,
    "Summer": 2,
    "Fall": 3,
    "Winter": 4
}
binary_mapping = {
    "Yes": 1,
    "No": 0
}
holiday_mapping = {
    "No Holiday": 0,
    "Holiday": 1
}

# Use the converters parameter to map both columns
df = pd.read_csv('data/SeoulBikeData.csv', 
    converters={
        'Season': lambda x: season_mapping[x], 
        'Holiday': lambda x: holiday_mapping[x],
        'Functioning Day': lambda x: binary_mapping[x]
    }
)

print(df.shape)

(8760, 14)


### Data Exploration
Anzahl Instanzen: 8760
Anzahl Variablen: 14
Meaningfull names: No clarification needed.

In [2]:
df.describe()

Unnamed: 0,Rented Bike Count,Hour,Temperature(C),Humidity(%),Wind speed (m/s),Visibility (10m),Dew point temperature(C),Solar Radiation (MJ/m2),Rainfall(mm),Snowfall (cm),Holiday,Functioning Day
count,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0,8760.0
mean,704.602055,11.5,12.882922,58.226256,1.724909,1436.825799,4.073813,0.569111,0.148687,0.075068,0.049315,0.966324
std,644.997468,6.922582,11.944825,20.362413,1.0363,608.298712,13.060369,0.868746,1.128193,0.436746,0.216537,0.180404
min,0.0,0.0,-17.8,0.0,0.0,27.0,-30.6,0.0,0.0,0.0,0.0,0.0
25%,191.0,5.75,3.5,42.0,0.9,940.0,-4.7,0.0,0.0,0.0,0.0,1.0
50%,504.5,11.5,13.7,57.0,1.5,1698.0,5.1,0.01,0.0,0.0,0.0,1.0
75%,1065.25,17.25,22.5,74.0,2.3,2000.0,14.8,0.93,0.0,0.0,0.0,1.0
max,3556.0,23.0,39.4,98.0,7.4,2000.0,27.2,3.52,35.0,8.8,1.0,1.0


In [3]:
strong_threshold = 0.7
mediocre_threshold = 0.4

numerical_df = df.select_dtypes(include=['float64', 'int64'])
correlation_matrix = numerical_df.corr()

strong_correlations = correlation_matrix[(correlation_matrix >= strong_threshold) | (correlation_matrix <= -strong_threshold)]

mediocre_correlations = correlation_matrix[
    ((correlation_matrix >= mediocre_threshold) & (correlation_matrix < strong_threshold)) |
    ((correlation_matrix <= -mediocre_threshold) & (correlation_matrix > -strong_threshold))
]

# remove self-correlations (diagonal of ones)
filtered_strong = strong_correlations.where(~(correlation_matrix == 1))
filtered_mediocre = mediocre_correlations.where(~(correlation_matrix == 1))
print("\nFiltered Strong Correlations (without self-correlations):")
print(filtered_strong)

print("\nFiltered Mediocre Correlations (without self-correlations):")
print(filtered_mediocre)


Filtered Strong Correlations (without self-correlations):
                          Rented Bike Count  Hour  Temperature(C)  \
Rented Bike Count                       NaN   NaN             NaN   
Hour                                    NaN   NaN             NaN   
Temperature(C)                          NaN   NaN             NaN   
Humidity(%)                             NaN   NaN             NaN   
Wind speed (m/s)                        NaN   NaN             NaN   
Visibility (10m)                        NaN   NaN             NaN   
Dew point temperature(C)                NaN   NaN        0.912798   
Solar Radiation (MJ/m2)                 NaN   NaN             NaN   
Rainfall(mm)                            NaN   NaN             NaN   
Snowfall (cm)                           NaN   NaN             NaN   
Holiday                                 NaN   NaN             NaN   
Functioning Day                         NaN   NaN             NaN   

                          Humidity(%)  Wind

### Ergebnis:
#### Starke Korrelation:
- Dew point temperature und Temperature korrelieren sehr stark mit einem korrelationsfaktor von 0.91. Dies ist auch einleuchtend.
#### Mittelmäßige Korrelation
- Hour und Rented Bike Count mit 0.41
- Temperatur und Rented Bike Count mit 0.54
- Visibility und Humidity mit -0.54
- Dew point temperature und Humidity mit -0.54
- Solar Radiation und Humidity mit -0.46
 