## Statistical Computing - Capstone Project

### Data-Preparation aka Vorbereitung und Bereinigung der Daten

<div align="left">
<h2><img src="https://media.giphy.com/media/4FQMuOKR6zQRO/giphy.gif" width="200" alt="Data"></h2>
</div>

☑️ In diesem Notebook werden die Datensätze zur Analyse vorbereitet.

☑️ Die eigentliche Analyse passiert hier:  [Analyse](./Data-Analysis.ipynb)

☑️ Dieses Projekt wurde mit dem Anaconda3 Python-Kernel entwickelt.



### ▶️ Zum Start klonen wird das Github-Repository in unsere IDE

In [1]:
!git clone https://github.com/Gizmo-Labs/Statistical-Computing.git

Klone nach 'Statistical-Computing' …
remote: Enumerating objects: 48, done.[K
remote: Counting objects: 100% (48/48), done.[K
remote: Compressing objects: 100% (46/46), done.[K
remote: Total 48 (delta 13), reused 0 (delta 0), pack-reused 0[K
Empfange Objekte: 100% (48/48), 1.05 MiB | 2.63 MiB/s, fertig.
Löse Unterschiede auf: 100% (13/13), fertig.


### ▶️ Importieren von einigen Python-Bibliotheken

In [1]:
import pandas as pd

### ▶️ Einlesen der Klima-Daten vom CDC-Portal des DWD

- Dieser Vorgang kann bis zu 1 Minute dauern! Der Datensatz enthält **ALLE** Wetterstationen Deutschlands
- Aufgrund der Limitierung der Datengrösse bei Github liegen die Dateien auf einem Google Drive

In [2]:
# Importiere die .csv-Datei mit den Klimadaten
df = pd.read_csv('https://drive.usercontent.google.com/download?id=1tlQzndBEkJD_Fj5kCEomL-xmpoQXK_BN&export=download&authuser=0&confirm=t&uuid=b41f20b9-68fd-49b4-88eb-0af99df5b837&at=APZUnTVx-x43A7E70nO-jtsXvIv7:1705859761496', index_col=False)

# Wegwerfen der Spalten die wir nicht benötigen
df = df.drop(['Qualitaet_Byte', 'Qualitaet_Niveau'], axis=1)

df.head()

Unnamed: 0,Produkt_Code,SDO_ID,Zeitstempel,Wert
0,OBS_DEU_P1D_T2M,1001,2014-01-20,-1.2
1,OBS_DEU_P1D_T2M,1001,2014-01-21,-2.0
2,OBS_DEU_P1D_T2M,1001,2014-01-22,-4.4
3,OBS_DEU_P1D_T2M,1001,2014-01-23,-4.5
4,OBS_DEU_P1D_T2M,1001,2014-01-24,-5.3


### ▶️ Einlesen der Produkt-Daten vom CDC-Portal des DWD

In [5]:
# Importiere die .csv-Datei mit den Product-Codes
product_code_df = pd.read_csv('https://drive.usercontent.google.com/download?id=1x3jq_1aPlRzA_BFhAJLscwHhcOIr9bFE&export=download&authuser=0&confirm=t&uuid=48d5f250-f61c-4c21-92e3-d25ac6ac1fa9&at=APZUnTWD9Vm9_MSZKZ3uCHNAJuSw:1705860136098', index_col=False)

# Wegwerfen der Spalten die wir nicht benötigen
product_code_df = product_code_df.drop(['Beschreibung_DWD', 'Beschreibung_Inspire'], axis=1)

product_code_df.head()

Unnamed: 0,Produkt_Code,Produkt_Titel,Einheit
0,OBS_DEU_P1D_T2M,Daily station observations of mean temperature...,°C
1,OBS_DEU_P1D_SD,Daily station observations of sunshine duratio...,hours
2,OBS_DEU_P1D_F,Daily mean of station observations of wind spe...,m/s


### ▶️ Einlesen der Stations-Daten vom CDC-Portal des DWD

In [4]:
# Importiere die .csv-Datei mit den Stations-Daten
station_names_df = pd.read_csv('https://drive.usercontent.google.com/download?id=1HIFVsyLWmV3v6jus58iXCs92uSjgnOvl&export=download&authuser=0&confirm=t&uuid=02d0dc40-5d2e-497a-9274-8685535c7320&at=APZUnTVn6JIdmUOXhFBM6td5waG-:1705860690866', index_col=False)

# Wegwerfen der Spalten die wir nicht benötigen
station_names_df = station_names_df.drop(['Geogr_Laenge', 'Geogr_Breite', 'Hoehe_ueber_NN', 'Metadata_Link'], axis=1)

station_names_df.head()

Unnamed: 0,SDO_ID,SDO_Name
0,4094,"Weingarten, Kr. Ravensburg"
1,5344,Wangerooge
2,3519,Neuhausen ob Eck-Unterschwandorf
3,5138,Überlingen/Bodensee
4,2949,Lenningen-Schopfloch


### ▶️ Zusammenfassung der drei Datensätze zu einem

In [6]:
# Zusammenfassung von Klimadaten und Productcodes anhand der Productcodes
df1 = pd.merge(df, product_code_df, on='Produkt_Code')

# Zusammenfassung des vorigen Schrittes und Stations-Daten anhand der Stations-ID
df1 = pd.merge(df1, station_names_df, on='SDO_ID')

# Nach der Zusammenfassung können wir ein paar Spalten wegwerfen
df1 = df1.drop(['Produkt_Code', 'SDO_ID', 'Einheit'], axis=1)

# Als Ergebnis erhalten wir ein Data-Frame mit besser lesbaren Inhalten
df1.head()

Unnamed: 0,Zeitstempel,Wert,Produkt_Titel,SDO_Name
0,2014-01-20,-1.2,Daily station observations of mean temperature...,Doberlug-Kirchhain
1,2014-01-21,-2.0,Daily station observations of mean temperature...,Doberlug-Kirchhain
2,2014-01-22,-4.4,Daily station observations of mean temperature...,Doberlug-Kirchhain
3,2014-01-23,-4.5,Daily station observations of mean temperature...,Doberlug-Kirchhain
4,2014-01-24,-5.3,Daily station observations of mean temperature...,Doberlug-Kirchhain


### ▶️ Für die weitere Verarbeitung müssen wir unsere Datentypen prüfen

In [7]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3861377 entries, 0 to 3861376
Data columns (total 4 columns):
 #   Column         Dtype  
---  ------         -----  
 0   Zeitstempel    object 
 1   Wert           float64
 2   Produkt_Titel  object 
 3   SDO_Name       object 
dtypes: float64(1), object(3)
memory usage: 147.3+ MB


### ▶️ Wir sehen drei Datentypen vom Typ "object". Dies müssen wir ändern.
- Wir benennen die Spalte "SDO_Name" um in "Station"
- Wir konvertieren die Spalte "Zeitstempel" in das DateTime-Format
- Wir konvertieren die Spalte "Station" in das String-Format
- Wir konvertieren die Spalte "Produkt_Titel" ind das String-Format

In [8]:
# Umbenennen von "SDO_Name" in "Station"
df1.columns = ['Zeitstempel', 'Wert', 'Kategorie', 'Station']

# Konvertieren von "Zeitstempel" nach dateTime
df1['Zeitstempel'] = pd.to_datetime(df1.Zeitstempel)

# Konvertieren von "Station" nach String
df1['Station'] = df1['Station'].astype("string")

# Konvertieren von "Produkt_Titel" nach String
df1['Kategorie'] = df1['Kategorie'].astype("string")

df1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3861377 entries, 0 to 3861376
Data columns (total 4 columns):
 #   Column       Dtype         
---  ------       -----         
 0   Zeitstempel  datetime64[ns]
 1   Wert         float64       
 2   Kategorie    string        
 3   Station      string        
dtypes: datetime64[ns](1), float64(1), string(2)
memory usage: 147.3 MB


### ▶️ Umbennen der **Inhalte** der Spalte "Kategorie" zwecks besserer Lesbarkeit

In [9]:
# Zeige volle Spalten an
pd.set_option('display.max_colwidth', None)

# Alles in "Messreihe" gemäß Ausdruck umbennen in Sonnenscheindauer
df1['Kategorie'] = df1['Kategorie'].str.replace("Daily station observations of sunshine duration in hours", "Sonnenscheindauer", regex=False)

###########################

# Alles in "Messreihe" gemäß Ausdruck umbennen in Mittlere Temperatur
df1['Kategorie'] = df1['Kategorie'].str.replace("Daily station observations of mean temperature at 2 m above ground in °C", "Mittlere Temperatur", regex=False)

###########################

# Alles in "Messreihe" gemäß Ausdruck umbennen in Windgeschwindigkeit
df1['Kategorie'] = df1['Kategorie'].str.replace("Daily mean of station observations of wind speed at ca. 10 m above ground in m/s", "Windgeschwindigkeit", regex=False)

df1.head()

Unnamed: 0,Zeitstempel,Wert,Kategorie,Station
0,2014-01-20,-1.2,Mittlere Temperatur,Doberlug-Kirchhain
1,2014-01-21,-2.0,Mittlere Temperatur,Doberlug-Kirchhain
2,2014-01-22,-4.4,Mittlere Temperatur,Doberlug-Kirchhain
3,2014-01-23,-4.5,Mittlere Temperatur,Doberlug-Kirchhain
4,2014-01-24,-5.3,Mittlere Temperatur,Doberlug-Kirchhain


### ▶️ Unser Datensatz ist nun bestens vorbereitet für die Daten-Analyse


---
- Hier ⚠️[Klick mich](./Data-Analysis.ipynb)⚠️ geht es weiter!
---
- Das Anaylse-Notebook lädt den vorbereiteten Datensatz vom Google Drive
