# Auswertung

**Einerseits**
1. Baditage definieren
2. Wie viele Tage fallen pro Jahr und Monat (Mai bis September) in diese Schemata? 

    -> Achtung, Wetterstation liegt hoch, auf 778 m.ü.M. Baditage daher grosszügig ansetzen.

    -> für Definition vielleicht Kombo aus Sonnenscheindauer und Niederschlag (wenn wenig Sonnenschein und Niederschlag = Regentag)

**Andererseits**
1. Normjahr (aus den Jahren 1991 bis 2020) errechnen: Temperaturverlauf
2. Gibt es z.B. im September einen merklichen Knick in den Temperaturen? (Achtung, Wetterstation liegt relativ hoch, daher ist der Knick relevant, weniger die tatsächliche Temperatur)
    -> Niederschlag: Anschauen Anzahl Regentage pro Monat? (Z.B. im September viel mehr Regentage?)





In [1]:
import pandas as pd

In [2]:
import csv
import zlib

In [3]:
import time

# Bereinigung

In [4]:
with open('daten/wetterdaten2.txt', 'r') as in_file:
    lines = in_file.read().splitlines()
    stripped = [line.replace(","," ").split() for line in lines]
    grouped = zip(*[stripped]*1)
    with open('daten/wetterdaten.csv', 'w') as out_file:
        writer = csv.writer(out_file)
        #writer.writerow(('A', 'B', 'C', 'D'))
        for group in grouped:
            writer.writerows(group)


In [5]:

df = pd.read_csv('daten/wetterdaten.csv')

In [6]:
df = df.drop(['STA',
       'HH',
       'MM'], axis = 1)

In [7]:
df.head(50)

Unnamed: 0,JAHR,MO,TG,1801,212,1803,1072
0,1960,1,1,7.1,9.7,0.4,0.0
1,1960,1,2,6.2,9.7,13.0,4.3
2,1960,1,3,5.9,6.7,23.9,0.0
3,1960,1,4,3.2,8.0,0.0,3.6
4,1960,1,5,-0.5,1.3,7.8,0.9
5,1960,1,6,0.9,5.8,0.1,2.3
6,1960,1,7,-1.4,2.3,0.0,0.3
7,1960,1,8,-0.2,0.7,7.1,0.0
8,1960,1,9,-4.1,0.4,6.3,0.0
9,1960,1,10,-10.2,-6.0,0.0,1.7


In [8]:
# brauche nur Mai bis September von jedem Jahr, daher filtern
df_g = df[(df['MO'] >= 5)& (df['MO'] <= 9)]

In [9]:
#Kontrolle
df_g[df_g['MO'] == 4]

Unnamed: 0,JAHR,MO,TG,1801,212,1803,1072


In [10]:
df_g.tail(30)

Unnamed: 0,JAHR,MO,TG,1801,212,1803,1072
22889,2022,9,1,14.5,18.5,0.0,5.5
22890,2022,9,2,14.9,19.5,0.0,6.7
22891,2022,9,3,16.4,19.8,6.0,5.4
22892,2022,9,4,17.6,21.9,0.0,10.8
22893,2022,9,5,32767.0,32767.0,32767.0,32767.0
22894,2022,9,6,32767.0,32767.0,32767.0,32767.0
22895,2022,9,7,32767.0,32767.0,32767.0,32767.0
22896,2022,9,8,32767.0,32767.0,32767.0,32767.0
22897,2022,9,9,32767.0,32767.0,32767.0,32767.0
22898,2022,9,10,32767.0,32767.0,32767.0,32767.0


In [11]:
# Monate ohne Werte (z.B. September 2022) enthalten den Wert 327676.0

df_g = df_g[df_g['1803'] != 32767.0]

In [12]:
df_g.tail(5)

Unnamed: 0,JAHR,MO,TG,1801,212,1803,1072
22888,2022,8,31,14.6,17.0,3.4,0.3
22889,2022,9,1,14.5,18.5,0.0,5.5
22890,2022,9,2,14.9,19.5,0.0,6.7
22891,2022,9,3,16.4,19.8,6.0,5.4
22892,2022,9,4,17.6,21.9,0.0,10.8


In [13]:
df_g.rename({
    '1801' : 'temperatur_tagesmittel',
    '212' : 'temperatur_max',
    '1803' : 'niederschlag',
    '1072' : 'sonnenscheindauer'},
    axis = 1, inplace = True)

In [14]:
df_g.head(3)

Unnamed: 0,JAHR,MO,TG,temperatur_tagesmittel,temperatur_max,niederschlag,sonnenscheindauer
121,1960,5,1,2.2,7.5,3.9,2.4
122,1960,5,2,3.2,8.8,2.4,4.3
123,1960,5,3,6.2,13.3,0.0,10.9


In [15]:
df_g.to_csv('resultate/bereinigte_tabelle.csv', index = False)

# 1. Auswertung

Wie viele super, gute, mittelmässige Badetage pro Monat?
Im Ergebnis benötige ich eine Tabelle, die für jeden Monat die Anzahl der Badetage aufzeigt. (Zeile = Monat, Spalten = Kategorien)



## Definitionen und Normperiode

**Definition für Hitzewelle**:

Wie hoch ist die mittlere Tagestemperatur an einem heissen Tag (in Celsius)?
 > gemessen an der Definition einer Hitzewelle
 
* Stufe 2: ≥ 25 Grad an 1-2d (Tagesmittel)
* Stufe 3: ≥ 25 Grad an mind. 3d (Tagesmittel) == ab hier Hitzewelle
* Stufe 4: ≥ 27 Grad an mind. 3d (Tagesmittel)


**Definition Niederschlagsintensität**
bezogen auf 24h-Summe in mm
6 bis 6 Uhr UTC, also 8 bis 8 Uhr

* schwach: 0,1 - 2 (etwas Regen)
* mässig: 2 - 10 (einige Regenfälle, zum Teil Gewitter)
* stark: 10 - 30 (kräftige Regenfälle)
* sehr stark: 30 - 50 (ergiebiger Niederschlag, heftige Gewitter)
* sehr stark, intensiv: ≥50

> unter 10 = super / 10 - 30 = gut / über 30 = scheisse? 

> unter 2 = super / 2 - 10 = gut / über 10 = scheisse?

**Normperiode 1991 - 2020**
in Bezug auf SG

Wie hoch ist die mittlere Tagestemperatur pro Monat (in Celsius)?
* Mai = 12,2
* Juni = 15,7
* Juli = 17,5
* August = 13,1
* September = 9,2


Wie lang ist die Norm-Sonnenscheindauer pro Monat (in h)?
* Mai = 186 (pro Tag 6,0)
* Juni = 200 (pro Tag 6,7)
* Juli = 227 (pro Tag 7,3)
* August = 209 (pro Tag 6,7)
* September = 154 (pro Tag 5,1)


--- **erst nach Niederschlag filtern, dann anhand über- oder unterduchschnittlichem Sonnenscheinwert,anpassen**

Norm-Summe Niederschlag pro Monat (mm)
* Mai = 157 (pro Tag 5,1)
* Juni = 170 (pro Tag 5,7)
* Juli = 174 (pro Tag 5,6)
* August = 185 (pro Tag 6,0)
* September = 138 (pro Tag 4,6)


## Definition
Aufgrund Gespräch mit Roland Hofer, Stadt St.Gallen

**Super Badetag bzw. Hitzetag**
Blauer Himmel, Sonnenschein, über 30 Grad, Wassertemperatur über 24 Grad, Wochenende oder Mittwochnachmittag
* Tagesmaximum: über 30 Grad -> da Wetterstation hoch oben über 28 Grad
* Niederschlag: ≤ 2mm *Gewitter auch nachts möglich!*

**Guter Badetag**
Blauer Himmel, Sonnenschein, über 24 Grad, Wassertemperatur über 20 Grad, 
* Tagesmaximum: also zwischen 22 und 28
* Niederschlag: 2 - 10mm

**Badetag für Hartgesottene**
Leicht bewölkt, unter 24 Grad, Wassertemperatur unter 20 Grad
* Tagesmaximum: also unter 22 Grad zwischen 20 und 22?
* Niederschlag: 10-30 mm

**geschlossen**
Starke Bewölkerung bis regnerisch, gewitterhaft, weniger als 20 Grad
* Tagesmaximum: unter 18 Grad
* Niederschlag: ≥30


**Wichtig für Einordnung**
- Definition eines schönen oder miesen Badetags ist individuell
- Höhenmeter Messstation, Badi Lerchenfeld (Auswertung bezogen auf Badi Lerchenfeld, weil grösstes und nicht ganzes Jahr zugänglich)
- Schwierigkeit Niederschlag nachts


Niederschlag: Gewitter kann auch in Kürze viel Niderschlag bringen, daher Abgleich mit Sonnenscheindauer


**Super Badetag bzw. Hitzetag**
* Tagesmaximum: über 30 Grad -> da Wetterstation hoch oben über 28 Grad
* Niederschlag: ≤ 2mm

**Guter Badetag**
* Tagesmaximum: zwischen 25 und 30, also zwischen 23 und 28 Grad
* Niederschlag: 2 - 10mm

 > Sommertag, Definition Meteoschweiz "temperatur 25 oder höher"

**Badetag für Hartgesottene**
* Tagesmaximum: unter 25 Grad, also unter 23 Grad
* Niederschlag: ≥ 10 mm

In [16]:
df_g = pd.read_excel('resultate/bereinigte_tabelle.xlsx')

In [17]:
df_g[df_g['temperatur_max'] >= 28]

Unnamed: 0,JAHR,MO,TG,temperatur_tagesmittel,temperatur_max,niederschlag,sonnenscheindauer
215,1961,7,2,21.2,28.0,0.0,11.8
225,1961,7,12,20.4,28.9,57.5,11.0
360,1962,6,24,22.7,29.0,0.5,10.4
391,1962,7,25,20.3,29.2,0.0,12.6
392,1962,7,26,21.4,28.2,2.9,8.5
...,...,...,...,...,...,...,...
9565,2022,7,19,24.3,30.6,0.0,14.5
9566,2022,7,20,24.3,30.9,7.1,7.2
9568,2022,7,22,22.1,28.6,5.0,13.5
9571,2022,7,25,25.3,31.5,12.9,12.2


## 1.1 Einteilung
Für Einteilung in Kategorien mit numpy arbeiten.

In [18]:
import numpy as np

### Einteilung nach Temperatur

In [19]:
bin_label_temperatur = [
    "geschlossen",
    "Badetag_hartgesotten",
    "Badetag_normal",
    "Hitzetag"]


bin_colors_temperatur = {
    "geschlossen":"blue",
    "Badetag_hartgesotten": "yellow",
    "Badetag_normal" : "orange",
    "Hitzetag" : "red"}

In [20]:
bin_values_temperatur = [
    0,
    18,
    22,
    28,
    np.inf]

In [21]:
df_n = df_g.copy()

In [22]:
df_n['Kategorie_Temperatur'] = pd.cut(df_g['temperatur_max'], bin_values_temperatur, labels=bin_label_temperatur, include_lowest=True).astype(str)

In [23]:
#Kontrolle
df_n[(df_n['Kategorie_Temperatur'] == 'Badetag_normal')].head(59)

Unnamed: 0,JAHR,MO,TG,temperatur_tagesmittel,temperatur_max,niederschlag,sonnenscheindauer,Kategorie_Temperatur
12,1960,5,13,16.1,23.3,0.1,7.8,Badetag_normal
13,1960,5,14,15.7,22.3,1.1,7.3,Badetag_normal
14,1960,5,15,16.1,24.2,11.5,9.4,Badetag_normal
15,1960,5,16,16.0,23.3,0.0,7.6,Badetag_normal
33,1960,6,3,16.1,23.2,0.0,12.7,Badetag_normal
34,1960,6,4,14.6,22.4,0.5,5.1,Badetag_normal
35,1960,6,5,15.2,22.3,2.1,5.0,Badetag_normal
36,1960,6,6,17.2,24.3,9.0,11.5,Badetag_normal
38,1960,6,8,15.9,22.3,0.0,4.6,Badetag_normal
43,1960,6,13,16.1,24.2,28.4,5.8,Badetag_normal


In [24]:
df_n.to_excel('resultate/wetterdaten_kategorie_TEMP.xlsx', index = False)

In [25]:
df_n.groupby(['MO', 'Kategorie_Temperatur'])['Kategorie_Temperatur'].count()

MO  Kategorie_Temperatur
5   Badetag_hartgesotten     511
    Badetag_normal           238
    Hitzetag                   7
    geschlossen             1197
6   Badetag_hartgesotten     539
    Badetag_normal           604
    Hitzetag                  54
    geschlossen              693
7   Badetag_hartgesotten     553
    Badetag_normal           853
    Hitzetag                 125
    geschlossen              422
8   Badetag_hartgesotten     652
    Badetag_normal           727
    Hitzetag                  96
    geschlossen              469
9   Badetag_hartgesotten     557
    Badetag_normal           289
    Hitzetag                   7
    geschlossen             1007
Name: Kategorie_Temperatur, dtype: int64

### Einteilung nach Niederschlag

In [26]:
bin_label_niederschlag = [
    "Hitzetag",
    "Badetag_normal",
    "Badetag_hartgesotten",
    "geschlossen"]


bin_colors_niederschlag = {
    "Hitzetag" : "red",
    "Badetag_hartgesotten": "yellow",
    "Badetag_normal" : "orange",
    "geschlossen":"blue"}

In [27]:
bin_values_niederschlag = [
    0,
    2,
    10,
    30,
    np.inf]

In [28]:
df_new = df_n.copy()

In [29]:
df_new['Kategorie_Niederschlag'] = pd.cut(df_n['niederschlag'], bin_values_niederschlag, labels=bin_label_niederschlag, include_lowest=True).astype(str)

In [30]:
#Kontrolle
df_new[(df_new['Kategorie_Niederschlag'] == 'Hitzetag')].head(5)

Unnamed: 0,JAHR,MO,TG,temperatur_tagesmittel,temperatur_max,niederschlag,sonnenscheindauer,Kategorie_Temperatur,Kategorie_Niederschlag
2,1960,5,3,6.2,13.3,0.0,10.9,geschlossen,Hitzetag
3,1960,5,4,8.1,16.3,0.0,6.9,geschlossen,Hitzetag
4,1960,5,5,9.2,15.8,0.0,7.4,geschlossen,Hitzetag
5,1960,5,6,9.4,16.3,0.0,7.3,geschlossen,Hitzetag
6,1960,5,7,10.2,17.0,0.0,11.3,geschlossen,Hitzetag


In [31]:
df_new[(df_new['Kategorie_Temperatur'] == 'Badetag_hartgesotten') & (df_new['Kategorie_Niederschlag'] == 'Hitzetag')]

Unnamed: 0,JAHR,MO,TG,temperatur_tagesmittel,temperatur_max,niederschlag,sonnenscheindauer,Kategorie_Temperatur,Kategorie_Niederschlag
11,1960,5,12,13.8,21.0,0.0,6.0,Badetag_hartgesotten,Hitzetag
16,1960,5,17,14.5,21.5,0.0,12.2,Badetag_hartgesotten,Hitzetag
17,1960,5,18,14.6,21.7,0.0,2.5,Badetag_hartgesotten,Hitzetag
25,1960,5,26,11.3,18.3,0.0,9.6,Badetag_hartgesotten,Hitzetag
26,1960,5,27,13.4,19.4,0.0,11.0,Badetag_hartgesotten,Hitzetag
...,...,...,...,...,...,...,...,...,...
9554,2022,7,8,15.4,19.4,0.0,11.4,Badetag_hartgesotten,Hitzetag
9555,2022,7,9,16.3,20.8,0.0,13.0,Badetag_hartgesotten,Hitzetag
9556,2022,7,10,16.0,20.8,0.0,4.3,Badetag_hartgesotten,Hitzetag
9557,2022,7,11,15.8,20.6,0.0,14.7,Badetag_hartgesotten,Hitzetag


### Einteilung nach Sonnenscheindauer 

Als erstes muss ich für jede Zeile bestimmen, ob je nach Monat, die Sonnenscheindauer "normal" oder "unterdurchschnittlich ist. Resultat in neue Spalte.


Wie lang ist die Norm-Sonnenscheindauer pro Monat (in h)?
* Mai = 186 (pro Tag 6,0)
* Juni = 200 (pro Tag 6,7)
* Juli = 227 (pro Tag 7,3)
* August = 209 (pro Tag 6,7)
* September = 154 (pro Tag 5,1)

In [32]:
df_new.head(2)

Unnamed: 0,JAHR,MO,TG,temperatur_tagesmittel,temperatur_max,niederschlag,sonnenscheindauer,Kategorie_Temperatur,Kategorie_Niederschlag
0,1960,5,1,2.2,7.5,3.9,2.4,geschlossen,Badetag_normal
1,1960,5,2,3.2,8.8,2.4,4.3,geschlossen,Badetag_normal


Anwendung: https://stackoverflow.com/questions/48569166/multiple-if-else-conditions-in-pandas-dataframe-and-derive-multiple-columns

In [33]:
# Funktion, die je nach Monat eine Einteilung vornimmt

def sonne_df(df_new):
    
    if (df_new['MO'] == 5) and (df_new['sonnenscheindauer'] >= 6.0):
        return 'überdurchschnittlich'
    elif (df_new['MO'] == 5) and (df_new['sonnenscheindauer'] < 6.0):
        return 'unterdurchschnittlich'
    
    elif (df_new['MO'] == 6) and (df_new['sonnenscheindauer'] >= 6.7):
        return 'überdurchschnittlich'
    elif (df_new['MO'] == 6) and (df_new['sonnenscheindauer'] < 6.7):
        return 'unterdurchschnittlich'
    
    elif (df_new['MO'] == 7) and (df_new['sonnenscheindauer'] >= 7.3):
        return 'überdurchschnittlich'
    elif (df_new['MO'] == 7) and (df_new['sonnenscheindauer'] < 7.3):
        return 'unterdurchschnittlich'
    
    elif (df_new['MO'] == 8) and (df_new['sonnenscheindauer'] >= 6.7):
        return 'überdurchschnittlich'
    elif (df_new['MO'] == 8) and (df_new['sonnenscheindauer'] < 6.7):
        return 'unterdurchschnittlich'
    
    elif (df_new['MO'] == 9) and (df_new['sonnenscheindauer'] >= 5.1):
        return 'überdurchschnittlich'
    elif (df_new['MO'] == 9) and (df_new['sonnenscheindauer'] < 5.1):
        return 'unterdurchschnittlich'

In [34]:
df2 = df_new.copy()

In [35]:
#Funktion mit apply auf alle series des df anwenden
df2['Sonne'] = df2.apply(sonne_df, axis = 1)

In [36]:
df2[(df2['Kategorie_Temperatur'] == "geschlossen") & (df2['Kategorie_Niederschlag'] == "Badetag_hartgesotten")]

Unnamed: 0,JAHR,MO,TG,temperatur_tagesmittel,temperatur_max,niederschlag,sonnenscheindauer,Kategorie_Temperatur,Kategorie_Niederschlag,Sonne
18,1960,5,19,9.7,15.4,11.9,3.3,geschlossen,Badetag_hartgesotten,unterdurchschnittlich
21,1960,5,22,8.9,11.3,11.2,0.0,geschlossen,Badetag_hartgesotten,unterdurchschnittlich
28,1960,5,29,9.5,13.9,23.4,0.0,geschlossen,Badetag_hartgesotten,unterdurchschnittlich
92,1960,8,1,12.2,16.8,26.6,0.0,geschlossen,Badetag_hartgesotten,unterdurchschnittlich
93,1960,8,2,11.8,17.5,10.2,2.6,geschlossen,Badetag_hartgesotten,unterdurchschnittlich
...,...,...,...,...,...,...,...,...,...,...
9454,2021,8,30,12.1,14.7,17.2,0.2,geschlossen,Badetag_hartgesotten,unterdurchschnittlich
9455,2021,8,31,12.7,16.4,12.2,2.8,geschlossen,Badetag_hartgesotten,unterdurchschnittlich
9474,2021,9,19,9.8,11.5,17.4,0.1,geschlossen,Badetag_hartgesotten,unterdurchschnittlich
9490,2022,5,5,10.4,13.5,10.8,0.7,geschlossen,Badetag_hartgesotten,unterdurchschnittlich


## finale Einteilung abhängig von Sonnenscheindauer
- wenn Spalte 1 und Spalte 2 übereinstimmen, dann Endergebnis in Spalte 3

- wenn Spalte 1 und 2 **nicht übereinstimmen**:
1. Heiss und normal: wenn Sonnenscheindauer unterdurchschnittlich = normal, sonst heiss
 
 
 2. heiss und mies: wenn Sonnenscheindauer unterdurchschnittlich = mies, sonst heiss (hat wohl nachts geschifft)
 
3. heiss und zu: wenn Sonnenscheindauer unterdurchschnittlich = zu, sonst heiss (hat wohl nachts geschifft) 
 
 
 
 
 4. normal und heiss; bedeutet viel Sonne, aber nicht heiss ODER bewölkt, daher = auf jeden Fall normal
 
 
 5. normal und mies: Sonnenscheindauer unterdurchschnittlich = mies, sonst normal (hat wohl nachts geschifft)
 
6. normal und zu: Sonnenschein unterdurchschnittlich = zu, sonst normal (hat wohl nachts geschifft)
 
 
7. mies und heiss: Temperaturen sind tief, daher "hartgesotten"

8. mies und normal: Temperaturen sind tief, daher immer "hartgesotten"

9. mies und zu: Sonnenschein unterdurchschnittlich = zu, sonst mies (hat wohl nachts geschifft)

10. zu und heiss: Auf jeden Fall zu, weil zu kalt


11. zu und normal: Auf jeden Fall zu, weil zu kalt


12. zu und mies: Auf jeden Fall zu, weil zu kalt

In [37]:
#Funktion für die Zuteilung der Kategorien aufgrund Spalten "Temperatur", "Niederschlag", "Sonne"
def final_df(df2):
    #1
    if (df2['Kategorie_Temperatur'] == 'Hitzetag') and (df2['Kategorie_Niederschlag'] == 'Badetag_normal') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'normal'
    elif (df2['Kategorie_Temperatur'] == 'Hitzetag') and (df2['Kategorie_Niederschlag'] == 'Badetag_normal') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'heiss'
          
    #2
    elif (df2['Kategorie_Temperatur'] == 'Hitzetag') and (df2['Kategorie_Niederschlag'] == 'Badetag_hartgesotten') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'mies'
    elif (df2['Kategorie_Temperatur'] == 'Hitzetag') and (df2['Kategorie_Niederschlag'] == 'Badetag_hartgesotten') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'heiss'
    
    #3
    elif (df2['Kategorie_Temperatur'] == 'Hitzetag') and (df2['Kategorie_Niederschlag'] == 'geschlossen') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'geschlossen'
    elif (df2['Kategorie_Temperatur'] == 'Hitzetag') and (df2['Kategorie_Niederschlag'] == 'geschlossen') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'heiss'
          
    #4    
    elif (df2['Kategorie_Temperatur'] == 'Badetag_normal') and (df2['Kategorie_Niederschlag'] == 'Hitzetag') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'normal'
    elif (df2['Kategorie_Temperatur'] == 'Badetag_normal') and (df2['Kategorie_Niederschlag'] == 'Hitzetag') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'normal'
    
    
    #5  
    elif (df2['Kategorie_Temperatur'] == 'Badetag_normal') and (df2['Kategorie_Niederschlag'] == 'Badetag_hartgesotten') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'mies'
    elif (df2['Kategorie_Temperatur'] == 'Badetag_normal') and (df2['Kategorie_Niederschlag'] == 'Badetag_hartgesotten') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'normal'
    
    #6  
    elif (df2['Kategorie_Temperatur'] == 'Badetag_normal') and (df2['Kategorie_Niederschlag'] == 'geschlossen') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'zu'
    elif (df2['Kategorie_Temperatur'] == 'Badetag_normal') and (df2['Kategorie_Niederschlag'] == 'geschlossen') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'normal'
          
    #7  
    elif (df2['Kategorie_Temperatur'] == 'Badetag_hartgesotten') and (df2['Kategorie_Niederschlag'] == 'Hitzetag') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'mies'
    elif (df2['Kategorie_Temperatur'] == 'Badetag_hartgesotten') and (df2['Kategorie_Niederschlag'] == 'Hitzetag') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'mies'
          
    #8  
    elif (df2['Kategorie_Temperatur'] == 'Badetag_hartgesotten') and (df2['Kategorie_Niederschlag'] == 'Badetag_normal') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'mies'
    elif (df2['Kategorie_Temperatur'] == 'Badetag_hartgesotten') and (df2['Kategorie_Niederschlag'] == 'Badetag_normal') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'mies'
    
    #9
    elif (df2['Kategorie_Temperatur'] == 'Badetag_hartgesotten') and (df2['Kategorie_Niederschlag'] == 'geschlossen') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'geschlossen'
    elif (df2['Kategorie_Temperatur'] == 'Badetag_hartgesotten') and (df2['Kategorie_Niederschlag'] == 'geschlossen') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'mies'
    
    #10
    elif (df2['Kategorie_Temperatur'] == 'geschlossen') and (df2['Kategorie_Niederschlag'] == 'Hitzetag') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'geschlossen'
    elif (df2['Kategorie_Temperatur'] == 'geschlossen') and (df2['Kategorie_Niederschlag'] == 'Hitzetag') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'geschlossen'
 
    #11
    elif (df2['Kategorie_Temperatur'] == 'geschlossen') and (df2['Kategorie_Niederschlag'] == 'Badetag_normal') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'geschlossen'
    elif (df2['Kategorie_Temperatur'] == 'geschlossen') and (df2['Kategorie_Niederschlag'] == 'Badetag_normal') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'geschlossen'
    
    #12
    elif (df2['Kategorie_Temperatur'] == 'geschlossen') and (df2['Kategorie_Niederschlag'] == 'Badetag_hartgesotten') and (df2['Sonne'] == 'unterdurchschnittlich'):
        return 'geschlossen'
    elif (df2['Kategorie_Temperatur'] == 'geschlossen') and (df2['Kategorie_Niederschlag'] == 'Badetag_hartgesotten') and (df2['Sonne'] == 'überdurchschnittlich'):
        return 'geschlossen'    

    
    #Nun noch für jene Fälle, wo die zwei Spalten übereinstimmen
    #3  
    elif (df2['Kategorie_Temperatur'] == 'Badetag_hartgesotten') and (df2['Kategorie_Niederschlag'] == 'Badetag_hartgesotten'):
        return 'mies'
    #14
    elif (df2['Kategorie_Temperatur'] == 'Badetag_normal') and (df2['Kategorie_Niederschlag'] == 'Badetag_normal'):
        return 'normal'
    #15
    elif (df2['Kategorie_Temperatur'] == 'Hitzetag') and (df2['Kategorie_Niederschlag'] == 'Hitzetag'):
        return 'heiss'
    
    #16
    elif (df2['Kategorie_Temperatur'] == 'geschlossen') and (df2['Kategorie_Niederschlag'] == 'geschlossen'):
        return 'geschlossen'

In [38]:
df3 = df2.copy()

In [39]:
df3['final'] = df2.apply(final_df, axis = 1)

In [40]:
df3

Unnamed: 0,JAHR,MO,TG,temperatur_tagesmittel,temperatur_max,niederschlag,sonnenscheindauer,Kategorie_Temperatur,Kategorie_Niederschlag,Sonne,final
0,1960,5,1,2.2,7.5,3.9,2.4,geschlossen,Badetag_normal,unterdurchschnittlich,geschlossen
1,1960,5,2,3.2,8.8,2.4,4.3,geschlossen,Badetag_normal,unterdurchschnittlich,geschlossen
2,1960,5,3,6.2,13.3,0.0,10.9,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
3,1960,5,4,8.1,16.3,0.0,6.9,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
4,1960,5,5,9.2,15.8,0.0,7.4,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
...,...,...,...,...,...,...,...,...,...,...,...
9595,2022,8,18,15.6,18.0,31.6,0.3,geschlossen,geschlossen,unterdurchschnittlich,geschlossen
9596,2022,8,19,15.3,16.2,50.4,0.0,geschlossen,geschlossen,unterdurchschnittlich,geschlossen
9597,2022,8,20,16.5,19.7,27.9,2.4,Badetag_hartgesotten,Badetag_hartgesotten,unterdurchschnittlich,mies
9598,2022,8,21,17.0,21.4,0.0,9.6,Badetag_hartgesotten,Hitzetag,überdurchschnittlich,mies


In [41]:
df3.head(50)

Unnamed: 0,JAHR,MO,TG,temperatur_tagesmittel,temperatur_max,niederschlag,sonnenscheindauer,Kategorie_Temperatur,Kategorie_Niederschlag,Sonne,final
0,1960,5,1,2.2,7.5,3.9,2.4,geschlossen,Badetag_normal,unterdurchschnittlich,geschlossen
1,1960,5,2,3.2,8.8,2.4,4.3,geschlossen,Badetag_normal,unterdurchschnittlich,geschlossen
2,1960,5,3,6.2,13.3,0.0,10.9,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
3,1960,5,4,8.1,16.3,0.0,6.9,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
4,1960,5,5,9.2,15.8,0.0,7.4,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
5,1960,5,6,9.4,16.3,0.0,7.3,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
6,1960,5,7,10.2,17.0,0.0,11.3,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
7,1960,5,8,11.1,18.0,0.0,12.4,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
8,1960,5,9,13.1,18.2,7.3,10.1,Badetag_hartgesotten,Badetag_normal,überdurchschnittlich,mies
9,1960,5,10,11.3,17.2,0.1,6.4,geschlossen,Hitzetag,überdurchschnittlich,geschlossen


In [42]:
df3.to_csv('resultate/final_badesaison.csv', index = False)

In [43]:
df = pd.read_csv('resultate/final_badesaison.csv',
                 parse_dates=[['JAHR', 'MO', 'TG']])

In [44]:
df

Unnamed: 0,JAHR_MO_TG,temperatur_tagesmittel,temperatur_max,niederschlag,sonnenscheindauer,Kategorie_Temperatur,Kategorie_Niederschlag,Sonne,final
0,1960-05-01,2.2,7.5,3.9,2.4,geschlossen,Badetag_normal,unterdurchschnittlich,geschlossen
1,1960-05-02,3.2,8.8,2.4,4.3,geschlossen,Badetag_normal,unterdurchschnittlich,geschlossen
2,1960-05-03,6.2,13.3,0.0,10.9,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
3,1960-05-04,8.1,16.3,0.0,6.9,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
4,1960-05-05,9.2,15.8,0.0,7.4,geschlossen,Hitzetag,überdurchschnittlich,geschlossen
...,...,...,...,...,...,...,...,...,...
9595,2022-08-18,15.6,18.0,31.6,0.3,geschlossen,geschlossen,unterdurchschnittlich,geschlossen
9596,2022-08-19,15.3,16.2,50.4,0.0,geschlossen,geschlossen,unterdurchschnittlich,geschlossen
9597,2022-08-20,16.5,19.7,27.9,2.4,Badetag_hartgesotten,Badetag_hartgesotten,unterdurchschnittlich,mies
9598,2022-08-21,17.0,21.4,0.0,9.6,Badetag_hartgesotten,Hitzetag,überdurchschnittlich,mies


In [52]:
df.to_excel('resultate/badesaison_final.xlsx', index = False)

In [53]:
df4 = df3.groupby(['MO', 'final'])['final'].count().to_frame()

In [56]:
df5 = df3.groupby(['MO', 'final'])['final'].count().to_frame()

In [54]:
df4.tail(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,final
MO,final,Unnamed: 2_level_1
8,geschlossen,489
8,heiss,89
8,mies,674
8,normal,676
8,zu,16
9,geschlossen,1017
9,heiss,7
9,mies,557
9,normal,275
9,zu,4


In [47]:
df4.to_excel('resultate/Auswertung_nach_Monat.xlsx')

In [58]:
df5.to_excel('resultate/Auswertung_nach_MonatNEU.xlsx')