# Python für Aktuare Teil 3

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/DeutscheAktuarvereinigung/Python_fuer_Aktuare/blob/main/03_python_pandas.ipynb) [![Kaggle](https://kaggle.com/static/images/open-in-kaggle.svg)](https://kaggle.com/kernels/welcome?src=https://github.com/DeutscheAktuarvereinigung/Python_fuer_Aktuare/blob/main/03_python_pandas.ipynb)
## Agenda
Innerhalb dieses Notebooks behandeln wir:
- Pandas Einführung
- Series und Dataframes
- Datenzugriff und Inspektion
- Daten manipulieren und bereinigen
- Dateien einlesen

# Einführung in Pandas

**Pandas** ist eine der beliebtesten Bibliotheken für Datenanalyse und -manipulation in Python. Sie wurde speziell entwickelt, um mit strukturierten Daten effizient und einfach zu arbeiten, ähnlich wie es in Tabellenkalkulationen wie Excel der Fall ist. 

Pandas bietet zwei Hauptstrukturen zur Handhabung von Daten:
- **Series**: Eine eindimensionale Datenstruktur, ähnlich einer Liste oder einem Array.
- **DataFrame**: Eine zweidimensionale Datenstruktur, vergleichbar mit einer Tabelle in einer Datenbank oder einem Excel-Spreadsheet.

### Warum Pandas?
Pandas ist besonders nützlich, wenn es darum geht, große Datenmengen einzulesen, zu verarbeiten und zu analysieren. Typische Aufgaben, die Pandas vereinfacht, sind:
- Einlesen von Daten aus verschiedenen Formaten (z.B. CSV, Excel, SQL-Datenbanken).
- Effiziente Inspektion und Analyse von Daten.
- Datenbereinigung und -manipulation (z.B. fehlende Werte behandeln, Spalten umbenennen).
- Umwandlung und Aggregation von Daten für weitere Analysen oder Visualisierungen.

Durch seine breite Funktionalität und einfache Handhabung ist Pandas zu einem Standardwerkzeug für Datenanalyse geworden, insbesondere im Bereich Data Science, Finanzanalysen und im Versicherungswesen.

Im Folgenden werden wir uns die wichtigsten Funktionen von Pandas ansehen und lernen, wie wir Daten effizient einlesen, analysieren und bereinigen können.

### Kritikpunkte an Pandas

Obwohl Pandas eine mächtige Bibliothek ist, gibt es auch einige Kritikpunkte, die man im Hinterkopf behalten sollte:

1. **Speicher- und Rechenaufwand**: Pandas ist speicherintensiv, da es Daten in den Arbeitsspeicher lädt. Bei sehr großen Datenmengen kann dies zu Leistungsproblemen führen. Für große Datensätze, die nicht in den RAM passen, müssen alternative Tools wie **Dask**, **PySpark** oder **Apache Arrow** in Betracht gezogen werden, die für verteilte Verarbeitung optimiert sind.

2. **Komplexität bei großen Datenpipelines**: Für kleinere Projekte und Analysen ist Pandas sehr effizient. Bei größeren Datenpipelines oder komplexen Datenanalysen kann der Code jedoch unübersichtlich und schwer wartbar werden. Insbesondere der Umgang mit sehr vielen verschachtelten Pandas-Funktionen kann den Code schwer verständlich machen.

Trotz dieser Einschränkungen bleibt Pandas ein leistungsfähiges Werkzeug für die meisten Datenanalysen, besonders bei mittleren Datensätzen.


In [None]:
# um mit Pandas arbeiten zu können muss es natürlich importiert werden
import pandas as pd
# typischerweise wird auch noch numpy benötigt
import numpy as np

## Series

Eine **Pandas Series** ist eine eindimensionale Datenstruktur, die mit einer Liste oder einem Array vergleichbar ist. Sie besteht aus einer Reihe von Werten, die jeweils einem Index zugeordnet sind. Pandas Series können verschiedene Datentypen wie Ganzzahlen, Gleitkommazahlen oder Zeichenketten enthalten.

### Eigenschaften einer Series:
- **Index**: Jede Series hat einen zugehörigen Index, der standardmäßig von 0 an aufsteigt, aber auch explizit gesetzt werden kann (z.B. Datumsangaben).
- **Homogene Daten**: Alle Elemente einer Series haben denselben Datentyp (wie bei Arrays).

Series sind nützlich, wenn man mit eindimensionalen Daten arbeiten möchte, wie zum Beispiel eine Liste von Schadensbeträgen in einem Versicherungsportfolio.

## Beispiel 1: Schadenverlauf über mehrere Jahre

In diesem Beispiel speichern wir den jährlichen Schadenverlauf einer Versicherung als Pandas Series.

In [None]:
# Schadenverlauf über fünf Jahre
jahre = ['2018', '2019', '2020', '2021', '2022']
schadenverlauf = pd.Series([10000, 15000, 13000, 12000, 11000], index=jahre)
print(schadenverlauf)

Ein anderes Beispiel sind (synthetische) Aktienverläufe:

In [None]:
# Parameter für die Simulation
np.random.seed(42)
tage = pd.date_range(start='2023-01-01', periods=365, freq='D')
startpreis = 100  # Startpreis der Aktie
volatilitaet = 0.02  # Volatilität der Aktie (2%)
rendite = 0.001  # Erwartete tägliche Rendite (0,1%)

# Generiere tägliche Änderungen basierend auf brownscher Bewegung
aenderungen = np.random.normal(loc=rendite, scale=volatilitaet, size=len(tage))

# Berechne die Aktienpreise mit kumulativer Summe
preise = startpreis * np.exp(np.cumsum(aenderungen))

# Erstelle die Pandas Series
aktienverlauf = pd.Series(preise, index=tage)

# Ausgabe der ersten Tage des Aktienverlaufs
print(aktienverlauf.head(20))

## DataFrames

Ein **DataFrame** ist das Herzstück von Pandas und stellt eine zweidimensionale, tabellenähnliche Datenstruktur dar, die Spalten und Zeilen enthält. Man kann einen DataFrame als eine Sammlung von Pandas Series betrachten, die eine gemeinsame Struktur haben. Jeder Spalte ist ein eindeutiger Name zugeordnet, und jede Zeile kann durch einen Index referenziert werden.

### Eigenschaften eines DataFrames:
- **Zeilen und Spalten**: Ein DataFrame besteht aus Zeilen und Spalten, wobei jede Spalte eine eigene Datentypen haben kann (z.B. eine Spalte mit numerischen Werten und eine Spalte mit Zeichenketten).
- **Flexibles Indexing**: Man kann sowohl auf Zeilen als auch auf Spalten durch den Index oder Spaltennamen zugreifen.
- **Datenquellen**: DataFrames können aus verschiedenen Datenquellen erstellt werden, wie z.B. CSV-Dateien, Excel-Dateien, SQL-Datenbanken oder sogar aus Dictionaries und Listen in Python.

## Beispiel 1: Erstellen eines DataFrames für Versicherungsdaten

In diesem Beispiel erstellen wir einen DataFrame, der einige grundlegende Informationen zu Versicherungspolicen enthält, wie die Police-ID, den Versicherten, den Prämienbetrag und die Anzahl der Schadensfälle.

In [None]:
# Erstellen eines DataFrames
# Definiere die Daten
daten = {
    'Police_ID': pd.Series([101, 102, 103, 104, 105, 106, 107, 108, 109, 110], dtype='int64'),
    'Versicherter': pd.Series(['Max Müller', 'Anna Schmitz', 'Tom Meier', 'Laura Klein', 'Peter Schneider', 
                               'Julia Weber', 'Stefan Jung', 'Monika Richter', 'Clara Hofmann', 'David Krause'], dtype='string'),
    'Alter': pd.Series([18, 47, 49, 14, 15, 31,  1, 54,  3, 16], dtype='int64'),
    'Praemienbetrag': pd.Series([500, 600, 550, 620, 480, 700, 520, 610, 580, 540], dtype='float64'),
    'Schadensfaelle': pd.Series([2, 1, 0, 3, 2, 1, 1, 0, 4, 2], dtype='int64'),
    'Versicherungsbeginn': pd.to_datetime(['2019-01-15', '2020-05-20', '2021-03-10', '2018-11-22', 
                                           '2019-07-01', '2020-02-17', '2021-09-09', '2022-01-01', 
                                           '2019-12-25', '2020-06-14'])
}

# Erstellen des DataFrames
versicherungs_df = pd.DataFrame(daten)

# Ausgabe des DataFrames
versicherungs_df

Achtung, das Dataframe hat keinen expliziten Index. Deswegen vorne die Spalte von 0 bis 9.

In [None]:
# Ausgabe der Spaltentypen
versicherungs_df.dtypes

Nochmal ein Beispiel zu zeitabhängigen (synthetischen) Daten:

In [None]:
# Parameter für die Simulation
np.random.seed(42)
tage = pd.date_range(start='2023-01-01', periods=365, freq='D')

# Aktienparameter für verschiedene Firmen
firmen = {
    'Apple': {'startpreis': 150, 'volatilitaet': 0.02, 'rendite': 0.001},
    'Nvidia': {'startpreis': 220, 'volatilitaet': 0.025, 'rendite': 0.0012},
    'Google': {'startpreis': 180, 'volatilitaet': 0.018, 'rendite': 0.0008},
    'SAP': {'startpreis': 120, 'volatilitaet': 0.015, 'rendite': 0.0009},
    'Microsoft': {'startpreis': 250, 'volatilitaet': 0.02, 'rendite': 0.0011},
    'Tesla': {'startpreis': 200, 'volatilitaet': 0.03, 'rendite': 0.0015},
}

# Erstelle einen DataFrame, um alle Aktienverläufe zu speichern
aktienverlaeufe = pd.DataFrame(index=tage)

# Simulation der Aktienkurse für jede Firma
for firma, parameter in firmen.items():
    startpreis = parameter['startpreis']
    volatilitaet = parameter['volatilitaet']
    rendite = parameter['rendite']
    
    # Generiere tägliche Änderungen basierend auf brownscher Bewegung
    aenderungen = np.random.normal(loc=rendite, scale=volatilitaet, size=len(tage))
    
    # Berechne die Aktienpreise mit kumulativer Summe
    preise = startpreis * np.exp(np.cumsum(aenderungen))
    
    # Füge die Simulation als Serie in den DataFrame ein
    aktienverlaeufe[firma] = preise

# Ausgabe der ersten 20 Tage der simulierten Aktienverläufe
aktienverlaeufe.head(20)


Jetzt haben wir zwei schöne Beispieldatensätze `versicherungs_df` und `aktienverlaeufe`. Jezt schauen wir mal was wir mit denen anstellen können.

# Pandas Standardfunktionen

Pandas bietet eine Reihe von hilfreichen Standardfunktionen, um Daten schnell und effizient zu inspizieren. Hier sind einige der wichtigsten:
`head()` und `tail()`

Mit `head()` und `tail()` kann man die ersten oder letzten Einträge eines DataFrames oder einer Series anzeigen lassen. Dies ist nützlich, um sich einen schnellen Überblick über die Struktur der Daten zu verschaffen. Beispiele (von `head()`) haben wir oben schon gesehen.

Interessanter um sich einen ersten Eindruck von einem Datensatz zu machen sind die Funktionen `describe()` und `info()`.

In [None]:
versicherungs_df.info()

In [None]:
aktienverlaeufe.describe()

Andere wichtige Infos sind bspw. `columns`, `index` oder `shape`. (Achtung keine Funktionen sondern Attribute des DataFrames.)

In [None]:
aktienverlaeufe.columns

In [None]:
versicherungs_df.shape

In [None]:
aktienverlaeufe.index

## Datenzugriff in Pandas

In Pandas gibt es verschiedene Methoden, um auf Daten in einem DataFrame zuzugreifen. Dazu gehören der Zugriff auf Spalten, Zeilen oder bestimmte Elemente mithilfe von `loc` und `iloc`.

### Zugriff auf Spalten

Auf eine Spalte eines DataFrames kann einfach über den Spaltennamen zugegriffen werden. Es gibt zwei Möglichkeiten:

1. Zugriff mit Punktschreibweise 

In [None]:
versicherungs_df.Versicherter

2. Mit Spaltennamen in eckigen Klammern (verbreiteter)

In [None]:
versicherungs_df['Versicherter']

## Zugriff auf Zeilen

`loc[]´ – Zugriff nach Labeln (indexbasiert)

Mit 'loc[]' kann man auf Zeilen und Spalten basierend auf den Bezeichnungen (Labels) zugreifen. Diese Methode verwendet explizite Indexnamen oder Spaltennamen.

In [None]:
aktienverlaeufe.loc['01-01-2023'] #Achtung Datumschreibweise eigentlich falsch

`iloc[]` - integerbasierter Zugriff

Mit `iloc[]` greift man auf Zeilen und Spalten basierend auf ihrer Position im DataFrame zu. Dies funktioniert ähnlich wie bei einer Liste in Python, wobei die Indizes 0-basiert sind.

In [None]:
aktienverlaeufe.iloc[0]

## Zugriff auf Spalen und Zeilen + Slicing
Man kann auch auf Spalten und Zeilen gleichzeitig zugreifen, plus nur Teile der Daten auswählen (*slicing*).

In [None]:
# die Aktienverläufe der ersten 5 Tage nur für Apple und Nvidia
aktienverlaeufe.loc['2023-01-01':'2023-01-05', ['Apple', 'Nvidia']]

In [None]:
# Zugriff auf ein bestimmtes Element:
versicherungs_df.iloc[2,1]

In [None]:
aktienverlaeufe.loc['2023-12-31', 'Microsoft']

# Konditionaler Zugriff

Zusätzlich zum Zugriff über Spaltennamen oder Indizes kann man auch über Bedingungen auf die Daten zugreifen.

In [None]:
# alle Verträge die im Mai beginnen
versicherungs_df[versicherungs_df['Versicherungsbeginn'].dt.month == 5]

In [None]:
# nur Verträge mit hohen Prämien
versicherungs_df[versicherungs_df['Praemienbetrag'] > 600]

In [None]:
# Zugriff erfolgt über eine boolesche Maske
versicherungs_df['Praemienbetrag'] > 600

Der konditionale Zugriff ist sehr mächtig, allerdings kann es auch sehr schnell sehr komplex werden:

In [None]:
aktienverlaeufe[
    (aktienverlaeufe.index.month == 5) &  # Filter für den Monat Mai
    ((aktienverlaeufe['Nvidia'] > 230) |   # Nvidia > 230 oder
    (aktienverlaeufe['Apple'] > 140)) &    # Apple > 155
    (aktienverlaeufe['Google'] > 185) &   # Google > 185
    (aktienverlaeufe['Tesla'] < 260)      # Tesla < 220
]


## Daten anreichern 


In der Datenanalyse ist es häufig notwendig, bestehende Datensätze zu erweitern, indem man neue Spalten hinzufügt. Dies kann beispielsweise durch Berechnungen, den Import zusätzlicher Daten oder durch die Anwendung von Funktionen geschehen. In Pandas bietet sich eine einfache Möglichkeit, neue Spalten zu erstellen und mit Daten zu füllen.

Typische Anwendungsfälle sind:

- Berechnung von neuen Werten basierend auf bestehenden Spalten (z.B. Risikobewertungen, Prämienberechnungen)
- Hinzufügen von externen Datenquellen (z.B. Inflation, Wechselkurse)
- Erzeugen von Kategorien oder Gruppierungen (z.B. Alterseinteilungen, Schadensklassen)

Neue Spalten können auf verschiedene Arten erstellt werden, wie z.B. durch einfache Zuweisung, durch Verwendung von Berechnungen oder durch Zuweisung einer konstanten oder berechneten Wertreihe.

In den folgenden Beispielen werden wir uns anschauen, wie man neue Spalten zu einem bestehenden DataFrame hinzufügen kann.


In [None]:
# Vertragsdauer in Jahren ergänzen
versicherungs_df['Vertragsdauer'] = (pd.to_datetime('today') - versicherungs_df['Versicherungsbeginn']).dt.days / 365
versicherungs_df

In [None]:
# Berechnung der absoluten Performance zum Startwert für die Apple-Aktie
aktienverlauf_apple = pd.DataFrame()
aktienverlauf_apple['Kurs'] = aktienverlaeufe['Apple']  
startwert_apple = aktienverlauf_apple['Kurs'].iloc[0]  # Startwert der Aktie
print(f'Simulierter Startwert der Apple-Aktie: {startwert_apple}')
aktienverlauf_apple['AbsPerformance'] = aktienverlauf_apple['Kurs'] - startwert_apple

# Ausgabe der ersten Zeilen mit der neuen Spalte
print(aktienverlauf_apple.tail())


Neben einfachen Berechnungen gibt es für viele Anwendungsfälle auch Pandas-Standardfunktionen.

In [None]:
# Berechnung der täglichen relativen Performance
aktienverlauf_apple['RelPerformance'] = aktienverlauf_apple['Kurs'].pct_change()
aktienverlauf_apple.tail()

## Daten löschen
Falls man eine Spalte oder Zeile löschen möchte, geht dies über:

- **Zeilen löschen**: Mit `drop(index)` können spezifische Zeilen entfernt werden. Dabei gibt man den Index der Zeilen an, die gelöscht werden sollen.
- **Spalten löschen**: Mit `drop(Spaltenname, axis=1)` können spezifische Spalten entfernt werden.

Inplace-Option: Wenn man die Änderungen direkt auf dem bestehenden DataFrame durchführen möchte, kann man `inplace=True` verwenden, um eine Kopie des DataFrames zu vermeiden.

**Achtung**: `drop()` erlaubt keinen Rückgriff auf die Originaldaten, sobald die Zeilen oder Spalten gelöscht wurden, es sei denn, es wurde zuvor eine Kopie erstellt.
 

In [None]:
# Spalte löschen
aktienverlauf_apple.drop(['RelPerformance'], axis=1)

Drop liefert einen neuen Dataframe ohne die gelöschten Daten zurück. Ohne `inplace=True` verändert sich der Originaldataframe also nicht.

In [None]:
aktienverlauf_apple

In [None]:
# 3. + 4. Zeile löschen
aktienverlauf_apple.drop(['2023-01-03', '2023-01-04'], inplace=True) # Achtung der Index ist bei diesem Datenset ein Datum
aktienverlauf_apple.head()

# Aufgabe: Arbeiten mit Schadendaten

In dieser Aufgabe sollen Sie verschiedene Operationen mit einem Beispiel-Datensatz aus Schadendaten durchführen. Die Daten erstellen wir mit folgendem Code:

In [None]:
# Erstellen von Beispiel-Daten
daten = {
    'Schadens_ID': range(1, 16),
    'Versicherungsnummer': [f'VN{str(i).zfill(5)}' for i in np.random.randint(0,10000,15)],  # Zufällige Versicherungsnummern
    'Schadenshöhe': np.random.randint(1000, 5000, size=15),  # Zufällige Schadenshöhe zwischen 1000 und 5000
    'Schadensdatum': pd.date_range(start='2023-01-01', periods=15, freq='D'),
    'Versicherungsbeginn': pd.date_range(start='2021-01-01', periods=15, freq='D'),
    'Region': [
        'Nord', 'Ost', 'Süd', 'West', 'Nord', 
        'Ost', 'Süd', 'West', 'Nord', 'Ost', 
        'Süd', 'West', 'Nord', 'Ost', 'Süd'
    ]
}

## Aufgaben

1. **DataFrame erstellen**: Erstellen Sie einen Pandas DataFrame aus den obenstehenden Daten.

2. **Daten einsehen**: Verwenden Sie die Methoden `head()` und `describe()`, um einen Überblick über den Datensatz zu erhalten. Was fällt Ihnen auf?

3. **Filtern der Daten**: Filtern Sie die Schadensfälle, die eine Schadenshöhe von mehr als 2000 haben. Welche Versicherungsnehmer sind betroffen?

4. **Vertragsdauer ermitteln**: Fügen Sie eine neue Spalte `Vertragsdauer` hinzu, die die Dauer des Vertrags in Tagen bis zum Schadensdatum angibt.

5. **Berechnung der durchschnittlichen Schadenshöhe**: Berechnen Sie die durchschnittliche Schadenshöhe der Schadensfälle.

6. **Gruppieren der Schadenhöhe**: Gruppieren Sie die Schadenhöhen nach der Region



## Hinweis

Sie können die Funktionen von Pandas verwenden, um die oben genannten Aufgaben zu lösen. Achtung das Vorgehen für  6. haben wir noch nicht besprochen. Schauen Sie sich dazu einmal die Dokumentation zu `mean()` und einmal zu `groupby()` an. ([Dokumenation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html#pandas.DataFrame.groupby))

Die Anzahl der verschiedenen Ausprägungen in der Spalte *Region* erhalten Sie mit der Funktion `value_counts()`.

In [None]:
#ergänzen Sie nach Bedarf Code-Zeilen

# Daten gruppieren und Aggregierungsfunktionen in Pandas

In der Datenanalyse ist es häufig notwendig, Daten zu gruppieren, um aggregierte Statistiken zu berechnen. Pandas bietet leistungsstarke Funktionen, um Daten zu gruppieren und verschiedene Aggregierungsoperationen durchzuführen.

## Grundlegende Konzepte

- **Gruppierung**: Die Gruppierung von Daten erfolgt mithilfe der `groupby()`-Methode. Diese Methode teilt die Daten in Gruppen basierend auf den Werten einer oder mehrerer Spalten auf.
- **Aggregierung**: Nach der Gruppierung können verschiedene Aggregierungsfunktionen angewendet werden, um statistische Kennzahlen zu berechnen. Zu den häufig verwendeten Aggregierungsfunktionen gehören:
  - `mean()`: Berechnet den Durchschnitt.
  - `sum()`: Berechnet die Summe.
  - `count()`: Zählt die Anzahl der Elemente.
  - `max()`: Bestimmt den maximalen Wert.
  - `min()`: Bestimmt den minimalen Wert.

## Beispiel: Schadensdaten aggregieren

Angenommen, wir haben einen DataFrame `schaden_daten` mit Schadensinformationen, der eine Spalte für die Region und eine für die Schadenshöhe enthält. Wir können den durchschnittlichen Schaden pro Region wie folgt berechnen:

```python
durchschnitt_schaden = schaden_daten.groupby('Region')['Schadenshöhe'].mean()
print(durchschnitt_schaden)


# Pivotisieren mit Pandas

Das Pivotisieren in Pandas ermöglicht es, die Daten in eine übersichtliche Tabelle zu transformieren, ähnlich wie bei Pivot-Tabellen in Excel. Mit der `pivot()`-Funktion kann man Daten anhand von Schlüsselspalten (wie Kategorien, Regionen oder Zeitangaben) umstrukturieren. Dabei wird eine Spalte für die Werte verwendet, die man aggregieren oder darstellen möchte, während andere Spalten als Index oder Spaltenüberschriften genutzt werden.

## Beispiel für das Pivotisieren:

Angenommen, wir möchten eine Übersicht erstellen, wie hoch die durchschnittliche Schadenshöhe in den verschiedenen Regionen war.

In [None]:
# Pivot-Tabelle erstellen, die den Mittelwert der Schadenshöhen nach Region zeigt
schaden_pivot = schaden_daten.pivot_table(values='Schadenshöhe', index='Region', aggfunc='mean')
schaden_pivot

# Einlesen und Schreiben von Daten in Pandas-DataFrames

Pandas bietet leistungsstarke Funktionen zum Einlesen von Daten aus verschiedenen Dateiformaten und zum Schreiben von DataFrames in Dateien. Die gängigsten Formate sind CSV (Comma-Separated Values) und Excel, es gehen aber auch JSON, HTML, Latex, Parquet, SAS ...

## Einlesen von Daten
Um Daten aus einer CSV-Datei in ein Pandas-DataFrame einzulesen, verwenden Sie die `read_csv()`-Funktion. Hier ist ein Beispiel:

```python
import pandas as pd

# Einlesen einer CSV-Datei
df_csv = pd.read_csv('dateipfad/zur_datei.csv')

# Ausgabe der ersten fünf Zeilen des DataFrames
print(df_csv.head())
```

Ebenso einfach funktioniert das Einlesen einer Excel-Datei
```python
# Einlesen einer Excel-Datei
df_excel = pd.read_excel('dateipfad/zur_datei.xlsx', sheet_name='Tabelle1')

# Ausgabe der ersten fünf Zeilen des DataFrames
print(df_excel.head())
```

## Schreiben von Daten
Um ein DataFrame in eine CSV-Datei zu schreiben, verwenden Sie die `to_csv()`-Funktion. Hier ein 
```python
# Schreiben des DataFrames in eine CSV-Datei
df_csv.to_csv('dateipfad/zur_neuen_datei.csv', index=False)
```

oder 
```python
# Schreiben des DataFrames in eine Excel-Datei
df_excel.to_excel('dateipfad/zur_neuen_datei.xlsx', sheet_name='Tabelle1', index=False)
```


# Dateien von nicht lokalen Quellen einlesen

Man kann mit `pandas`aus sehr einfach Datenquellen einlesen, die nicht lokal sondern "irgendwo" im Internet, bzw. auf einem Server liegen. Man dazu nur die URL zum Speicherort der Datei angeben. 

Beispielsweise können wir so die Dateien im github-Repository einlesen:

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/DeutscheAktuarvereinigung/Python_fuer_Aktuare/refs/heads/main/data/weather_data.csv')
data.head()

## Umgang mit fehlenden Daten

In realen Datensätzen sind fehlende Daten ein häufiges Problem. Pandas bietet eine Vielzahl von Methoden, um fehlende Werte zu identifizieren, zu bearbeiten oder zu bereinigen.

### Fehlende Daten erkennen
Mit der Funktion `isnull()` oder `isna()` können Sie erkennen, welche Einträge in einem DataFrame fehlen. `isnull()` gibt `True` zurück, wenn der Wert fehlt (NaN), und `False`, wenn ein gültiger Wert vorhanden ist.

Schauen wir uns das an unserem Versicherungsdatensatz von oben einmal an.

In [None]:
# bisher hat der Datensatz keine fehlenden Werte also erzeugen wir welche
nan_df = versicherungs_df.copy()


# Zufällig NaN-Werte einfügen (ca. 25% der Daten)
for col in ['Alter', 'Versicherungsbeginn', 'Vertragsdauer']:
    nan_df.loc[nan_df.sample(frac=0.25).index, col] = np.nan

nan_df

In [None]:
nan_df.isna()

In [None]:
nan_df.isnull().sum()

## Fehlende Daten entfernen

Mit `dropna()` können Sie Zeilen oder Spalten mit fehlenden Werten entfernen. Sie können steuern, ob alle fehlenden Werte (how='all') oder nur einzelne fehlende Werte (how='any') berücksichtigt werden sollen.

In [None]:
df_cleaned = nan_df.dropna()
df_cleaned

### Fehlende Daten auffüllen

Statt fehlende Werte zu entfernen, können wir diese auch durch sinnvolle Werte ersetzen. Dies kann z.B. der Mittelwert, Median oder ein festgelegter Wert sein. Verwenden Sie hierfür die Funktion `fillna()`.

In [None]:
nan_df['Alter'].fillna(nan_df['Alter'].mean(), inplace=True)
nan_df

# Aufgabe
Jetzt sind Sie dran. Im Ordner *data* finden Sie zwei Datensets:
- car_insurance_claims.csv (Autoversicherungsdaten)
- titanic_train.csv (Daten der Titanic Passagiere)

Quelle:

Die Autoversicherungsdaten stammen von [Databrick](https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/4954928053318020/1058911316420443/167703932442645/latest.html). Leider ist dort keine weitere Quelle angegeben.

Die Titanic-Daten sind der [Titanic-Machine-Learning-Challenge](https://www.kaggle.com/c/titanic/data) von kaggle entnommen und enthalten die Daten von 892 Passagieren der Titanic. Das Datenset wird in der Challenge zum Training von Machine-Learning-Algorithmen verwendet. 

## Aufgaben zum Schadensfall-Datensatz

1. Überblick verschaffen
- **Aufgabe**: Lesen Sie den Datensatz ein und verschaffen Sie sich einen Überblick.
  - Verwenden Sie `head()`, um sich die ersten 5 Zeilen des Datensatzes anzusehen.
  - Nutzen Sie `info()`, um Informationen über die Datentypen und die Anzahl der Einträge zu erhalten.
  - Zeigen Sie eine Zusammenfassung der numerischen Spalten mit `describe()`.

2. Spaltenzugriff und einfache Berechnungen
- **Aufgabe**: Arbeiten Sie mit einzelnen Spalten.
  - Zeigen Sie die durchschnittliche Höhe der `total_claim_amount` (Gesamtforderung).
  - Finden Sie den maximalen und minimalen Wert für die Spalte `policy_annual_premium` (Jahresprämie).
  - Erstellen Sie eine neue Spalte `claim_ratio`, die den Anteil des `total_claim_amount` an der `policy_annual_premium` berechnet.

3. Filtern von Daten
- **Aufgabe**: Filtern Sie den Datensatz nach bestimmten Bedingungen.
  - Finden Sie alle Fälle, bei denen das `incident_type` (Schadenart) als "Single Vehicle Collision" gemeldet wurde.
  - Zeigen Sie alle Vorfälle an, die im Bundesstaat "NY" (`incident_state`) stattgefunden haben und bei denen die Schadenshöhe (`total_claim_amount`) über 10.000 liegt.
  - Finden Sie alle Vorfälle, bei denen mehr als 2 Zeugen (`witnesses`) angegeben wurden.

4. Gruppieren und Aggregieren
- **Aufgabe**: Gruppieren Sie Daten und berechnen Sie Durchschnittswerte.
  - Gruppieren Sie die Daten nach dem `incident_state` und zeigen Sie die durchschnittliche `total_claim_amount` für jeden Bundesstaat.
  - Gruppieren Sie die Daten nach `insured_occupation` (Beruf des Versicherten) und zeigen Sie die mittlere Höhe des `injury_claim` (Körperschaden) an.
  - Finden Sie den durchschnittlichen `property_claim` (Sachschaden) nach `auto_make` (Autohersteller).

5. Umgang mit fehlenden Daten
- **Aufgabe**: Behandeln Sie fehlende Daten.
  - Finden Sie heraus, in welchen Spalten fehlende Werte (`NaN`) vorhanden sind.
  - Zählen Sie die fehlenden Werte in der Spalte `authorities_contacted`.
  - Füllen Sie die fehlenden Werte in der Spalte `authorities_contacted` mit dem Wert "Not Contacted".

6. Zeitbasierte Analysen
- **Aufgabe**: Arbeiten Sie mit Zeitdaten.
  - Konvertieren Sie die Spalte `incident_date` in das Datumsformat (`datetime`).
  - Finden Sie heraus, in welchem Monat die meisten Vorfälle stattgefunden haben.
  - Zeigen Sie alle Vorfälle an, die zwischen dem 15.02.2015 und dem 28.02.2015 gemeldet wurden.


## Aufgaben: Analysen zum Titanic-Datensatz

1. **Wer war der jüngste Passagier?**  
   Ermitteln Sie das Alter des jüngsten Passagiers an Bord der Titanic. Nutzen Sie dafür die Spalte `Age`. Was können Sie über diesen Passagier noch herausfinden?

2. **Überlebensrate nach Geschlecht**  
   Untersuchen Sie, ob das Überleben auf der Titanic etwas mit dem Geschlecht der Passagiere zu tun hatte. Berechnen Sie die Überlebensrate für Männer und Frauen getrennt. Nutzen Sie hierfür die Spalten `Survived` und `Sex`.

3. **Überlebenschancen in den verschiedenen Klassen**  
   Hat die Klasse, in der ein Passagier gereist ist, einen Einfluss auf die Überlebenschancen? Berechnen Sie die Überlebensrate für jede der drei Klassen (`Pclass`) und interpretieren Sie das Ergebnis.

4. **Durchschnittliche Ticketpreise pro Klasse**  
   Finden Sie heraus, wie viel Passagiere durchschnittlich in den einzelnen Klassen für ihr Ticket bezahlt haben. Verwenden Sie die Spalten `Pclass` und `Fare`, um die durchschnittlichen Ticketpreise zu berechnen.

5. **Größte Familien an Bord**  
   Finden Sie heraus, wie viele Geschwister und Elternteile (Spalten `SibSp` und `Parch`) die Passagiere an Bord hatten. Wer reiste mit der größten Familie?

6. **Wo sind die meisten Passagiere zugestiegen?**  
   Untersuchen Sie, an welchem Hafen (`Embarked`) die meisten Passagiere zugestiegen sind. 

7. **Verteilung der Altersgruppen**  
   Teilen Sie die Passagiere in verschiedene Altersgruppen ein (z.B. Kinder, Jugendliche, Erwachsene, Senioren) und untersuchen Sie, wie sich diese Gruppen auf die Überlebensrate auswirken.

8. **Wertvollstes Ticket an Bord**  
   Finden Sie heraus, welches das teuerste Ticket (`Fare`) auf der Titanic war und wer dieses gekauft hat.