# Datenanalyse Teil III

### Natalie Widmann




Wintersemester 2023 / 2024


Universität Leipzig





### Ziel

Wir visualisieren die Daten im EM-DAT Datensatz und bauen ein Länderdashboard damit.


![Datenpipeline](../../imgs/datapipeline.png)

In [None]:
# Install a pip package im Jupyter Notebook
!pip3 install pandas

In [None]:
import pandas as pd
pd.set_option('display.float_format', '{:.2f}'.format)

data = pd.read_csv('../../data/clean_emdat.csv', index_col=0)

In [None]:
data

In [None]:
data.info()

## Das Dashboard...

## Recherchefragen

- Wie viele Todesopfer gibt es in einem Land?
- Wie stark ist ein Land von Naturkatastrophen betroffen?
- Welchen Anteil haben die unterschiedlichen Naturkatastrophentypen daran?
- Wie hat sich die Anzahl der Naturkatastrophen über die Jahre hin entwickelt?

### Wie viele Todesopfer gibt es in einem Land?

#### Wie viele Todesopfer gibt es insgesamt?

In [None]:
data["Total Deaths"].sum()

#### Wie viele Todesopfer gibt es insgesamt in Deutschland?

In [None]:
data['Country'] == 'Germany'

In [None]:
data[data['Country'] == 'Germany']

In [None]:
data[data['Country'] == 'Germany']['Total Deaths'].sum()

In [None]:
data_germany = data[data['Country'] == 'Germany']
data_germany['Total Deaths'].sum()

#### Wie viele Todesopfer gab es insgesamt in Indien?

In [None]:
data_land = data[data['Country'] == 'India']
data_land['Total Deaths'].sum()

#### Allgemeine Funktion die Gesamtzahl der Todesopfer eines Landes ausgibt

In [None]:
def get_total_deaths(data, country):
    data_land = data[data['Country'] == country]
    return data_land['Total Deaths'].sum()

In [None]:
get_total_deaths(data, 'Japan')

## Dashboard Teil II

### Welchen Anteil haben die unterschiedlichen Naturkatastrophentypen in Deutschland?

In [None]:
germany_data = data[data['Country'] == 'Germany']
germany_data['Disaster Type'].value_counts(normalize=True)

# Visualisierung von DataFrames

[Matplotlib](https://matplotlib.org/) is a comprehensive library for creating static, animated, and interactive visualizations in Python.

Matplotlib makes easy things easy and hard things possible.

Install matplotlib:

In [None]:
!pip3 install --upgrade pip
!pip3 install --upgrade Pillow
!pip3 install matplotlib

import matplotlib.pyplot as plt

In [None]:
germany_data = data[data['Country'] == 'Germany']

In [None]:
germany_data['Disaster Type'].value_counts()

In [None]:
germany_data['Disaster Type'].value_counts().plot(kind='bar')

In [None]:
germany_data['Disaster Type'].value_counts().plot(kind='pie')

## Recherchefragen

#### Welche Naturkatastrophen fordern die meisten Todesopfer?

`.groupby()` gruppiert einen DataFrame nach den Werten einer oder mehreren Spalten.

Die Spalten nach denen man Gruppieren möchte werden als Argument übergeben. Danach folgt die gewünschte Berechnung auf dieser Gruppe. Das Ergebnis wird als DataFrame zurückgegeben. 

In [None]:
data

In [None]:
data['Total Deaths'].sum()

In [None]:
data.groupby('Disaster Type')['Total Deaths'].sum()

`.groupby()` kann auch auf mehrere Spalten gleichzeitig angewendet werden

In [None]:
data.groupby(['Disaster Type', 'Disaster Subtype'])['Total Deaths'].sum()

In [None]:
data.groupby('Disaster Type')

### Visualisierung

In [None]:
data.groupby('Disaster Type')['Total Deaths'].sum().plot(kind='pie')

#### Welche Naturkatastrophen fordern die meisten Todesopfer in Deutschland?

In [None]:
germany_data = data[data['Country'] == 'Germany']
germany_data.groupby('Disaster Type')['Total Deaths'].sum().plot(kind='pie')

#### Generelle Funktion

In [None]:
country = 'India'
country_data = data[data['Country'] == country]
country_data.groupby('Disaster Type')['Total Deaths'].sum().plot(kind='pie')

In [None]:
def plot_death_by_disastertype(data, country):
    country_data = data[data['Country'] == country]
    country_data.groupby('Disaster Type')['Total Deaths'].sum().plot(kind='pie')

In [None]:
plot_death_by_disastertype(data, 'Egypt')

## Dashboard Teil III

#### Wie hat sich die Anzahl der Naturkatastrophen über die Jahre hin entwickelt?

**Berechne für jedes Jahr die Summe aus allen `Events`**

In [None]:
data.groupby('Year')['Total Events'].sum()

In [None]:
data['Total Events'].sum()

In [None]:
data.groupby('Year').min()

In [None]:
data[['Total Events', 'Year']].groupby('Year')['Total Events'].sum()

In [None]:
yearly_events = data.groupby('Year')['Total Events'].sum()
yearly_events.plot(kind='line', x='Year', y='Total Events', title='Anzahl an Naturkatastrophen pro Jahr')

**Plotte für Deutschland die Entwicklung der Anzahl an Naturkatastrophen über die Jahre hinweg**

In [None]:
yearly_events =germany_data.groupby('Year')['Total Events'].sum()
yearly_events.plot(kind='line', x='Year', y='Total Events', title='Anzahl an Naturkatastrophen pro Jahr')

**Generelle Funktion**

In [None]:
def plot_evolution(data, country):
    land_data = data[data['Country'] == county]
    yearly_events = land_data.groupby('Year')['Total Events'].sum()
    yearly_events.plot(kind='line', x='Year', y='Total Events', title='Anzahl an Naturkatastrophen pro Jahr')

## Länderdashboard

In [None]:
def plot_pie(country_data):
    country_data.groupby('Disaster Type')['Total Deaths'].sum().plot(kind='pie', title='Anteil an getöten Menschen nach Naturkatastrophentyp')
    plt.show()

In [None]:
def plot_time_evolution(country_data):
    yearly_events = country_data.groupby('Year')['Total Events'].sum()
    yearly_events.plot(kind='line', x='Year', y='Total Events', title='Anzahl an Naturkatastrophen pro Jahr')
    plt.show()

In [None]:
def death_overview(country_data):
    total_deaths = country_data["Total Deaths"].sum()
    print(f'Getötete Menschen seit 1900: {total_deaths:,.0f}')

In [None]:
def compute_anteil(country_total, world_total):
    anteil = round(country_total / (world_total / 100.0), 2)
    print(f'{anteil}% aller Menschen die weltweit von Naturkatastrophen betroffen sind leben hier.')

In [None]:
def analyze(data, country):
    print(f'Naturkatastrophen in {country.upper()} \n')
    country_data = data[data['Country'] == country]
    
    # compute_anteil(country_data['Total Affected'].sum(), data['Total Affected'].sum())
    text = death_overview(country_data)
    plot_pie(country_data)
    plot_time_evolution(country_data)

In [None]:
analyze(data, 'Bangladesh')

### Überblick über die Welt

Wie können wir die selbstdefinierte Funktion `analyze()` anpassen, so dass auch eine Gesamtstatistik, die alle Länder der Welt enthält abgefragt werden kann?

In [None]:
def analyze(data, country):
    print(f'Naturkatastrophen in {country.upper()} \n')
    country_data = data[data['Country'] == country]
    if country == 'world':
        country_data = data   
    compute_anteil(country_data['Total Affected'].sum(), data['Total Affected'].sum())
    death_overview(country_data)
    plot_pie(country_data)
    plot_time_evolution(country_data)

In [None]:
analyze(data, 'world')