# Datenjournalismus in Python - 
# Eine praktische Einführung in die Programmierung


### Natalie Widmann




Wintersemester 2022 / 2023


Universität Leipzig





## Was sind Daten?


### Strukturierte Daten

Strukturierte Daten sind gut organisiert und so formattiert, dass es einfach ist sie zu durchsuchen, sie maschinell zu lesen oder zu verarbeiten. Das einfachste Beispiel ist eine Tabelle in der jede Spalte eine Kategorie oder einen Wert festlegt. 


### Unstrukturierte Daten

Im Gegensatz dazu sind unstrukturierte Daten nicht in einem bestimmten Format oder einer festgelegten Struktur verfügbar. Dazu zählen Texte, Bilder, Social Media Feeds, aber auch Audio Files, etc.


### Semi-Strukturierte Daten

Semi-strukturierte Daten bilden eine Mischform. Beispielsweise eine Tabelle mit E-Mail Daten, in der Empfänger, Betreff, Datum und Absender strukturierte Informationen enthalten, der eigentliche Text jedoch unstrukturiert ist. 

## Was sind Daten?

![Daten](../imgs/data.png)

### Aggregated figures for Natural Disasters in EM-DAT

Link: https://data.humdata.org/dataset/emdat-country-profiles


In 1988, the **Centre for Research on the Epidemiology of Disasters (CRED)** launched the **Emergency Events Database (EM-DAT)**. EM-DAT was created with the initial support of the **World Health Organisation (WHO) and the Belgian Government**.

The main objective of the database is to **serve the purposes of humanitarian action at national and international levels**. The initiative aims to rationalise decision making for disaster preparedness, as well as provide an objective base for vulnerability assessment and priority setting.

EM-DAT contains essential core data on the **occurrence and effects of over 22,000 mass disasters in the world from 1900 to the present day**. The database is compiled from various sources, including UN agencies, non-governmental organisations, insurance companies, research institutes and press agencies.



In [None]:
# Install a pip package im Jupyter Notebook
!pip3 install pandas
!pip3 install openpyxl

In [None]:
import pandas as pd
data = pd.read_excel('../data/emdat.xlsx', engine="openpyxl")

In [None]:
data

## Data Cleaning

Entferne erste Zeile

In [None]:
data = data.drop(index=0)

Änderung des Datentyps für integeger und float Spalten

In [None]:
cols = ['Year', 'Total Events', 'Total Affected', 'Total Deaths', 'Total Damage (USD, adjusted)']
for col in cols:
    data[col] = pd.to_numeric(data[col])

In [None]:
data

Entferne irrelevante Spalten, hier: *ISO, Disaster Group, Total Damage (USD, adjusted)*

In [None]:
cols = ['ISO', 'Disaster Group', 'Total Damage (USD, adjusted)']
data = data.drop(cols, axis=1)

In [None]:
data

## Fehlende Werte - NaNs Values

Wo fehlen Werte im Datensatz?
Wie viele fehlen?

In [None]:
data

#### Wie viele Werte pro Spalte sind NaN?

In [None]:
data.info()

In [None]:
data.isnull()

In [None]:
data.isnull().sum()

### Möglichkeiten zum Umgang mit fehlenden Werte

- Zeilen mit fehlenden Werten entfernen
- fehlende Werte ersetzen


#### Alle Zeilen mit NaN Werten entfernen

`dropna()` 

In [None]:
clean_data = data.dropna()
clean_data

Entferne nur Zeilen die in einer bestimmten Spalte NaN Werte haben

In [None]:
clean_data = data.dropna(subset=['Disaster Subtype', 'Total Affected'])
clean_data

### Fehlende Werte entfernen

**Vorteile**
- einfache Handhabung
- verständliche Methodik


**Nachteile**
- ein großer Teil der Daten wird nicht ausgewertet
- fehlende Werte können eine ganz andere Geschichte erzählen
- die Konsistenz über unterschiedliche Fragestellungen hinweg muss sichergestellt sein


### Fehlende Werte ersetzen

Mit `.fillna()` können alle NaN Werte in einem DataFrame oder einer Series automatisch ersetzt werden.

Das Argument `inplace=True` wendet die Methode direkt auf den DataFrame an.

In [None]:
data.fillna(0)

In [None]:
data["Disaster Subtype"].fillna("No Subtype", inplace=True)

In [None]:
data

Welche Werte für Total Affected, Total Deaths oder Total Damage?

- 0
- arithmetisches Mittel
- Median
- Berechnung aus anderen Spalten

In [None]:
data["Total Deaths"].fillna(0, inplace=True)

In [None]:
data["Total Affected"].fillna(data['Total Deaths'], inplace=True)

In [None]:
data

### Fehlende Werte ersetzen

**Vorteile**
- Verwendung möglichst aller Daten
- genaue Analyse der fehlenden Werte kann zu neuen Erkenntnissen führen


**Nachteile**
- keine Standard Methodik
- eventuelle Verfälschung der Daten



## Duplikate

`.duplicated()` findet Zeilen mit genau den gleichen Werte.

Mit `drop_duplicates()` können diese entfernt werden.

In [None]:
data.duplicated()

In [None]:
data.drop_duplicates()

## Daten speichern & Neu laden

In [None]:
data.to_csv('../data/clean_emdat.csv')

## Zurück zum Dashboard...

## Recherchefragen

- Wie viele Todesopfer gibt es insgesamt in Deutschland?
- Wie stark ist ein Land von Naturkatastrophen betroffen?
- Welchen Anteil haben die unterschiedlichen Naturkatastrophentypen daran?
- Wie hat sich die Anzahl der Naturkatastrophen über die Jahre hin entwickelt?

#### Wie viele Todesopfer gibt es insgesamt?

#### Wie viele Todesopfer gibt es insgesamt in Deutschland?

Korrektur der Ländernamen

In [None]:
# Vorkommen von Deutschland
for country in data['Country'].unique():
    if 'german' in country.lower():
        print(country)

Funktion die dies bereinigt

In [None]:
def clean_country


In [None]:
text = 'Germany Fed Rep'
text = 'Mexico'
clean_country(text)

Anwendung der Funktion auf alle Werte einer Spalte

In [None]:
for index, row in data.iterrows():
    data.loc[index, "Country"] = clean_country(row['Country'])

In [None]:
help(data.loc)

In [None]:
data[data['Country'] == 'Germany']

**oder** (viel übersichtlicher und effizienter)

mit `apply()` kann eine Funktion auf eine komplette Spalte oder Zeile des Dataframes angewendet werden

In [None]:
data['Country'] = data['Country'].apply(clean_country)

#### Wie viele Todesopfer gab es insgesamt in Deutschland?

In [None]:
data[data['Country'] == 'Germany']

#### Wie viele Todesopfer gab es insgesamt in Indien?

#### Allgemeine Funktion die Gesamtzahl der Todesopfer eines Landes ausgibt

### Dashboard Teil II

#### Welchen Anteil haben die unterschiedlichen Naturkatastrophentypen in Deutschland?

# Visualisierung von DataFrames

Matplotlib is a comprehensive library for creating static, animated, and interactive visualizations in Python.

Matplotlib makes easy things easy and hard things possible.

Install [matplotlib](https://matplotlib.org/)

In [None]:
!pip3 install --upgrade pip
!pip3 install --upgrade Pillow
!pip3 install matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
germany_data['Disaster Type'].value_counts()

In [None]:
fig = germany_data['Disaster Type'].value_counts().plot(kind='bar')

In [None]:
germany_data['Disaster Type'].value_counts().plot(kind='pie')

## Recherchefragen

#### Welche Naturkatastrophen fordern die meisten Todesopfer?

`.groupby()` gruppiert einen DataFrame nach den Werten einer oder mehreren Spalten.

Die Spalten nach denen man Gruppieren möchte werden als Argument übergeben. Danach folgt die gewünschte Berechnung auf dieser Gruppe. Das Ergebnis wird als DataFrame zurückgegeben. 

In [None]:
data.groupby('Disaster Type').sum()

In [None]:
data.groupby('Disaster Type')['Total Deaths'].sum()

`.groupby()` kann auch auf mehrere Spalten gleichzeitig angewendet werden

In [None]:
data.groupby(['Disaster Type', 'Disaster Subtype'])['Total Deaths'].sum()

#### Visualisierung

In [None]:
data.groupby('Disaster Type')['Total Deaths'].sum().plot(kind='pie')

#### Welche Naturkatastrophen fordern die meisten Todesopfer in Deutschland?

#### Generelle Funktion

In [None]:
country = 'India'
country_data = data[data['Country'] == country]
country_data.groupby('Disaster Type')['Total Deaths'].sum().plot(kind='pie')

## Dashboard Teil IV

#### Wie hat sich die Anzahl der Naturkatastrophen über die Jahre hin entwickelt?

In [None]:
yearly_events = data.groupby('Year')['Total Events'].sum()
yearly_events.plot(kind='line', x='Year', y='Total Events', title='Anzahl an Naturkatastrophen pro Jahr')

## Länderdashboard

In [None]:
def plot_pie(country_data):
    country_data.groupby('Disaster Type')['Total Deaths'].sum().plot(kind='pie', title='Anteil an getöten Menschen nach Naturkatastrophentyp')
    plt.show()

In [None]:
def plot_time_evolution(country_data):
    yearly_events = country_data.groupby('Year')['Total Events'].sum()
    yearly_events.plot(kind='line', x='Year', y='Total Events', title='Anzahl an Naturkatastrophen pro Jahr')
    plt.show()

In [None]:
def death_overview(country_data):
    total_deaths = country_data["Total Deaths"].sum()
    print(f'Getötete Menschen seit 1900: {total_deaths:,.0f}')

In [None]:
def compute_anteil(country_total, world_total):
    anteil = round(country_total / (world_total / 100.0), 2)
    print(f'{anteil}% aller Menschen die weltweit von Naturkatastrophen betroffen sind leben hier.')

In [None]:
def analyze(data, country):
    print(f'Naturkatastrophen in {country.upper()} \n')
    country_data = data[data['Country'] == country]
    
    compute_anteil(country_data['Total Affected'].sum(), data['Total Affected'].sum())
    death_overview(country_data)
    plot_pie(country_data)
    plot_time_evolution(country_data)

In [None]:
analyze(data, 'Bangladesh')

### Überblick über die Welt

Wie können wir die selbstdefinierte Funktion `analyze()` anpassen, so dass auch eine Gesamtstatistik, die alle Länder der Welt enthält abgefragt werden kann?

In [None]:
def analyze(data, country):
    print(f'Naturkatastrophen in {country.upper()} \n')
    country_data = data[data['Country'] == country]
    stats_overview(country_data)
    plot_pie(country_data)
    plot_time_evolution(country_data)

In [None]:
analyze(data, 'world')

# Zeit für Feedback



Link: https://ahaslides.com/3VAQJ

![Feedback QR Code](../imgs/qrcode_vl6.png)

