# Datenanalyse Teil II

### Natalie Widmann



Wintersemester 2024 / 2025






### Aggregated figures for Natural Disasters in EM-DAT

Link: https://data.humdata.org/dataset/emdat-country-profiles


In 1988, the **Centre for Research on the Epidemiology of Disasters (CRED)** launched the **Emergency Events Database (EM-DAT)**. EM-DAT was created with the initial support of the **World Health Organisation (WHO) and the Belgian Government**.

The main objective of the database is to **serve the purposes of humanitarian action at national and international levels**. The initiative aims to rationalise decision making for disaster preparedness, as well as provide an objective base for vulnerability assessment and priority setting.

EM-DAT contains essential core data on the **occurrence and effects of over 22,000 mass disasters in the world from 1900 to the present day**. The database is compiled from various sources, including UN agencies, non-governmental organisations, insurance companies, research institutes and press agencies.



In [None]:
# Install a pip package im Jupyter Notebook
!pip3 install pandas
!pip3 install openpyxl

In [None]:
import pandas as pd
pd.set_option('display.float_format', '{:.2f}'.format)

data_url = "https://data.humdata.org/dataset/74163686-a029-4e27-8fbf-c5bfcd13f953/resource/c5ce40d6-07b1-4f36-955a-d6196436ff6b/download/emdat-country-profiles_2024_11_25.xlsx"
data = pd.read_excel(data_url, engine="openpyxl")
data

## Data Cleaning

Entferne erste Zeile

In [None]:
data = data.drop(index=0)

In [None]:
data.info()

Änderung des Datentyps für integeger und float Spalten

In [None]:
cols = ['Year', 'Total Events', 'Total Affected', 'Total Deaths', 'Total Damage (USD, adjusted)']
for col in cols:
    data[col] = pd.to_numeric(data[col])

In [None]:
data.info()

Entferne irrelevante Spalten, hier: *ISO, Disaster Group, Total Damage (USD, adjusted)*

In [None]:
cols = ['ISO', 'Disaster Group', 'Total Damage (USD, adjusted)', 'CPI']
data.drop(cols, axis=1, inplace=True)

In [1]:
data

NameError: name 'data' is not defined

## Fehlende Werte - NaNs Values

Wo fehlen Werte im Datensatz?
Wie viele fehlen?

In [None]:
len(data)

#### Wie viele Werte pro Spalte sind NaN?

In [None]:
data.info()

In [None]:
data['Total Affected'].isnull()

In [None]:
data['Total Affected'].isnull().sum()

In [None]:
data.isnull()

In [None]:
data.isnull().sum()

### Möglichkeiten zum Umgang mit fehlenden Werte

- Zeilen mit fehlenden Werten entfernen
- fehlende Werte ersetzen


#### Alle Zeilen mit NaN Werten entfernen

`dropna()` 

In [None]:
clean_data = data.dropna()
clean_data

Entferne nur Zeilen die in einer bestimmten Spalte NaN Werte haben

In [None]:
clean_data = data.dropna(subset=['Disaster Subtype', 'Total Affected'])
clean_data

### Fehlende Werte entfernen

**Vorteile**
- einfache Handhabung
- verständliche Methodik


**Nachteile**
- ein großer Teil der Daten wird nicht ausgewertet
- fehlende Werte können eine ganz andere Geschichte erzählen
- die Konsistenz über unterschiedliche Fragestellungen hinweg muss sichergestellt sein


### Fehlende Werte ersetzen

Mit `.fillna()` können alle NaN Werte in einem DataFrame oder einer Series automatisch ersetzt werden.

Das Argument `inplace=True` wendet die Methode direkt auf den DataFrame an.

In [None]:
data.fillna(0)

Welche Werte für Total Affected, Total Deaths oder Total Damage?

- 0
- arithmetisches Mittel
- Median
- Berechnung aus anderen Spalten

In [None]:
data["Total Deaths"].fillna(0, inplace=True)

In [None]:
data["Total Affected"].fillna(data['Total Deaths'], inplace=True)

In [None]:
data['Total Damage (USD, original)'].mean()

In [None]:
data['Total Damage (USD, original)'] = data['Total Damage (USD, original)'].fillna(data['Total Damage (USD, original)'].mean())

In [None]:
data

### Fehlende Werte ersetzen

**Vorteile**
- Verwendung möglichst aller Daten
- genaue Analyse der fehlenden Werte kann zu neuen Erkenntnissen führen


**Nachteile**
- keine Standard Methodik
- eventuelle Verfälschung der Daten



## Duplikate

`.duplicated()` findet Zeilen mit genau den gleichen Werte.

Mit `drop_duplicates()` können diese entfernt werden.

In [None]:
data.duplicated().sum()

In [None]:
data.drop_duplicates()

## Daten speichern & Neu laden

In [None]:
data.to_csv('../../data/clean_emdat.csv')