# COVID-19

*Ein Projekt zur Erbringungen der portfoliorelevanten Leistung für den Kurs **Data Jornalism** im Modul **23-TXT-BaCL5** im Studiengang **Texttechnologie und Computerlinguistik** der **Universität Bielefeld**.*



# Requirements

Alle Programme, die zur Ausführung des Codes notwendig sind, befinden sich in der Textdatei `requirements.txt` und lassen sich über den folgenden Befehl per `pip3` installieren.

`pip3 install -r requirements.txt`

# Imports

Für die Ausführung des Projektes benötigen wir folgende Python-Pakete:

- `numpy` 
- `pandas`, um den Typ `DataFrame` zu nutzen und unsere tabellarischen Daten zu verarbeiten.
- `plotly`, um die Daten auf einer Landkarte darzustellen.

In [58]:
import numpy as np
import pandas as pd
import plotly.graph_objects

# Datensatz

Der Datensatz ist den Zahlen des **ECDC - European Centre for Disease Prevention and Control** ([Website](https://www.ecdc.europa.eu/en/publications-data/download-todays-data-geographic-distribution-covid-19-cases-worldwide)) entnommmen.

Die Daten befinden sich auf der Website des ECDC im `.xlsx`-Format. Zunächst wird die Datei heruntergeladen und im `assets/`-Ordner gesichert. Im Folgenden definieren wir die Variable `data_file` als eben diese gesicherte Datei. Auf diesem Wege können wir, wenn eine neue Date verfügbar wird, oder wir zu Test-Zwecken eine andere Dateie einlesen möchten, den Rest des Codes ausführen, ohne dass er vorher angepasst werden muss.

In [2]:
data_file = 'assets/COVID-19-geographic-disbtribution-worldwide-2020-03-21.xlsx'

Im Anschluss wird die Datei über `pandas` eingelesen und als `DataFrame`-Objekt gespeichert, damit wir die Daten tabellarisch auswerten können. Zum Test der Funktionalität, lassen wir uns die ersten Zeilen des entstandenen `DataFrame` ausgeben.

Dies dient außerdem der Überprüfung, ob die Daten weiterer Bereinigung bedürfen.

In [18]:
data = pd.read_excel(data_file)
data.head()

Unnamed: 0,DateRep,Day,Month,Year,Cases,Deaths,Countries and territories,GeoId
0,2020-03-21,21,3,2020,2,0,Afghanistan,AF
1,2020-03-20,20,3,2020,0,0,Afghanistan,AF
2,2020-03-19,19,3,2020,0,0,Afghanistan,AF
3,2020-03-18,18,3,2020,1,0,Afghanistan,AF
4,2020-03-17,17,3,2020,5,0,Afghanistan,AF


## Aufbereitung & Bereinigung

Um die Daten im späteren Verlauf per `plotly` auf einer Weltkarte darstellen zu können, benötigen wir Länder-Codes im Format `ISO3166 Alpha-3`. Die `GeoId` aus den vorhanden Daten nutzt jedoch `ISO3166 Alpha-2`, weshalb wir eine weitere Spalte zu unseren Daten hinzufügen werden, die die entsprechenden Codes enthält. Hier bedienen wir uns einer Liste, die sowohl `Alpha-2`- als auch `Alpha-3`-Codes enthält.

In [19]:
iso3166 = pd.read_csv('assets/iso3166.csv')
iso3166.head()

Unnamed: 0,ISO3166-ALPHA-2,ISO3166-ALPHA-3
0,AF,AFG
1,AX,ALA
2,AL,ALB
3,DZ,DZA
4,AS,ASM


Bevor wir die Länder-Codes einfügen, werfen wir einen Blick in die Daten. Dort fällt auf, dass zusätzlich zu den Ländern auf Einträge vorhanden sind, die nicht über einen zweistelligen Länder-Code abgebildet werden.

In [20]:
geoid_error = data[data['GeoId'].str.len() != 2]

false_geoid = set()

for country in geoid_error['Countries and territories']:
    false_geoid.add(country)
    
false_geoid

{'Cases_on_an_international_conveyance_Japan', 'French_Polynesia', 'Namibia'}

Wirft man einen Blick auf diese Einträge, stellt man fest, dass für *Namibia* keine Einträge in der `GeoId` vorhanden sind, *French_Polynesia* bereits einen dreistelligen Länder-Code eingetragen hat und *Cases_on_an_international_conveyance_Japan* eine spezielle achtstellige `GeoId` zugewiesen bekommen hat.

Über eine kurze Recherche lässt sich schnell herausfinden, dass der `Alpha-3`-Code für *Namibia* `NAM` ist. Bei *Cases_on_an_international_conveyance_Japan* handelt es sich um das Passagier-Schiff *Diamond Princess*, welches vor dem Hafen von Yokohama in Japan liegt/lag und in den Daten nicht zu Japans Fällen dazugezählt wird.

An dieser Stelle haben wir zwei Möglichkeiten, die Daten zu bereinigen, da `Plotly` zur Darstellung der Daten die dreistelligen Länder-Codes benötigt.

1. Die Fälle der *Diamond Princess* nicht auf der Weltkarte darstellen, also ein Sub-Set unserer Daten erstellen, aus dem wir diese herausnehmen, oder
2. die Fälle Japan zuordnen.

Beide Möglichkeiten haben Vor- und Nachteile. Im weiteren Verlauf bedienen wir uns vorerst Möglichkeit 1 und erstellen ein Sub-Set ohne die Daten der *Diamond Princess*.

In [21]:
data = data[data['Countries and territories'] != 'Cases_on_an_international_conveyance_Japan']

Im Anschluss fügen wir für Namibia den bereits ermittelten Länder-Code ein.

In [22]:
data.replace(np.nan, "NA", inplace=True)

Nun können wir die Spalte mit den dreistelligen Länder-Codes hinzufügen. Dazu nutzen wir die vorher bereits importierte `ISO3166`-Liste.

In [23]:
data['GeoId3'] = data['GeoId'].replace(iso3166.set_index('ISO3166-ALPHA-2')['ISO3166-ALPHA-3'])
data.head()

Unnamed: 0,DateRep,Day,Month,Year,Cases,Deaths,Countries and territories,GeoId,GeoId3
0,2020-03-21,21,3,2020,2,0,Afghanistan,AF,AFG
1,2020-03-20,20,3,2020,0,0,Afghanistan,AF,AFG
2,2020-03-19,19,3,2020,0,0,Afghanistan,AF,AFG
3,2020-03-18,18,3,2020,1,0,Afghanistan,AF,AFG
4,2020-03-17,17,3,2020,5,0,Afghanistan,AF,AFG


Wir wir hier sehen können, wurde die benötigte Spalte `GeoId3` hinzugefügt und mit den entsprechenden dreistelligen Länder-Codes befüllt.

Da sowohl die Index-Spalte als auch die Kopfzeile der Tabelle bereits vielversprechend formatiert sind und es keine weiteren Daten gibt, die bereinigt werden müssen, können wir den Datensatz so weiter verwenden. 

## Beispiel Deutschland

Beispielsweise können wir die Daten in kleinere Einheiten aufteilen, um nicht zu jeder Zeit mit dem gesamten Datensatz arbeiten zu müssen. Über Ansprechen der `GeoId`-Spalte können wir die Daten für Deutschland hersausfiltern. Wir speichern die Daten entsprechend in der Variable `data_deu`.

In [68]:
data_deu = data[data.GeoId3 == "DEU"]

Nun schauen wir, welche Daten ohne Weiteres aus der vorhandenen Tabell extrahiert werden können. Zum einen können wir die Summe der bestätigten Krankheitsfälle ausgeben lassen. Zum anderen lässt sich auch die Zahl der bestätigten Todesfälle extrahieren.

In [69]:
deu_cases = data_deu.Cases.sum()
deu_cases

18323

In [70]:
deu_deaths = data_deu.Deaths.sum()
deu_deaths

45

## Test-Plot Weltkarte

Um einen sinnigen geografischen Plot zu erstellen, müssen wir sichergehen, dass das Plot-System auf dem vorhandenen Datensatz funktioniert.

Da die Daten in unserem Datensatz tageweise eingetragen sind, prüfen wir einmal das Plotten mit einem Beispiel-Tag.

In [71]:
date = pd.Timestamp(year=2020, month=3, day=21)
date

Timestamp('2020-03-21 00:00:00')

Nun wird mit dem Sub-Set des oben angegebenen Tages eine Weltkarte erstellt. Hierbei greifen wir auf die vorher erzeugten dreistelligen Länder-Codes zurück. Die Daten, die auf der Weltkarte gezeigt werden, sind die an dem angegebenen Tag bestätigten Fälle. Beim Rüberfahren mit der Maus, werden Fall-Zahl, Länder-Code und der Name des Landes angezeigt.

In [72]:
data_date = data[data['DateRep'] == date]

world_map = plotly.graph_objects.Figure(data=plotly.graph_objects.Choropleth(
    z = data_date['Cases'],
    locations = data_date['GeoId3'],
    colorscale = 'Greens',
    marker_line_width=0.2,
    colorbar_title = 'Cases',
    text = data_date['Countries and territories'],
))

world_map.update_layout(geo=dict(showframe=False, showcoastlines=False, projection_type='equirectangular'))
world_map.show()

## Funktion zum Plotten

Jetzt, da wir sichergestellt haben, dass das Plotten auf der Weltkarte wie gewünscht funktioniert, können wir eine Funktion erzeugen, die uns das Plotten im weiteren Verlauf vereinfacht.

Dabei liefern wir einen Datensatz und die Werte, die geplottet werden sollen (also `Cases` oder `Deaths`). Je nachdem, welche Werte gewählt werden, wird auch das Farbschema der Weltkarte angepasst.

In [103]:
def plot_world_map(data=data, plot_value='Cases'):
    """
    data: Datensatz, der geplottet werden soll
    plot_value: 'Cases' oder 'Deaths'
    """
    
    world_map = plotly.graph_objects.Figure(data=plotly.graph_objects.Choropleth(
        z = data[plot_value],
        locations = data['GeoId3'],
        colorscale = 'Greens' if plot_value == 'Cases' else 'Reds',
        marker_line_width=0.2,
        colorbar_title = plot_value,
        text = data['Countries and territories'],
    ))

    world_map.update_layout(geo=dict(showframe=False, showcoastlines=False, projection_type='equirectangular'))
    world_map.show()

In [108]:
date = pd.Timestamp(year=2020, month=3, day=21)
data_date = data[data['DateRep'] == date]

plot_world_map(data_date, 'Cases')
plot_world_map(data_date, 'Deaths')

## Akkumulierte Fall-Zahlen

Um eine Übersicht über die Daten zu bekommen, werden wir nun von tageweisen Datensätzen weggehen und einen Datensatz erzeugen, der alle Fälle und bestätigten Todesfälle akkumuliert wiedergibt. Dafür können wir den Datensatz 

In [106]:
data_accumulated = data.groupby(['GeoId3', 
                                 "Countries and territories"], 
                                as_index=False).sum()[['GeoId3', 
                                                       'Countries and territories', 
                                                       'Cases', 
                                                       'Deaths']]
data_accumulated

Unnamed: 0,GeoId3,Countries and territories,Cases,Deaths
0,AFG,Afghanistan,24,0
1,ALB,Albania,70,2
2,AN,Netherlands_Antilles,13,0
3,AND,Andorra,75,0
4,ARE,United_Arab_Emirates,140,0
...,...,...,...,...
170,VNM,Vietnam,87,0
171,XK,Kosovo,24,0
172,ZAF,South_Africa,205,0
173,ZMB,Zambia,2,0


## Bestätigte COVID19-Fälle

In [109]:
plot_world_map(data_accumulated, 'Cases')

## Bestätige Todesfälle von COVID19-Infizierten

In [110]:
plot_world_map(data_accumulated, 'Deaths')