<a href="https://colab.research.google.com/github/MatthiasSimons/covid-analysis/blob/main/covid_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Programmierung und Auswertung großer Datenmengen
## Analyse der Covid-19 Fallzahlen und Impfungen

# Einleitung
...

Vorgehensweise


*   Importieren
*   Bereinigen
*   Modifizieren
*   Modellieren
*   Validieren
*   Bewerten
*   Zusammenfassen

# Gliederung
CRoos Industry Standard Process for Data Mining (CRISP-DM)

1.   Business Understanding
2.   Data Understanding
3.   Data Preperation
4.   Modelling
5.   .... 



## Vorbereitung

Importieren der Bibliotheken



In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

import pycountry_convert as pc

# 1. Business Understanding
... 

# 2. Data Understanding
- zwei Datensätze über die Covid19 Fallzahlen und Impfrate (Link einfügen)

## 2.1 Importieren der Daten

In [35]:
url_fallzahlen = "https://raw.githubusercontent.com/ocaktans/Gathering-Covid-19-Data/73623b5057979a4bca4ffdf931cc29222ad7a58e/Covid-19%20Dataset.csv"
url_impfungen = "https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/vaccinations/vaccinations.csv"
fallzahlen = pd.read_csv(url_fallzahlen, sep=',')
#fallzahlen.to_csv(r"data/fallzahlen.csv")

fallzahlen.name = "Fallzahlen"
impfungen = pd.read_csv(url_impfungen, sep=',')
#impfungen.to_csv(r"data/impfungen.csv")
impfungen.name = "Impfungen"

fallzahlen.set_index(["Date"], inplace = True)
impfungen.rename(columns = {"date": "Date"}, inplace = True)
impfungen.set_index(["Date"], inplace = True)

## 2.2 Beschreibung der Daten

### Datensatz: Covid-19 Fallzahlen

Bei dem Covid-19-Data Datensatz handelt es sich um einen Datensatz der die Entwicklung der Covid-19 Fallzahlen weltweit täglich abbildet.

In [36]:
fallzahlen.head()

Unnamed: 0_level_0,Unnamed: 0,Country,Confirmed,Recovered,Deaths,Active Cases,Death Rate(%),Increase,FirstDays,day_xth,Population_1k,TenCase,Cases/1000s
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
2020-01-22,0,Afghanistan,0,0,0,0,0.0,0,2020-02-24,0,38928,2020-03-11,0.0
2020-01-23,1,Afghanistan,0,0,0,0,0.0,0,2020-02-24,0,38928,2020-03-11,0.0
2020-01-24,2,Afghanistan,0,0,0,0,0.0,0,2020-02-24,0,38928,2020-03-11,0.0
2020-01-25,3,Afghanistan,0,0,0,0,0.0,0,2020-02-24,0,38928,2020-03-11,0.0
2020-01-26,4,Afghanistan,0,0,0,0,0.0,0,2020-02-24,0,38928,2020-03-11,0.0


Der Datensatz besteht aus 14 Spalten die im folgenden kurz beschrieben werden:
- Country: Land
- Date: Datum
- Confirmed: Kumulative bestätigte Fälle
- Recovered: Kumulative Genesene Fälle
- Deaths: Kumulative Verstorbene
- Active Cases: Aktive Fälle
- Death Rate(%):
- Increase: Tägliche Steigerung der bestätigten Fälle
- FirstDays: Tag an dem der erste Fall gemeldet wurde
- day_xth: verstrichene Tage seit dem ersten gemeldeten Fall
- Population_1k: Einwohnerzahl in Tausend
- TenCase: Tag an dem Zehn Fälle gemeldet wurden
- Cases/1000s: Fälle pro Tausend Einwohner

### Datensatz: Covid-19 Impfrate

Bei diesem Datensatz handelt es sich um einen Datensatz der die Entwicklung der Covid-19 Impfungen weltweit täglich abbildet

In [37]:
impfungen.head()

Unnamed: 0_level_0,location,iso_code,total_vaccinations,people_vaccinated,people_fully_vaccinated,daily_vaccinations_raw,daily_vaccinations,total_vaccinations_per_hundred,people_vaccinated_per_hundred,people_fully_vaccinated_per_hundred,daily_vaccinations_per_million
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2021-02-22,Afghanistan,AFG,0.0,0.0,,,,0.0,0.0,,
2021-02-23,Afghanistan,AFG,,,,,1367.0,,,,35.0
2021-02-24,Afghanistan,AFG,,,,,1367.0,,,,35.0
2021-02-25,Afghanistan,AFG,,,,,1367.0,,,,35.0
2021-02-26,Afghanistan,AFG,,,,,1367.0,,,,35.0


Der Datensatz besteht aus 12 Spalten die im folgenden kurz beschrieben werden:
- location: Land
- iso_code: Kodierung des Landes
- date: Datum
- total_vaccinations: Anzahl Impfungen
- people_vaccinated: Geimpfte Personen
- people_fully_vaccinated: Vollständig geimpfte Personen
- daily_vaccinations_raw: Tägliche Impfungen (Roh)
- daily_vaccinations: Tägliche Impfungen
- total_vaccinations_per_hundred: Anzahl Impfungen auf 100 Einwohner
- people_vaccinated_per_hundred: Anzahl geimpfte Personen auf 100 Einwohner
- people_fully_vaccinated_per_hundred: Anzahl vollständig geimpfte Personen auf 100 Einwohner
- daily_vaccinations_per_million: Anzahl Impfungen auf eine Millionen Einwohner

# 3. Data Preperation
Verbesserung der Datenqualität durch:

*   Zusammenfassen zu einem Dataframe
*   Löschen von Zellen
*   Leere Zellen



## 3.1 Daten säubern

*   Prüfung und Umgang mit fehlenden Daten



In [38]:
def get_null_columns(df):
    print("Es fehlen",str(df.isnull().sum().sum()), "Einträge in", str(df.name))
    return [index for index in df.isnull().sum().index if df.isnull().sum()[index] > 0]

fallzahlen_null_columns = get_null_columns(fallzahlen)
impfungen_null_columns = get_null_columns(impfungen)
print("unvollständige Spalten in Fallzahlen",fallzahlen_null_columns)
print("unvollständige Spalten in Impfungen",impfungen_null_columns)

Es fehlen 2415 Einträge in Fallzahlen
Es fehlen 114360 Einträge in Impfungen
unvollständige Spalten in Fallzahlen ['TenCase']
unvollständige Spalten in Impfungen ['total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'daily_vaccinations_raw', 'daily_vaccinations', 'total_vaccinations_per_hundred', 'people_vaccinated_per_hundred', 'people_fully_vaccinated_per_hundred', 'daily_vaccinations_per_million']


Im Datensatz Fallzahlen fehlen nur in der Spalte "TenCase" Daten. Da die Spalte für die Auswertung nicht weiter relevant ist, wird sie gelöscht.

In [39]:
try:
    fallzahlen.drop(columns="TenCase", inplace = True, axis = 1)
except:
    print("Zelle bereits ausgeführt")

print("Es fehlen ",str(fallzahlen.isnull().sum().sum()), " Einträge in Fallzahlen")

Es fehlen  0  Einträge in Fallzahlen


Im Datensatz "Impfungen" fehlen in 9 von 12 Spalten Werte.

In [40]:
impfungen.isnull().sum()

location                                   0
iso_code                                   0
total_vaccinations                     14480
people_vaccinated                      15286
people_fully_vaccinated                18337
daily_vaccinations_raw                 17640
daily_vaccinations                       257
total_vaccinations_per_hundred         14480
people_vaccinated_per_hundred          15286
people_fully_vaccinated_per_hundred    18337
daily_vaccinations_per_million           257
dtype: int64

- unklare Datenlage in vielen Ländern
- Untersuchung wo die Datenlage am besten ist
- Auswahl der Länder mit der besten Datenlage

In [79]:
def get_continent_from_country(country):
    continents = {"AF": "Africa", 
                  "NA": "North America", 
                  "OC": "Oceania", 
                  "AN": "Antarctica", 
                  "AS": "Asia", 
                  "EU": "Europe", 
                  "SA": "South America"}
    try:
        country_code = pc.country_name_to_country_alpha2(country, cn_name_format="default")
        continent_code = pc.country_alpha2_to_continent_code(country_code)
        return continents[continent_code]
    except:
        return None

In [83]:
impfungen["location"].unique()

array(['Afghanistan', 'Africa', 'Albania', 'Algeria', 'Andorra', 'Angola',
       'Anguilla', 'Antigua and Barbuda', 'Argentina', 'Armenia', 'Aruba',
       'Asia', 'Australia', 'Austria', 'Azerbaijan', 'Bahamas', 'Bahrain',
       'Bangladesh', 'Barbados', 'Belarus', 'Belgium', 'Belize', 'Benin',
       'Bermuda', 'Bhutan', 'Bolivia', 'Bonaire Sint Eustatius and Saba',
       'Bosnia and Herzegovina', 'Botswana', 'Brazil',
       'British Virgin Islands', 'Brunei', 'Bulgaria', 'Burkina Faso',
       'Cambodia', 'Cameroon', 'Canada', 'Cape Verde', 'Cayman Islands',
       'Central African Republic', 'Chad', 'Chile', 'China', 'Colombia',
       'Comoros', 'Congo', 'Cook Islands', 'Costa Rica', "Cote d'Ivoire",
       'Croatia', 'Cuba', 'Curacao', 'Cyprus', 'Czechia',
       'Democratic Republic of Congo', 'Denmark', 'Djibouti', 'Dominica',
       'Dominican Republic', 'Ecuador', 'Egypt', 'El Salvador', 'England',
       'Equatorial Guinea', 'Estonia', 'Eswatini', 'Ethiopia', 'Europe',
 

In [62]:
locations = impfungen["location"].unique()
location_null_count = {}
for location in locations:
    null_count_abs = impfungen[impfungen["location"] == location].isnull().sum().sum()
    len_rows = len(impfungen[impfungen["location"] == location])
    len_columns = len(impfungen[impfungen["location"] == location].columns)

    null_count_rel = 100*null_count_abs/(len_rows*len_columns)

    location_null_count[location] = [null_count_abs, null_count_rel]
location_null_count = pd.DataFrame.from_dict(location_null_count, orient='index', columns=["abs. Null Values", "rel. Null Values"])
location_null_count["continent"] = location_null_count.index.map(lambda country: get_continent_from_country(country))
location_null_count["rel. Null Values"].sort_values().head(5)

Germany        0.121359
Belgium        0.203252
New Zealand    0.383772
Malaysia       0.623583
Switzerland    0.674603
Name: rel. Null Values, dtype: float64

In [87]:
location_null_count[location_null_count.index == "Africa"]

Unnamed: 0,abs. Null Values,rel. Null Values,continent
Africa,301,12.996546,


In [74]:
location_null_count[location_null_count["continent"]=="Europe"].sort_values("rel. Null Values").head()

Unnamed: 0,abs. Null Values,rel. Null Values,continent
Germany,3,0.121359,Europe
Belgium,5,0.203252,Europe
Switzerland,17,0.674603,Europe
Italy,19,0.768608,Europe
Slovenia,27,1.092233,Europe


In [70]:
location_null_count.groupby("continent").mean().sort_values("rel. Null Values")

Unnamed: 0_level_0,abs. Null Values,rel. Null Values
continent,Unnamed: 1_level_1,Unnamed: 2_level_1
Europe,408.234043,18.831871
South America,367.615385,21.65931
Asia,538.48,30.310098
North America,646.903226,36.795568
Africa,597.897959,45.004905
Oceania,564.066667,47.958266
