# MC COVID-19

## 1. Ausgangslage

Eine Kommission beim Bund möchte untersuchen, ob die Schweiz während der Corona-Pandemie richtig
vorgegangen ist und was insbesondere das Verbesserungspotential ist. Dabei soll auch mit den Strategien anderer
Länder verglichen werden und vor allem auch, wie sich die Strategien dann auf die Fallzahlen ausgewirkt haben.

Du bist neu Data Scientist beim Bundesamt für Gesundheit und sollst die entsprechenden Länderdaten in einer
aufbereiteten Form zur Verfügung stellen und dein Vorgehen in einem Jupyter Notebook dokumentieren.

Du entscheidest dich dazu, die international erfassten Fallzahlen der John Hopkins - Universität zu verwenden.
Die zwischen dem 22.01.2020 und 09.03.2023 erfassten Daten sind entweder direkt als Zip-Datei hier oder auf
Github (https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports) verfügbar.

In [1]:
import pandas as pd
import zipfile
from tqdm import tqdm
import os

## 2. Aufgabenstellung

### 2.1. Daten einlesen
Lies alle CSV-Dateien in ein gemeinsames Dataframe ein und definiere aus dem jeweiligen Dateinamen
eine entsprechende Datumspalte. Achte ein wenig auf Effizienz, da du möglicherweise die CSVs noch ein
paarmal einlesen musst, wenn du Fehler bemerkst. Zum besseren Verständnis des Einlesefortschritt kann
es Sinn machen, diesen mit einer Progress-Bar darzustellen. Gib am Schluss die Grösse deines Dataframes
in MB aus.

In [2]:
# Pfad zum ZIP-Ordner
zip_path = './data/csse_covid_19_daily_reports.zip'

# Liste der CSV-Dateien im ZIP-Ordner erstellen
with zipfile.ZipFile(zip_path, 'r') as z:
    csv_files = [f for f in z.namelist() if f.endswith('.csv')]
                
dfs = [
    pd.read_csv(z.open(file)).assign(Date=pd.to_datetime(os.path.basename(file)[:-4]))
    for file in tqdm(csv_files)
    for z in [zipfile.ZipFile(zip_path, 'r')]
]
        
#Zusammenführen der Dataframes
final_df = pd.concat(dfs, ignore_index=True)

# Grösse des Dataframes in MB ausgeben
print(final_df.memory_usage(deep=True).sum() / (1024**2), "MB")

100%|██████████| 1143/1143 [00:17<00:00, 64.65it/s]


2222.0618209838867 MB


In [3]:
# Eingelesene Dateien anzeigen
final_df.head()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,...,Incident_Rate,Case_Fatality_Ratio,Date,Province/State,Country/Region,Last Update,Latitude,Longitude,Incidence_Rate,Case-Fatality_Ratio
0,,,,Afghanistan,2021-01-02 05:22:33,33.93911,67.709953,52513.0,2201.0,41727.0,...,134.896578,4.191343,2021-01-01,,,,,,,
1,,,,Albania,2021-01-02 05:22:33,41.1533,20.1683,58316.0,1181.0,33634.0,...,2026.409062,2.025173,2021-01-01,,,,,,,
2,,,,Algeria,2021-01-02 05:22:33,28.0339,1.6596,99897.0,2762.0,67395.0,...,227.809861,2.764848,2021-01-01,,,,,,,
3,,,,Andorra,2021-01-02 05:22:33,42.5063,1.5218,8117.0,84.0,7463.0,...,10505.403482,1.034865,2021-01-01,,,,,,,
4,,,,Angola,2021-01-02 05:22:33,-11.2027,17.8739,17568.0,405.0,11146.0,...,53.452981,2.305328,2021-01-01,,,,,,,


In [4]:
final_df.tail()

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,...,Incident_Rate,Case_Fatality_Ratio,Date,Province/State,Country/Region,Last Update,Latitude,Longitude,Incidence_Rate,Case-Fatality_Ratio
4287468,,,,West Bank and Gaza,2023-01-01 04:21:00,31.9522,35.2332,703228.0,5708.0,,...,13784.956961,0.811686,2022-12-31,,,,,,,
4287469,,,,Winter Olympics 2022,2023-01-01 04:21:00,39.9042,116.4074,535.0,0.0,,...,,0.0,2022-12-31,,,,,,,
4287470,,,,Yemen,2023-01-01 04:21:00,15.552727,48.516388,11945.0,2159.0,,...,40.048994,18.074508,2022-12-31,,,,,,,
4287471,,,,Zambia,2023-01-01 04:21:00,-13.133897,27.849332,334425.0,4024.0,,...,1819.113362,1.203259,2022-12-31,,,,,,,
4287472,,,,Zimbabwe,2023-01-01 04:21:00,-19.015438,29.154857,259981.0,5637.0,,...,1749.191125,2.168235,2022-12-31,,,,,,,


In [5]:
final_df.describe()

Unnamed: 0,FIPS,Lat,Long_,Confirmed,Deaths,Recovered,Active,Incident_Rate,Case_Fatality_Ratio,Date,Latitude,Longitude,Incidence_Rate,Case-Fatality_Ratio
count,3500605.0,4183379.0,4183379.0,4287445.0,4287040.0,1459033.0,1449620.0,3338655.0,3379940.0,4287473,5492.0,5492.0,630067.0,633552.0
mean,32288.77,35.77816,-71.60353,73916.75,1030.858,16152.05,7469.313,17008.7,2.749843,2021-09-20 21:44:20.716090624,26.743089,11.701253,1206.610504,2.731899
min,60.0,-71.9499,-178.1165,-302844.0,-178.0,-854405.0,0.0,0.0,0.0,2020-01-22 00:00:00,-71.9499,-175.1982,0.0,0.0
25%,19041.0,33.21928,-96.57264,787.0,11.0,0.0,53.0,8416.711,1.002141,2020-12-29 00:00:00,12.8797,-73.936,237.369631,0.365356
50%,30057.0,37.89202,-86.84518,3713.0,57.0,0.0,459.0,15238.32,1.479933,2021-09-22 00:00:00,33.882,15.2,722.714117,1.573427
75%,47029.0,42.13299,-77.5868,15942.0,222.0,0.0,2219.0,25545.54,2.089687,2022-06-16 00:00:00,42.5063,101.9424,1707.893004,3.367876
max,99999.0,71.7069,178.065,38618510.0,186138.0,6399531.0,5658278.0,2164022.0,29600.0,2023-03-09 00:00:00,72.0,178.065,18082.002457,5500.0
std,17944.19,13.30024,54.74829,585016.4,6403.964,133059.2,78884.13,11069.73,65.66548,,23.589065,88.202145,1390.766749,19.261965


In [6]:
final_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4287473 entries, 0 to 4287472
Data columns (total 22 columns):
 #   Column               Dtype         
---  ------               -----         
 0   FIPS                 float64       
 1   Admin2               object        
 2   Province_State       object        
 3   Country_Region       object        
 4   Last_Update          object        
 5   Lat                  float64       
 6   Long_                float64       
 7   Confirmed            float64       
 8   Deaths               float64       
 9   Recovered            float64       
 10  Active               float64       
 11  Combined_Key         object        
 12  Incident_Rate        float64       
 13  Case_Fatality_Ratio  float64       
 14  Date                 datetime64[ns]
 15  Province/State       object        
 16  Country/Region       object        
 17  Last Update          object        
 18  Latitude             float64       
 19  Longitude            

### 2.2. Relevantes Subset aus Spalten extrahieren

Extrahiere die für deine Problemstellung relevanten Spaltennamen: Datum, Land, Provinz, Anzahl
bestätigte Fälle, Anzahl Todesfälle. Gib am Schluss wiederum die Grösse des resultierenden Dataframes
in MB aus.

Hinweise:
• Die Spalte mit den Genesenen lassen wir weg, die scheint nicht sehr verlässlich zu sein.
• Achtung, anscheinend hat sich über die Monate eine Konvention geändert, die Spalten für Land
und Provinz kommen in zwei verschiedenen Varianten vor. Lasse vorerst mal beide Varianten im
Dataframe, du wirst sie dann weiter unten zusammenführen.

In [7]:
# Subset erstellen mit den Spalten Date, Province_State, Country_Region, Province/State, Country/Region, Confirmed, Deaths
subset_df = final_df.iloc[:, [14,3,16,2,15,7,8]]
print(subset_df.memory_usage(deep=True).sum() / (1024**2), "MB")

866.34130859375 MB


In [8]:
subset_df.head()

Unnamed: 0,Date,Country_Region,Country/Region,Province_State,Province/State,Confirmed,Deaths
0,2021-01-01,Afghanistan,,,,52513.0,2201.0
1,2021-01-01,Albania,,,,58316.0,1181.0
2,2021-01-01,Algeria,,,,99897.0,2762.0
3,2021-01-01,Andorra,,,,8117.0,84.0
4,2021-01-01,Angola,,,,17568.0,405.0


Das Subset wird in ein csv-File gespeichert. Die Weiterarbeit erfolgt mir R.

In [9]:
# das gekürzte Data Frame als csv speichern
subset_df.to_csv('COVID19_SHORT.csv', sep=',', header=True, index=False, quotechar='"', na_rep='NA')