# DIVI Intensivregister

Enthält Daten zu den deutschen aktuellen Intensivkapazitäten.

Die Daten stehen für jeden Tag **seperat** zum Download bereit.

https://www.divi.de/divi-intensivregister-tagesreport-archiv/?limit=30&limitstart=0

## Beispiel **DIVI-Intensivregister_2020-05-15.csv**

In [1]:
import pandas as pd

df = pd.read_csv('./data/divi-intensivregister/DIVI-Intensivregister_2020-05-15.csv', parse_dates = ['daten_stand'])
df.head()

Unnamed: 0,bundesland,gemeindeschluessel,anzahl_meldebereiche,faelle_covid_aktuell,faelle_covid_aktuell_beatmet,anzahl_standorte,betten_frei,betten_belegt,daten_stand
0,1,1001,2,1,1,2,50,35,2020-05-15 09:15:00
1,1,1002,5,2,1,3,121,120,2020-05-15 09:15:00
2,1,1003,2,2,2,2,111,112,2020-05-15 09:15:00
3,1,1004,1,0,0,1,20,20,2020-05-15 09:15:00
4,1,1051,1,2,2,1,56,31,2020-05-15 09:15:00


## Download

Die Daten wurden aktuell händisch heruntergeladen und in `./data/div-intensivregister/` abgelegt.

Zunkünfitg müsste man hier einen Webcrawler bauen und die links zum Download aus der Website extrahieren und programmatisch aufrufen.

## Zusammenfassen zu einem CSV

### Imports und in das richtige Verzeichnis wechseln.

In [2]:
import os
import glob

os.chdir('./data/divi-intensivregister/')
if (os.path.isfile('divi_15_05_till_15_06.csv')):
    os.remove('divi_15_05_till_15_06.csv')

### Einlesend der Dateinamen

In [3]:
extension = 'csv'
all_filenames = [i for i in glob.glob('*.{}'.format(extension))]

### Dateinamen-Array durchlaufen und alle CSVs zusammenfassen

In [4]:
csv_array = []
rows_ges = 0

for f in all_filenames:
    csv_i = pd.read_csv(f)
    rowcount_i = len(csv_i.index)
    rows_ges += rowcount_i
    print('Read csv: ', f)
    print('Rows: ', rowcount_i)
    csv_array.append(csv_i)
    
combined_csv = pd.concat(csv_array)
combined_csv = combined_csv.sort_values('daten_stand')
print('rows_ges: ', rows_ges)

Read csv:  DIVI-Intensivregister_2020-06-02.csv
Rows:  397
Read csv:  DIVI-Intensivregister_2020-06-03.csv
Rows:  397
Read csv:  DIVI-Intensivregister_2020-06-01.csv
Rows:  394
Read csv:  DIVI-Intensivregister_2020-06-15.csv
Rows:  393
Read csv:  DIVI-Intensivregister_2020-06-14.csv
Rows:  395
Read csv:  DIVI-Intensivregister_2020-06-04.csv
Rows:  397
Read csv:  DIVI-Intensivregister_2020-06-10.csv
Rows:  397
Read csv:  DIVI-Intensivregister_2020-06-11.csv
Rows:  396
Read csv:  DIVI-Intensivregister_2020-06-05.csv
Rows:  397
Read csv:  DIVI-Intensivregister_2020-06-13.csv
Rows:  395
Read csv:  DIVI-Intensivregister_2020-06-07.csv
Rows:  397
Read csv:  DIVI-Intensivregister_2020-06-06.csv
Rows:  397
Read csv:  DIVI-Intensivregister_2020-06-12.csv
Rows:  396
Read csv:  DIVI-Intensivregister_2020-05-18.csv
Rows:  392
Read csv:  DIVI-Intensivregister_2020-05-24.csv
Rows:  395
Read csv:  DIVI-Intensivregister_2020-05-30.csv
Rows:  397
Read csv:  DIVI-Intensivregister_2020-05-31.csv
Rows:  3

In [5]:
combined_csv.head()

Unnamed: 0,bundesland,gemeindeschluessel,anzahl_meldebereiche,faelle_covid_aktuell,faelle_covid_aktuell_beatmet,anzahl_standorte,betten_frei,betten_belegt,daten_stand
99,5,5758,4,2,2,3,27,45,2020-05-15 09:15:00
125,6,6436,2,2,2,2,13,24,2020-05-15 09:15:00
126,6,6437,2,8,8,2,25,117,2020-05-15 09:15:00
127,6,6438,2,9,8,2,19,36,2020-05-15 09:15:00
128,6,6439,2,1,1,2,14,8,2020-05-15 09:15:00


In [6]:
combined_csv.tail()

Unnamed: 0,bundesland,gemeindeschluessel,anzahl_meldebereiche,faelle_covid_aktuell,faelle_covid_aktuell_beatmet,anzahl_standorte,betten_frei,betten_belegt,daten_stand
264,9,9461,4,0,0,1,34,24,2020-06-15 09:15:00
265,9,9462,5,0,0,2,15,44,2020-06-15 09:15:00
266,9,9463,1,2,2,1,6,30,2020-06-15 09:15:00
268,9,9471,1,0,0,1,6,2,2020-06-15 09:15:00
195,8,8222,5,1,1,3,17,110,2020-06-15 09:15:00


### DataFrame als CSV schreiben

In [7]:
combined_csv.to_csv( "divi_15_05_till_15_06.csv", index=False, encoding='utf-8-sig')
os.chdir('../../')

### CSV einlesen und validieren

In [8]:
dfCombined = pd.read_csv('./data/divi-intensivregister/divi_15_05_till_15_06.csv', parse_dates = ['daten_stand'])
dfCombined.head()

Unnamed: 0,bundesland,gemeindeschluessel,anzahl_meldebereiche,faelle_covid_aktuell,faelle_covid_aktuell_beatmet,anzahl_standorte,betten_frei,betten_belegt,daten_stand
0,5,5758,4,2,2,3,27,45,2020-05-15 09:15:00
1,6,6436,2,2,2,2,13,24,2020-05-15 09:15:00
2,6,6437,2,8,8,2,25,117,2020-05-15 09:15:00
3,6,6438,2,9,8,2,19,36,2020-05-15 09:15:00
4,6,6439,2,1,1,2,14,8,2020-05-15 09:15:00


In [9]:
a = dfCombined.daten_stand.value_counts().sort_index()
print('Das erste Datum:',a.index[0])
print('Das letzte Datum:',a.index[-1])
print('Expected rowCount: ', rows_ges)
print('Actual rowCount:', len(dfCombined.index))

Das erste Datum: 2020-05-15 09:15:00
Das letzte Datum: 2020-06-15 09:15:00
Expected rowCount:  12656
Actual rowCount: 12656
