# Daten aus Excel einlesen

In [4]:
import pandas as pd
import matplotlib.pyplot as plt

import os


pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 100)

Wenn man Daten anfragt, bekommt man neben .csv auch oft Excel-Files geschickt.
Das einlesen der Daten ist ähnlich wie bei .csvs. 

Zwei Dinge sind zu beachten:
1. Für die Arbeit mit Excel-daten benötigt pandas zusätzlich das Paket 'xlrd. Das muss ggf. noch installiert werden. (Hier ist das schon passiert.)
2. Excel-Files enthalten meist mehrere Tabellenblätter. Beim einlesen musst du angeben, welches Blatt (sheet_name) eingeladen werden soll. 

In [5]:
df_2015 = pd.read_excel("./data/KHV_2015.xlsx", sheet_name = "KHV_2015", skiprows= 4)

In [8]:
df_2015.sample()

Unnamed: 0,Land,Kreis,Gemeinde,Name1,Name2,Name3,Name4,Straße/Hausnr,PLZ,Ort,Telefonvorwahl/-nummer,Telefaxvorwahl/-nummer,E-Mail Adresse,Internetadresse,Traeger,T_Name1,T_Name2,T_Name3,T_Name4,Art,Betten_Ins,Augen,Chirurgie,CH_Gefäßchir,CH_Thorax,...,K_Kardiologie,K_Neonatologie,Kinderpsychiat,Mund_Kiefer,Neurochir,Neurologie,Nuklear,Ortho,O_Rheuma,Plast_Chir,Psychiat,Psychiat_Sucht,Psychotherapeut,Strahlen,Urologie,Sonst,TN_Innere,TN_I_Geriatrie,TN_Kinderpsychiat,TN_Psychiat,TN_Psychotherapeut,TN_Sonst,TN_SUM,Änd_Art,Änd_Detail
524,5,558,12,Christophorus-Kliniken,,,,Südring 41,48653,Coesfeld,02541 89-0,02541 89-13509,info@christophorus-kliniken.de,www.christophorus-kliniken.de,4,Christophorus-Kliniken GmbH,,,,2,620,2,151,-,-,...,-,12,-,-,-,35,-,-,-,-,-,-,-,-,-,-,-,12,-,-,-,-,12,,


In [10]:
df_2015.columns

Index(['Land', 'Kreis', 'Gemeinde', 'Name1', 'Name2', 'Name3', 'Name4',
       'Straße/Hausnr', 'PLZ', 'Ort', 'Telefonvorwahl/-nummer',
       'Telefaxvorwahl/-nummer', 'E-Mail Adresse', 'Internetadresse',
       'Traeger', 'T_Name1', 'T_Name2', 'T_Name3', 'T_Name4', 'Art',
       'Betten_Ins', 'Augen', 'Chirurgie', 'CH_Gefäßchir', 'CH_Thorax',
       'CH_Unfall', 'CH_Viszeral', 'Frauen/Geburt', 'F-Frau', 'F_Geburt',
       'HNO', 'Haut_Geschlecht', 'Herzchir', 'Herz_Thorax', 'Innere',
       'I_Angio', 'I_Endo', 'I_Gastro', 'I_Haema', 'I_Kardio', 'I_Nephro',
       'I_Pneumo', 'I_Rheuma', 'Geriatrie', 'Kinderchir', 'Kinderhk',
       'K_Kardiologie', 'K_Neonatologie', 'Kinderpsychiat', 'Mund_Kiefer',
       'Neurochir', 'Neurologie', 'Nuklear', 'Ortho', 'O_Rheuma', 'Plast_Chir',
       'Psychiat', 'Psychiat_Sucht', 'Psychotherapeut', 'Strahlen', 'Urologie',
       'Sonst', 'TN_Innere', 'TN_I_Geriatrie', 'TN_Kinderpsychiat',
       'TN_Psychiat', 'TN_Psychotherapeut', 'TN_Sonst', 'TN_S

In [11]:
df_2015 = df_2015[['Land', 'Kreis', 'Gemeinde', 'Name1', 'Ort', 'Traeger', 'T_Name1', 'Art', 'Betten_Ins']]

In [12]:
df_2015['Jahr'] = '2015'

In [15]:
df_2015.sample(3)

Unnamed: 0,Land,Kreis,Gemeinde,Name1,Ort,Traeger,T_Name1,Art,Betten_Ins,Jahr
1477,9,772,200,gKU Wertachkliniken,Schwabmünchen,2,Gemeinsames Kommunalunternehmen,2,132,2015
1401,9,564,0,Wallenstein Klinik GmbH,Nürnberg,5,Wallenstein Klinik GmbH,4,6,2015
329,5,111,0,Medical Center Düsseldorf,Düsseldorf,5,TG Grand Arc Träger-,3,41,2015


### Welche journalistischen Fragen habt ihr an den Datensatz?

Manchmal hilft es, einen Datensatz zu befragen, wie man eine Interview-Partner*in befragt

Welche Fragen habt ihr an den Krankenhäuser-Datensatz? 

#### Fragen gesamt und NRW:

- wieviele Kliniken je Träger gibt es?
- wer sind die größten Klinikbetreiber?
- wieviele Unikliniken sind Privat?
- wieviele Betten privat und öffentlich?

#### Ländervergleich:

- meiste private Träger? 
- Karte: Cluster mit privaten?
- Betten/Einwohner
- Ost/West Vergleich

## Richtig spannend ist der Zeitverlauf

Um einen großen Datensatz zu erzeugen, der Veränderungen über die Jahre preisgibt, müssen wir mehrere Jahre einlesen. 
Problem oft: Je älter die Daten werden, desto größer die Wahrscheinlichkeit, dass sich die Datensätze über die Jahre verändert haben.


Wenn alle .xls-Dateien gleich aufgebaut wären, könnten wir eine Funktion schreiben, die alle Datensätze einliest und miteinander verknüpft.

Schau dir unter ./data mal die 'KHV_' - Dateien an:

- alle beginnen mit 'KHV_', gefolgt vom Jahr
- es gibt drei verschiedene Formate .xls, .XLS, .xlsx
- 1992 heißt das Datenblatt nach dem wir suchen 'KHV'
- 1995 heißt es KH
- 2003 bis 2005 gibt es ein Datenblatt 'KHV', immer als 5. Blatt im Dokument
- 2015 heißt das Datenblatt 'KHV_2015' und ist ebenfalls das 5. Blatt im Dokument

### Die Rohdaten sind lava!
Die Versuchung ist groß, mal eben die Ungleichheiten händisch in den Excel-Files zu bereinigen.
Diese Änderungen würden aber unsere Datenquelle verändern und wären nicht dokumentiert, also schwer wiederholbar für die Abnahme oder auch für die Leser*innen.

Entsprechend wählen wir einen halbautomatisierten, dokumentierten Weg im Jupyter Notebook:

In [16]:
# Alle Dateien anzeigen, die im Ordner 'data' liegen
path = './data'
files = os.listdir(path)
files

['12611-0001_flat.csv',
 'KHV_2003.xls',
 'bearb_eheschliessungen.csv',
 'KHV_2015.xlsx',
 'fictional_persons.json',
 'datenguide-export-Statistik-der-Kaufwerte-für-Bauland-Nordrhein-Westfalen.json',
 '12511-0007_flat.csv',
 'meine_habil.csv',
 'KHV_2004.xls',
 'nrw_data.json',
 'durchschnittsalter_nrw_gemeinden.csv',
 'KHV_2005.xls',
 'datenguide-export-Statistik-der-Kaufwerte-für-Bauland-Nordrhein-Westfalen.csv',
 'nrw_gemeinden.json',
 'KHV_1992.xls',
 'habil.csv',
 '.~lock.KHV_1995.XLS#',
 'jannes.json',
 'KHV_1995.XLS',
 '.ipynb_checkpoints',
 '21351-0002_flat.csv',
 '61511-01-03-4.csv',
 'eheschliessungen.csv',
 'umfrage_schulleiter.csv']

In [17]:
# Die Dateien in einer Liste speichern, die mit 'KHV_' anfangen
files_xls = [f for f in files if 'KHV_' in f]
files_xls.sort()
files_xls

['.~lock.KHV_1995.XLS#',
 'KHV_1992.xls',
 'KHV_1995.XLS',
 'KHV_2003.xls',
 'KHV_2004.xls',
 'KHV_2005.xls',
 'KHV_2015.xlsx']

Um die Datensätze einzulesen, gehen wir jahrweise vor:

#### 1992

In [18]:
df_1992 = pd.read_excel('./data/KHV_1992.xls', dtype='object')

In [22]:
df_1992.sample()

Unnamed: 0,Land,Kreis,Gemeinde,Name1,Ort,Traeger,T_Name1,Art,Betten_Ins
44,1,54,56,Kreiskrankenhaus Husum,Husum,1,Landkreis Nordfriesland,2,297


In [23]:
df_1992.columns

Index(['Land', 'Kreis', 'Gemeinde', 'Name1', 'Ort', 'Traeger', 'T_Name1',
       'Art', 'Betten_Ins'],
      dtype='object')

In [24]:
# Spalten so umbenennen, das sie dem Standard der späteren Jahre entsprechen
df_1992 = df_1992.rename(columns={'LAND': 'Land', 'KREIS': 'Kreis', 'GEMEINDE': 'Gemeinde', 'NAME1': 'Name1', 'ORT': 'Ort', 'TRAEGER': 'Traeger', 'NAMET1': 'T_Name1', 'ART':'Art', 'BETTEN_I': 'Betten_Ins'})

In [25]:
# Benötigte Spalten auswählen
df_1992 = df_1992[['Land', 'Kreis', 'Gemeinde', 'Name1', 'Ort', 'Traeger', 'T_Name1', 'Art', 'Betten_Ins']]

Es fehlt noch eine Spalte 'Jahr', in der das jeweilige Jahr aus dem Dateinamen eingetragen wird.

Die Jahre können wir automatisch aus den Zahlen in den Dateinamen auslesen. 

Das Modul re ermöglicht nach regulären Ausdrücken zu suchen: Zum Beispiel alle Zahlen in einem String zu finden. 

Beispiele für reguläre Ausdrücke (RegEx):

**Regular Expression Character Classes**
- [ab-d]	One character of: a, b, c, d
- [^ab-d]	One character except: a, b, c, d
- [\b]	Backspace character
- \d	One digit
- \D	One non-digit
- \s	One whitespace
- \S	One non-whitespace
- \w	One word character
- \W	One non-word character

**Regular Expression Quantifiers**
- *	0 or more
- +	1 or more
- ?	0 or 1
- {2}	Exactly 2
- {2, 5}	Between 2 and 5
- {2,}	2 or more
- (,5}	Up to 5

In [26]:
import re

In [27]:
teststring = 'KHV_1992.xls'

In [28]:
# Mit (\d) findest Du Zahlen in deinem Teststring, das + gibt an, dass wir mehr als eine Zahl suchen.
re.search(r'\d+', teststring).group(0)

'1992'

In [29]:
# Damit wir nochher mehrere Excel-Dateien auf einmal verarbeiten können, schreiben wir eine Funktion, die jeweils das Jahr zurückgibt:
def get_numbers_from_filename(filename):
    return re.search(r'\d+', filename).group(0)

In [30]:
# Funktion testweise ausführen
get_numbers_from_filename("KHV_1992.xls")

'1992'

In [47]:
# Spalte 'Jahr' setzen
df_1992["Jahr"] = get_numbers_from_filename("KHV_1992.xls")

In [48]:
df_1992.sample()

Unnamed: 0,Land,Kreis,Gemeinde,Name1,Ort,Traeger,T_Name1,Art,Betten_Ins,year,Jahr
143,2,0,0,Krankenhaus Tabea,Hamburg,3,Krankenhaus Tabea GmbH,3,125,1992,1992


### 1995

Für 1995 müssen wir ähnliche, aber leider nicht exakt dieselben Schritte ausführen:

In [49]:
# Einlesen, diesmal mit sheet_name, da das Blatt, welches wir haben wollen, nicht das erste ist. 
df_1995 = pd.read_excel('./data/KHV_1995.XLS', sheet_name='KH', dtype='object')

In [34]:
# Spalten so umbenennen, das sie dem Standard der späteren Jahre entsprechen
df_1995 = df_1995.rename(columns={'LAND': 'Land', 'KREIS': 'Kreis', 'GEMEINDE': 'Gemeinde', 'NAME1': 'Name1', 'ORT': 'Ort', 'TRAEGER': 'Traeger', 'NAMET1': 'T_Name1', 'ART':'Art', 'BETTEN_I': 'Betten_Ins'})

In [35]:
# Benötigte Spalten auswählen
df_1995 = df_1995[['Land', 'Kreis', 'Gemeinde', 'Name1', 'Ort', 'Traeger', 'T_Name1', 'Art', 'Betten_Ins']]

In [36]:
# Jahr
df_1995["Jahr"] = get_numbers_from_filename("KHV_1995.XLS")

In [37]:
df_1995.sample()

Unnamed: 0,Land,Kreis,Gemeinde,Name1,Ort,Traeger,T_Name1,Art,Betten_Ins,Jahr
1367,8,27,46,Kreiskrankenhaus Spaichingen,Spaichingen,1,Landkreis Tuttlingen,2,139,1995


### 2003 - 2005

2003 bis 2005 können wir in einem einlesen 

In [38]:
filenames = [
 './data/KHV_2003.xls',
 './data/KHV_2004.xls',
 './data/KHV_2005.xls',]

In [39]:
df_from_each_file = []

for file in filenames:
    data = pd.read_excel(file, sheet_name=4, dtype='object')
    data["Jahr"] = get_numbers_from_filename(file)
    data = data[['Land', 'Kreis', 'Gemeinde', 'Name1', 'Ort', 'Traeger', 'T_Name1', 'Art', 'Betten_Ins', 'Jahr']]
    df_from_each_file.append(data)

Hast Du gemerkt, dass wir diesmal 'sheet_name=4' gesetzt haben?
Das suchst das 5. Datenblatt heraus, denn Python fängt mit dem Zählen bei 0 an.

In [40]:
df_2003_2005 = pd.concat(df_from_each_file, ignore_index=True)

In [41]:
df_2003_2005.sample()

Unnamed: 0,Land,Kreis,Gemeinde,Name1,Ort,Traeger,T_Name1,Art,Betten_Ins,Jahr
1586,9,372,144,Spezialklinik,Neukirchen b. Hl. Blut,5,Dr. rer. nat. Gruia Ionescu,3,140,2003


In [42]:
# Immerhin 6369 Zeilen in einem eingelesen 
len(df_2003_2005)

6369

### Jetzt bringen wir alles zusammen

In [43]:
dfs = [df_1992, df_1995, df_2003_2005, df_2015]

In [44]:
df = pd.concat(dfs, ignore_index=True)

In [45]:
df.shape

(12878, 11)

In [46]:
df.sample()

Unnamed: 0,Land,Kreis,Gemeinde,Name1,Ort,Traeger,T_Name1,Art,Betten_Ins,year,Jahr
1684,9,71,113,Kreiskrankenhaus,Auerbach,1,Landkreis Amberg-Sulzbach,2,80,1992,
