## Erste Analyse der MedReg Daten über Psychiater
In diesem Notebook sollen die bereigten Daten aus dem Notenook [MedReg_Analyse_01_Bereinigen](MedReg_Analyse_01_Bereinigen.ipynb) einer ersten Analyse unterzogen werden. 
Im Hinblick auf den Beitrag in der «PULS»-Sendung vom 17.2.2020 sollen die im [csv-File]( http://localhost:8888/edit/Desktop/CAS_DJ/MedReg/MedReg%20Scraping%202020/medreg_2020_psych_20200121.csv) abgelegten «dreckigen» Daten zuerst folgenden, (hoffentlich) einfacheren Analysen unterzogen werden:

1. Stand der Facharztabschlüsse und Nationalität per Ende 2019 (auf Basis von Land Medizinsudium und der direkten Anerkennungen ausländischer Facharzttiteln
2. Aussagen über die Nationalität bzw. Studienort der anerkannten Weiterbildungstitel
4. Anteil aller Psychiater mit ausländischer Herkunft per Ende 2019


In weiteren Analysen sollen später auch Fragen untersucht werden, wie:

5. Entwicklung Gesamtanteil über die Jahre, bis Ende 2019
6. Entwicklung Anteil der Anerkennung (sprich: Neuzulassung) per Jahresende, über die Jahre, bis Ende 2019
7. regionale Aussagen über die Tätigkeitsorte (Adresse der Bewilligung) wie zum Beispiel:
  - Vergleich zur Kantonsbevölkerung? (aussagekräftig?)
  - Städtische Gebiete, ländliche Gebiete? (aufwändig)
  - Grossstädte vs. landliche Zentren?

In [1]:
import pandas as pd
import re
import numpy as np
import datetime

In [67]:
df = pd.read_csv('medreg_2020_psych_20200125.csv')

In [68]:
df.head(3)

Unnamed: 0.1,Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei
0,0,552,"Poleski, Alexander",m,"Chemin des Allières 1,1012 Lausanne,VD",1012 Lausanne,Schweiz (CH),Französisch,1985,Schweiz,,1986,Schweiz,,"Waadt (1986), aktiv, MedBG, pri...",Erteilt,medreg_552.html
1,1,566,"Langegger, Florian",m,"Seestrasse 22,8592 Uttwil,TG",8592 Uttwil,Schweiz (CH),Deutsch,1985,Schweiz,,1985,Schweiz,,"Thurgau (2017), aktiv, MedBG, p...",Erteilt,medreg_566.html
2,2,590,"Rivera Prada, Jaime",m,Kein Eintrag,,Schweiz (CH),Französisch,1985,Schweiz,,1987,Schweiz,,"Wallis (2014), inaktiv, Unbekannt",Erteilt,medreg_590.html


Zuerst interessiert uns aber noch die Frage, wieviele in der Datenbank im Jahr 2020 bereits aufgenommen wurden. Da wir nur die Daten bis Ende 2019 auswerten wollen, müssen wir diese Personen in einem zweiten Schritt ausschliessen. 


In [41]:
df[df['PP_Anerkennung'] == 2020]

Unnamed: 0.1,Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei
4699,4699,81218,"Olszewski, Konrad Stanislaw",m,Kein Eintrag,,Deutschland (DE),Deutsch,2013,Deutschland,2013.0,2019,Deutschland,2020.0,Kein Eintrag,Kein Eintrag,medreg_81218.html
5232,5232,98760,"Kostov, Christian Stoyanov",m,"Seeblickstrasse 3,8596 Münsterlingen,TG",8596 Münsterlingen,Bulgarien (BG),Deutsch,1995,Bulgarien,2017.0,2011,Deutschland,2020.0,"Thurgau (2017), aktiv, Kt. Rech...",Erteilt,medreg_98760.html
5399,5399,109949,"Lupu, Madalina-Carmen",w,Kein Eintrag,,Rumänien (RO),,2006,Rumänien,2019.0,2012,Rumänien,2020.0,Kein Eintrag,Kein Eintrag,medreg_109949.html
5433,5433,113811,"Noller, Silvia-Corina",w,Kein Eintrag,,Deutschland (DE),"Deutsch, Französisch",1985,Rumänien,2020.0,2001,Deutschland,2020.0,Kein Eintrag,Kein Eintrag,medreg_113811.html
5434,5434,113880,"Fehr, Monika Hildegard",w,Kein Eintrag,,Deutschland (DE),Deutsch,1987,Deutschland,2020.0,1995,Deutschland,2020.0,Kein Eintrag,Kein Eintrag,medreg_113880.html
5435,5435,113887,"Schneider, Hannah Adelheid",w,Kein Eintrag,,Deutschland (DE),Deutsch,2013,Deutschland,2020.0,2019,Deutschland,2020.0,Kein Eintrag,Kein Eintrag,medreg_113887.html
5436,5436,113984,"Alexanian, Jean-Baptiste Hemayak",m,Kein Eintrag,,Frankreich (FR),Französisch,2013,Frankreich,2020.0,2013,Frankreich,2020.0,Kein Eintrag,Kein Eintrag,medreg_113984.html


Es sind also 3 Psychiater und 4 Psychiater, deren Titel 2020 bereits bis Mitte Januar anerkannt worden sind. 
Wir schliessen diese Daten aus:

In [69]:
df = df[~(df['PP_Anerkennung'] == 2020)]

In [70]:
len(df)

5430

In [71]:
df.head(3)

Unnamed: 0.1,Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei
0,0,552,"Poleski, Alexander",m,"Chemin des Allières 1,1012 Lausanne,VD",1012 Lausanne,Schweiz (CH),Französisch,1985,Schweiz,,1986,Schweiz,,"Waadt (1986), aktiv, MedBG, pri...",Erteilt,medreg_552.html
1,1,566,"Langegger, Florian",m,"Seestrasse 22,8592 Uttwil,TG",8592 Uttwil,Schweiz (CH),Deutsch,1985,Schweiz,,1985,Schweiz,,"Thurgau (2017), aktiv, MedBG, p...",Erteilt,medreg_566.html
2,2,590,"Rivera Prada, Jaime",m,Kein Eintrag,,Schweiz (CH),Französisch,1985,Schweiz,,1987,Schweiz,,"Wallis (2014), inaktiv, Unbekannt",Erteilt,medreg_590.html


In [72]:
df.to_csv(r'medreg_2020_psych_b2019_20200126.csv',index = True, header=True)

### 1. Stand der Facharztabschlüsse und Nationalität per Ende 2019
Bereits für diese Fragestellung können wir mit den vorhandenen Daten mehrere Antworten liefern. 
Zum Beispiel: welche Staatsbürgerschaft haben die eingetragenen Psychiaterinnen und Psychiater? In welchem Land haben Sie ihr Medizin-Grundstudium absolviert?

Wir untersuchen die Daten zuerst bezüglich Nationalität:

In [59]:
df_nat = df['Nationalität'].value_counts()

In [61]:
df_nat = df_nat.reset_index()

In [62]:
df_nat = df_nat.rename(columns = {'index':'Nation', 'Nationalität':'Anzahl'})
df_nat

Unnamed: 0,Nation,Anzahl
0,Schweiz (CH),2943
1,Deutschland (DE),1365
2,Frankreich (FR),356
3,Italien (IT),189
4,Österreich (AT),163
5,Griechenland (GR),73
6,Spanien (ES),66
7,Rumänien (RO),44
8,Belgien (BE),35
9,Niederlande (NL),15


In [63]:
df_nat['Anteil'] = df_nat['Anzahl'] / 5430 * 100

In [64]:
df_nat

Unnamed: 0,Nation,Anzahl,Anteil
0,Schweiz (CH),2943,54.198895
1,Deutschland (DE),1365,25.138122
2,Frankreich (FR),356,6.556169
3,Italien (IT),189,3.480663
4,Österreich (AT),163,3.001842
5,Griechenland (GR),73,1.344383
6,Spanien (ES),66,1.21547
7,Rumänien (RO),44,0.810313
8,Belgien (BE),35,0.644567
9,Niederlande (NL),15,0.276243


In [65]:
df_nat.to_csv(r'Psych_Nation_all_bis2019.csv',index = 'Nation', header=True)

### Resultat 1: Nationalität aller registrierten Psychiaterinnen und Psychiater
Erkenntnis: 54.2% aller registrierten Ärzte mit einem Weiterbildungstitel *Psychiaterie und Psychotherapie* sind Schweizer. Rund ein Viertel sind deutscher Nationalität. Weitere 10% sind Franzosen oder Italiener. Die Aussagekraft dieser Zahlen wird dadurch etwas eingeschränkt, da sich vermutlich viele Ärzte, die länger hier tätig sind, einbürgern lassen.

Im nächsten Schritt werten wir die Daten aller Einträge mit erteilter Berufsausübungsbewilligung (BAB) aus. Allerdings ist es denkbar, dass auch Ärzte ohne erteilte Berufsausübungsbewilligung in unselbstständiger Tätigkeit an Institutionen oder in delegierter Form tätig sind. In der Tendenz bildet die BAB wohl noch mehr die Tätigkeit als niedergelassener Arzt ab, auch wenn weder die Berufsausübungsbewilligung noch die Anerkennung des Diploms direkt aussagen, ob und in welchem Umfang die Tätigkeit als Psychiaterin, Psychiater auch tatsächlich ausgeübt werden. 

In [76]:
df = pd.read_csv('medreg_2020_psych_b2019_20200126.csv')

In [77]:
df_bab = df[df['BAB Status'] == 'Erteilt']

In [78]:
len(df_bab)

4427

Wir haben also 4427 Ärztinnen und Ärzte gefunden mit erteilter BAB (bis 31.12.2019)

In [80]:
df_bab_nat = df_bab['Nationalität'].value_counts()

In [81]:
df_bab_nat = df_bab_nat.reset_index()

In [83]:
df_bab_nat = df_bab_nat.rename(columns = {'index':'Nation', 'Nationalität':'Anzahl'})

In [84]:
df_bab_nat['Anteil'] = df_bab_nat['Anzahl'] / 4427 * 100

In [85]:
df_bab_nat

Unnamed: 0,Nation,Anzahl,Anteil
0,Schweiz (CH),2646,59.769596
1,Deutschland (DE),979,22.114299
2,Frankreich (FR),228,5.150215
3,Österreich (AT),129,2.913937
4,Italien (IT),125,2.823583
5,Griechenland (GR),57,1.287554
6,Spanien (ES),50,1.129433
7,Rumänien (RO),35,0.790603
8,Belgien (BE),27,0.609894
9,Portugal (PT),8,0.180709


In [86]:
df_bab_nat.to_csv(r'Psych_Nation_bab_bis2019.csv',index = 'Nation', header=True)

#### Resultat 2: 60% mit erteilter Berufsbewilligung haben Schweizer Pass
Das Resultat: mit erteilter Berufsausübungsanteil steigt der Anteil an Schweizern auf 60%. Deutsche sind hier mit 22% vertreten. Die restlichen 18% verteilen sich auf 65 Nationalitäten. 

### 2. Herkunft nach Studienabschluss
Wer hat wo sein Arztstudium gemacht, und wurde der Facharzttitel in der Schweiz gemacht oder direkt anerkannt? 

Die Antworten auf diese Fragen haben eine höhere Aussagekraft als die Nationalität der registrierten Arztpersonen. Sie lassen bessere Rückschlüsse darauf zu, wieviele Ärzte ins Schweizer Gesundheitssystem immigriert sind. Dabei verwässern keine späteren Einbürgerungen die Zahlen, noch die Möglichkeit, dass in der Schweiz aufgewachsene ausländische Personen hier ihr Studium absolviert haben (aber Sprache und Kultur gut kennen). 

Diese Zahlen sollen detaillierter ausgewertet werden. Dabei geht es insbesondere auch darum, den Entwicklung über einzelnen Jahre zu erfassen. 

Zuerst schauen wir uns die Daten aller erfassten Psychiatrie-Spezialisten an:

In [87]:
df = pd.read_csv('medreg_2020_psych_b2019_20200126.csv')

## Problem entdeckt: einige Werte in der Spalte PP_Jahr haben den Wert 0!

Einige Daten wurden offenbar beim Parsing nicht richtig zugeordnet. Wir kontrollieren und korrigieren. 

In [109]:
df = pd.read_csv('medreg_2020_psych_20200125.csv')

In [114]:
df[df['PP_Jahr'] == 0]

Unnamed: 0.1,Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei
449,449,6610,"Clerc, Marie-Thérèse Antoinette",w,"Rue du Bugnon 46,1011 Lausanne,VD",1011 Lausanne,Schweiz (CH),Französisch,1995,Schweiz,,0,,,"Waadt (2013), aktiv, MedBG, pri...",Kein Eintrag,medreg_6610.html
590,590,8784,"Masdea, Gianfranco",m,"L'Hôpital 140,1633 Marsens,FR",1633 Marsens,Schweiz (CH),Französisch,1997,Schweiz,,0,,,"Freiburg (2017), aktiv, MedBG, ...",Kein Eintrag,medreg_8784.html
1261,1261,18106,"Kuster, Daniela",w,",9573 Littenheid,TG",9573 Littenheid,Schweiz (CH),Deutsch,2003,Schweiz,,0,,,"Thurgau (2008), aktiv, Kt. Rech...",Erteilt,medreg_18106.html
2610,2610,36426,"Gregori, Corina",w,"Bärenstutz 30,3110 Münsingen,BE",3110 Münsingen,Schweiz (CH),Deutsch,1981,Schweiz,,0,,,"Bern (1992), aktiv, MedBG, priv...",Erteilt,medreg_36426.html
3927,3927,65577,"Birnstiel, Anna Christina",w,"Seftigenstrasse 41,3007 Bern,BE",3007 Bern,Schweiz (CH),Deutsch,2007,Deutschland,2010.0,0,,,"Bern (2019), aktiv, MedBG, priv...",Erteilt,medreg_65577.html
4237,4237,71632,"Starzer, Katharina",w,"Rathausstrasse 1,6340 Baar,ZG",6340 Baar,Österreich (AT),Deutsch,2004,Österreich,2011.0,0,,,"Zug (2017), aktiv, MedBG, priva...",Erteilt,medreg_71632.html
4240,4240,71654,"Käufling-Flesch, Christine Theresia",w,"Widenstrasse 55,6317 Oberwil bei Zug,ZG",6317 Oberwil bei Zug,Deutschland (DE),Deutsch,1983,Deutschland,2011.0,0,,,"Zug (2013), aktiv, MedBG, priva...",Erteilt,medreg_71654.html
4328,4328,72928,"Mansfield, Friederike Franziska",w,"Bahnhofstrasse 16+19,2502 Biel/Bienne,BE",2502 Biel/Bienne,Deutschland (DE),Deutsch,2004,Deutschland,2012.0,0,,,"Bern (2016), aktiv, MedBG, priv...",Erteilt,medreg_72928.html
4956,4956,88438,"Hilpert, Ralf Manfred",m,"Rathausstrasse 1,6341 Baar,ZG",6341 Baar,Deutschland (DE),Deutsch,2002,Russische Föderation,2015.0,0,,,"Zug (2015), aktiv, MedBG, priva...",Erteilt,medreg_88438.html
5273,5273,101596,"Andreew, Alexander Andrej",m,"Widenstrasse 55,6317 Oberwil bei Zug,ZG",6317 Oberwil bei Zug,Deutschland (DE),Deutsch,2008,Deutschland,2017.0,0,,,"Zug (2018), aktiv, MedBG, priva...",Erteilt,medreg_101596.html


Manuelle Nachkontrolle ergibt:
- Doc_ID 6610: PP korrekt, Wert wurde nicht übertragen, manuell nachgetragen (Zahnarzt und Arzt)
- Doc_ID 8784: PP korrekt, auch hier, Wert nicht übertragen (Arzt, Apotheker)
- Doc_ID 18106: falsch übernommen (Adresse Klinik für Psychiatrie und Psychotherapie Littenheid) - Datei gelöscht
- Doc_ID 36424: falsche Übernahme (auch wegen Adresse), gelöscht
- Doc_ID 65577: falsche Übernahme (auch wegen Adresse), gelöscht
- Doc_ID 71632: falsche Übernahme (auch wegen Adresse), gelöscht
- Doc_ID 71654: falsche Übernahme (auch wegen Adresse), gelöscht
- Doc_ID 72928: falsche Übernahme (auch wegen Adresse), gelöscht
- Doc_ID 88438: falsche Übernahme (auch wegen Adresse), gelöscht
- Doc_ID 101596: falsche Übernahme (auch wegen Adresse), gelöscht
- Doc_ID 103389: falsche Übernahme (auch wegen Adresse), gelöscht

In [118]:
df = pd.read_csv('medreg_2020_psych_b2019_20200126e.csv')

In [119]:
len(df)

5421

Wir mussten also insgesamt 9 Datensätze aus der Liste löschen. 

Das MedReg enthält Stand 26.1.2020 5431 Einträge für den Facharzt *Psychiatrie und Psychotherapie*. 

**Da wir bereits alle 2020er Werte ausgeschlossen haben, erscheint der Wert von 5421 als schlüssig.** Wir fahren mit der Datenanalyse weiter und wiederholen somit nicht den gesamten Parsing-Prozess.

In [141]:
df = pd.read_csv('medreg_2020_psych_b2019_20200126e.csv')

In [121]:
df['Arzt_Land'].value_counts()

Schweiz                      2835
Deutschland                  1357
Frankreich                    317
Italien                       214
Österreich                    179
Spanien                        73
Rumänien                       61
Griechenland                   58
vorm. Jugoslawien              42
Belgien                        41
Bulgarien                      21
Polen                          21
Algerien                       19
Ungarn                         17
vorm. Sowjetunion              14
Russische Föderation           13
Niederlande                    12
Portugal                       10
Slowakei                        8
Serbien Republik                8
Grossbritannien                 8
Peru                            7
Brasilien                       6
Argentinien                     6
Kroatien                        5
Tschechische Republik           5
Ägypten                         4
Ukraine                         4
Slowenien                       4
Mexiko        

In [122]:
len(df)

5421

In [123]:
df_arzt_land = df['Arzt_Land'].value_counts()

In [124]:
df_arzt_land = df_arzt_land.reset_index()

In [125]:
df_arzt_land.head(3)

Unnamed: 0,index,Arzt_Land
0,Schweiz,2835
1,Deutschland,1357
2,Frankreich,317


In [126]:
df_arzt_land = df_arzt_land.rename(columns = {'index':'Land Medizinstudium', 'Arzt_Land':'Anzahl'})

In [127]:
df_arzt_land['Anteil'] = df_arzt_land['Anzahl'] / 5430 * 100

In [1]:
df_arzt_land.to_csv(r'Psych_Land_Medizinstudium_bis2019.csv',index = 'Land Medizinstudium', header=True)

NameError: name 'df_arzt_land' is not defined

In [129]:
df_arzt_land.head(5)

Unnamed: 0,Land Medizinstudium,Anzahl,Anteil
0,Schweiz,2835,52.209945
1,Deutschland,1357,24.990792
2,Frankreich,317,5.837937
3,Italien,214,3.941068
4,Österreich,179,3.296501


### Resultat 3: die Hälfte hat in der Schweiz Medizin studiert, die andere Hälfte im Ausland - die meisten davon in Deutschland
Also noch bei etwa der Hälfte aller registrierten Facharzttitel wurde auch das Grundstudium in der Schweiz gemacht. 
Doch wie sah es über die letzten 10 Jahren aus?

Das wird nun etwas komplizierter bei der Auswertung. 
Wenn das Land des Weiterbildungstitels die Schweiz ist, zählt der Wert in PP_Jahr. Wenn das WBT-Land nicht die Schweiz ist, ist die Anerkennung des Facharzttitels (PP_Anerkennung) massgeblich. Bringe ich das in eine einfache Formel?

Wir versuchen es, die Werte aus den Zulassungen in der Schweiz (PP_Jahr) und jene, die direkt anerkannt wurden, in eine neue Spalte PP_CH zu überführen. Am einfachsten wäre es doch, sämtliche Jahreswerte aus PP_Jahr in die Kolonne zu übertragen und dann mit den zusätzlichen Werten von PP_Anerkennung zu überschreiben. 

In [148]:
df['PP_CH'] = df['PP_Jahr']

In [149]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
0,0,552,"Poleski, Alexander",m,"Chemin des Allières 1,1012 Lausanne,VD",1012 Lausanne,Schweiz (CH),Französisch,1985,Schweiz,,1986,Schweiz,,"Waadt (1986), aktiv, MedBG, pri...",Erteilt,medreg_552.html,1986
1,1,566,"Langegger, Florian",m,"Seestrasse 22,8592 Uttwil,TG",8592 Uttwil,Schweiz (CH),Deutsch,1985,Schweiz,,1985,Schweiz,,"Thurgau (2017), aktiv, MedBG, p...",Erteilt,medreg_566.html,1985
2,2,590,"Rivera Prada, Jaime",m,Kein Eintrag,,Schweiz (CH),Französisch,1985,Schweiz,,1987,Schweiz,,"Wallis (2014), inaktiv, Unbekannt",Erteilt,medreg_590.html,1987
3,3,611,"Dentoni, Roberto",m,"via Simen 10,6900 Lugano,TI",6900 Lugano,Schweiz (CH),"Französisch, Italienisch",1986,Schweiz,,1991,Schweiz,,"Tessin (1997), aktiv, MedBG, pr...",Erteilt,medreg_611.html,1991
4,4,617,"Anastopoulos, Anastasio",m,Kein Eintrag,,Schweiz (CH),Französisch,1986,Schweiz,,1986,Schweiz,,"Waadt (2017), inaktiv, MedBG, p...",Erteilt,medreg_617.html,1986


In [150]:
df['PP_CH'] = df['PP_Anerkennung']

In [151]:
df

Unnamed: 0.1,Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
0,0,552,"Poleski, Alexander",m,"Chemin des Allières 1,1012 Lausanne,VD",1012 Lausanne,Schweiz (CH),Französisch,1985,Schweiz,,1986,Schweiz,,"Waadt (1986), aktiv, MedBG, pri...",Erteilt,medreg_552.html,
1,1,566,"Langegger, Florian",m,"Seestrasse 22,8592 Uttwil,TG",8592 Uttwil,Schweiz (CH),Deutsch,1985,Schweiz,,1985,Schweiz,,"Thurgau (2017), aktiv, MedBG, p...",Erteilt,medreg_566.html,
2,2,590,"Rivera Prada, Jaime",m,Kein Eintrag,,Schweiz (CH),Französisch,1985,Schweiz,,1987,Schweiz,,"Wallis (2014), inaktiv, Unbekannt",Erteilt,medreg_590.html,
3,3,611,"Dentoni, Roberto",m,"via Simen 10,6900 Lugano,TI",6900 Lugano,Schweiz (CH),"Französisch, Italienisch",1986,Schweiz,,1991,Schweiz,,"Tessin (1997), aktiv, MedBG, pr...",Erteilt,medreg_611.html,
4,4,617,"Anastopoulos, Anastasio",m,Kein Eintrag,,Schweiz (CH),Französisch,1986,Schweiz,,1986,Schweiz,,"Waadt (2017), inaktiv, MedBG, p...",Erteilt,medreg_617.html,
5,5,709,"Cotar, Boris",m,Kein Eintrag,,Schweiz (CH),Deutsch,1986,Schweiz,,1987,Schweiz,,Kein Eintrag,Kein Eintrag,medreg_709.html,
6,6,712,"Lierow, Konrad",m,Kein Eintrag,,Schweiz (CH),Deutsch,1987,Schweiz,,1988,Schweiz,,Kein Eintrag,Kein Eintrag,medreg_712.html,
7,7,726,"Borens, Raymond",m,Kein Eintrag,,Schweiz (CH),Deutsch,1986,Schweiz,,1987,Schweiz,,"Basel-Stadt (2009), inaktiv, Me...",Erteilt,medreg_726.html,
8,8,735,"Guignard-Luz, Inma-Concepcion",w,"Avenue de Bel-Air 76,1814 La Tour De Peilz,GE",1814 La Tour De Peilz,Schweiz (CH),Französisch,1986,Schweiz,,1986,Schweiz,,"Waadt (1986), aktiv, MedBG, pri...",Erteilt,medreg_735.html,
9,9,736,"Ioset-Lanoy, Anne-Marie",w,"Rue du Valentin 31,1004 Lausanne,VD",1004 Lausanne,Schweiz (CH),Französisch,1986,Schweiz,,1986,Schweiz,,"Waadt (1987), aktiv, MedBG, pri...",Erteilt,medreg_736.html,


Überschreibt leider alle Werte. 

Könnte es mit einer OR-Bedingung besser klappen? Entweder alle mit einem Wert in PP_Anerkennung und sonst jene aus PP_Jahr.

In [159]:
df['PP_Anerkennung'] = df['PP_Anerkennung'].astype('int')

ValueError: Cannot convert non-finite values (NA or inf) to integer

In [156]:
df['PP_CH'] = df[~(pd.isnull(df['PP_Anerkennung'])) | (df['PP_Jahr'])]

In [157]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
0,0,552,"Poleski, Alexander",m,"Chemin des Allières 1,1012 Lausanne,VD",1012 Lausanne,Schweiz (CH),Französisch,1985,Schweiz,,1986,Schweiz,,"Waadt (1986), aktiv, MedBG, pri...",Erteilt,medreg_552.html,0
1,1,566,"Langegger, Florian",m,"Seestrasse 22,8592 Uttwil,TG",8592 Uttwil,Schweiz (CH),Deutsch,1985,Schweiz,,1985,Schweiz,,"Thurgau (2017), aktiv, MedBG, p...",Erteilt,medreg_566.html,1
2,2,590,"Rivera Prada, Jaime",m,Kein Eintrag,,Schweiz (CH),Französisch,1985,Schweiz,,1987,Schweiz,,"Wallis (2014), inaktiv, Unbekannt",Erteilt,medreg_590.html,2
3,3,611,"Dentoni, Roberto",m,"via Simen 10,6900 Lugano,TI",6900 Lugano,Schweiz (CH),"Französisch, Italienisch",1986,Schweiz,,1991,Schweiz,,"Tessin (1997), aktiv, MedBG, pr...",Erteilt,medreg_611.html,3
4,4,617,"Anastopoulos, Anastasio",m,Kein Eintrag,,Schweiz (CH),Französisch,1986,Schweiz,,1986,Schweiz,,"Waadt (2017), inaktiv, MedBG, p...",Erteilt,medreg_617.html,4


Macht eine Art Index. Wieso es hochzählt? Keine Ahnung. Wir versuchen noch die NaN auf 0 zu setzen. 

In [162]:
df['PP_Anerkennung'] = df['PP_Anerkennung'].fillna(0)

In [163]:
df['PP_Anerkennung'] = df['PP_Anerkennung'].astype('int')

In [164]:
df.dtypes

Unnamed: 0                 int64
Doc_ID                     int64
Name                      object
Geschlecht                object
Adresse                   object
Ort                       object
Nationalität              object
Sprache                   object
Arzt_Jahr                  int64
Arzt_Land                 object
Arzt_Anerkennung_Jahr    float64
PP_Jahr                    int64
PP_Land                   object
PP_Anerkennung             int64
BAB                       object
BAB Status                object
Datei                     object
PP_CH                     object
dtype: object

In [None]:
df = df.drop(['Unnamed: 0'],axis=1)

In [168]:
df = df.drop(['PP_CH'],axis=1)

In [171]:
df['PP_CH'] = df[(df['PP_Anerkennung']>['PP_Jahr']) | (df['PP_Jahr'])]

ValueError: Lengths must match to compare

In [172]:
df.head(5)

Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei
0,552,"Poleski, Alexander",m,"Chemin des Allières 1,1012 Lausanne,VD",1012 Lausanne,Schweiz (CH),Französisch,1985,Schweiz,,1986,Schweiz,0,"Waadt (1986), aktiv, MedBG, pri...",Erteilt,medreg_552.html
1,566,"Langegger, Florian",m,"Seestrasse 22,8592 Uttwil,TG",8592 Uttwil,Schweiz (CH),Deutsch,1985,Schweiz,,1985,Schweiz,0,"Thurgau (2017), aktiv, MedBG, p...",Erteilt,medreg_566.html
2,590,"Rivera Prada, Jaime",m,Kein Eintrag,,Schweiz (CH),Französisch,1985,Schweiz,,1987,Schweiz,0,"Wallis (2014), inaktiv, Unbekannt",Erteilt,medreg_590.html
3,611,"Dentoni, Roberto",m,"via Simen 10,6900 Lugano,TI",6900 Lugano,Schweiz (CH),"Französisch, Italienisch",1986,Schweiz,,1991,Schweiz,0,"Tessin (1997), aktiv, MedBG, pr...",Erteilt,medreg_611.html
4,617,"Anastopoulos, Anastasio",m,Kein Eintrag,,Schweiz (CH),Französisch,1986,Schweiz,,1986,Schweiz,0,"Waadt (2017), inaktiv, MedBG, p...",Erteilt,medreg_617.html


Wir wollen es mit einer definierten Funktion und mit *lambda* versuchen:

In [179]:
def combine(ausland,ch):
    if 'PP_Anerkennung' > 0 in ausland:
        return ausland
    else: 
        return ch

df['PP_CH'] = df.apply(lambda x: combine(x['PP_Anerkennung'],x['PP_Jahr'], axis=1))

KeyError: ('PP_Anerkennung', 'occurred at index Doc_ID')

Nochmals, dieses Mal ohne Funktion, sondern bloss mit einer Variable für die Werte und eine nette, logische Formel:

In [213]:
df['PP_CH'] = df.apply(lambda x: (x['PP_Anerkennung'] if ['PP_Anerkennung'] > ['PP_Jahr'] else x['PP_Jahr']), axis=1)

In [214]:
df.tail(5)

Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
5416,113298,"Sehim-Bensaber, Nacéra",w,Kein Eintrag,,Schweiz (CH),Französisch,2019,Schweiz,,2019,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_113298.html,2019
5417,113305,"Abadie, Hadi",m,Kein Eintrag,,Frankreich (FR),,2014,Frankreich,2019.0,2014,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113305.html,2014
5418,113427,"Armion, Roxana Georgeta",w,Kein Eintrag,,Deutschland (DE),Deutsch,2004,Deutschland,2019.0,2012,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113427.html,2012
5419,113540,"Manouelian, Edmond Jean",m,Kein Eintrag,,Frankreich (FR),,1992,Frankreich,2019.0,1992,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113540.html,1992
5420,113646,"Mühlhauser, Markus Gerhard",m,Kein Eintrag,,Deutschland (DE),,1999,Deutschland,2019.0,2014,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113646.html,2014


Fast geschafft! Nach mindestens 2 Stunden rumpröbeln und suchen. Noch ist ein Fehler in der Logik der Formel, den ich nicht nachvollziehen kann. Der Teil *['PP_Anerkennung'] > ['PP_Jahr']* funktioniert nicht korrekt. Wir versuchen es noch so:

In [191]:
df["PP_CH"] = df.apply(lambda x: (x['PP_Jahr'] if ['PP_Land'] == 'Schweiz' else x["PP_Anerkennung"]), axis=1)

In [192]:
df.tail(5)

Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
5416,113298,"Sehim-Bensaber, Nacéra",w,Kein Eintrag,,Schweiz (CH),Französisch,2019,Schweiz,,2019,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_113298.html,0
5417,113305,"Abadie, Hadi",m,Kein Eintrag,,Frankreich (FR),,2014,Frankreich,2019.0,2014,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113305.html,2019
5418,113427,"Armion, Roxana Georgeta",w,Kein Eintrag,,Deutschland (DE),Deutsch,2004,Deutschland,2019.0,2012,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113427.html,2019
5419,113540,"Manouelian, Edmond Jean",m,Kein Eintrag,,Frankreich (FR),,1992,Frankreich,2019.0,1992,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113540.html,2019
5420,113646,"Mühlhauser, Markus Gerhard",m,Kein Eintrag,,Deutschland (DE),,1999,Deutschland,2019.0,2014,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113646.html,2019


Geht auch nicht. Irgendwie rechnet es die Zeilen in der falschen Reihendfolge durch. Nochmals simpel:

In [197]:
df["PP_CH"] = df.apply(lambda x: (x["PP_Jahr"] if ["PP_Anerkennung"] == 0 else x['PP_Anerkennung']), axis=1)

In [198]:
df.tail(5)

Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
5416,113298,"Sehim-Bensaber, Nacéra",w,Kein Eintrag,,Schweiz (CH),Französisch,2019,Schweiz,,2019,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_113298.html,0
5417,113305,"Abadie, Hadi",m,Kein Eintrag,,Frankreich (FR),,2014,Frankreich,2019.0,2014,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113305.html,2019
5418,113427,"Armion, Roxana Georgeta",w,Kein Eintrag,,Deutschland (DE),Deutsch,2004,Deutschland,2019.0,2012,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113427.html,2019
5419,113540,"Manouelian, Edmond Jean",m,Kein Eintrag,,Frankreich (FR),,1992,Frankreich,2019.0,1992,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113540.html,2019
5420,113646,"Mühlhauser, Markus Gerhard",m,Kein Eintrag,,Deutschland (DE),,1999,Deutschland,2019.0,2014,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113646.html,2019


In [211]:
df["PP_CH"] = df.apply(lambda x: (x['PP_Anerkennung'] if ['PP_Anerkennung'] != 0 else x["PP_Jahr"]), axis=1)

In [212]:
df.tail(5)

Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
5416,113298,"Sehim-Bensaber, Nacéra",w,Kein Eintrag,,Schweiz (CH),Französisch,2019,Schweiz,,2019,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_113298.html,0
5417,113305,"Abadie, Hadi",m,Kein Eintrag,,Frankreich (FR),,2014,Frankreich,2019.0,2014,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113305.html,2019
5418,113427,"Armion, Roxana Georgeta",w,Kein Eintrag,,Deutschland (DE),Deutsch,2004,Deutschland,2019.0,2012,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113427.html,2019
5419,113540,"Manouelian, Edmond Jean",m,Kein Eintrag,,Frankreich (FR),,1992,Frankreich,2019.0,1992,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113540.html,2019
5420,113646,"Mühlhauser, Markus Gerhard",m,Kein Eintrag,,Deutschland (DE),,1999,Deutschland,2019.0,2014,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113646.html,2019


In [224]:
df['PP_CH'] = df.apply(lambda x: (x["PP_Jahr"] if x["PP_Anerkennung"] == 0 else x['PP_Anerkennung']), axis=1)

In [225]:
df.tail(5)

Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
5416,113298,"Sehim-Bensaber, Nacéra",w,Kein Eintrag,,Schweiz (CH),Französisch,2019,Schweiz,,2019,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_113298.html,2019
5417,113305,"Abadie, Hadi",m,Kein Eintrag,,Frankreich (FR),,2014,Frankreich,2019.0,2014,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113305.html,2019
5418,113427,"Armion, Roxana Georgeta",w,Kein Eintrag,,Deutschland (DE),Deutsch,2004,Deutschland,2019.0,2012,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113427.html,2019
5419,113540,"Manouelian, Edmond Jean",m,Kein Eintrag,,Frankreich (FR),,1992,Frankreich,2019.0,1992,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113540.html,2019
5420,113646,"Mühlhauser, Markus Gerhard",m,Kein Eintrag,,Deutschland (DE),,1999,Deutschland,2019.0,2014,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113646.html,2019


In [226]:
df.head(5)

Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
0,552,"Poleski, Alexander",m,"Chemin des Allières 1,1012 Lausanne,VD",1012 Lausanne,Schweiz (CH),Französisch,1985,Schweiz,,1986,Schweiz,0,"Waadt (1986), aktiv, MedBG, pri...",Erteilt,medreg_552.html,1986
1,566,"Langegger, Florian",m,"Seestrasse 22,8592 Uttwil,TG",8592 Uttwil,Schweiz (CH),Deutsch,1985,Schweiz,,1985,Schweiz,0,"Thurgau (2017), aktiv, MedBG, p...",Erteilt,medreg_566.html,1985
2,590,"Rivera Prada, Jaime",m,Kein Eintrag,,Schweiz (CH),Französisch,1985,Schweiz,,1987,Schweiz,0,"Wallis (2014), inaktiv, Unbekannt",Erteilt,medreg_590.html,1987
3,611,"Dentoni, Roberto",m,"via Simen 10,6900 Lugano,TI",6900 Lugano,Schweiz (CH),"Französisch, Italienisch",1986,Schweiz,,1991,Schweiz,0,"Tessin (1997), aktiv, MedBG, pr...",Erteilt,medreg_611.html,1991
4,617,"Anastopoulos, Anastasio",m,Kein Eintrag,,Schweiz (CH),Französisch,1986,Schweiz,,1986,Schweiz,0,"Waadt (2017), inaktiv, MedBG, p...",Erteilt,medreg_617.html,1986


### Endlich!
Drei Stunden vorbei mit rumdoktern. Und es war nur ein x zuwenig.

Vor jede Spalte gehört ein x, damit der Wert verwendet wird. So würden wohl all die oben ausporpierten Formeln funktionieren. Oje.


Zuerst abspeichern.

In [227]:
df.to_csv(r'medreg_2020_psych_b2019_20200127.csv',index = True, header = True)

# Attention please. Weiterer Fehler entdeckt
Bei der Kontrolle der Daten wurden eine weiterer Eintrag mit dem Anerkennungsdatum 2020 gefunden. Leider gingen beim Ausschliessen der 2020er-Daten die Schweizer Abschlüsse vergessen. Deshalb wird der akutellste Datensatz jetzt nochmals überprüft:

In [10]:
df = pd.read_csv(r'medreg_2020_psych_b2019_20200127.csv')

In [6]:
df[df['PP_Jahr']>2019]

Unnamed: 0.1,Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
1854,1854,27363,"FRANZ, Tatjana Stefanie",w,Kein Eintrag,,Schweiz (CH),Französisch,2007,Schweiz,,2020,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_27363.html,2020
3775,3775,60313,"Mpairaktaridou Berger, Salome",w,"Chamerstrasse 12a,6300 Zug,ZG",6300 Zug,Griechenland (GR),Deutsch,1990,Deutschland,2009.0,2020,Schweiz,0,"Zug (2010), aktiv, MedBG, priva...",Erteilt,medreg_60313.html,2020
3952,3952,65718,"Weyand, Thomas Martin",m,Kein Eintrag,,Deutschland (DE),Deutsch,2005,Deutschland,2010.0,2020,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_65718.html,2020
4448,4448,75346,"Vibert, Vincent",m,Kein Eintrag,,Schweiz (CH),Französisch,2012,Schweiz,,2020,Schweiz,0,"Genf (2013), aktiv, Unbekannt",Erteilt,medreg_75346.html,2020
4589,4589,78316,"Tsilikas, Nikolaos",m,Kein Eintrag,,Griechenland (GR),Französisch,2006,Griechenland,2013.0,2020,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_78316.html,2020
4700,4700,81452,"Patru ép. Beroud, Maria Cristina",w,"Rue Micheli-Du-Crest 24,1205 Genève,GE",1205 Genève,Frankreich (FR),Französisch,2003,Frankreich,2014.0,2020,Schweiz,0,"Genf (2014), aktiv, MedBG, priv...",Erteilt,medreg_81452.html,2020
4827,4827,84083,"Selle, Valerio",m,Kein Eintrag,,Italien (IT),Italienisch,2010,Italien,2014.0,2020,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_84083.html,2020
5128,5128,94643,"Schild, Sebastian Benjamin",m,Kein Eintrag,,Deutschland (DE),Deutsch,2011,Deutschland,2016.0,2020,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_94643.html,2020


Wir haben also 9 Einträge, die noch aus der Datenbank entfernt werden müssen. 

In [7]:
len(df)

5421

In [11]:
df = df[df['PP_Jahr']<2020]

In [12]:
len(df)

5413

Wieso eigentlich wird den Dataframes ständig eine neue Kolonne «Unnamed: 0» hinzugefügt?

In [15]:
df.drop('Unnamed: 0', axis=1)

Unnamed: 0,Doc_ID,Name,Geschlecht,Adresse,Ort,Nationalität,Sprache,Arzt_Jahr,Arzt_Land,Arzt_Anerkennung_Jahr,PP_Jahr,PP_Land,PP_Anerkennung,BAB,BAB Status,Datei,PP_CH
0,552,"Poleski, Alexander",m,"Chemin des Allières 1,1012 Lausanne,VD",1012 Lausanne,Schweiz (CH),Französisch,1985,Schweiz,,1986,Schweiz,0,"Waadt (1986), aktiv, MedBG, pri...",Erteilt,medreg_552.html,1986
1,566,"Langegger, Florian",m,"Seestrasse 22,8592 Uttwil,TG",8592 Uttwil,Schweiz (CH),Deutsch,1985,Schweiz,,1985,Schweiz,0,"Thurgau (2017), aktiv, MedBG, p...",Erteilt,medreg_566.html,1985
2,590,"Rivera Prada, Jaime",m,Kein Eintrag,,Schweiz (CH),Französisch,1985,Schweiz,,1987,Schweiz,0,"Wallis (2014), inaktiv, Unbekannt",Erteilt,medreg_590.html,1987
3,611,"Dentoni, Roberto",m,"via Simen 10,6900 Lugano,TI",6900 Lugano,Schweiz (CH),"Französisch, Italienisch",1986,Schweiz,,1991,Schweiz,0,"Tessin (1997), aktiv, MedBG, pr...",Erteilt,medreg_611.html,1991
4,617,"Anastopoulos, Anastasio",m,Kein Eintrag,,Schweiz (CH),Französisch,1986,Schweiz,,1986,Schweiz,0,"Waadt (2017), inaktiv, MedBG, p...",Erteilt,medreg_617.html,1986
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5416,113298,"Sehim-Bensaber, Nacéra",w,Kein Eintrag,,Schweiz (CH),Französisch,2019,Schweiz,,2019,Schweiz,0,Kein Eintrag,Kein Eintrag,medreg_113298.html,2019
5417,113305,"Abadie, Hadi",m,Kein Eintrag,,Frankreich (FR),,2014,Frankreich,2019.0,2014,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113305.html,2019
5418,113427,"Armion, Roxana Georgeta",w,Kein Eintrag,,Deutschland (DE),Deutsch,2004,Deutschland,2019.0,2012,Deutschland,2019,Kein Eintrag,Kein Eintrag,medreg_113427.html,2019
5419,113540,"Manouelian, Edmond Jean",m,Kein Eintrag,,Frankreich (FR),,1992,Frankreich,2019.0,1992,Frankreich,2019,Kein Eintrag,Kein Eintrag,medreg_113540.html,2019


In [16]:
df.to_csv(r'medreg_2020_psych_b2019_20200128.csv',index = True, header = True)

Jetzt wollen wir die Daten nochmals auf die Korrektheit überprüfen. Die Referenz ist für uns dabei die Excel-Datei des BAG «rohdaten-aktive-bab-med-2018_mod.xlsx».

In [diesem Notebook](/Users/master/Desktop/CAS_DJ/MedReg/Daten_BAG/MedReg_Check_rohdaten-aktive-bab-med-2018_mod.ipynb) wurden die Daten entsprechend ausgewertet. So ergab die Analyse dort 4337 Psychiater mit erteilter BAB. 

In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
df = pd.read_csv(r'medreg_2020_psych_b2019_20200128.csv')

In [3]:
df_erteilt = df[df['BAB Status'] == 'Erteilt']

In [4]:
len(df_erteilt)

4415

In [5]:
df_erteilt_2018 = df_erteilt[df_erteilt['PP_CH'] < 2019]

In [6]:
len(df_erteilt_2018)

4344

Wir kommen dabei auf 4344 Einträge. Das sind 7 mehr als in der Excel-Datei das BAG von 2018. Haben wir nach wie vor einige Irrläufer in unseren gescrapten Daten? Wie sieht der Unterschied im Jahr 2018 aus? 

In [7]:
df_erteilt_2018['Arzt_Land'].value_counts()

Schweiz                      2526
Deutschland                   973
Frankreich                    192
Italien                       147
Österreich                    133
Spanien                        55
Rumänien                       45
vorm. Jugoslawien              41
Griechenland                   39
Belgien                        31
Bulgarien                      13
Polen                          13
Ungarn                         12
Algerien                       11
Niederlande                     8
Portugal                        7
vorm. Sowjetunion               7
Peru                            6
Brasilien                       6
Slowakei                        6
Tschechische Republik           5
Russische Föderation            5
Serbien Republik                5
Grossbritannien                 4
Kroatien                        4
Argentinien                     4
Mexiko                          3
Kuba                            3
Bosnien und Herzegowina         2
Tunesien      

Unsere Scrapingdaten zeigen bis 2018:
Schweiz                      2526
Deutschland                   973
Frankreich                    192
Italien                       147

Die Excel-Tabelle des BAG von 2018 zeigt:
Schweiz                      2497
Deutschland                   999
Frankreich                    182
Italien                       152



Ist diese Fluktuation normal? Wir nehmen noch die vom BAG bereitgestellten Daten aus dem Jahre 2017 hinzu und vergleichen sie mit dem Datensatz von 2018 ([Notebook](/Users/master/Desktop/CAS_DJ/MedReg/Daten_BAG/MedReg_Check_rohdaten-aktive-bab-med-2018_mod.ipynb)), wo nur Entscheide bis 2017 berücksichtigt werden. 


In [11]:
df2019_b2017 = df_erteilt_2018[df_erteilt_2018['PP_CH'] < 2017]

In [12]:
len(df2019_b2017)

4044

Achtung Update 31.1.2020: dummer Fehler, wir haben damit auch die Werte von 2017 ausgeschlossen!


In [13]:
df2019_b2017 = df_erteilt_2018[df_erteilt_2018['PP_CH'] < 2018]

In [14]:
len(df2019_b2017)

4208

In [15]:
df2019_b2017['Arzt_Land'].value_counts()

Schweiz                      2490
Deutschland                   931
Frankreich                    176
Italien                       137
Österreich                    129
Spanien                        54
vorm. Jugoslawien              41
Rumänien                       38
Griechenland                   34
Belgien                        30
Polen                          11
Bulgarien                      11
Ungarn                         10
Algerien                        9
Niederlande                     8
Portugal                        7
Slowakei                        6
vorm. Sowjetunion               6
Brasilien                       6
Peru                            6
Tschechische Republik           5
Russische Föderation            5
Kroatien                        4
Argentinien                     4
Serbien Republik                4
Mexiko                          3
Kuba                            3
Grossbritannien                 3
Syrien arabische Republik       2
Slowenien     

Die Excel-Tabelle des BAG von 2017 ergibt:
Total: 4212

ErteilungslandDiplom
Schweiz 2522
Deutschland 939
Frankreich 156
Italien 140


Die Excel-Tabelle des BAG von 2018 ergibt bis 2017 (JahrEntscheidBewilligung):
Total: 3804

ErteilungslandDiplom
Schweiz                      2340
Deutschland                   841
Italien                       122
Frankreich                    114

Update 31.1.2020: ich habe die Zahlen von 2018 falsch berechnet. Siehe [Notebook](/Users/master/Desktop/CAS_DJ/MedReg/Daten_BAG/MedReg_Check_rohdaten-aktive-bab-med-2018_mod.ipynb).
Total 4073

Schweiz                      2414
Deutschland                   921
Frankreich                    147
Italien                       139


Die Daten des Scraping, eingegrenzt auf die Bewilligungen bis 2017 (PP_CH) ergeben:
Total: 4044
Schweiz                      2453
Deutschland                   888
Frankreich                    144
Italien                       129

Update 31.1.2020: ich habe die Zahlen von 2018 falsch berechnet. Wir erhalten nun:
Total: 4208
Schweiz                      2490
Deutschland                   931
Frankreich                    176
Italien                       137


Erstes Fazit: Auffällig ist besonders die grosse Veränderung der Datensätze 2017 bis 2018 des BAG. Für eine Erklärung haben wir das BAG per Email angefragt (29.1.2020). Die Schwankungen werden so begründet: «Die Einträge zu den Berufsausübungsbewilligungen werden von den kantonalen Behörden im MedReg vorgenommen. Abweichungen können entstehen, wenn nachträglich Mutationen vorgenommen werden.»

Die Zahlen der gescrapten Daten von 2019 liegen im Schwankungsbereich der vom BAG zur Verfügung gestellten Datensätze. Sie sind mit den Mutationen durch die Kantone zu erklären. Zudem stimmt das Total der gefundenen Facharzttitel nahezu mit dem aktuellsten Stand der (stäntig aktualisierten) Datenbank überein.

Die Anlayse der Daten soll mit dem bereinigten Datensatz im Notebook MedReg_Analyse_03 nochmals wiederholt werden. 

Zudem werden wir für diese Analysen weiterhin die Daten **aller** registrierten Arzttitel verwenden und nicht bloss jene mit erteilten Bewilligungen, da diese nur für eine bestimmte Art von (selbstständigen) Tätigkeiten nötig ist. So schrieb das BAG auf eine Anfrage im letzten Herbst: *«Die Statistiken des BAG zu den aktiven Bewilligungen nach MedBG 2018 resultieren aus den von den Kantonen erteilten Berufsausübungsbewilligungen. Eine solche Bewilligung ist aufgrund des Medizinalberufegesetzes (MedBG) für die privatwirtschaftliche Berufsausübung in eigener fachlicher Verantwortung notwendig. Es sind somit nicht alle Tätigkeiten bewilligungspflichtig. Entsprechend kann das BAG keine Aussagen dazu machen, wie viele Ärzt/innen in der Schweiz ihren Beruf tatsächlich ausüben.»*


 