# MedReg Parsing 03

In diesem Notebook soll das Parsing der gescrapten Daten aus *MedReg_Scraping 04 Data Check & Rescrape 2* soweit ausgeführt werden, dass daraus eine möglichst umfassende und saubere CSV-Datei der geparsten Daten erstellt werden kann. Dazu wird der Code, der in den beiden Notebooks *MedReg_Parsing 01 und 02* entwickelt wurde, weiter verfeinert. 


In [1]:
from bs4 import BeautifulSoup
import pandas as pd
import time
import os
import re
import datetime
from tqdm import tqdm

## Funktionen
Als erstes definieren wir die zwei Funktionen, die beim Auslesen des Geschlechts (via Bildlink in der HTML-Datei) und der Adresse (die nicht immer vorhanden ist und deshalb Fehler generiert) helfen soll. 


In [2]:
def get_gender(soup):
    try:
        img_source = soup.find('h3').find("img")["src"]
        if "venus" in img_source:
            return "w"
        else:
            return "m"
    except:
        return "unbekannt"

def get_adress(soup):
    try: 
        adresse = soup.find_all("ol")[-1].find_all("li", {"class": "address-item"})[0]["title"]
        return adresse
    except:
        return "Kein Eintrag"

In [25]:
doc_list = os.listdir("medreg_2020_psych")
path = "medreg_2020_psych/"

df = pd.DataFrame([])

for doc in doc_list:   
    print(doc) #zur Kontrolle, wie der Prozess durchläuft
    file = open(path + doc, 'r')
    text = file.read()
    soup = BeautifulSoup(text, 'html.parser')
    
    name = soup.find('h3').text.replace('\xa0','')
    nationalität = soup.find('p') 
    #hier verzichten wir auf das .text, mit den br-Tags lassen sich die Daten später einfache trennen.
    geschlecht = get_gender(soup) #die Funktion zum Auslesen des Geschlechts
    adresse = get_adress(soup)
    beruf = soup.find('tbody').find('td').text
    jahr_diplom = soup.find('tbody').find('td').find_next('td').text
    land_diplom = soup.find('tbody').find('td').find_next('td').find_next('td').text
    datum_anerkennung = soup.find('tbody').find('td').find_next('td').find_next('td').find_next('td').text
    weiterbildungstitel = soup.find('tbody').find('tr').find_next('tr').find_next('tr').find('td').text
    jahr_wbtitel = soup.find('tbody').find('tr').find_next('tr').find_next('tr').find('td').find_next('td').text
    land_wbtitel = soup.find('tbody').find('tr').find_next('tr').find_next('tr').find('td').find_next('td').find_next('td').text
    
    minidict = {'Name': name,
                'Geschlecht': geschlecht,
                'Adresse': adresse,
                'Beruf': beruf,
                'Jahr Diplom': jahr_diplom,
                'Land Diplom': land_diplom,
                'Anerkennungsdatum': datum_anerkennung,
                'Weiterbildung': weiterbildungstitel,
                'Jahr Weiterbildung': jahr_wbtitel,
                'Land Weiterbildung': land_wbtitel,
                'Nationalität': nationalität,
                'Datei': doc
               }
    
    dftemp = pd.DataFrame([minidict])
    frames = [df, dftemp]
    df = pd.concat(frames)

medreg_27259.html
medreg_55166.html
medreg_68248.html
medreg_15778.html
medreg_34926.html
medreg_14169.html
medreg_35321.html
medreg_45023.html
medreg_40671.html
medreg_72700.html
medreg_80569.html
medreg_41060.html
medreg_67502.html
medreg_40558.html
medreg_31948.html
medreg_72429.html
medreg_44848.html
medreg_64457.html
medreg_26624.html
medreg_41349.html
medreg_43724.html
medreg_4158.html
medreg_71655.html
medreg_58538.html
medreg_33133.html
medreg_74142.html
medreg_71710.html
medreg_93083.html
medreg_33099.html
medreg_32722.html
medreg_75753.html
medreg_72096.html
medreg_64512.html
medreg_42070.html
medreg_16103.html
medreg_101473.html
medreg_94068.html
medreg_101920.html
medreg_4363.html
medreg_87214.html
medreg_24834.html
medreg_5964.html
medreg_12005.html
medreg_9414.html
medreg_28544.html
medreg_55074.html
medreg_24137.html
medreg_16046.html
medreg_40626.html
medreg_38544.html
medreg_30174.html
medreg_65211.html
medreg_43289.html
medreg_42861.html
medreg_18371.html
medreg_65641

medreg_23257.html
medreg_37214.html
medreg_3845.html
medreg_67959.html
medreg_33257.html
medreg_15365.html
medreg_5991.html
medreg_3453.html
medreg_25696.html
medreg_43440.html
medreg_71862.html
medreg_18941.html
medreg_42601.html
medreg_11799.html
medreg_21051.html
medreg_23596.html
medreg_45740.html
medreg_101652.html
medreg_94619.html
medreg_82237.html
medreg_87035.html
medreg_31114.html
medreg_65749.html
medreg_46029.html
medreg_55605.html
medreg_1205.html
medreg_42969.html
medreg_29877.html
medreg_7781.html
medreg_6893.html
medreg_38335.html
medreg_69290.html
medreg_93830.html
medreg_76866.html
medreg_2583.html
medreg_87873.html
medreg_37490.html
medreg_13435.html
medreg_15918.html
medreg_10130.html
medreg_90965.html
medreg_36452.html
medreg_15332.html
medreg_18150.html
medreg_33200.html
medreg_79443.html
medreg_14870.html
medreg_11721.html
medreg_21397.html
medreg_65933.html
medreg_23200.html
medreg_7152.html
medreg_23715.html
medreg_45039.html
medreg_98513.html
medreg_77518.html

medreg_43768.html
medreg_46090.html
medreg_73274.html
medreg_93020.html
medreg_12767.html
medreg_67667.html
medreg_31007.html
medreg_82631.html
medreg_42483.html
medreg_78438.html
medreg_16724.html
medreg_37429.html
medreg_40001.html
medreg_85818.html
medreg_110500.html
medreg_55203.html
medreg_28733.html
medreg_76563.html
medreg_102497.html
medreg_76099.html
medreg_82774.html
medreg_80749.html
medreg_33240.html
medreg_85674.html
medreg_30895.html
medreg_22451.html
medreg_15722.html
medreg_107953.html
medreg_20895.html
medreg_75420.html
medreg_89342.html
medreg_3917.html
medreg_34993.html
medreg_61176.html
medreg_7057.html
medreg_32514.html
medreg_43457.html
medreg_1029.html
medreg_63848.html
medreg_6646.html
medreg_12458.html
medreg_113156.html
medreg_9049.html
medreg_77671.html
medreg_66060.html
medreg_84209.html
medreg_86664.html
medreg_41313.html
medreg_18686.html
medreg_104943.html
medreg_784.html
medreg_93466.html
medreg_25052.html
medreg_36691.html
medreg_1615.html
medreg_76125.

medreg_40694.html
medreg_22952.html
medreg_97249.html
medreg_57852.html
medreg_88850.html
medreg_36854.html
medreg_89312.html
medreg_77158.html
medreg_70367.html
medreg_98850.html
medreg_107515.html
medreg_44268.html
medreg_32817.html
medreg_71576.html
medreg_9367.html
medreg_87422.html
medreg_62474.html
medreg_19993.html
medreg_15549.html
medreg_55357.html
medreg_33181.html
medreg_6991.html
medreg_24214.html
medreg_30607.html
medreg_39975.html
medreg_109225.html
medreg_21446.html
medreg_45642.html
medreg_5651.html
medreg_72161.html
medreg_22285.html
medreg_37984.html
medreg_36696.html
medreg_41601.html
medreg_40913.html
medreg_35239.html
medreg_24428.html
medreg_5128.html
medreg_37654.html
medreg_26045.html
medreg_41528.html
medreg_99200.html
medreg_27204.html
medreg_41178.html
medreg_43145.html
medreg_31780.html
medreg_41482.html
medreg_68700.html
medreg_18052.html
medreg_94127.html
medreg_34994.html
medreg_32513.html
medreg_30241.html
medreg_42484.html
medreg_23197.html
medreg_5352.

medreg_23508.html
medreg_70490.html
medreg_31866.html
medreg_8405.html
medreg_44966.html
medreg_16216.html
medreg_35063.html
medreg_81190.html
medreg_25960.html
medreg_104421.html
medreg_72012.html
medreg_35433.html
medreg_41772.html
medreg_9701.html
medreg_72911.html
medreg_4563.html
medreg_44120.html
medreg_17796.html
medreg_90806.html
medreg_43431.html
medreg_16187.html
medreg_81344.html
medreg_23676.html
medreg_5519.html
medreg_42365.html
medreg_26474.html
medreg_72229.html
medreg_26024.html
medreg_16492.html
medreg_34449.html
medreg_12081.html
medreg_25608.html
medreg_16241.html
medreg_81128.html
medreg_45623.html
medreg_17903.html
medreg_35171.html
medreg_21098.html
medreg_20723.html
medreg_4471.html
medreg_1223.html
medreg_31077.html
medreg_73204.html
medreg_62415.html
medreg_20236.html
medreg_24275.html
medreg_13106.html
medreg_45766.html
medreg_101224.html
medreg_21077.html
medreg_63204.html
medreg_86497.html
medreg_30559.html
medreg_2225.html
medreg_23725.html
medreg_22564.ht

medreg_16061.html
medreg_40601.html
medreg_9960.html
medreg_92524.html
medreg_40251.html
medreg_82877.html
medreg_29688.html
medreg_102297.html
medreg_73161.html
medreg_77821.html
medreg_45950.html
medreg_92877.html
medreg_113039.html
medreg_32882.html
medreg_6683.html
medreg_15358.html
medreg_75959.html
medreg_57982.html
medreg_16124.html
medreg_7092.html
medreg_97233.html
medreg_36711.html
medreg_74562.html
medreg_20295.html
medreg_44584.html
medreg_5386.html
medreg_85824.html
medreg_60872.html
medreg_11198.html
medreg_16718.html
medreg_40482.html
medreg_37415.html
medreg_42515.html
medreg_26204.html
medreg_2156.html
medreg_5693.html
medreg_31938.html
medreg_54992.html
medreg_19814.html
medreg_17559.html
medreg_2855.html
medreg_30807.html
medreg_41417.html
medreg_62377.html
medreg_96160.html
medreg_20554.html
medreg_34147.html
medreg_11209.html
medreg_23682.html
medreg_77030.html
medreg_30041.html
medreg_37784.html
medreg_24452.html
medreg_72232.html
medreg_40713.html
medreg_92436.ht

medreg_83265.html
medreg_29672.html
medreg_45553.html
medreg_66726.html
medreg_77137.html
medreg_28825.html
medreg_37729.html
medreg_78692.html
medreg_16074.html
medreg_40614.html
medreg_31757.html
medreg_34555.html
medreg_24806.html
medreg_9076.html
medreg_4644.html
medreg_16977.html
medreg_3181.html
medreg_68368.html
medreg_46810.html
medreg_69200.html
medreg_42150.html
medreg_37050.html
medreg_611.html
medreg_78942.html
medreg_68041.html
medreg_19801.html
medreg_60021.html
medreg_44591.html
medreg_23855.html
medreg_108119.html
medreg_113305.html
medreg_94689.html
medreg_40881.html
medreg_4078.html
medreg_31868.html
medreg_60867.html
medreg_81521.html
medreg_26513.html
medreg_23711.html
medreg_113811.html
medreg_45197.html
medreg_87748.html
medreg_34484.html
medreg_18011.html
medreg_10421.html
medreg_27752.html
medreg_22550.html
medreg_44769.html
medreg_91223.html
medreg_23654.html
medreg_21669.html
medreg_65937.html
medreg_37617.html
medreg_32415.html
medreg_8889.html
medreg_22696.h

medreg_63504.html
medreg_38106.html
medreg_72745.html
medreg_21327.html
medreg_10883.html
medreg_55066.html
medreg_60778.html
medreg_15678.html
medreg_41530.html
medreg_15697.html
medreg_41160.html
medreg_29652.html
medreg_45089.html
medreg_19071.html
medreg_66086.html
medreg_33863.html
medreg_37573.html
medreg_3621.html
medreg_65700.html
medreg_78831.html
medreg_39097.html
medreg_43262.html
medreg_18725.html
medreg_8981.html
medreg_12282.html
medreg_27436.html
medreg_71256.html
medreg_37066.html
medreg_81452.html
medreg_26677.html
medreg_8128.html
medreg_37436.html
medreg_2175.html
medreg_17983.html
medreg_13169.html
medreg_4672.html
medreg_55420.html
medreg_86817.html
medreg_4388.html
medreg_44231.html
medreg_77802.html
medreg_62303.html
medreg_84083.html
medreg_8201.html
medreg_96952.html
medreg_35667.html
medreg_82911.html
medreg_33249.html
medreg_17716.html
medreg_10483.html
medreg_68165.html
medreg_17468.html
medreg_23834.html
medreg_27524.html
medreg_76481.html
medreg_11945.html

medreg_14475.html
medreg_104290.html
medreg_81721.html
medreg_32402.html
medreg_18840.html
medreg_69450.html
medreg_43812.html
medreg_36912.html
medreg_37600.html
medreg_45495.html
medreg_37250.html
medreg_7842.html
medreg_3102.html
medreg_71430.html
medreg_88445.html
medreg_55641.html
medreg_41252.html
medreg_40910.html
medreg_17598.html
medreg_62498.html
medreg_13021.html
medreg_38371.html
medreg_77360.html
medreg_72162.html
medreg_5347.html
medreg_104414.html
medreg_12775.html
medreg_31015.html
medreg_34217.html
medreg_62477.html
medreg_76064.html
medreg_12325.html
medreg_1304.html
medreg_18728.html
medreg_17127.html
medreg_34997.html
medreg_70333.html
medreg_2251.html
medreg_14588.html
medreg_43900.html
medreg_88804.html
medreg_37712.html
medreg_61172.html
medreg_18401.html
medreg_6212.html
medreg_33301.html
medreg_43003.html
medreg_109949.html
medreg_32906.html
medreg_33614.html
medreg_1168.html
medreg_36046.html
medreg_55092.html
medreg_54729.html
medreg_80921.html
medreg_32005.h

medreg_31927.html
medreg_30635.html
medreg_16357.html
medreg_3308.html
medreg_31474.html
medreg_8817.html
medreg_10779.html
medreg_58107.html
medreg_31024.html
medreg_62446.html
medreg_20635.html
medreg_93516.html
medreg_87105.html
medreg_16642.html
medreg_5663.html
medreg_24733.html
medreg_59203.html
medreg_35572.html
medreg_85991.html
medreg_21161.html
medreg_38340.html
medreg_39382.html
medreg_15717.html
medreg_65415.html
medreg_15347.html
medreg_68677.html
medreg_22034.html
medreg_42766.html
medreg_89398.html
medreg_64654.html
medreg_8378.html
medreg_70247.html
medreg_70752.html
medreg_2260.html
medreg_3888.html
medreg_3922.html
medreg_6673.html
medreg_14940.html
medreg_79089.html
medreg_32872.html
medreg_43675.html
medreg_42967.html
medreg_108538.html
medreg_23824.html
medreg_33127.html
medreg_27534.html
medreg_89160.html
medreg_81550.html
medreg_7275.html
medreg_23127.html
medreg_40409.html
medreg_19466.html
medreg_26630.html
medreg_2562.html
medreg_8495.html
medreg_19523.html
me

medreg_39988.html
medreg_32278.html
medreg_32782.html
medreg_11148.html
medreg_13175.html
medreg_63277.html
medreg_83023.html
medreg_19082.html
medreg_3328.html
medreg_43291.html
medreg_72935.html
medreg_8837.html
medreg_111607.html
medreg_67664.html
medreg_41306.html
medreg_74727.html
medreg_33756.html
medreg_36104.html
medreg_4678.html
medreg_24093.html
medreg_40782.html
medreg_26554.html
medreg_70334.html
medreg_65835.html
medreg_78704.html
medreg_81321.html
medreg_40628.html
medreg_26104.html
medreg_22901.html
medreg_19702.html
medreg_35397.html
medreg_43842.html
medreg_3152.html
medreg_18543.html
medreg_65589.html
medreg_88415.html
medreg_85677.html
medreg_55095.html
medreg_15721.html
medreg_30746.html
medreg_23490.html
medreg_45646.html
medreg_77737.html
medreg_21157.html
medreg_87830.html
medreg_66576.html
medreg_69683.html
medreg_42029.html
medreg_37980.html
medreg_768.html
medreg_17435.html
medreg_40917.html
medreg_17065.html
medreg_34705.html
medreg_54811.html
medreg_12772.ht

medreg_41444.html
medreg_55020.html
medreg_17253.html
medreg_15794.html
medreg_90839.html
medreg_55470.html
medreg_41063.html
medreg_73112.html
medreg_44261.html
medreg_39751.html
medreg_16442.html
medreg_11387.html
medreg_45020.html
medreg_16012.html
medreg_5033.html
medreg_80993.html
medreg_30065.html
medreg_83653.html
medreg_3108.html
medreg_65029.html
medreg_33219.html
medreg_41126.html
medreg_10083.html
medreg_20435.html
medreg_76255.html
medreg_86328.html
medreg_7798.html
medreg_32371.html
medreg_2430.html
medreg_26298.html
medreg_15901.html
medreg_6189.html
medreg_27173.html
medreg_93080.html
medreg_102122.html
medreg_68027.html
medreg_43377.html
medreg_28793.html
medreg_20209.html
medreg_42835.html
medreg_43727.html
medreg_39028.html
medreg_17480.html
medreg_1359.html
medreg_77628.html
medreg_37466.html
medreg_42136.html
medreg_29028.html
medreg_8482.html
medreg_13569.html
medreg_27935.html
medreg_29706.html
medreg_34837.html
medreg_28814.html
medreg_16045.html
medreg_40625.htm

In [11]:
df

Unnamed: 0,Name,Geschlecht,Adresse,Beruf,Jahr Diplom,Land Diplom,Anerkennungsdatum,Weiterbildung,Jahr Weiterbildung,Land Weiterbildung,Nationalität,ID
0,"Withalm, Gerhard",m,"Zürcherstrasse 4,5620 Bremgarten AG,AG",Ärztin/Arzt,2006,Österreich,Anerkennung \n (28.03.2007)...,Psychiatrie und Psychotherapie,2013,Schweiz,"[Nationalität: Österreich (AT), [], Sprachkenn...",medreg_27259.html
0,"Schneider, Werner",m,"Hauptstr. 54,4132 Muttenz,BL",Ärztin/Arzt,1982,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1989,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_55166.html
0,"Klein, Katrin Stephanie",w,"Mühlemattstrasse 62,3007 Bern,BE",Ärztin/Arzt,2000,Deutschland,Anerkennung \n (26.01.2011)...,Psychiatrie und Psychotherapie,2008,Deutschland,"[Nationalität: Deutschland (DE), [], Sprachken...",medreg_68248.html
0,"Leinfelder, Holger Ralf",m,"Austr. 79,4051 Basel,BS",Ärztin/Arzt,1994,Deutschland,Anerkennung \n (23.07.2002)...,Psychiatrie und Psychotherapie,2002,Schweiz,"[Nationalität: Deutschland (DE), [], Sprachken...",medreg_15778.html
0,"Jobin, Peter",m,"Standweg 20,2540 Grenchen,SO",Ärztin/Arzt,1982,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1990,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_34926.html
...,...,...,...,...,...,...,...,...,...,...,...,...
0,"Marti, Aurélie Sabine Daphné",w,"Rue des Lattes 59,1217 Meyrin,GE",Ärztin/Arzt,2004,Schweiz,Eidgenössisches Diplom,Praktische Ärztin _ Praktischer Arzt,2012,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_17947.html
0,"Nick, Beat",m,"Weissensteinstrasse ,4503 Solothurn,SO",Ärztin/Arzt,1982,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1992,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_55667.html
0,"Jung, Gerhard Franz",m,"Leutholdstr. 4,8620 Wetzikon,ZH",Ärztin/Arzt,1992,Deutschland,Anerkennung \n (15.07.2002)...,Psychiatrie und Psychotherapie,2002,Schweiz,"[Nationalität: Deutschland (DE), [], Sprachken...",medreg_15583.html
0,"Blasius, Elias John Achim",m,Kein Eintrag,Ärztin/Arzt,2008,Deutschland,Anerkennung \n (22.06.2016)...,Neurologie,2015,Deutschland,"[Nationalität: Deutschland (DE), [], Sprachken...",medreg_93501.html


1. Durchgang: Stopp bei Eintrag 29549. Kontrolle ergibt: der Suchbegriff *Psychiatrie und Psychotherapie* kommt nur im Namen des Spitals vor. Deshalb Ausschluss. 
2. Durchgang: Stopp bei Eintrag 87430, es ist eine *Praxis für Psychiatrie und Psychotherapie*
3. Durchgang: Stopp bei 29511, *Klinik für Psychiatrie und Psychotherapie*, ein Arzt aus Griechenland, der dort in unselbstständiger Tätigkeit arbeitet. 

**4. Durchgang ohne Fehler. 5437 Einträge im Dataframe.**

In [13]:
df['Land Diplom'].value_counts()

Schweiz                      2837
Deutschland                  1365
Frankreich                    318
Italien                       214
Österreich                    180
Spanien                        73
Rumänien                       63
Griechenland                   58
vorm. Jugoslawien              42
Belgien                        41
Bulgarien                      22
Polen                          21
Algerien                       19
Ungarn                         17
vorm. Sowjetunion              14
Russische Föderation           14
Niederlande                    12
Portugal                       10
Slowakei                        8
Serbien Republik                8
Grossbritannien                 8
Peru                            7
Argentinien                     6
Brasilien                       6
Tschechische Republik           5
Kroatien                        5
Ukraine                         4
Slowenien                       4
Ägypten                         4
Kuba          

In [19]:
df['Weiterbildung'].value_counts()

Psychiatrie und Psychotherapie                          4844
Praktische Ärztin _ Praktischer Arzt                     227
Kinder- und Jugendpsychiatrie und -psychotherapie        143
Neurologie                                               116
Allgemeine Innere Medizin                                 79
Anästhesiologie                                            4
Prävention und Gesundheitswesen                            4
Pathologie                                                 4
Nuklearmedizin                                             2
Kinder- und Jugendmedizin                                  2
Rechtsmedizin                                              2
Keine Angaben vorhanden                                    2
Oto-Rhino-Laryngologie                                     2
Plastische, Rekonstruktive und Ästhetische Chirurgie       1
Kardiologie                                                1
Pharmazeutische Medizin                                    1
Arbeitsmedizin          

Eine Stichprobe zeigt: es wird nur der erste Weiterbildungstitel importiert. Deshalb ergibt es für Psychiatrie und Psychotherapie nur 4844 Treffer. 

In [15]:
df_wb2019 = df[df['Jahr Weiterbildung'].str.match('2019')]

In [16]:
df_wb2019['Land Diplom'].value_counts()

Schweiz                 30
Deutschland             29
Frankreich               7
Österreich               5
Griechenland             4
Spanien                  3
Italien                  3
Slowenien                2
Russische Föderation     2
Ukraine                  1
Polen                    1
Portugal                 1
vorm. Jugoslawien        1
Belgien                  1
Slowakei                 1
Name: Land Diplom, dtype: int64

In [17]:
df_wb2018 = df[df['Jahr Weiterbildung'].str.match('2018')]

In [18]:
df_wb2018['Land Diplom'].value_counts()

Schweiz                    48
Deutschland                42
Italien                    12
Rumänien                    7
Griechenland                7
Österreich                  5
Bulgarien                   3
Russische Föderation        3
Grossbritannien             3
Ungarn                      2
Polen                       2
vorm. Sowjetunion           1
Spanien                     1
Ägypten                     1
Kasachstan                  1
Frankreich                  1
Belgien                     1
Bosnien und Herzegowina     1
Serbien Republik            1
Name: Land Diplom, dtype: int64

Wir möchten gerne die ID extrahieren und als Index setzen. 


In [33]:
df.index

Int64Index([0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
            ...
            0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
           dtype='int64', length=5437)

In [41]:
df.rename(columns={'index': 'old_index'}, inplace=True)

In [45]:
df.drop("level_0", axis=1, inplace=True)

In [47]:
df.drop("old_index", axis=1, inplace=True)

In [50]:
df.head(5)

Unnamed: 0,Name,Geschlecht,Adresse,Beruf,Jahr Diplom,Land Diplom,Anerkennungsdatum,Weiterbildung,Jahr Weiterbildung,Land Weiterbildung,Nationalität,Datei
0,"Withalm, Gerhard",m,"Zürcherstrasse 4,5620 Bremgarten AG,AG",Ärztin/Arzt,2006,Österreich,Anerkennung \n (28.03.2007)...,Psychiatrie und Psychotherapie,2013,Schweiz,"[Nationalität: Österreich (AT), [], Sprachkenn...",medreg_27259.html
1,"Schneider, Werner",m,"Hauptstr. 54,4132 Muttenz,BL",Ärztin/Arzt,1982,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1989,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_55166.html
2,"Klein, Katrin Stephanie",w,"Mühlemattstrasse 62,3007 Bern,BE",Ärztin/Arzt,2000,Deutschland,Anerkennung \n (26.01.2011)...,Psychiatrie und Psychotherapie,2008,Deutschland,"[Nationalität: Deutschland (DE), [], Sprachken...",medreg_68248.html
3,"Leinfelder, Holger Ralf",m,"Austr. 79,4051 Basel,BS",Ärztin/Arzt,1994,Deutschland,Anerkennung \n (23.07.2002)...,Psychiatrie und Psychotherapie,2002,Schweiz,"[Nationalität: Deutschland (DE), [], Sprachken...",medreg_15778.html
4,"Jobin, Peter",m,"Standweg 20,2540 Grenchen,SO",Ärztin/Arzt,1982,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1990,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_34926.html


In [81]:
import re 

df['ID'] = df['Datei'].str.extract(r'(\d+)')

In [68]:
df

Unnamed: 0,Name,Geschlecht,Adresse,Beruf,Jahr Diplom,Land Diplom,Anerkennungsdatum,Weiterbildung,Jahr Weiterbildung,Land Weiterbildung,Nationalität,Datei,ID
0,"Withalm, Gerhard",m,"Zürcherstrasse 4,5620 Bremgarten AG,AG",Ärztin/Arzt,2006,Österreich,Anerkennung \n (28.03.2007)...,Psychiatrie und Psychotherapie,2013,Schweiz,"[Nationalität: Österreich (AT), [], Sprachkenn...",medreg_27259.html,27259
1,"Schneider, Werner",m,"Hauptstr. 54,4132 Muttenz,BL",Ärztin/Arzt,1982,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1989,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_55166.html,55166
2,"Klein, Katrin Stephanie",w,"Mühlemattstrasse 62,3007 Bern,BE",Ärztin/Arzt,2000,Deutschland,Anerkennung \n (26.01.2011)...,Psychiatrie und Psychotherapie,2008,Deutschland,"[Nationalität: Deutschland (DE), [], Sprachken...",medreg_68248.html,68248
3,"Leinfelder, Holger Ralf",m,"Austr. 79,4051 Basel,BS",Ärztin/Arzt,1994,Deutschland,Anerkennung \n (23.07.2002)...,Psychiatrie und Psychotherapie,2002,Schweiz,"[Nationalität: Deutschland (DE), [], Sprachken...",medreg_15778.html,15778
4,"Jobin, Peter",m,"Standweg 20,2540 Grenchen,SO",Ärztin/Arzt,1982,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1990,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_34926.html,34926
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5432,"Marti, Aurélie Sabine Daphné",w,"Rue des Lattes 59,1217 Meyrin,GE",Ärztin/Arzt,2004,Schweiz,Eidgenössisches Diplom,Praktische Ärztin _ Praktischer Arzt,2012,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_17947.html,17947
5433,"Nick, Beat",m,"Weissensteinstrasse ,4503 Solothurn,SO",Ärztin/Arzt,1982,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1992,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_55667.html,55667
5434,"Jung, Gerhard Franz",m,"Leutholdstr. 4,8620 Wetzikon,ZH",Ärztin/Arzt,1992,Deutschland,Anerkennung \n (15.07.2002)...,Psychiatrie und Psychotherapie,2002,Schweiz,"[Nationalität: Deutschland (DE), [], Sprachken...",medreg_15583.html,15583
5435,"Blasius, Elias John Achim",m,Kein Eintrag,Ärztin/Arzt,2008,Deutschland,Anerkennung \n (22.06.2016)...,Neurologie,2015,Deutschland,"[Nationalität: Deutschland (DE), [], Sprachken...",medreg_93501.html,93501


Jetzt machen wir daraus eine echte Zahl. 

In [82]:
df['ID'] = pd.to_numeric(df['ID'])

In [83]:
print (df.dtypes)

Name                  object
Geschlecht            object
Adresse               object
Beruf                 object
Jahr Diplom           object
Land Diplom           object
Anerkennungsdatum     object
Weiterbildung         object
Jahr Weiterbildung    object
Land Weiterbildung    object
Nationalität          object
Datei                 object
ID                     int64
dtype: object


In [84]:
df.set_index("ID", inplace = True)

In [85]:
df.sort_index(inplace = True)

In [86]:
df.head(3)

Unnamed: 0_level_0,Name,Geschlecht,Adresse,Beruf,Jahr Diplom,Land Diplom,Anerkennungsdatum,Weiterbildung,Jahr Weiterbildung,Land Weiterbildung,Nationalität,Datei
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
552,"Poleski, Alexander",m,"Chemin des Allières 1,1012 Lausanne,VD",Ärztin/Arzt,1985,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1986,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_552.html
566,"Langegger, Florian",m,"Seestrasse 22,8592 Uttwil,TG",Ärztin/Arzt,1985,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1985,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_566.html
590,"Rivera Prada, Jaime",m,Kein Eintrag,Ärztin/Arzt,1985,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1987,Schweiz,"[Nationalität: Schweiz (CH), [], Sprachkenntni...",medreg_590.html


Dieses Dataframe wollen wir jetzt mal abspeichern. 


In [89]:
print(df[:5].to_csv())

#You can use this command to print out the first five rows of what are going to be written into the file exactly.

ID,Name,Geschlecht,Adresse,Beruf,Jahr Diplom,Land Diplom,Anerkennungsdatum,Weiterbildung,Jahr Weiterbildung,Land Weiterbildung,Nationalität,Datei
552,"Poleski, Alexander",m,"Chemin des Allières 1,1012 Lausanne,VD",Ärztin/Arzt,1985,Schweiz,Eidgenössisches Diplom,Psychiatrie und Psychotherapie,1986,Schweiz,"<p>Nationalität: Schweiz (CH)<br/>Sprachkenntnisse: Französisch<br/>GLN: 7601000016140<a class=""info"" title=""Global Location Number: eindeutige Nummer einer Medizinalperson (früher EAN) ""> </a><br/>UID: CHE106219158<a class=""info"" title=""UID = Unternehmens-Identifikationsnummer. Die UID dient der eindeutigen Identifikation von Unternehmen und wird jeder organisatorischen oder institutionellen Einheit, die aus rechtlichen, administrativen oder statistischen Gründen identifiziert werden muss (UID-Einheit), zugewiesen. Die UID ist die Nachfolge für die MWST-Nr. und die Handelsregisternummer und wird auch von weiteren Verwaltungsregistern, wie z.B. den AHV-Ausgleichskassen geführt.

In [90]:
df.to_csv(r'/Users/master/Desktop/CAS_DJ/MedReg/MedReg Scraping 2020/medreg_2020_psych_2020010.csv')

### Zwischenfazit: 
1. Der Import mit Beautifulsoup ist nochvollständig. So wird zum Beispiel nur der erste Weiterbildungstitel importiert, deshalb ergibt die Zählung auch zuwenige Treffer. 
2. Der Bewilligungsstatus sowie der Bewilligungskanton fehlt. 
3. Das Feld Nationalität enthält noch viele Daten, darunter auch Sprachkenntnisse, die bereinigt werden müssen. 

Diese Probleme sollen im Notebook [MedReg_Parsing 04](MedReg_Parsing_04.ipynb) angegangen werden. 

