# Webscraping with Jupyter Notebook The Clinics Review Datas in Lower Saxsony Germany

Das Parojekt besteht aus drei Teile, und zwar:

#### 1- Web Scraping                  :
Beziehen von Rezensionen von den Seiten Klinikbewertungen.de & Google Maps
#### 2- Data Science/Machine Learning :
Bezogene & bereinigte Daten mittels einer Machine Learning Methode verarbeiten
#### 3- Web Technologie               :
Webseite/Webapp erstellen, um bezogene Daten und Ergebnisse des Machine Learnings darzustellen

In diesem Notebook werden nur Klinikbewertungen.de Daten verarbeitet.

# Web Scraping
#### Beziehen von Rezensionen von den Seiten Klinikbewertungen.de & Google Maps


#### Rahmen Klinikbewertungen:

-	zu erfassene Daten: Name der Klinik, Titel, Datum der Bewertung, Fachbereich, Sternebewertung (Gesamtzufriedenheit, Qualität der Beratung, Mediz. Behandlung, Verwaltung und Abläufe, Ausstattung und Gestaltung), Erfahrungsbericht und/oder Behandlungsjahr

#### Ziel: Zwei Dateien mit den jeweiligen Bewertungen von Google Maps & Klinikbewertungen zur Weiterverarbeitung

#### in diesem Notebook werden Sie die Webscrapingphasen der Daten  Klinikbewertungen.de und Google Maps finden

In [20]:
### Klinikbewertung.de Daten

##### Importieren der erforderlichen Bibliotheken

In [2]:
import pandas as pd
import requests
import scrapy
from scrapy.http import TextResponse
from scrapy.selector import Selector
from bs4 import BeautifulSoup

##### Konvertieren Excel-Daten in Pandas DataFrame

In [3]:
data = pd.read_excel(r'C:\Users\name\Desktop\WB\Abschlussproject\klinikbewertung.de\Klinikliste.xlsx')
df = pd.DataFrame(data, columns= ['Klinikname','Link Google Maps','Link Klinikbewertungen'])

In [4]:
df

Unnamed: 0,Klinikname,Link Google Maps,Link Klinikbewertungen
0,Augenklinik Dr.Hoffmann,https://www.google.com/maps/place/Augenklinik+...,https://www.klinikbewertungen.de/klinik-forum/...
1,Krankenhaus Marienstift Braunschweig,https://www.google.com/maps/place/Krankenhaus+...,https://www.klinikbewertungen.de/klinik-forum/...
2,Herzogin Elisabeth Hospital Braunschweig,https://www.google.com/maps/place/Herzogin+Eli...,https://www.klinikbewertungen.de/klinik-forum/...
3,Asklepios Fachklinikum Göttingen,https://www.google.com/maps/place/Asklepios+Fa...,https://www.klinikbewertungen.de/klinik-forum/...
4,Asklepios Fachklinikum Tiefenbrunn,https://www.google.com/maps/place/Asklepios+Fa...,https://www.klinikbewertungen.de/klinik-forum/...
5,Friederikenstift Hannover,https://www.google.com/maps/place/DIAKOVERE+Fr...,https://www.klinikbewertungen.de/klinik-forum/...
6,Annastift Hannover,https://www.google.com/maps/place/DIAKOVERE+An...,https://www.klinikbewertungen.de/klinik-forum/...
7,Clementinenhaus,https://www.google.com/maps/place/DRK-Krankenh...,https://www.klinikbewertungen.de/klinik-forum/...
8,Sophienklinik Hannover,https://www.google.com/maps/place/Sophienklini...,https://www.klinikbewertungen.de/klinik-forum/...
9,KRH Klinikum Großburgwedel,https://www.google.com/maps/place/KRH+Klinikum...,https://www.klinikbewertungen.de/klinik-forum/...


#### Wir definieren zu erfassene Daten unter clm Variable und erstellen Dataframe

In [5]:
clm=['Name der Klinik','Titel','Datum', 'Fachbereich','Erfahrungsbericht','Gesamtzufriedenheit','Qualität der Beratung','Mediz. Behandlung','Verwaltung und Abläufe','Ausstattung und Gestaltung']
dataframe=pd.DataFrame(columns=clm)
dataframe

Unnamed: 0,Name der Klinik,Titel,Datum,Fachbereich,Erfahrungsbericht,Gesamtzufriedenheit,Qualität der Beratung,Mediz. Behandlung,Verwaltung und Abläufe,Ausstattung und Gestaltung


#### Mithilfe der folgenden Code können wir mit Scrapy 23 Krankenhäuserndaten bekommen.
Danach fügen wir diese Daten zur Dataframe hinzu, die wir oben definiert haben.
##### tt:Titel, dt:Datum, fb:Fachbereich, eb:Erfahrungsbericht gs:Gesamtzufriedenheit, qb:Qualität der Beratung, mb:Mediz. Behandlung wa:Verwaltung und Abläufe ag:'Ausstattung und Gestaltung'

In [6]:
fb,ag=[],[] # These two values, fachbereich und ausstattung and gestaltung are not tidy in HTML structure in website. That's why we define them out of for loop.
for t in range (df.shape[0]):
    tt, dt, bj, eb, gs, qb, mb, wa =[],[],[],[],[],[],[],[] # tt:Titel, dt:Datum, fb:Fachbereich, eb:Erfahrungsbericht gs:Gesamtzufriedenheit, qb:Qualität der Beratung, mb:Mediz. Behandlung wa:Verwaltung und Abläufe ag:'Ausstattung und Gestaltung'
    url = df.iloc[t,2]+"/bewertungen?allbew#more" # we add the second page's link, because all review can be found including on the first page's reviews
    r = requests.get(url) 
    response = TextResponse(r.url,body=r.text,encoding="utf-8")

    all_reviews = response.xpath("//div[@class='list ratinglist']/article") # for fachbereich part 
    ratings = response.xpath("//div[@class='list ratinglist']/article") # for ausstattung and gestaltung part

    tt.append(response.xpath("//div[@class='list ratinglist']/article/header/h2/text()").extract()) # we can take all informations with written xpath 
    eb.append(response.xpath("//p[@itemprop='reviewBody']").extract()) # and also we append al values to the related list
    gs.append(response.xpath("//div[@class='list ratinglist']/article/section[@class='rating']/dl/dd[1]/text()").extract())
    qb.append(response.xpath("//div[@class='list ratinglist']/article/section[@class='rating']/dl/dd[2]/text()").extract())
    mb.append(response.xpath("//div[@class='list ratinglist']/article/section[@class='rating']/dl/dd[3]/text()").extract())
    wa.append(response.xpath("//div[@class='list ratinglist']/article/section[@class='rating']/dl/dd[4]/text()").extract())
    dt.append(response.xpath("//div[@class='meta']/time/text()").extract())

    for review in all_reviews:            
        fachbereich = review.xpath(".//span[@class='right']/a/text()").extract()
        if fachbereich:
            fachbereich=fachbereich
            fb.append(fachbereich)
        else:
            fachbereich = review.xpath(".//span[@class='right']/text()").extract()
            fb.append(fachbereich)

    for rating in ratings:           
        if rating.xpath("..//section/dl/dd[5]/img").extract():
            ag.append(rating.xpath(".//section[@class='rating']/dl/dd[5]/text()").extract())
        else:
            ag.append("Null...")

    print("100% der",t,". Krankenhausdaten wurden abgerufen")

    count = sum([len(elem) for elem in tt])
    for i in range(count):
        dataframe = dataframe.append({'Name der Klinik':df.iloc[t,0],'Fachbereich':fb[i],"Ausstattung und Gestaltung":ag[i], 'Titel': tt[0][i],'Datum':dt[0][i], 'Erfahrungsbericht':eb[0][i], 'Gesamtzufriedenheit':gs[0][i], 'Qualität der Beratung':qb[0][i],'Mediz. Behandlung':mb[0][i],'Verwaltung und Abläufe':wa[0][i]}, ignore_index=True)
        #dataframe = dataframe.append({'Name der Klinik':df.iloc[t,0], 'Titel': tt[i],'Datum':dt[i],'Fachbereich':fb[i], 'Erfahrungsbericht':eb[i], 'Gesamtzufriedenheit':gs[i], 'Qualität der Beratung':qb[i],'Mediz. Behandlung':mb[i],'Verwaltung und Abläufe':wa[i]}, ignore_index=True)
print("-----------------------ALLE DATEN WURDEN ERFOLGREICH ABGERUFEN-----------------------")


100% der 0 . Krankenhausdaten wurden abgerufen
100% der 1 . Krankenhausdaten wurden abgerufen
100% der 2 . Krankenhausdaten wurden abgerufen
100% der 3 . Krankenhausdaten wurden abgerufen
100% der 4 . Krankenhausdaten wurden abgerufen
100% der 5 . Krankenhausdaten wurden abgerufen
100% der 6 . Krankenhausdaten wurden abgerufen
100% der 7 . Krankenhausdaten wurden abgerufen
100% der 8 . Krankenhausdaten wurden abgerufen
100% der 9 . Krankenhausdaten wurden abgerufen
100% der 10 . Krankenhausdaten wurden abgerufen
100% der 11 . Krankenhausdaten wurden abgerufen
100% der 12 . Krankenhausdaten wurden abgerufen
100% der 13 . Krankenhausdaten wurden abgerufen
100% der 14 . Krankenhausdaten wurden abgerufen
100% der 15 . Krankenhausdaten wurden abgerufen
100% der 16 . Krankenhausdaten wurden abgerufen
100% der 17 . Krankenhausdaten wurden abgerufen
100% der 18 . Krankenhausdaten wurden abgerufen
100% der 19 . Krankenhausdaten wurden abgerufen
100% der 20 . Krankenhausdaten wurden abgerufen
10

In [7]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2847 entries, 0 to 2846
Data columns (total 10 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Name der Klinik             2847 non-null   object
 1   Titel                       2847 non-null   object
 2   Datum                       2847 non-null   object
 3   Fachbereich                 2847 non-null   object
 4   Erfahrungsbericht           2847 non-null   object
 5   Gesamtzufriedenheit         2847 non-null   object
 6   Qualität der Beratung       2847 non-null   object
 7   Mediz. Behandlung           2847 non-null   object
 8   Verwaltung und Abläufe      2847 non-null   object
 9   Ausstattung und Gestaltung  2847 non-null   object
dtypes: object(10)
memory usage: 222.5+ KB


#### Dataframe Prüfung

-Die Daten müssen gereinigt werden-

In [8]:
dataframe.describe

<bound method NDFrame.describe of                  Name der Klinik                             Titel  \
0        Augenklinik Dr.Hoffmann                      super Klinik   
1        Augenklinik Dr.Hoffmann  Ich war sehr zufrieden mit allem   
2        Augenklinik Dr.Hoffmann        Endlich wieder klare Sicht   
3        Augenklinik Dr.Hoffmann                 Beste Augenklinik   
4        Augenklinik Dr.Hoffmann      ich war ringsherum zufrieden   
...                          ...                               ...   
2842  Kreiskrankenhaus Osterholz                         Super KH.   
2843  Kreiskrankenhaus Osterholz                            note 6   
2844  Kreiskrankenhaus Osterholz                   macht so weiter   
2845  Kreiskrankenhaus Osterholz                       Alles Super   
2846  Kreiskrankenhaus Osterholz                      DankeschÃ¶n!   

           Datum      Fachbereich  \
0     16.03.2021          [Augen]   
1     20.01.2021          [Augen]   
2     16.11.20

In [9]:
dataframe

Unnamed: 0,Name der Klinik,Titel,Datum,Fachbereich,Erfahrungsbericht,Gesamtzufriedenheit,Qualität der Beratung,Mediz. Behandlung,Verwaltung und Abläufe,Ausstattung und Gestaltung
0,Augenklinik Dr.Hoffmann,super Klinik,16.03.2021,[Augen],"<p itemprop=""reviewBody"">Meine Laser OP grauer...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,zufrieden\n,[zufrieden\n]
1,Augenklinik Dr.Hoffmann,Ich war sehr zufrieden mit allem,20.01.2021,[Augen],"<p itemprop=""reviewBody"">Bin sehr zufrieden ge...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,[sehr zufrieden\n]
2,Augenklinik Dr.Hoffmann,Endlich wieder klare Sicht,16.11.2020,[Augen],"<p itemprop=""reviewBody"">Komptentes Ãrzteteam...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,[sehr zufrieden\n]
3,Augenklinik Dr.Hoffmann,Beste Augenklinik,22.03.2020,[Augen],"<p itemprop=""reviewBody"">Ich komme seit einen ...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,[sehr zufrieden\n]
4,Augenklinik Dr.Hoffmann,ich war ringsherum zufrieden,14.11.2019,[Augen],"<p itemprop=""reviewBody"">Ich war Anfang Novemb...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,zufrieden\n,[sehr zufrieden\n]
...,...,...,...,...,...,...,...,...,...,...
2842,Kreiskrankenhaus Osterholz,Super KH.,08.12.2009,[Entbindung],"<p itemprop=""reviewBody"">So ein nettes, zuvork...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,[zufrieden\n]
2843,Kreiskrankenhaus Osterholz,note 6,23.11.2009,[Handchirurgie],"<p itemprop=""reviewBody"">also ich muss wirklic...",unzufrieden\n,unzufrieden\n,unzufrieden\n,unzufrieden\n,[sehr zufrieden\n]
2844,Kreiskrankenhaus Osterholz,macht so weiter,04.07.2009,[Chirurgie],"<p itemprop=""reviewBody"">ich habe im osterholz...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,zufrieden\n,[zufrieden\n]
2845,Kreiskrankenhaus Osterholz,Alles Super,24.01.2009,[Frauen],"<p itemprop=""reviewBody"">Ich habe meinen Sohn ...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,[sehr zufrieden\n]


## Data Manipulation and Cleaning

In diesem Abschnitt manipulieren und reinigen wir Die Daten unter Dataframe mittels einige Methoden

In [10]:
dataframe['Gesamtzufriedenheit'] = dataframe['Gesamtzufriedenheit'].str.strip()
dataframe['Qualität der Beratung'] = dataframe['Qualität der Beratung'].str.strip()
dataframe['Mediz. Behandlung'] = dataframe['Mediz. Behandlung'].str.strip()
dataframe['Verwaltung und Abläufe'] = dataframe['Verwaltung und Abläufe'].str.strip()
dataframe['Fachbereich'] = dataframe['Fachbereich'].str[0] # for the list element
dataframe['Fachbereich'] = dataframe['Fachbereich'].str.strip()
dataframe['Erfahrungsbericht']= [BeautifulSoup(text).get_text() for text in dataframe['Erfahrungsbericht']]
dataframe['Ausstattung und Gestaltung'] = dataframe['Ausstattung und Gestaltung'].str[0]
dataframe['Ausstattung und Gestaltung'] = dataframe['Ausstattung und Gestaltung'].str.strip()

#### Gereinigte Dataframe Prüfung

In [11]:
dataframe

Unnamed: 0,Name der Klinik,Titel,Datum,Fachbereich,Erfahrungsbericht,Gesamtzufriedenheit,Qualität der Beratung,Mediz. Behandlung,Verwaltung und Abläufe,Ausstattung und Gestaltung
0,Augenklinik Dr.Hoffmann,super Klinik,16.03.2021,Augen,Meine Laser OP grauer Star hat super geklappt....,sehr zufrieden,sehr zufrieden,sehr zufrieden,zufrieden,zufrieden
1,Augenklinik Dr.Hoffmann,Ich war sehr zufrieden mit allem,20.01.2021,Augen,Bin sehr zufrieden gewesen mit der Klinik und ...,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden
2,Augenklinik Dr.Hoffmann,Endlich wieder klare Sicht,16.11.2020,Augen,Komptentes Ãrzteteam.\nStrickte Einhaltung de...,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden
3,Augenklinik Dr.Hoffmann,Beste Augenklinik,22.03.2020,Augen,Ich komme seit einen halben Jahr mit meiner be...,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden
4,Augenklinik Dr.Hoffmann,ich war ringsherum zufrieden,14.11.2019,Augen,Ich war Anfang November 2019 zur Augen-OP (Gra...,sehr zufrieden,sehr zufrieden,sehr zufrieden,zufrieden,sehr zufrieden
...,...,...,...,...,...,...,...,...,...,...
2842,Kreiskrankenhaus Osterholz,Super KH.,08.12.2009,Entbindung,"So ein nettes, zuvorkommendes, aufmerksames, h...",sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden,zufrieden
2843,Kreiskrankenhaus Osterholz,note 6,23.11.2009,Handchirurgie,also ich muss wirklich sagen ich mag das krank...,unzufrieden,unzufrieden,unzufrieden,unzufrieden,sehr zufrieden
2844,Kreiskrankenhaus Osterholz,macht so weiter,04.07.2009,Chirurgie,ich habe im osterholzer kreiskrankenhaus im ja...,sehr zufrieden,sehr zufrieden,sehr zufrieden,zufrieden,zufrieden
2845,Kreiskrankenhaus Osterholz,Alles Super,24.01.2009,Frauen,Ich habe meinen Sohn am 2.1.2009 Entbunden.All...,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden


#### Datenspeichern im CSV/JSON-Datenformat im Rechner.

In [12]:
dataframe.to_csv(r'C:\Users\name\Desktop\WB\Abschlussproject\klinikbewertung.de\clinical_data_lowersaxony.csv', index = False)

In [13]:
df.to_json(r'C:\Users\name\Desktop\WB\Abschlussproject\klinikbewertung.de\clinical_data_lowersaxony.json')

## -----------------------------------------------------------------------------------------------------------

# Google Maps Clinical Data Lower Saxony Germany

### Rahmen Google: 
Name der Klinik, Textuelle Bewertung, Sternebewertung, Datum der Bewertung, Likes

##### Importieren der erforderlichen Bibliotheken

In [14]:
import pandas as pd
from time import sleep
import csv
import bs4 as bs
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.expected_conditions import presence_of_element_located


#### Wir definieren zu erfassene Daten unter clmgoogle Variable und erstellen Dataframe für Google Maps Daten

In [15]:
clmgoogle=['Name der Klinik','Textuelle Bewertung','Sternebewertung', 'Datum der Bewertung','Likes']
dfgoogle=pd.DataFrame(columns=clmgoogle)
dfgoogle

Unnamed: 0,Name der Klinik,Textuelle Bewertung,Sternebewertung,Datum der Bewertung,Likes


#### Mithilfe der folgenden Funktion können wir mit Selenium und Beatiful Soup Krankenhäuserndaten bekommen.

In [16]:
infos = []
def extractgoogle(url):    

    chrome_driver_path = "chromedriver"
    chrome_options = Options()
    chrome_options.add_argument("--lang=de")
    Options.headless = False 

    driver = webdriver.Chrome(executable_path=chrome_driver_path, options=chrome_options)
    driver.get(url)
    sleep(10)
    driver.maximize_window()

    #3. Click Menu Buttons
    wait = WebDriverWait(driver,10)
    wait.until(EC.frame_to_be_available_and_switch_to_it((By.XPATH, '//*[@id="consent-bump"]/div/div[1]/iframe')))  
    agree = wait.until(EC.element_to_be_clickable((By.XPATH, '//*[@id="introAgreeButton"]/span/span'))) 
    agree.click()
    sleep(5)

    suche = driver.find_element_by_xpath("/html/body/jsl/div[3]/div[9]/div[3]/div[1]/div[1]/div[1]/div[2]/div[1]/button")
    sleep(3)
    suche.click()
    sleep(10)

    klinik_name = driver.find_element_by_xpath('//*[@id="pane"]/div/div[1]/div/div/div[2]/div[1]/div[1]/div[1]/h1/span[1]').text
    print(klinik_name)

    all_review = driver.find_element_by_class_name('widget-pane-link')
    all_review.click()

    sleep(2)
    reviews_number = driver.find_element_by_xpath('//*[@class="gm2-caption"]').text.split()
    scroll_number = (int(reviews_number[0]))//10+1
    print(f"Maximum scroll need to get full data: {scroll_number}")

    def scroll_review():
        #sleep(1)
        WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, "section-layout-root"))) # Waits for the page to load.
        x=0
        while (x < int(scroll_number)):
            scrollable_div = driver.find_element_by_css_selector('div.section-layout.section-scrollbox.scrollable-y.scrollable-show') # It gets the section of the scroll bar.
           # print( '  ', x+1, '  times scroll')
            sleep(2)
            driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight", scrollable_div) # Scroll it to the bottom.
            x=x+1

        else:
            print('')

    sleep(3)
    scroll_review()

    def expand_reviews():
        expand = driver.find_elements_by_class_name("section-expand-review")

        for i in expand:
            i.click()

    sleep(2)
    expand_reviews()


    commentators = driver.find_elements_by_xpath('//div[@class="section-review-title"]/span')
    reviews = driver.find_elements_by_xpath('//div[@class="section-review-review-content"]/span[2]')
    stars = driver.find_elements_by_xpath('//div[@class="section-review-metadata section-review-metadata-with-note"]/span[2]')
    dates = driver.find_elements_by_xpath('//span[@class="section-review-publish-date"]')
    likes = driver.find_elements_by_xpath('//span[@class="section-review-thumbs-up-count"]')

    y=1
    while(y<int(reviews_number[0])):
        info = []
        info.append(klinik_name)
        #first_commentator = commentators.pop(0)
        #commentator = first_commentator.text
        #info.append(commentator)

        first_review = reviews.pop(0)
        review = first_review.text.replace('\n','**')
        info.append(review)

        first_date = dates.pop(0)
        date = first_date.text
        info.append(date)

        if (len(likes))==0:
            like='No Like'
        else:
            first_like = likes.pop(0)
            like = first_like.text
        info.append(like)

        first_star = stars.pop(0)
        star = first_star.get_attribute("aria-label").split()
        info.append(star[0])

        infos.append(info)
        y= y+1

    driver.close()

#### Wir nutzen vorherige Funktion um die Daten der 12 Krankenhäusern zu bekommen.

In [17]:
for f in range(12):
    extractgoogle(df.iloc[f,1])
    sleep(10)

Augenklinik Dr. Hoffmann
Maximum scroll need to get full data: 11

Krankenhaus Marienstift gGmbH
Maximum scroll need to get full data: 9

Herzogin Elisabeth Hospital
Maximum scroll need to get full data: 14

Asklepios Fachklinikum Göttingen
Maximum scroll need to get full data: 6

Asklepios Fachklinikum Tiefenbrunn
Maximum scroll need to get full data: 3

DIAKOVERE Friederikenstift
Maximum scroll need to get full data: 27

DIAKOVERE Annastift
Maximum scroll need to get full data: 10

DRK-Krankenhaus Clementinenhaus
Maximum scroll need to get full data: 18

Sophienklinik GmbH
Maximum scroll need to get full data: 12

KRH Klinikum Großburgwedel
Maximum scroll need to get full data: 12

KRH Klinikum Lehrte
Maximum scroll need to get full data: 9

Krankenhaus Lindenbrunn
Maximum scroll need to get full data: 5



#### Für die Restliche Daten

In [18]:
infos1 = []
def extractgoogle1(url):    

    chrome_driver_path = "chromedriver"
    chrome_options = Options()
    chrome_options.add_argument("--lang=de")
    Options.headless = False 

    driver = webdriver.Chrome(executable_path=chrome_driver_path, options=chrome_options)
    driver.get(url)
    sleep(10)
    driver.maximize_window()

    #3. Click Menu Buttons
    wait = WebDriverWait(driver,10)
    wait.until(EC.frame_to_be_available_and_switch_to_it((By.XPATH, '//*[@id="consent-bump"]/div/div[1]/iframe')))  
    agree = wait.until(EC.element_to_be_clickable((By.XPATH, '//*[@id="introAgreeButton"]/span/span'))) 
    agree.click()
    sleep(5)

    suche = driver.find_element_by_xpath("/html/body/jsl/div[3]/div[9]/div[3]/div[1]/div[1]/div[1]/div[2]/div[1]/button")
    sleep(3)
    suche.click()
    sleep(10)

    klinik_name = driver.find_element_by_xpath('//*[@id="pane"]/div/div[1]/div/div/div[2]/div[1]/div[1]/div[1]/h1/span[1]').text
    print(klinik_name)

    all_review = driver.find_element_by_class_name('widget-pane-link')
    all_review.click()

    sleep(2)
    reviews_number = driver.find_element_by_xpath('//*[@class="gm2-caption"]').text.split()
    scroll_number = (int(reviews_number[0]))//10+1
    print(f"Maximum scroll need to get full data: {scroll_number}")

    def scroll_review():
        #sleep(1)
        WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, "section-layout-root"))) # Waits for the page to load.
        x=0
        while (x < int(scroll_number)):
            scrollable_div = driver.find_element_by_css_selector('div.section-layout.section-scrollbox.scrollable-y.scrollable-show') # It gets the section of the scroll bar.
           # print( '  ', x+1, '  times scroll')
            sleep(2)
            driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight", scrollable_div) # Scroll it to the bottom.
            x=x+1

        else:
            print('')

    sleep(3)
    scroll_review()

    def expand_reviews():
        expand = driver.find_elements_by_class_name("section-expand-review")

        for i in expand:
            i.click()

    sleep(2)
    expand_reviews()


    commentators = driver.find_elements_by_xpath('//div[@class="section-review-title"]/span')
    reviews = driver.find_elements_by_xpath('//div[@class="section-review-review-content"]/span[2]')
    stars = driver.find_elements_by_xpath('//div[@class="section-review-metadata section-review-metadata-with-note"]/span[2]')
    dates = driver.find_elements_by_xpath('//span[@class="section-review-publish-date"]')
    likes = driver.find_elements_by_xpath('//span[@class="section-review-thumbs-up-count"]')

    y=1
    while(y<int(reviews_number[0])):
        info = []
        info.append(klinik_name)
        #first_commentator = commentators.pop(0)
        #commentator = first_commentator.text
        #info.append(commentator)

        if reviews:
            first_review = reviews.pop(0)
        review = first_review.text.replace('\n','**')
        info.append(review)

        if dates:
            first_date = dates.pop(0)
        date = first_date.text
        info.append(date)

        if (len(likes))==0:
            like='No Like'
        else:
            first_like = likes.pop(0)
            like = first_like.text
        info.append(like)

        if stars:
            first_star = stars.pop(0)
        star = first_star.get_attribute("aria-label").split()
        
        info.append(star[0])
        infos1.append(info)
        y= y+1

    driver.close()

In [19]:
for t in range(10):
    extractgoogle1(df.iloc[t+12,1])
    #dfgoogle = dfgoogle.append({'Name der Klinik':df.iloc[t+12,0],'Textuelle Bewertung':infos[t+12][0],'Sternebewertung':infos[t+12][3], 'Datum der Bewertung':infos[t+12][1],'Likes':infos[t+12][2]}, ignore_index=True)
    sleep(10)

Sana Klinikum Hameln-Pyrmont
Maximum scroll need to get full data: 28

AMEOS Klinikum Alfeld
Maximum scroll need to get full data: 8

Helios Klinikum Hildesheim
Maximum scroll need to get full data: 31

HELIOS Klinik Cuxhaven
Maximum scroll need to get full data: 15

OsteMed Klinik Bremervörde
Maximum scroll need to get full data: 8

Klinik Fallingbostel
Maximum scroll need to get full data: 6

Klinikum Emden - Hans-Susemihl-Krankenhaus
Maximum scroll need to get full data: 16

Krankenhaus Ludmillenstift
Maximum scroll need to get full data: 13

Marienkrankenhaus Papenburg- Aschendorf GmbH Betriebsstätte Aschendorf
Maximum scroll need to get full data: 1

Kreiskrankenhaus Osterholz
Maximum scroll need to get full data: 7



Jetzt haben wir alle Daten bekommen. 

In [21]:
len(infos)+len(infos1)

2568

In [22]:
len(infos1)

1268

In [23]:
infos1[1266]

['Kreiskrankenhaus Osterholz', '', 'vor einem Jahr', 'No Like', '4']

In [24]:
dfgoogle

Unnamed: 0,Name der Klinik,Textuelle Bewertung,Sternebewertung,Datum der Bewertung,Likes


In [25]:
for elem in range(len(infos1)):
    dfgoogle = dfgoogle.append({'Name der Klinik':infos1[elem][0],'Textuelle Bewertung':infos1[elem][1],'Datum der Bewertung':infos1[elem][2],'Likes':infos1[elem][3], 'Sternebewertung':infos1[elem][4]}, ignore_index=True)

In [27]:
for el in range(len(infos)):
    dfgoogle = dfgoogle.append({'Name der Klinik':infos[el][0],'Textuelle Bewertung':infos[el][1],'Datum der Bewertung':infos[el][2],'Likes':infos[el][3], 'Sternebewertung':infos[el][4]}, ignore_index=True)

In [28]:
dfgoogle

Unnamed: 0,Name der Klinik,Textuelle Bewertung,Sternebewertung,Datum der Bewertung,Likes
0,Sana Klinikum Hameln-Pyrmont,5 Tage Aufenthalt zur Corona Zeit gibt spannen...,4,vor 6 Monaten,2
1,Sana Klinikum Hameln-Pyrmont,Ein großes Lob an die Gastroenterologie von Dr...,5,vor 2 Wochen,1
2,Sana Klinikum Hameln-Pyrmont,"Danke an die Ärzte, Hebammen und Schwestern im...",5,vor 4 Monaten,10
3,Sana Klinikum Hameln-Pyrmont,Menschlich und medizinisch sehr fragwürdig. Ma...,1,vor 3 Wochen,4
4,Sana Klinikum Hameln-Pyrmont,Menschlich gesehen erschreckend.**Angefangen b...,1,vor 6 Monaten,3
...,...,...,...,...,...
2563,Krankenhaus Lindenbrunn,,1,vor einem Jahr,No Like
2564,Krankenhaus Lindenbrunn,,5,vor 7 Monaten,No Like
2565,Krankenhaus Lindenbrunn,,4,vor einem Monat,No Like
2566,Krankenhaus Lindenbrunn,,5,vor 2 Jahren,No Like


In [29]:
dfgoogle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2568 entries, 0 to 2567
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Name der Klinik      2568 non-null   object
 1   Textuelle Bewertung  2568 non-null   object
 2   Sternebewertung      2568 non-null   object
 3   Datum der Bewertung  2568 non-null   object
 4   Likes                2568 non-null   object
dtypes: object(5)
memory usage: 100.4+ KB


In [30]:
dfgoogle.describe

<bound method NDFrame.describe of                    Name der Klinik  \
0     Sana Klinikum Hameln-Pyrmont   
1     Sana Klinikum Hameln-Pyrmont   
2     Sana Klinikum Hameln-Pyrmont   
3     Sana Klinikum Hameln-Pyrmont   
4     Sana Klinikum Hameln-Pyrmont   
...                            ...   
2563       Krankenhaus Lindenbrunn   
2564       Krankenhaus Lindenbrunn   
2565       Krankenhaus Lindenbrunn   
2566       Krankenhaus Lindenbrunn   
2567       Krankenhaus Lindenbrunn   

                                    Textuelle Bewertung Sternebewertung  \
0     5 Tage Aufenthalt zur Corona Zeit gibt spannen...               4   
1     Ein großes Lob an die Gastroenterologie von Dr...               5   
2     Danke an die Ärzte, Hebammen und Schwestern im...               5   
3     Menschlich und medizinisch sehr fragwürdig. Ma...               1   
4     Menschlich gesehen erschreckend.**Angefangen b...               1   
...                                                 ...    

In [32]:
dataframe.to_csv(r'C:\Users\name\Desktop\WB\Abschlussproject\klinikbewertung.de\clinical_data_lowersaxony_google.csv', index = False)

In [33]:
df.to_json(r'C:\Users\name\Desktop\WB\Abschlussproject\klinikbewertung.de\clinical_data_lowersaxony_google.json')