# Webscraping with Jupyter Notebook The Clinics Review Datas in Lower Saxsony Germany

Das Parojekt besteht aus drei Teile, und zwar:

#### 1- Web Scraping                  :
Beziehen von Rezensionen von den Seiten Klinikbewertungen.de & Google Maps
#### 2- Data Science/Machine Learning :
Bezogene & bereinigte Daten mittels einer Machine Learning Methode verarbeiten
#### 3- Web Technologie               :
Webseite/Webapp erstellen, um bezogene Daten und Ergebnisse des Machine Learnings darzustellen

In diesem Notebook werden nur Klinikbewertungen.de Daten verarbeitet.

# Web Scraping
#### Beziehen von Rezensionen von den Seiten Klinikbewertungen.de & Google Maps


#### Rahmen Klinikbewertungen:

-	zu erfassene Daten: Name der Klinik, Titel, Datum der Bewertung, Fachbereich, Sternebewertung (Gesamtzufriedenheit, Qualität der Beratung, Mediz. Behandlung, Verwaltung und Abläufe, Ausstattung und Gestaltung), Erfahrungsbericht und/oder Behandlungsjahr

#### Ziel: Zwei Dateien mit den jeweiligen Bewertungen von Google Maps & Klinikbewertungen zur Weiterverarbeitung

#### in diesem Notebook werden Sie die Webscrapingphasen der Daten  Klinikbewertungen.de und Google Maps finden

In [20]:
### Klinikbewertung.de Daten

##### Importieren der erforderlichen Bibliotheken

In [1]:
import pandas as pd
import requests
import scrapy
from scrapy.http import TextResponse
from scrapy.selector import Selector
from bs4 import BeautifulSoup

##### Konvertieren Excel-Daten in Pandas DataFrame

In [87]:
data = pd.read_excel(r'Klinikliste.xlsx')
df = pd.DataFrame(data, columns= ['Klinikname','Link Google Maps','Link Klinikbewertungen'])

In [3]:
df

Unnamed: 0,Klinikname,Link Google Maps,Link Klinikbewertungen
0,Herzogin Elisabeth Hospital,https://www.google.com/maps/place/Herzogin+Eli...,https://www.klinikbewertungen.de/klinik-forum/...
1,Klinik am Zuckerberg,https://www.google.com/maps/place/Klinik+Am+Zu...,https://www.klinikbewertungen.de/klinik-forum/...
2,Klinikum Wolfsburg,https://www.google.com/maps/place/Klinikum+Wol...,https://www.klinikbewertungen.de/klinik-forum/...
3,Klinikum Peine,https://www.google.com/maps/place/Klinikum+Pei...,https://www.klinikbewertungen.de/klinik-forum/...
4,St. Martini Krankenhaus,https://www.google.com/maps/place/St.+Martini+...,https://www.klinikbewertungen.de/klinik-forum/...
5,DIAKOVERE Henriettenstift,https://www.google.com/maps/place/DIAKOVERE+He...,https://www.klinikbewertungen.de/klinik-forum/...
6,Eilenriede Klinik Hannover,https://www.google.com/maps/place/Eilenriede+K...,https://www.klinikbewertungen.de/klinik-forum/...
7,Sophienklinik,https://www.google.com/maps/place/Sophienklini...,https://www.klinikbewertungen.de/klinik-forum/...
8,KRH Klinikum Agness Karll Laatzen,https://www.google.com/maps/place/KRH+Klinikum...,https://www.klinikbewertungen.de/klinik-forum/...
9,Klinikum Wahrendorff,https://www.google.com/maps/place/Klinikum+Wah...,https://www.klinikbewertungen.de/klinik-forum/...


#### Wir definieren zu erfassene Daten unter clm Variable und erstellen Dataframe

In [88]:
clm=['Name der Klinik','Titel','Datum', 'Fachbereich','Erfahrungsbericht','Gesamtzufriedenheit','Qualität der Beratung','Mediz. Behandlung','Verwaltung und Abläufe','Ausstattung und Gestaltung']
dataframe=pd.DataFrame(columns=clm)
dataframe

Unnamed: 0,Name der Klinik,Titel,Datum,Fachbereich,Erfahrungsbericht,Gesamtzufriedenheit,Qualität der Beratung,Mediz. Behandlung,Verwaltung und Abläufe,Ausstattung und Gestaltung


#### Mithilfe der folgenden Code können wir mit Scrapy 23 Krankenhäuserndaten bekommen.
Danach fügen wir diese Daten zur Dataframe hinzu, die wir oben definiert haben.
##### tt:Titel, dt:Datum, fb:Fachbereich, eb:Erfahrungsbericht gs:Gesamtzufriedenheit, qb:Qualität der Beratung, mb:Mediz. Behandlung wa:Verwaltung und Abläufe ag:'Ausstattung und Gestaltung'

In [90]:
fb,ag=[],[] # These two values, fachbereich und ausstattung and gestaltung are not tidy in HTML structure in website. That's why we define them out of for loop.
for t in range (17):
    tt, dt, bj, eb, gs, qb, mb, wa =[],[],[],[],[],[],[],[] # tt:Titel, dt:Datum, fb:Fachbereich, eb:Erfahrungsbericht gs:Gesamtzufriedenheit, qb:Qualität der Beratung, mb:Mediz. Behandlung wa:Verwaltung und Abläufe ag:'Ausstattung und Gestaltung'
    url = df.iloc[t,2]+"/bewertungen?allbew#more" # we add the second page's link, because all review can be found including on the first page's reviews
    r = requests.get(url) 
    response = TextResponse(r.url,body=r.text,encoding="utf-8")

    all_reviews = response.xpath("//div[@class='list ratinglist']/article") # for fachbereich part 
    ratings = response.xpath("//div[@class='list ratinglist']/article") # for ausstattung and gestaltung part

    tt.append(response.xpath("//div[@class='list ratinglist']/article/header/h2/text()").extract()) # we can take all informations with written xpath 
    eb.append(response.xpath("//p[@itemprop='reviewBody']").extract()) # and also we append al values to the related list
    gs.append(response.xpath("//div[@class='list ratinglist']/article/section[@class='rating']/dl/dd[1]/text()").extract())
    qb.append(response.xpath("//div[@class='list ratinglist']/article/section[@class='rating']/dl/dd[2]/text()").extract())
    mb.append(response.xpath("//div[@class='list ratinglist']/article/section[@class='rating']/dl/dd[3]/text()").extract())
    wa.append(response.xpath("//div[@class='list ratinglist']/article/section[@class='rating']/dl/dd[4]/text()").extract())
    dt.append(response.xpath("//div[@class='meta']/time/text()").extract())

    for review in all_reviews:            
        fachbereich = review.xpath(".//span[@class='right']/a/text()").extract()
        if fachbereich:
            fachbereich=fachbereich
            fb.append(fachbereich)
        else:
            fachbereich = review.xpath(".//span[@class='right']/text()").extract()
            fb.append(fachbereich)

    for rating in ratings:           
        if rating.xpath("..//section/dl/dd[5]/img").extract():
            ag.append(rating.xpath(".//section[@class='rating']/dl/dd[5]/text()").extract())
        else:
            ag.append("Null...")

    print("100% der",t,". Krankenhausdaten wurden abgerufen")

    count = sum([len(elem) for elem in tt])
    for i in range(count):
        dataframe = dataframe.append({'Name der Klinik':df.iloc[t,0],'Fachbereich':fb[i],"Ausstattung und Gestaltung":ag[i], 'Titel': tt[0][i],'Datum':dt[0][i], 'Erfahrungsbericht':eb[0][i], 'Gesamtzufriedenheit':gs[0][i], 'Qualität der Beratung':qb[0][i],'Mediz. Behandlung':mb[0][i],'Verwaltung und Abläufe':wa[0][i]}, ignore_index=True)
        #dataframe = dataframe.append({'Name der Klinik':df.iloc[t,0], 'Titel': tt[i],'Datum':dt[i],'Fachbereich':fb[i], 'Erfahrungsbericht':eb[i], 'Gesamtzufriedenheit':gs[i], 'Qualität der Beratung':qb[i],'Mediz. Behandlung':mb[i],'Verwaltung und Abläufe':wa[i]}, ignore_index=True)
print("-----------------------ALLE DATEN WURDEN ERFOLGREICH ABGERUFEN-----------------------")


100% der 0 . Krankenhausdaten wurden abgerufen
100% der 1 . Krankenhausdaten wurden abgerufen
100% der 2 . Krankenhausdaten wurden abgerufen
100% der 3 . Krankenhausdaten wurden abgerufen
100% der 4 . Krankenhausdaten wurden abgerufen
100% der 5 . Krankenhausdaten wurden abgerufen
100% der 6 . Krankenhausdaten wurden abgerufen
100% der 7 . Krankenhausdaten wurden abgerufen
100% der 8 . Krankenhausdaten wurden abgerufen
100% der 9 . Krankenhausdaten wurden abgerufen
100% der 10 . Krankenhausdaten wurden abgerufen
100% der 11 . Krankenhausdaten wurden abgerufen
100% der 12 . Krankenhausdaten wurden abgerufen
100% der 13 . Krankenhausdaten wurden abgerufen
100% der 14 . Krankenhausdaten wurden abgerufen
100% der 15 . Krankenhausdaten wurden abgerufen
100% der 16 . Krankenhausdaten wurden abgerufen
-----------------------ALLE DATEN WURDEN ERFOLGREICH ABGERUFEN-----------------------


In [6]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2035 entries, 0 to 2034
Data columns (total 10 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Name der Klinik             2035 non-null   object
 1   Titel                       2035 non-null   object
 2   Datum                       2035 non-null   object
 3   Fachbereich                 2035 non-null   object
 4   Erfahrungsbericht           2035 non-null   object
 5   Gesamtzufriedenheit         2035 non-null   object
 6   Qualität der Beratung       2035 non-null   object
 7   Mediz. Behandlung           2035 non-null   object
 8   Verwaltung und Abläufe      2035 non-null   object
 9   Ausstattung und Gestaltung  2035 non-null   object
dtypes: object(10)
memory usage: 159.1+ KB


#### Dataframe Prüfung

-Die Daten müssen gereinigt werden-

In [7]:
dataframe.describe

<bound method NDFrame.describe of                   Name der Klinik  \
0     Herzogin Elisabeth Hospital   
1     Herzogin Elisabeth Hospital   
2     Herzogin Elisabeth Hospital   
3     Herzogin Elisabeth Hospital   
4     Herzogin Elisabeth Hospital   
...                           ...   
2030           Krankenhaus Winsen   
2031           Krankenhaus Winsen   
2032           Krankenhaus Winsen   
2033           Krankenhaus Winsen   
2034           Krankenhaus Winsen   

                                                Titel       Datum  \
0                                         Superklinik  07.06.2021   
1                          Kranken- oder Hotelzimmer?  25.05.2021   
2                                             Knie OP  11.05.2021   
3                            Beste Erfahrungen im HEH  09.05.2021   
4                       Superkompetent und freundlich  07.05.2021   
...                                               ...         ...   
2030                                  

In [103]:
dataframe

Unnamed: 0,Name der Klinik,Titel,Datum,Fachbereich,Erfahrungsbericht,Gesamtzufriedenheit,Qualität der Beratung,Mediz. Behandlung,Verwaltung und Abläufe,Ausstattung und Gestaltung
0,Herzogin Elisabeth Hospital,Superklinik,07.06.2021,[OrthopÃ¤die],"<p itemprop=""reviewBody"">Bestens durchorganisi...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,[sehr zufrieden\n]
1,Herzogin Elisabeth Hospital,Kranken- oder Hotelzimmer?,25.05.2021,[\nUnfallchirurgie\n],"<p itemprop=""reviewBody"">Bin nach einem Autoun...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,[zufrieden\n]
2,Herzogin Elisabeth Hospital,Knie OP,11.05.2021,[OrthopÃ¤die],"<p itemprop=""reviewBody"">Wurde bereits im Sept...",sehr zufrieden (Keine negativen Merkmale im Ge...,sehr zufrieden\n,sehr zufrieden (Sehr gute medizinische und pfl...,sehr zufrieden\n,[sehr zufrieden\n]
3,Herzogin Elisabeth Hospital,Beste Erfahrungen im HEH,09.05.2021,[Chirurgie],"<p itemprop=""reviewBody"">Da ich zeit meines Le...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,zufrieden\n,[sehr zufrieden\n]
4,Herzogin Elisabeth Hospital,Superkompetent und freundlich,07.05.2021,[\nGefÃ¤Ãchirurgie\n],"<p itemprop=""reviewBody"">Das gesamte Personal ...",sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,sehr zufrieden\n,[zufrieden\n]
...,...,...,...,...,...,...,...,...,...,...
4474,Psychiatrische Klinik Lüneburg,Mir gings schlechter als vorher,19.03.2013,[OrthopÃ¤die],"<p itemprop=""reviewBody"">Ich war vor kuzen Pat...",unzufrieden\n,unzufrieden\n,unzufrieden\n,unzufrieden\n,[zufrieden\n]
4475,Psychiatrische Klinik Lüneburg,Eine positive Ãberraschung!,05.12.2009,[Chirurgie],"<p itemprop=""reviewBody"">Ich befinde mich seit...",sehr zufrieden\n,sehr zufrieden\n,zufrieden\n,sehr zufrieden\n,[sehr zufrieden\n]
4476,Psychiatrische Klinik Lüneburg,Tagesklinik Uelzener StraÃe,25.10.2009,[OrthopÃ¤die],"<p itemprop=""reviewBody"">Ich kann mich Angie n...",unzufrieden\n,unzufrieden\n,unzufrieden\n,unzufrieden\n,[sehr zufrieden\n]
4477,Psychiatrische Klinik Lüneburg,Tagesklinik I - NO GO!,03.03.2009,[OrthopÃ¤die],"<p itemprop=""reviewBody""> </p>","unzufrieden (man wurde behandelt, als hÃ¤tte m...",unzufrieden\n,unzufrieden\n,weniger zufrieden\n,[zufrieden (die Zimmer wirken ein bisschen nÃ¼...


## Data Manipulation and Cleaning

In diesem Abschnitt manipulieren und reinigen wir Die Daten unter Dataframe mittels einige Methoden

In [104]:
dataframe['Gesamtzufriedenheit'] = dataframe['Gesamtzufriedenheit'].str.strip()
dataframe['Qualität der Beratung'] = dataframe['Qualität der Beratung'].str.strip()
dataframe['Mediz. Behandlung'] = dataframe['Mediz. Behandlung'].str.strip()
dataframe['Verwaltung und Abläufe'] = dataframe['Verwaltung und Abläufe'].str.strip()
dataframe['Fachbereich'] = dataframe['Fachbereich'].str[0] # for the list element
dataframe['Fachbereich'] = dataframe['Fachbereich'].str.strip()
dataframe['Erfahrungsbericht']= [BeautifulSoup(text).get_text() for text in dataframe['Erfahrungsbericht']]
dataframe['Ausstattung und Gestaltung'] = dataframe['Ausstattung und Gestaltung'].str[0]
dataframe['Ausstattung und Gestaltung'] = dataframe['Ausstattung und Gestaltung'].str.strip()

#### Gereinigte Dataframe Prüfung

In [105]:
dataframe

Unnamed: 0,Name der Klinik,Titel,Datum,Fachbereich,Erfahrungsbericht,Gesamtzufriedenheit,Qualität der Beratung,Mediz. Behandlung,Verwaltung und Abläufe,Ausstattung und Gestaltung
0,Herzogin Elisabeth Hospital,Superklinik,07.06.2021,OrthopÃ¤die,Bestens durchorganisiert.gutes Personal geht i...,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden
1,Herzogin Elisabeth Hospital,Kranken- oder Hotelzimmer?,25.05.2021,Unfallchirurgie,Bin nach einem Autounfall im HEH gewesen und h...,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden,zufrieden
2,Herzogin Elisabeth Hospital,Knie OP,11.05.2021,OrthopÃ¤die,Wurde bereits im Sept. 2020 am Knie operiert. ...,sehr zufrieden (Keine negativen Merkmale im Ge...,sehr zufrieden,sehr zufrieden (Sehr gute medizinische und pfl...,sehr zufrieden,sehr zufrieden
3,Herzogin Elisabeth Hospital,Beste Erfahrungen im HEH,09.05.2021,Chirurgie,Da ich zeit meines Lebens noch nie einen Krank...,sehr zufrieden,sehr zufrieden,sehr zufrieden,zufrieden,sehr zufrieden
4,Herzogin Elisabeth Hospital,Superkompetent und freundlich,07.05.2021,GefÃ¤Ãchirurgie,Das gesamte Personal von der Notaufnahme Ã¼ber...,sehr zufrieden,sehr zufrieden,sehr zufrieden,sehr zufrieden,zufrieden
...,...,...,...,...,...,...,...,...,...,...
4474,Psychiatrische Klinik Lüneburg,Mir gings schlechter als vorher,19.03.2013,OrthopÃ¤die,Ich war vor kuzen Patientrin auf der Station 1...,unzufrieden,unzufrieden,unzufrieden,unzufrieden,zufrieden
4475,Psychiatrische Klinik Lüneburg,Eine positive Ãberraschung!,05.12.2009,Chirurgie,Ich befinde mich seit einigen Wochen in Behand...,sehr zufrieden,sehr zufrieden,zufrieden,sehr zufrieden,sehr zufrieden
4476,Psychiatrische Klinik Lüneburg,Tagesklinik Uelzener StraÃe,25.10.2009,OrthopÃ¤die,Ich kann mich Angie nur anschlieÃen! Diese Ta...,unzufrieden,unzufrieden,unzufrieden,unzufrieden,sehr zufrieden
4477,Psychiatrische Klinik Lüneburg,Tagesklinik I - NO GO!,03.03.2009,OrthopÃ¤die,,"unzufrieden (man wurde behandelt, als hÃ¤tte m...",unzufrieden,unzufrieden,weniger zufrieden,zufrieden (die Zimmer wirken ein bisschen nÃ¼c...


#### Datenspeichern im CSV/JSON-Datenformat im Rechner.

In [106]:
dataframe.to_csv(r'klinik_bewertungen.csv', index = False)

In [107]:
dataframe.reset_index().to_json(r'klinik_bewertungen.json', orient='records')

## -----------------------------------------------------------------------------------------------------------

# Google Maps Clinical Data Lower Saxony Germany

### Rahmen Google: 
Name der Klinik, Textuelle Bewertung, Sternebewertung, Datum der Bewertung, Likes

##### Importieren der erforderlichen Bibliotheken

In [2]:
import pandas as pd
from time import sleep
import csv
import bs4 as bs
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.expected_conditions import presence_of_element_located


#### Wir definieren zu erfassene Daten unter clmgoogle Variable und erstellen Dataframe für Google Maps Daten

In [3]:
clmgoogle=['Name der Klinik','Textuelle Bewertung','Sternebewertung', 'Datum der Bewertung','Likes']
dfgoogle=pd.DataFrame(columns=clmgoogle)
dfgoogle

Unnamed: 0,Name der Klinik,Textuelle Bewertung,Sternebewertung,Datum der Bewertung,Likes


#### Mithilfe der folgenden Funktion können wir mit Selenium und Beatiful Soup Krankenhäuserndaten bekommen.

In [93]:
infos = []
def extractgoogle(url):    

    #chrome_driver_path = "chromedriver"
    chrome_options = Options()
    chrome_options.add_argument("--lang=de")
    Options.headless = False 

    #driver = webdriver.Chrome(executable_path=chrome_driver_path, options=chrome_options)
    driver = webdriver.Chrome(executable_path=r'/Users/fahricigdem/Documents/Refugeeks/Abschlussprojekt/Data Scraping/chromedriver', options=chrome_options)
    
    driver.get(url)
    sleep(5)
    driver.maximize_window()
    
    #cookies zustimmen
    wait = WebDriverWait(driver,5)
    driver.find_element_by_xpath('/html/body/div/c-wiz/div/div/div/div[2]/div[1]/div[4]/form/div[1]/div/button/span').click()
    sleep(5)

    #3. Click Menu Buttons
    #wait = WebDriverWait(driver,10)
    #wait.until(EC.frame_to_be_available_and_switch_to_it((By.XPATH, '//*[@id="consent-bump"]/div/div[1]/iframe')))  
    #agree = wait.until(EC.element_to_be_clickable((By.XPATH, '//*[@id="introAgreeButton"]/span/span'))) 
    #agree.click()
    #sleep(5)

    #suche = driver.find_element_by_xpath("/html/body/jsl/div[3]/div[9]/div[3]/div[1]/div[1]/div[1]/div[2]/div[1]/button")
    #sleep(3)
    #suche.click()
    #sleep(10)

    klinik_name = driver.find_element_by_xpath('//*[@id="pane"]/div/div[1]/div/div/div[2]/div[1]/div[1]/div[1]/h1/span[1]').text
    print(klinik_name)

    all_review = driver.find_element_by_class_name('widget-pane-link')
    all_review.click()

    sleep(5)
    reviews_number = driver.find_element_by_xpath('//*[@class="gm2-caption"]').text.split()
    scroll_number = (int(reviews_number[0]))//10+1
    print(f"Maximum scroll need to get full data: {scroll_number}")

    def scroll_review():

        sleep(3)
        print("in scroll after sleep 3")
        
        #WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, "section-layout-root"))) # Waits for the page to load.
        x=0
        while (x < int(scroll_number)):
            scrollable_div = driver.find_element_by_css_selector('div.section-layout.section-scrollbox.cYB2Ge-oHo7ed.cYB2Ge-ti6hGc') # It gets the section of the scroll bar.
            #scrollable_div = driver.find_element_by_css_selector('div.section-layout.section-scrollbox.scrollable-y.scrollable-show') # It gets the section of the scroll bar.
            print( '  ', x+1, '  times scroll')
            sleep(2)
            driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight", scrollable_div) # Scroll it to the bottom.
            x=x+1

        else:
            print('')

    sleep(5)
    scroll_review()

    def expand_reviews():
        expand = driver.find_elements_by_css_selector('.ODSEW-KoToPc-ShBeI.gXqMYb-hSRGPd')
        for i in expand:
            i.click()

    sleep(2)
    expand_reviews()

    commentators = driver.find_elements_by_xpath('//div[@class="ODSEW-ShBeI-title"]/span')   
    print("commentators ok")
    reviews = driver.find_elements_by_xpath('//div[@class="ODSEW-ShBeI-ShBeI-content"]/span[2]')
    print("reviews ok")
    stars = driver.find_elements_by_xpath('//div[@class="ODSEW-ShBeI-jfdpUb"]/span[2]')
    print("stars ok")
    dates = driver.find_elements_by_xpath('//span[@class="ODSEW-ShBeI-RgZmSc-date"]')
    print("dates ok")
    likes = driver.find_elements_by_xpath('//span[@class="ODSEW-ShBeI-hWJfub-yHKmmc-NnAfwf"]')
    print("likes ok")

    y=1
    while(y<int(reviews_number[0])):
        info = []
        info.append(klinik_name)
        #first_commentator = commentators.pop(0)
        #commentator = first_commentator.text
        #info.append(commentator)

        first_review = reviews.pop(0)
        review = first_review.text.replace('\n','**')
        info.append(review)

        first_date = dates.pop(0)
        date = first_date.text
        info.append(date)

        if (len(likes))==0:
            like='No Like'
        else:
            first_like = likes.pop(0)
            like = first_like.text
        info.append(like)

        first_star = stars.pop(0)
        star = first_star.get_attribute("aria-label").split()
        info.append(star[0])

        infos.append(info)
        y= y+1

    driver.close()

#### Wir nutzen vorherige Funktion um die Daten der 12 Krankenhäusern zu bekommen.

In [94]:
for f in range(17):
    extractgoogle(df.iloc[f,1])
    sleep(10)

Herzogin Elisabeth Hospital
Maximum scroll need to get full data: 16
in scroll after sleep 3
   1   times scroll
   2   times scroll
   3   times scroll
   4   times scroll
   5   times scroll
   6   times scroll
   7   times scroll
   8   times scroll
   9   times scroll
   10   times scroll
   11   times scroll
   12   times scroll
   13   times scroll
   14   times scroll
   15   times scroll
   16   times scroll

commentators ok
reviews ok
stars ok
dates ok
likes ok
Klinik Am Zuckerberg GmbH
Maximum scroll need to get full data: 5
in scroll after sleep 3
   1   times scroll
   2   times scroll
   3   times scroll
   4   times scroll
   5   times scroll

commentators ok
reviews ok
stars ok
dates ok
likes ok
Klinikum Wolfsburg in Wolfsburg
Maximum scroll need to get full data: 22
in scroll after sleep 3
   1   times scroll
   2   times scroll
   3   times scroll
   4   times scroll
   5   times scroll
   6   times scroll
   7   times scroll
   8   times scroll
   9   times scroll
   

In [95]:
len(infos)

1989

In [96]:
#infos

In [97]:
dfgoogle

Unnamed: 0,Name der Klinik,Textuelle Bewertung,Sternebewertung,Datum der Bewertung,Likes


In [98]:
for el in range(len(infos)):
    dfgoogle = dfgoogle.append({'Name der Klinik':infos[el][0],'Textuelle Bewertung':infos[el][1],'Datum der Bewertung':infos[el][2],'Likes':infos[el][3], 'Sternebewertung':infos[el][4]}, ignore_index=True)

In [99]:
dfgoogle

Unnamed: 0,Name der Klinik,Textuelle Bewertung,Sternebewertung,Datum der Bewertung,Likes
0,Herzogin Elisabeth Hospital,Vor der Corona Pandemie hätte ich jeden zugest...,2,vor 3 Wochen,1
1,Herzogin Elisabeth Hospital,"Tolles Krankenhaus, trotzdem bin ich lieber g...",4,vor einem Jahr,1
2,Herzogin Elisabeth Hospital,"Lungenembolie!**Ein Tag ITS, phantastische Für...",5,vor 2 Monaten,1
3,Herzogin Elisabeth Hospital,Alles sehr gut. Volle Punktzahl!,5,vor 3 Jahren,4
4,Herzogin Elisabeth Hospital,Ich werde nie wieder in ein anderes Krankenhau...,5,vor 2 Monaten,1
...,...,...,...,...,...
1984,Psychiatrische Klinik Lüneburg,,5,vor 3 Jahren,No Like
1985,Psychiatrische Klinik Lüneburg,,5,vor 2 Jahren,No Like
1986,Psychiatrische Klinik Lüneburg,,1,vor 3 Monaten,No Like
1987,Psychiatrische Klinik Lüneburg,,4,vor 2 Jahren,No Like


In [100]:
dfgoogle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1989 entries, 0 to 1988
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Name der Klinik      1989 non-null   object
 1   Textuelle Bewertung  1989 non-null   object
 2   Sternebewertung      1989 non-null   object
 3   Datum der Bewertung  1989 non-null   object
 4   Likes                1989 non-null   object
dtypes: object(5)
memory usage: 77.8+ KB


In [101]:
dfgoogle.describe

<bound method NDFrame.describe of                      Name der Klinik  \
0        Herzogin Elisabeth Hospital   
1        Herzogin Elisabeth Hospital   
2        Herzogin Elisabeth Hospital   
3        Herzogin Elisabeth Hospital   
4        Herzogin Elisabeth Hospital   
...                              ...   
1984  Psychiatrische Klinik Lüneburg   
1985  Psychiatrische Klinik Lüneburg   
1986  Psychiatrische Klinik Lüneburg   
1987  Psychiatrische Klinik Lüneburg   
1988  Psychiatrische Klinik Lüneburg   

                                    Textuelle Bewertung Sternebewertung  \
0     Vor der Corona Pandemie hätte ich jeden zugest...               2   
1     Tolles Krankenhaus,  trotzdem bin ich lieber g...               4   
2     Lungenembolie!**Ein Tag ITS, phantastische Für...               5   
3                      Alles sehr gut. Volle Punktzahl!               5   
4     Ich werde nie wieder in ein anderes Krankenhau...               5   
...                                

In [102]:
#dataframe.to_csv(r'C:\Users\name\Desktop\WB\Abschlussproject\klinikbewertung.de\clinical_data_lowersaxony_google.csv', index = False)

In [33]:
#df.to_json(r'C:\Users\name\Desktop\WB\Abschlussproject\klinikbewertung.de\clinical_data_lowersaxony_google.json')

In [110]:
dfgoogle.to_csv(r'klinik_bewertungen_google.csv', index = False)

In [111]:
dfgoogle.reset_index().to_json(r'klinik_bewertungen_google.json', orient='records')