## WEB API Scraper using www.page2api.com 
## SCRAPING Job Review Data from Glassdoor


The provided code is making a POST request to the Page2API service to scrape data from the Glassdoor website. Here's a breakdown of the code:

The requests and json modules are imported.

api_url is set to the URL of the Page2API service.

The payload dictionary contains the parameters for the API request. It includes the following:

api_key: The API key provided by Page2API.

premium_proxy: The premium proxy location set to 'us'.

real_browser: A boolean value indicating whether a real browser should be used for scraping (set to True).

javascript: A boolean value indicating whether JavaScript should be executed during scraping (set to False).

batch: A sub-dictionary specifying the batch scraping configuration. It includes the following:
urls: The URL(s) to be scraped.

concurrency: The number of concurrent requests to be made (set to 1).

merge_results: A boolean value indicating whether to merge the results into a single response (set to True).

parse: A sub-dictionary specifying the parsing configuration. It includes the following:

reviews: A list containing a single item (a dictionary) with instructions on how to parse the reviews. It specifies various CSS selectors to extract data such as review titles, author information, ratings, pros, cons, and helpful counts.

The headers dictionary specifies the content type and accept headers for the API request.

A POST request is made to the api_url using requests.post(). The data parameter contains the JSON-encoded payload, and the headers are included.

The response is stored in the response variable.

The response text is loaded into a dictionary using json.loads() and stored in the result variable.

In [1]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 50, 1].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

###  import to pandas

In [9]:
import pandas as pd
df = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df

Unnamed: 0,title,author_info,rating,pros,cons
0,generell ist es gut,12. Apr. 2023 - Werkstudent,50,"Attraktive Aufgaben, flexible Arbeitszeit und ...",Langes Warten auf neue Aufgaben
1,Guter Arbeitgeber,29. Apr. 2023 - Senior DevOps Engineer,30,"Sicherer Arbeitsplatz, gute Arbeitsauslastung,...","Schlechte Karrieremöglichkeiten als Experte, v..."
2,Umtrukturierung hat Teams kaputt gemacht,26. Apr. 2023 - Finance Senior Specialist,20,sicherer Arbeitsplatz mit viel Entfaltungsmögl...,Gehalt im Vergleich zum Workload unfair.
3,Gut,5. Apr. 2023 - HR Generalist,50,Gehalt sowie die Kollegen und Vorgesetzten,Umzug nach Berlin war vorgesehen
4,Super,31. März 2023 - Qualitätsmanager,50,Tolle Firma hab immer gerne gearbeitet,Morgens so früh aufstehen müssen
5,Spannende Aufgabe in einem tollen Team,16. März 2023 - Head of Innovation,50,"Netzwerk an tollen Kollegen Diverse Teams, mit...",Anspruchsvolle Aufgabe Viele Themen gleichzeitig
6,Toller Arbeitsgeber,23. März 2023 - Elektroniker für Prozessleitte...,50,"Fairer Arbeitsgeber, mit tollen Perspektiven u...",Chemie Industrie ist nicht jedermanns Sache
7,Klasse Arbeitgeber,7. März 2023 - Software Engineer,50,Sehr modern in der Softwareentwicklung,Teilweise alte Stukturen und entsprechende Kul...
8,Bewertung,10. März 2023 - Ingenieur,40,-spannender Arbeitsplatz und nette kollegen,- langsame Prozesse und komplexe strukturen
9,Guter Arbeitgeber,20. Feb. 2023 - Laborleiter,50,Große Firma mit vielen Möglichkeiten,Nicht so flexibel wie Mittelstand


### changing the Pages manually
Change is made at the url field @ P[1, 50]

In [4]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 50, 2].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

In [5]:
import pandas as pd
df4 = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df4

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
...,...,...,...,...,...
153,Great internship,23. Jan. 2022 - Intern,50,"Learned a lot, staff are very nice","Non to speak of, very friendly staff"
154,Top Unternehmen,22. Juli 2021 - Operator,50,-Gehalt ist fair -Angenehme Vorgesetzte -Genug...,-Zu wenig Personal -Zu kurze Einarbeitung
155,cobntroller,26. Mai 2021 - Controller,50,"work life balance, arbeitszeit, lernfähigkeit","gehalt, wechselgedanken, entwicklung, neue auf..."
156,Product Manager,10. Sept. 2017 - Product Manager,30,"Großunternehmen, im Allgemeinen sicherer Arbei...",Als übernommener Mitarbeiter sah ich viele mei...


In [7]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 50, 6].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

In [8]:
import pandas as pd
df5 = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df5

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
5,Umtrukturierung hat Teams kaputt gemacht,26. Apr. 2023 - Finance Senior Specialist,20,sicherer Arbeitsplatz mit viel Entfaltungsmögl...,Gehalt im Vergleich zum Workload unfair.
6,Guter Arbeitgeber,29. Apr. 2023 - Senior DevOps Engineer,30,"Sicherer Arbeitsplatz, gute Arbeitsauslastung,...","Schlechte Karrieremöglichkeiten als Experte, v..."
7,generell ist es gut,12. Apr. 2023 - Werkstudent,50,"Attraktive Aufgaben, flexible Arbeitszeit und ...",Langes Warten auf neue Aufgaben
8,Gut,5. Apr. 2023 - HR Generalist,50,Gehalt sowie die Kollegen und Vorgesetzten,Umzug nach Berlin war vorgesehen
9,Super,31. März 2023 - Qualitätsmanager,50,Tolle Firma hab immer gerne gearbeitet,Morgens so früh aufstehen müssen


In [None]:
##tocvs 


In [14]:
dfcomplete=pd.concat([df4, df5], axis=0, ignore_index=True)
dfcomplete.drop_duplicates()
dfcomplete

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
...,...,...,...,...,...
211,Great internship,23. Jan. 2022 - Intern,50,"Learned a lot, staff are very nice","Non to speak of, very friendly staff"
212,Top Unternehmen,22. Juli 2021 - Operator,50,-Gehalt ist fair -Angenehme Vorgesetzte -Genug...,-Zu wenig Personal -Zu kurze Einarbeitung
213,cobntroller,26. Mai 2021 - Controller,50,"work life balance, arbeitszeit, lernfähigkeit","gehalt, wechselgedanken, entwicklung, neue auf..."
214,Product Manager,10. Sept. 2017 - Product Manager,30,"Großunternehmen, im Allgemeinen sicherer Arbei...",Als übernommener Mitarbeiter sah ich viele mei...


In [15]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 50, 3].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

In [16]:
import pandas as pd
df6 = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df6

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
...,...,...,...,...,...
103,Great internship,23. Jan. 2022 - Intern,50,"Learned a lot, staff are very nice","Non to speak of, very friendly staff"
104,Top Unternehmen,22. Juli 2021 - Operator,50,-Gehalt ist fair -Angenehme Vorgesetzte -Genug...,-Zu wenig Personal -Zu kurze Einarbeitung
105,cobntroller,26. Mai 2021 - Controller,50,"work life balance, arbeitszeit, lernfähigkeit","gehalt, wechselgedanken, entwicklung, neue auf..."
106,Product Manager,10. Sept. 2017 - Product Manager,30,"Großunternehmen, im Allgemeinen sicherer Arbei...",Als übernommener Mitarbeiter sah ich viele mei...


In [19]:
dfcomplete=pd.concat([df4, df5, df6], axis=0, ignore_index=True)
dfcomplete.drop_duplicates()
dfcomplete

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
...,...,...,...,...,...
319,Great internship,23. Jan. 2022 - Intern,50,"Learned a lot, staff are very nice","Non to speak of, very friendly staff"
320,Top Unternehmen,22. Juli 2021 - Operator,50,-Gehalt ist fair -Angenehme Vorgesetzte -Genug...,-Zu wenig Personal -Zu kurze Einarbeitung
321,cobntroller,26. Mai 2021 - Controller,50,"work life balance, arbeitszeit, lernfähigkeit","gehalt, wechselgedanken, entwicklung, neue auf..."
322,Product Manager,10. Sept. 2017 - Product Manager,30,"Großunternehmen, im Allgemeinen sicherer Arbei...",Als übernommener Mitarbeiter sah ich viele mei...


In [None]:
## trying to scrape data from indeed 
## dosent worrk yet

In [20]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 50, 4].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

In [21]:
import pandas as pd
df7 = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df7

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
...,...,...,...,...,...
75,BASF,21. Juni 2020 - Technischer Einkäufer,40,"Gutes Gehalt, sicherer Arbeitsplatz, gute Aufs...","derzeit Stellenabbau, Chemie Image nicht immer..."
76,Bewertung für internem,6. Aug. 2020 - Project Manager,40,gute Erfahrung für mich und kollegen,langsame und schwierige Prozesse manchmal
77,Bewertung,26. Juli 2015 -,40,"Vielfältige interne Möglichkeiten vorhanden, W...",Ähnliches Gehaltsniveau über alle Mitarbeiter
78,Chemikant bei BASF,23. Juli 2018 - Chemikant,30,Gutes Lohn und leichte Tätigkeiten,Arbeitszeiten in Schichten (Tagschicht und Nac...


In [24]:
dfcomplete=pd.concat([df4, df5, df6, df7], axis=0, ignore_index=True)
dfcomplete.drop_duplicates()
dfcomplete

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
...,...,...,...,...,...
399,BASF,21. Juni 2020 - Technischer Einkäufer,40,"Gutes Gehalt, sicherer Arbeitsplatz, gute Aufs...","derzeit Stellenabbau, Chemie Image nicht immer..."
400,Bewertung für internem,6. Aug. 2020 - Project Manager,40,gute Erfahrung für mich und kollegen,langsame und schwierige Prozesse manchmal
401,Bewertung,26. Juli 2015 -,40,"Vielfältige interne Möglichkeiten vorhanden, W...",Ähnliches Gehaltsniveau über alle Mitarbeiter
402,Chemikant bei BASF,23. Juli 2018 - Chemikant,30,Gutes Lohn und leichte Tätigkeiten,Arbeitszeiten in Schichten (Tagschicht und Nac...


In [26]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 50, 5].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

In [27]:
import pandas as pd
df8 = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df8

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
...,...,...,...,...,...
63,Great internship,23. Jan. 2022 - Intern,50,"Learned a lot, staff are very nice","Non to speak of, very friendly staff"
64,Top Unternehmen,22. Juli 2021 - Operator,50,-Gehalt ist fair -Angenehme Vorgesetzte -Genug...,-Zu wenig Personal -Zu kurze Einarbeitung
65,cobntroller,26. Mai 2021 - Controller,50,"work life balance, arbeitszeit, lernfähigkeit","gehalt, wechselgedanken, entwicklung, neue auf..."
66,Product Manager,10. Sept. 2017 - Product Manager,30,"Großunternehmen, im Allgemeinen sicherer Arbei...",Als übernommener Mitarbeiter sah ich viele mei...


In [29]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 50, 7].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

In [30]:
import pandas as pd
df9 = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df9

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
5,Umtrukturierung hat Teams kaputt gemacht,26. Apr. 2023 - Finance Senior Specialist,20,sicherer Arbeitsplatz mit viel Entfaltungsmögl...,Gehalt im Vergleich zum Workload unfair.
6,Guter Arbeitgeber,29. Apr. 2023 - Senior DevOps Engineer,30,"Sicherer Arbeitsplatz, gute Arbeitsauslastung,...","Schlechte Karrieremöglichkeiten als Experte, v..."
7,generell ist es gut,12. Apr. 2023 - Werkstudent,50,"Attraktive Aufgaben, flexible Arbeitszeit und ...",Langes Warten auf neue Aufgaben
8,Gut,5. Apr. 2023 - HR Generalist,50,Gehalt sowie die Kollegen und Vorgesetzten,Umzug nach Berlin war vorgesehen
9,Super,31. März 2023 - Qualitätsmanager,50,Tolle Firma hab immer gerne gearbeitet,Morgens so früh aufstehen müssen


In [31]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 50, 8].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

In [32]:
import pandas as pd
df10 = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df10

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
5,Umtrukturierung hat Teams kaputt gemacht,26. Apr. 2023 - Finance Senior Specialist,20,sicherer Arbeitsplatz mit viel Entfaltungsmögl...,Gehalt im Vergleich zum Workload unfair.
6,Guter Arbeitgeber,29. Apr. 2023 - Senior DevOps Engineer,30,"Sicherer Arbeitsplatz, gute Arbeitsauslastung,...","Schlechte Karrieremöglichkeiten als Experte, v..."
7,generell ist es gut,12. Apr. 2023 - Werkstudent,50,"Attraktive Aufgaben, flexible Arbeitszeit und ...",Langes Warten auf neue Aufgaben
8,Gut,5. Apr. 2023 - HR Generalist,50,Gehalt sowie die Kollegen und Vorgesetzten,Umzug nach Berlin war vorgesehen
9,Super,31. März 2023 - Qualitätsmanager,50,Tolle Firma hab immer gerne gearbeitet,Morgens so früh aufstehen müssen


In [34]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 50, 9].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

In [35]:
import pandas as pd
df11 = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df11

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
5,Umtrukturierung hat Teams kaputt gemacht,26. Apr. 2023 - Finance Senior Specialist,20,sicherer Arbeitsplatz mit viel Entfaltungsmögl...,Gehalt im Vergleich zum Workload unfair.
6,Guter Arbeitgeber,29. Apr. 2023 - Senior DevOps Engineer,30,"Sicherer Arbeitsplatz, gute Arbeitsauslastung,...","Schlechte Karrieremöglichkeiten als Experte, v..."
7,generell ist es gut,12. Apr. 2023 - Werkstudent,50,"Attraktive Aufgaben, flexible Arbeitszeit und ...",Langes Warten auf neue Aufgaben
8,Gut,5. Apr. 2023 - HR Generalist,50,Gehalt sowie die Kollegen und Vorgesetzten,Umzug nach Berlin war vorgesehen
9,Super,31. März 2023 - Qualitätsmanager,50,Tolle Firma hab immer gerne gearbeitet,Morgens so früh aufstehen müssen


### more mannual page changing

In [37]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 50, 10].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

In [38]:
import pandas as pd
df12 = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df12

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
5,Umtrukturierung hat Teams kaputt gemacht,26. Apr. 2023 - Finance Senior Specialist,20,sicherer Arbeitsplatz mit viel Entfaltungsmögl...,Gehalt im Vergleich zum Workload unfair.
6,Guter Arbeitgeber,29. Apr. 2023 - Senior DevOps Engineer,30,"Sicherer Arbeitsplatz, gute Arbeitsauslastung,...","Schlechte Karrieremöglichkeiten als Experte, v..."
7,generell ist es gut,12. Apr. 2023 - Werkstudent,50,"Attraktive Aufgaben, flexible Arbeitszeit und ...",Langes Warten auf neue Aufgaben
8,Gut,5. Apr. 2023 - HR Generalist,50,Gehalt sowie die Kollegen und Vorgesetzten,Umzug nach Berlin war vorgesehen
9,Super,31. März 2023 - Qualitätsmanager,50,Tolle Firma hab immer gerne gearbeitet,Morgens so früh aufstehen müssen


### contracting all dataframes, dropping duplicates

In [42]:
dfcomplete=pd.concat([df4, df5, df6, df7, df8, df9, df10, df11, df12], axis=0, ignore_index=True)
dfcomplete.drop_duplicates()
dfcomplete

Unnamed: 0,title,author_info,rating,pros,cons
0,Super,5. Mai 2023 - Chemikant und Anlagenfahrer,50,"Gutes Gehalt, gute Arbeitszeit, gute Kollegen,...",Ein riesiger laden etwas zu groß für mich
1,Verbesserungsvorschläge für eine noch bessere ...,20. Mai 2023 - Anlagenmechaniker,40,Globale Präsenz: BASF ist ein multinationaler ...,Größe und Komplexität: Als globaler Konzern mi...
2,"Gutes Gehalt, flexible Zeiten",23. Mai 2023 - Industriemechaniker,40,Das Einstiegsgehalt ist für einen Ausbildungsb...,Aufstiegsmöglichkeiten aufgrund der hohen Meng...
3,"Nettes Team, gute Erfahrung",16. Mai 2023 - Werkstudent,30,"Team, Einblicke, Support... Es hat Spaß gemach...",Die Organisation hat zeitweilig zu wünschen üb...
4,Führen durch Intransparenz,5. Mai 2023 - Ingenieur,20,Kündigungsschutz (betrieblich bedingt) von 5 J...,"Management, Führungskräfte und das gesamte Sys..."
...,...,...,...,...,...
635,Great internship,23. Jan. 2022 - Intern,50,"Learned a lot, staff are very nice","Non to speak of, very friendly staff"
636,Top Unternehmen,22. Juli 2021 - Operator,50,-Gehalt ist fair -Angenehme Vorgesetzte -Genug...,-Zu wenig Personal -Zu kurze Einarbeitung
637,cobntroller,26. Mai 2021 - Controller,50,"work life balance, arbeitszeit, lernfähigkeit","gehalt, wechselgedanken, entwicklung, neue auf..."
638,Product Manager,10. Sept. 2017 - Product Manager,30,"Großunternehmen, im Allgemeinen sicherer Arbei...",Als übernommener Mitarbeiter sah ich viele mei...


### converting to cvs

In [40]:
dfcomplete.to_csv('dataset2.csv')

## Experimental Section

In [5]:
from bs4 import BeautifulSoup
import pandas as pd
import requests
import json

In [15]:
df2 = pd.DataFrame({'review_title': [],'review':[],'author':[],'rating':[]})

In [20]:
for i in range(10,140,20):
     url = (f'https://de.indeed.com/cmp/Basf-df1bf734/reviews?fcountry=DE&sort=helpfulness&start={i}')
     header = {"User-Agent":"Mozilla/5.0 Gecko/20100101 Firefox/33.0 GoogleChrome/10.0"}
     page = requests.get(url,headers = header)
     soup = BeautifulSoup(page.content, 'lxml')
     print(soup)
     results = soup.find("div",{ "id" : 'cmp-container'})
     elems = results.find_all(class_='cmp-Review-container')
     for elem in elems:
         title = elem.find(attrs = {'class':'cmp-Review-title'})
         review = elem.find('div', {'class': 'cmp-Review-text'})
         author = elem.find(attrs = {'class':'cmp-Review-author'})
         rating = elem.find(attrs = {'class':'cmp-ReviewRating-text'})
         df = df.append({'review_title': title.text,
          'review': review.text,
        'author': author.text,
          'rating': rating.text
            }, ignore_index=True)

<!DOCTYPE html>
<html lang="en-US">
<head>
<title>Just a moment...</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="noindex,nofollow" name="robots"/>
<meta content="width=device-width,initial-scale=1" name="viewport"/>
<link href="/cdn-cgi/styles/challenges.css" rel="stylesheet"/>
</head>
<body class="no-js">
<div class="main-wrapper" role="main">
<div class="main-content">
<noscript>
<div id="challenge-error-title">
<div class="h2">
<span class="icon-wrapper">
</span>
<span id="challenge-error-text">
                        Enable JavaScript and cookies to continue
                    </span>
</div>
</div>
</noscript>
<div id="trk_jschal_js" style="display:none;background-image:url('/cdn-cgi/images/trace/managed/nojs/transparent.gif?ray=7c4961f87e993686')"></div>
<form action="/cmp/Basf-df1bf734/reviews?fcountry=DE&amp;sort=helpfulness&amp;start=10&amp;__cf_chl_f_tk=lX4W97novld3wpU1mrKSpv

AttributeError: 'NoneType' object has no attribute 'find_all'

In [6]:
from bs4 import BeautifulSoup
import pandas as pd
import requests
import numpy as np
import pandas as pd

import requests
from bs4 import BeautifulSoup

url = 'https://www.indeed.com/cmp/BASF/reviews'

# Send a request to the URL and get the HTML content
response = requests.get(url)
html = response.content

# Parse the HTML content with Beautiful Soup
soup = BeautifulSoup(html, "html.parser")
print(soup)
# Find the section containing the job reviews
reviews_section = soup.find("div", {"class": "cmp-ReviewsList"})

# Get a list of all the reviews in the section
reviews = reviews_section.find_all("div", {"class": "cmp-Review"})

# Create empty lists to store the review data
titles = []
authors = []
ratings = []
pros = []
cons = []
dates = []

# Loop through the reviews and extract the data
for review in reviews:
    # Get the review title
    title = review.find("a", {"class": "cmp-Review-titleLink"}).text.strip()
    titles.append(title)

    # Get the author name and job title
    author_info = review.find("div", {"class": "cmp-ReviewAuthor"}).text.strip()
    authors.append(author_info)

    # Get the rating
    rating = review.find("div", {"class": "cmp-RatingNumber"}).text.strip()
    ratings.append(rating)

    # Get the pros and cons
    pros_section = review.find("div", {"class": "cmp-ReviewProsCons-prosText"})
    pros_text = pros_section.text.strip() if pros_section else ""
    pros.append(pros_text)

    cons_section = review.find("div", {"class": "cmp-ReviewProsCons-consText"})
    cons_text = cons_section.text.strip() if cons_section else ""
    cons.append(cons_text)

    # Get the review date
    date = review.find("span", {"class": "cmp-ReviewAuthor-subtitle"}).text.strip()
    dates.append(date)

# Create a Pandas DataFrame from the extracted data
data = {"Title": titles, "Author": authors, "Rating": ratings, "Pros": pros, "Cons": cons, "Date": dates}
df = pd.DataFrame(data)

# Print the DataFrame
print(df)



<!DOCTYPE html>

<!--[if lt IE 7]> <html class="no-js ie6 oldie" lang="en-US"> <![endif]-->
<!--[if IE 7]>    <html class="no-js ie7 oldie" lang="en-US"> <![endif]-->
<!--[if IE 8]>    <html class="no-js ie8 oldie" lang="en-US"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js" lang="en-US"> <!--<![endif]-->
<head>
<title>Attention Required! | Cloudflare</title>
<meta charset="utf-8"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="noindex, nofollow" name="robots"/>
<meta content="width=device-width,initial-scale=1" name="viewport"/>
<link href="/cdn-cgi/styles/cf.errors.css" id="cf_styles-css" rel="stylesheet"/>
<!--[if lt IE 9]><link rel="stylesheet" id='cf_styles-ie-css' href="/cdn-cgi/styles/cf.errors.ie.css" /><![endif]-->
<style>body{margin:0;padding:0}</style>
<!--[if gte IE 10]><!-->
<script>
  if (!navigator.cookieEnabled) {
    window.addEventListener('DOMContentLoaded', function

AttributeError: 'NoneType' object has no attribute 'find_all'

## This works using ScrapflyClient

In [9]:
from bs4 import BeautifulSoup
import pandas as pd
import requests
import numpy as np
import pandas as pd
from scrapfly import ScrapflyClient, ScrapeConfig

client = ScrapflyClient(key="scp-live-25e23c54e25442a181b1acbaf4d02d79")
result = client.scrape(ScrapeConfig(
    url="https://de.indeed.com/cmp/Basf-df1bf734/reviews/toller-arbeitgeber-spannendes-t%C3%A4tigkeitsfeld-gute-verdienstm%C3%B6glichkeiten?id=86016fe1c7d246ac",
    asp=True
    # ^ enable Anti Scraping Protection
))


In [12]:
print(result.content)

<!DOCTYPE html><html lang="de" dir="ltr"><head><meta charSet="utf-8"/><link rel="preconnect" href="https://fonts.gstatic.com/" crossorigin=""/><link href="https://fonts.googleapis.com/css?family=Noto+Sans:400,400i,700,700i&amp;display=swap" rel="stylesheet"/><script defer="" src="https://d3hbwax96mbv6t.cloudfront.net/turnstile/s/943d9ca/turnstile-compiled.js" crossorigin="anonymous"></script><script defer="" src="/cmp/-/s/assets/70007d9f751f7881/runtime.js" crossorigin="anonymous"></script><script defer="" src="/cmp/-/s/assets/4075c00628c69ee1/vendor.js" crossorigin="anonymous"></script><script defer="" src="/cmp/-/s/assets/33449e244ed200fb/reviews-individual-aurora.js" crossorigin="anonymous"></script><link rel="stylesheet" href="/cmp/-/s/assets/87b3819116a54a61/reviews-individual-aurora.css"/><meta name="description" content="Bewertungen von {1} Arbeitnehmern zu Unternehmenskultur, Gehälter, Sonderleistungen, Work-Life-Balance, Geschäftsleitung, Arbeitsplatzsicherheit und weiteres be

In [13]:
# Send a request to the URL and get the HTML content
response = result
html = response.content
# Parse the HTML content with Beautiful Soup
soup = BeautifulSoup(html, "html.parser")
#print(soup)
# Find the section containing the job reviews
reviews_section = soup.find("h1", {"class": "css-w9nrpr e1tiznh50"}).text.strip()
print(reviews_section)
titelofreview = soup.find("span", {"data-testid": "titleSpan"}).text.strip()
print(titelofreview)
reviewbody = soup.find("span", {"class": "css-82l4gy eu4oa1w0"}).text.strip()
print(reviewbody)

AttributeError: 'NoneType' object has no attribute 'text'

In [None]:
## other try, dosent work

In [2]:
reviews = reviews_section.find_all("div", {"class": "cmp-Review"})

# Create empty lists to store the review data
titles = []
authors = []
ratings = []
pros = []
cons = []
dates = []

# Loop through the reviews and extract the data
for review in reviews:
    # Get the review title
    title = review.find("a", {"class": "cmp-Review-titleLink"}).text.strip()
    titles.append(title)

    # Get the author name and job title
    author_info = review.find("div", {"class": "cmp-ReviewAuthor"}).text.strip()
    authors.append(author_info)

    # Get the rating
    rating = review.find("div", {"class": "cmp-RatingNumber"}).text.strip()
    ratings.append(rating)

    # Get the pros and cons
    pros_section = review.find("div", {"class": "cmp-ReviewProsCons-prosText"})
    pros_text = pros_section.text.strip() if pros_section else ""
    pros.append(pros_text)

    cons_section = review.find("div", {"class": "cmp-ReviewProsCons-consText"})
    cons_text = cons_section.text.strip() if cons_section else ""
    cons.append(cons_text)

    # Get the review date
    date = review.find("span", {"class": "cmp-ReviewAuthor-subtitle"}).text.strip()
    dates.append(date)

# Create a Pandas DataFrame from the extracted data
data = {"Title": titles, "Author": authors, "Rating": ratings, "Pros": pros, "Cons": cons, "Date": dates}
df = pd.DataFrame(data)

# Print the DataFrame
print(df)

NameError: name 'reviews_section' is not defined

In [3]:
import pandas as pd

df1 = pd.DataFrame({'review_title': [],'review':[],'author':[],'rating':[]})
page=response
soup = BeautifulSoup(page.content, 'lxml')
results2 = soup.find("div",{ "id" : 'cmp-container'})
elems = results.find_all(class_='cmp-Review-container')
for elem in elems:
    title = elem.find(attrs = {'class':'cmp-Review-title'})
    review = elem.find('div', {'class': 'cmp-Review-text'})
    print(review)
    author = elem.find(attrs = {'class':'cmp-Review-author'})
    rating = elem.find(attrs = {'class':'cmp-ReviewRating-text'})
    df1 = df1.append({'review_title': title.text,
    'review': review.text,
    'author': author.text,
    'rating': rating.text
    }, ignore_index=True)

NameError: name 'response' is not defined

In [None]:
elems

In [20]:
import requests
import json

api_url = 'https://www.page2api.com/api/v1/scrape'
payload = {
"api_key": "c3de64f1c1497dfeb34079abde7b28b72c65ed85",
"premium_proxy": "us",
"real_browser": True,
"javascript": False,
"batch": {
"urls": "https://www.glassdoor.de/Bewertungen/BASF-Bewertungen-E4231_P[1, 25, 1,10].htm",
"concurrency": 1,
"merge_results": True
},
"parse": {
"reviews": [
{
"_parent": "div.gdReview",
"title": "a.reviewLink >> text",
"author_info": "[class*=newUiJobLine] .middle >> text",
"rating": "span.ratingNumber >> text",
"pros": "span[data-test=pros] >> text",
"cons": "span[data-test=cons] >> text",
"helpful": "div.common__EiReviewDetailsStyle__socialHelpfulcontainer >> text"
}
]
}
}

headers = {'Content-type': 'application/json', 'Accept': 'text/plain'}
response = requests.post(api_url, data=json.dumps(payload), headers=headers)
result = json.loads(response.text)

In [23]:
print(result)

<Response [400]>


In [19]:
import pandas as pd
df111 = pd.DataFrame(result['result']['reviews'], columns=['title', 'author_info', 'rating', 'pros', 'cons'])
df111

Unnamed: 0,title,author_info,rating,pros,cons
