https://medium.com/@traviscroyce/scraping-data-from-dynamic-websites-with-selenium-and-python-f702bb534974

In vielen Fällen kann das Scraping von Daten so einfach sein wie die Anweisung an Excel, "Daten aus dem Web zu holen", oder "importxml" mit Google Sheets. In anderen Fällen kann die Aufgabe komplexer werden. Nehmen Sie zum Beispiel die Billboard.com-Charts für die Hot 100 Songs des Jahres. Die schnellen und einfachen Methoden brachten nichts, und ich wollte 15 Jahre an Daten haben, also kam Kopieren und Einfügen nicht in Frage. Zuerst mussten die Daten geladen werden.

# Imports

In [108]:
#load
from email import parser
from lib2to3.pgen2 import driver
import pandas as pd
import numpy as np
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import time 
import datetime
import os

Schritt 1: Finden Sie das enthaltende Div

Klicken Sie mit der rechten Maustaste auf den Bereich, den Sie benötigen, und untersuchen Sie ihn. Wenn der gesamte gewünschte Bereich blau hervorgehoben ist, haben Sie ein div, das alle Ihre Informationen enthält. Kopieren Sie den Klassennamen nach unten.

Wir fügen diese Informationen nun in unseren Python-Code ein und verwenden Beautiful Soup, um die Daten zu analysieren und das Div zu finden:

# Verbindungsherstellung zu Billboard

In [109]:
#Seite, von welcher die Daten bezogen werden sollen.

url = 'https://www.billboard.com/charts/hot-100-song/' 

In [110]:
#Herstellung der Verbindung zur Billboard-Seite. 

driver = webdriver.Safari()
driver.get(url)
src = driver.page_source
parser = BeautifulSoup(src, 'lxml')
table = parser.find("div", attrs={"class":"chart-results-list // u-padding-b-250"}) 

In diesem Ergebnis können wir einen Songnamen ("Levitating") und einen Künstlernamen ("Dua Lipa") erkennen. Wenn wir entweder den Songnamen oder den Namen des Interpreten in Chrome untersuchen, erhalten wir dasselbe Ergebnis:

# Extrahieren der Daten aus dem Jahr 2021

## Extrahieren der Daten

Schritt 2: Beschaffung der gewünschten Daten
2a) Song-Titel
Im obigen Screenshot sehen wir, dass der Titel "Levitating" unter 'h3' zu finden ist, also können wir ihn als Identifikator für den Songnamen verwenden. Wir können außerdem nur den Text aus den Songtiteln entfernen.

In [111]:
# Extrahieren der Songtitel

song_titles = table.find_all('h3')
songlist =[h.text.strip() for h in song_titles[0:]]

2b) Künstler
Wir machen das Gleiche mit dem Namen des Künstlers und finden sie alle unter "span".

In [115]:
# Extrahieren der Künstler

artists = table.find_all('span')
artistlist = [h.text.strip() for h in artists [0:]]
#artistlist

Leider sieht es so aus, als ob die Rangfolge in dieser Liste innerhalb des Künstlernamens liegt, was bedeutet, dass sie in einem Datenrahmen nicht korrekt aufgereiht werden, wenn wir Künstler mit Songs verbinden. Aus diesem Grund erstellen wir eine neue Liste, die nur die Namen der Interpreten enthält, indem wir eine Liste mit Zahlen erstellen und Python mitteilen, dass wir diese nicht einbeziehen wollen:

In [113]:
#Extrahieren nur der Künstlernamen, ohne das Ranking.

filtered = []
nums = np.arange(1,101, 1)
nums = list(nums.astype(str))

for artist in artistlist:
    if artist not in nums:
        filtered.append(artist)

Wir haben jetzt unsere Liste der Künstler und unsere Liste der Songtitel. Zeit, sie zusammenzustellen.

## Zusammenführung der beiden erstellten Listen

Schritt 3: Zusammenstellung für dieses eine Jahr
Wir müssen unsere Listen in Reihen umwandeln, damit sie später in einen Datenrahmen umgewandelt werden können. Außerdem müssen wir die Spalten miteinander verknüpfen, um unseren neuen Datenrahmen zu erstellen:

In [7]:
#Zusammenführen der beiden erstellten Listen.

artist_100 = pd.Series(filtered)
songtitle_100 = pd.Series(songlist)

In [8]:
top_100 = pd.concat([artist_100, songtitle_100], axis=1)

In [9]:
top_100.rename(columns = {0: 'Artist', 1: 'Song_Title'}, inplace=True)

In [10]:
top_100

Unnamed: 0,Artist,Song_Title
0,Dua Lipa,Levitating
1,The Weeknd & Ariana Grande,Save Your Tears
2,The Weeknd,Blinding Lights
3,24kGoldn Featuring iann dior,Mood
4,Olivia Rodrigo,Good 4 U
...,...,...
95,Lainey Wilson,Things A Man Oughta Know
96,BRS Kash,Throat Baby (Go Baby)
97,Rod Wave,Tombstone
98,Chase Rice Featuring Florida Georgia Line,Drinkin' Beer. Talkin' God. Amen.


## Speichern als CSV-File

Jetzt können wir in Excel speichern:

In [11]:
#Sichern als CSV-File.

pd.DataFrame.to_csv(top_100, 'top100_2021.csv')

# Extrahieren der Daten aus den Jahren 2006 - 2021

Schritt 4: Alle 15 Jahre der Daten abrufen
Jetzt wird es etwas kniffliger!
Zunächst müssen wir eine Liste der gewünschten Datenjahre erstellen:

In [46]:
years = np.arange(2006,2021,1)
years = list(years.astype(str))

Als Nächstes ist mir aufgefallen, dass sich die URL ändert, wenn wir auf das Jahr klicken, um es zu ändern. So können wir alle notwendigen URLs erstellen, um direkt zu unseren Daten zu gelangen, anstatt Selenium für uns herumklicken zu lassen.

In [47]:
urls = []

for year in years:
    url = 'https://www.billboard.com/charts/year-end/' + year + '/hot-100-songs'
    urls.append(url)

Schließlich können wir eine for-Schleife erstellen, die jede unserer URLs und Downloads durchläuft und die hot-100 für jedes Jahr als CSV-Datei speichert. Wir gehen einfach durch jeden der oben angewendeten Schritte.

In [49]:
driver = webdriver.Safari()

for url in urls:
    driver.get(url)
    src = driver.page_source
    parser = BeautifulSoup(src, "lxml")
    table = parser.find("div", attrs= {"class":"chart-results-list // u-padding-b-250"})
    song_titles = table.find_all('h3')
    songlist = [h.text.strip() for h in song_titles [0:]]
    artists = table.find_all('span')
    artistlist = [h.text.strip() for h in artists[0:]]
    filtered = []
    for artist in artistlist:
        if artist not in nums:
            filtered.append(artist)
    artist_100 = pd.Series(filtered)
    songtitle_100 = pd.Series(songlist)
    top_100 = pd.concat([artist_100, songtitle_100], axis = 1)
    top_100.rename (columns = {0: 'Artist', 1: 'Song_Title'}, inplace = True)
    filename = url[42:].replace("/", "_") + '.csv'
    pd.DataFrame.to_csv(top_100, filename)

In [52]:
test = pd.read_csv('2017_hot-100-songs.csv', index_col=0)

In [53]:
test.head(5)

Unnamed: 0,Artist,Song_Title
0,Ed Sheeran,Shape Of You
1,Luis Fonsi & Daddy Yankee Featuring Justin Bieber,Despacito
2,Bruno Mars,That's What I Like
3,Kendrick Lamar,Humble.
4,The Chainsmokers & Coldplay,Something Just Like This


# Weitere Daten hinzufügen (Last Week Pos./Peak Pos./WKS. On Chart)

## Last Week Position

In [97]:
from selenium import webdriver
from bs4 import BeautifulSoup
import pandas as pd

In [100]:
url = 'https://www.billboard.com/charts/hot-100/2022-01-01/'

In [101]:
driver = webdriver.Safari()
driver.get(url)
src = driver.page_source

song_titles=[] #List to store name of the product
artists=[] #List to store price of the product
ratings=[] #List to store rating of the product

In [105]:
content = driver.page_source
soup = BeautifulSoup(content)
for a in soup.findAll('div',href=True, attrs={'class':'u-flex@mobile-max'}):
    song_titles=a.find('div', attrs={'class':'c-title__link lrv-a-unstyle-link'})
    artists=a.find('div', attrs={'class':'c-tagline  a-font-primary-l a-font-primary-m@mobile-max lrv-u-color-black u-color-white@mobile-max lrv-u-margin-tb-00 lrv-u-padding-t-025 lrv-u-margin-r-150'})
    rating=a.find('div', attrs={'class':'a-font-primary-bold lrv-u-padding-r-150 lrv-u-padding-r-075@mobile-max u-font-size-102 u-font-size-87@tablet u-line-height-125 u-line-height-1@mobile-max u-margin-t-n125@tablet'})
    products.append(song_titles.text)
    prices.append(artists.text)
    ratings.append(rating.text) 

In [106]:
df = pd.DataFrame({'Song Name':song_titles,'Künstler':artists,'Rating':ratings}) 
df.to_csv('Hot_100.csv', index=False, encoding='utf-8')

In [107]:
df

Unnamed: 0,Song Name,Künstler,Rating


In [None]:
url = 'https://www.billboard.com/charts/hot-100-song/'

In [None]:
#Herstellung der Verbindung zur Billboard-Seite. 

driver = webdriver.Safari()
driver.get(url)
src = driver.page_source
parser = BeautifulSoup(src, 'lxml')
table = parser.find("div", attrs={"class":"chart-results-list // u-padding-b-250"}) 