-
Notifications
You must be signed in to change notification settings - Fork 0
/
spider_name.py
22 lines (20 loc) · 1.01 KB
/
spider_name.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
# Importieren Sie die Scrapy-Bibliothek
import scrapy
# Definieren Sie eine Klasse für Ihren Spider
class NummernSpider(scrapy.Spider):
# Geben Sie einen Namen für Ihren Spider an
name = "nummern_spider"
# Geben Sie eine Liste von URLs an, die der Spider anfordern soll
start_urls = ["https://tabs.ultimate-guitar.com/tab/thjim/"]
# Definieren Sie eine Methode, die aufgerufen wird, wenn der Spider eine Antwort erhält
def parse(self, response):
# Extrahieren Sie alle Links mit dem Muster "https://tabs.ultimate-guitar.com/tab/thjim/40-millionen-minuten-chords-"
links = response.xpath("//a[starts-with(@href,'https://tabs.ultimate-guitar.com/tab/thjim/')]")
# Iterieren Sie über die Links
for link in links:
# Extrahieren Sie die URL des Links als String
url = link.xpath("@href").get()
# Extrahieren Sie die Nummer am Ende der URL mit einem regulären Ausdruck
nummer = url.split("-")[-1]
# Geben Sie die Nummer als ein Dictionary zurück
yield {"nummer": nummer}