# Scraping Ιστοσελίδων με τις Requests και BeautifulSoup

## Εισαγωγή

Στην προηγούμενη ενότητα, μάθαμε για τα βασικά της HTML και τη βιβλιοθήκη BeautifulSoup. Δεν εργαζόμασταν, ωστόσο, με δεδομένα που βρίσκονται στον ιστό, αλλά η HTML μας ήταν αποθηκευμένη τοπικά. Σε αυτή την ενότητα, θα μάθουμε πώς να κάνουμε κλήσεις σε έναν απομακρυσμένο διακομιστή με τη βιβλιοθήκη requests και στη συνέχεια να αναλύουμε αυτά τα δεδομένα με την BeautifulSoup.

## Requests

Η βιβλιοθήκη **requests** μας επιτρέπει να στείλουμε ένα σήμα μέσω Python σε έναν διακομιστή. Ένας καλός τρόπος να σκεφτείτε τις requests είναι ως ένας αόρατος browser που ανοίγει στο παρασκήνιο του υπολογιστή σας. Οι Requests κάνουν ακριβώς το πράγμα που κάνει ο browser σας. Στέλνουν ένα σήμα μέσω του διαδικτύου για να συνδεθούν σε μια συγκεκριμένη διεύθυνση διακομιστή. Ενώ όλοι οι διακομιστές έχουν μια μοναδική διεύθυνση IP, συχνά το διαδίκτυο συνδέει μια συγκεκριμένη και μοναδική διεύθυνση που μπορεί να χρησιμοποιηθεί ως τρόπος σύνδεσης σε έναν διακομιστή χωρίς να χρειάζεται να πληκτρολογήσετε μια διεύθυνση IP. Σε αντίθεση με τον browser σας, ωστόσο, οι requests δεν εμφανίζουν τα αποτελέσματα για να τα δείτε. Αντίθετα, λαμβάνουν το σήμα επιστροφής και απλώς αποθηκεύουν τα δεδομένα HTML στη μνήμη.

Για να αρχίσουμε να μαθαίνουμε πώς λειτουργούν οι requests, ας εισάγουμε πρώτα τη βιβλιοθήκη requests

In [1]:
import requests

Τώρα που έχουμε εισάγει τις requests, ας προχωρήσουμε και ας δημιουργήσουμε ένα string object που θα είναι ο ιστότοπος που θέλουμε να κάνουμε scrape. Πάντα ονομάζω αυτή τη συμβολοσειρά "url" στον κώδικά μου.

In [2]:
url = "https://en.wikipedia.org/wiki/List_of_French_monarchs"

Εξαιρετικά! Τώρα μπορούμε να χρησιμοποιήσουμε τη βιβλιοθήκη requests για να κάνουμε μια κλήση σε αυτή τη συγκεκριμένη σελίδα. Θα το κάνουμε αυτό μέσω της συνάρτησης get στη βιβλιοθήκη requests. Η συνάρτηση get έχει ένα υποχρεωτικό όρισμα: τον ιστότοπο που θέλετε να ζητήσετε. Στην περίπτωσή μας, αυτή θα είναι η συμβολοσειρά "url" μας.

In [3]:
s = requests.get(url)

Τώρα που έχουμε δημιουργήσει ένα request object, ας ρίξουμε μια ματιά στο πώς φαίνεται αυτό.

In [4]:
print (s)

<Response [200]>


Στην επιφάνεια, αυτό μοιάζει σαν να μπορεί να αποτύχαμε. Τι είναι αυτό το περίεργο "response 200" και τι σημαίνει; Αυτή η συγκεκριμένη απάντηση σημαίνει ότι η προσπάθειά μας να συνδεθούμε σε έναν διακομιστή ήταν επιτυχής. Υπάρχουν πολλοί τύποι απαντήσεων, αλλά το 200 είναι αυτό που θέλουμε να δούμε. Εάν δείτε ποτέ μια απάντηση που δεν είναι 200, μπορείτε να αναζητήσετε στο Google τη συγκεκριμένη απάντηση διακομιστή και θα μάθετε τι συμβαίνει. Μερικές φορές, μια απάντηση υποδεικνύει ότι το αίτημά σας μπλοκαρίστηκε. Αυτό μπορεί να οφείλεται στο ότι ο ιστότοπος έχει μέτρα κατά του web scraping. Σε άλλες περιπτώσεις, η σελίδα μπορεί να είναι προστατευμένη, πράγμα που σημαίνει ότι βρίσκεται πίσω από ένα login. Υπάρχουν πάρα πολλά πιθανά σφάλματα που μπορεί να προκύψουν που δεν μπορώ να τα περιγράψω όλα σε αυτό το βασικό εισαγωγικό κεφάλαιο. Ωστόσο, θα σας δώσω μια λύση σε ένα πολύ κοινό πρόβλημα που μπορεί να σας επιτρέψει να ξεπεράσετε μια κοινή απάντηση 403. Για αυτή τη λύση, δείτε την τελευταία ενότητα αυτού του κεφαλαίου.

## BeautifulSoup

Τώρα που μάθαμε πώς να κάνουμε μια κλήση σε έναν διακομιστή και αποθηκεύσαμε την απάντηση (την HTML) στη μνήμη, χρειαζόμαστε έναν τρόπο να αναλύσουμε αυτά τα δεδομένα. Θαμμένο μέσα στο s request object είναι το περιεχόμενο HTML. Μπορούμε να έχουμε πρόσβαση σε αυτά τα δεδομένα προσπελαύνοντας τη μέθοδο content της κλάσης response object. Ας το κάνουμε αυτό και ας ελέγξουμε τους πρώτους 100 χαρακτήρες.

In [5]:
print (s.content[:100])

b'<!DOCTYPE html>\n<html class="client-nojs" lang="en" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title'


Παρατηρήστε ότι αυτά τα δεδομένα είναι HTML. Σε αυτό το στάδιο, ωστόσο, δεν έχουμε έναν εύκολο τρόπο να πάρουμε αυτή τη συμβολοσειρά και να την επεξεργαστούμε ως δομημένα δεδομένα. Εδώ μπαίνει στο παιχνίδι η BeautifulSoup. Η BeautifulSoup μας επιτρέπει να μετατρέψουμε το s.content σε δομημένα δεδομένα που μπορούμε στη συνέχεια να αναλύσουμε. Για να το κάνουμε αυτό, πρέπει πρώτα να εισάγουμε την BeautifulSoup. Σε αντίθεση με τις περισσότερες βιβλιοθήκες, η BeautifulSoup εγκαθίσταται ως bs4 (BeautifulSoup4). Εξαιτίας αυτού πρέπει να εισάγουμε την κλάση BeautifulSoup από το bs4. Η παρακάτω εντολή το κάνει αυτό για εμάς.

In [1]:
from bs4 import BeautifulSoup

Στη συνέχεια, πρέπει να δημιουργήσουμε ένα νέο soup object.

In [7]:
soup = BeautifulSoup(s.content)

Εάν δεν δούμε ένα σφάλμα, τότε σημαίνει ότι έχουμε δημιουργήσει επιτυχώς ένα soup object. Ας το εκτυπώσουμε για να δούμε πώς φαίνεται:

In [17]:
print (str(soup)[:200])

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
<head>
<meta charset="utf-8"/>
<title>List of French monarchs - Wikipedia</title>
<script>document.documentElement.className="client-js";


Ενώ το soup object φαίνεται ακριβώς το ίδιο με το s.content, είναι εντελώς διαφορετικό. Διατηρεί τη δομή της HTML επειδή η BeautifulSoup την έχει αναλύσει για εμάς. Αυτό σημαίνει ότι μπορούμε να χρησιμοποιήσουμε ειδικές μεθόδους. Σε αυτήν την ενότητα του εγχειριδίου, θα χρησιμοποιήσουμε τις find και find_all.

- find - αυτό θα μας επιτρέψει να βρούμε την πρώτη εμφάνιση ενός tag που χρησιμοποιείται και να πιάσουμε αυτό το tag και όλα τα ένθετα στοιχεία του.
- find_all - αυτό θα επιστρέψει μια λίστα όλων των tags και των ένθετων στοιχείων τους που ευθυγραμμίζονται με αυτό το συγκεκριμένο tag.

Ας ρίξουμε μια ματιά σε ένα βασικό παράδειγμα της μεθόδου find.

In [9]:
div = soup.find("div")

Εδώ, πιάσαμε το πρώτο div tag στη σελίδα. Τα Div tags, ωστόσο, είναι αρκετά συνηθισμένα επειδή είναι ένα από τα βασικά δομικά στοιχεία της HTML. Ας ρίξουμε μια ματιά στο πόσα υπάρχουν σε ολόκληρη τη σελίδα. Μπορούμε να το κάνουμε αυτό με τη μέθοδο find_all και στη συνέχεια να μετρήσουμε το μέγεθος της λίστας με τη συνάρτηση len που συναντήσαμε στο κεφάλαιο 02_02.

In [10]:
all_divs = soup.find_all("div")
print (len(all_divs))

97


Έτσι, αν θέλουμε να πιάσουμε ένα συγκεκριμένο div μόνο με τις find και find_all, θα έπρεπε να μετρήσουμε όλα τα div tags και να βρούμε το σωστό index και να το πιάσουμε. Αυτό δεν θα λειτουργούσε σε κλίμακα επειδή αυτό θα ποικίλλει από σελίδα σε σελίδα, ακόμη και αν η δομή δεδομένων HTML ήταν παρόμοια σε όλες τις σελίδες σε έναν ιστότοπο. Χρειαζόμαστε μια καλύτερη λύση. Εδώ μπαίνει το δεύτερο προαιρετικό όρισμά μας. Η συνάρτηση find μπορεί επίσης να πάρει ένα λεξικό που μας επιτρέπει να περάσουμε κάποια συγκεκριμενοποίηση στην ανάλυσή μας του soup object.

Ας πούμε ότι θέλω να πιάσω το κύριο σώμα του άρθρου της Wikipedia. Εάν επιθεωρήσω τη σελίδα, θα παρατηρήσω ότι ένα συγκεκριμένο div tag περιέχει όλα τα δεδομένα που αντιστοιχούν στο σώμα του άρθρου της Wikipedia. Αυτό το div tag έχει ένα ειδικό μοναδικό id attribute. Το όνομα αυτού του id attribute είναι "mw-content-text". Αυτό σημαίνει ότι μπορώ να περάσω ως δεύτερο όρισμα ένα λεξικό όπου το id είναι το κλειδί και το αντίστοιχο όνομα id είναι η τιμή. Αυτό θα πει στην BeautifulSoup να βρει το πρώτο div tag που έχει ένα id attribute που ταιριάζει με το mw-content-text. Ας ρίξουμε μια ματιά σε αυτό στον κώδικα.

In [11]:
body = soup.find("div", {"id": "mw-content-text"})

Τώρα που πιάσαμε αυτό το τμήμα του σώματος του άρθρου, μπορούμε να το εκτυπώσουμε με τη μέθοδο text.

In [18]:
print (body.text[:500])



This article is about French monarchs. For Frankish kings, see List of Frankish kings.


 Division of the Frankish Empire at the Treaty of Verdun in 843
The monarchs of the Kingdom of France ruled from the establishment of the Kingdom of the West Franks in 843 until the fall of the Second French Empire in 1870, with several interruptions. Between the period from King Charles the Bald in 843 to King Louis XVI in 1792, France had 45 kings. Adding the 7 emperors and kings after the French Revolut


Αυτό είναι φανταστικό! Αλλά, τι θα γινόταν αν θέλαμε να πιάσουμε το κείμενο και να διατηρήσουμε τη δομή των παραγράφων. Μπορούμε να το κάνουμε αυτό αναζητώντας το soup object στο επίπεδο του body. Το body object που δημιουργήσαμε είναι ακόμα ένα soup object που διατηρεί όλα αυτά τα δεδομένα HTML, αλλά περιέχει μόνο τα δεδομένα για τα δεδομένα που βρίσκονται κάτω από αυτό το συγκεκριμένο div. Μπορούμε να χρησιμοποιήσουμε το find all τώρα για να πιάσουμε όλες τις παραγράφους από μέσα στο body. Μπορούμε να χρησιμοποιήσουμε το find_all στο body object για να βρούμε όλες τις παραγράφους έτσι:

In [13]:
paragraphs = body.find_all("p")

Μπορούμε τώρα να επαναλάβουμε τις παραγράφους. Ας το κάνουμε αυτό τώρα στις πρώτες πέντε παραγράφους και ας εκτυπώσουμε το κείμενο.

In [14]:
for paragraph in paragraphs[:5]:
    print (paragraph.text)





The monarchs of the Kingdom of France ruled from the establishment of the Kingdom of the West Franks in 843 until the fall of the Second French Empire in 1870, with several interruptions. Between the period from King Charles the Bald in 843 to King Louis XVI in 1792, France had 45 kings. Adding the 7 emperors and kings after the French Revolution, this comes to a total of 52 monarchs of France.

In August 843 the Treaty of Verdun divided the Frankish realm into three kingdoms, one of which (Middle Francia) was short-lived; the other two evolved into France (West Francia) and, eventually, Germany (East Francia). By this time, the eastern and western parts of the land had already developed different languages and cultures.

Initially, the kingdom was ruled primarily by two dynasties, the Carolingians and the Robertians, who alternated rule from 843 until 987, when Hugh Capet, the progenitor of the Capetian dynasty, took the throne.  The kings use the title "King of the Franks" until 

Viola! Τώρα έχετε επίσημα κάνει webscraping στην πρώτη σας σελίδα στην Python και πιάσατε κάποια σχετικά δεδομένα. Το scraping δεδομένων από τον ιστό δεν είναι ποτέ μια εργασία αντιγραφής και επικόλλησης επειδή κάθε ιστότοπος δομεί την HTML του λίγο διαφορετικά. Παρόλα αυτά, οι μηχανισμοί είναι οι ίδιοι. Οι βασικές μέθοδοι που μάθατε σε αυτό το κεφάλαιο θα πρέπει να σας επιτρέψουν να κάνετε scraping στην πλειοψηφία των στατικών ιστότοπων.