# Scrape and Parse Text From Websites

Collecting data from websites using an automated process is known as web scraping. The primary language of information on the Internet is HTML (HyperText Markup Language), which is how most webpages are displayed in browsers. For instance, if you browse to a particular website and choose to "view page source" in your browser, you will most likely be presented with HTML code underlying that webpage; this is the information that your browser receives and translates into the page you actually see.

# Raspar y analizar texto de sitios web

Recolectar datos de sitios web usando un proceso automatizado se conoce como raspado web. El idioma principal de información en Internet es HTML (HyperText Markup Language), que es la forma en que la mayoría de las páginas web se muestran en los navegadores. Por ejemplo, si navega a un sitio web en particular y elige "ver el origen de la página" en su navegador, lo más probable es que se le presente el código HTML subyacente a esa página web; esta es la información que su navegador recibe y traduce a la página que realmente ve.

Let's start by grabbing all of the HTML code from a single webpage. We'll take a very
simple page that's been set up just for practice:

Comencemos por obtener todo el código HTML de una sola página web. Tomaremos un muy
página simple que se ha configurado solo para la práctica:

In [12]:
import requests
from bs4 import BeautifulSoup


# Collect and parse first page
page = requests.get('https://realpython.com/practice/aphrodite.html')
mysoup = BeautifulSoup(page.text, 'html.parser')

From here, we can parse data out of   my_soup   in various useful ways depending on what
information we want. For instance, BeautifulSoup includes a   get_text()  method for
extracting just the text from a document, removing any HTML tags automatically:

A partir de aquí, podemos analizar los datos de my_soup de varias maneras útiles dependiendo de qué
información que queremos Por ejemplo, BeautifulSoup incluye un método get_text () para
extrayendo solo el texto de un documento, eliminando cualquier etiqueta HTML automáticamente:

In [23]:
mysoup.contents

['\n', <html>
 <head>
 <title>Profile: Aphrodite</title>
 </head>
 <body bgcolor="yellow">
 <center>
 <br/><br/>
 <img src="/static/practice/aphrodite.f297e3a4a87b.gif"/>
 <h2>Name: Aphrodite</h2>
 <br/><br/>
 Favorite animal: Dove
 <br/><br/>
 Favorite color: Red
 <br/><br/>
 Hometown: Mount Olympus
 </center>
 </body>
 </html>, '\n']

In [27]:
print(soup.prettify())

<html>
 <head>
  <title>
   Profile: Aphrodite
  </title>
 </head>
 <body bgcolor="yellow">
  <center>
   <br/>
   <br/>
   <img src="/static/practice/aphrodite.f297e3a4a87b.gif"/>
   <h2>
    Name: Aphrodite
   </h2>
   <br/>
   <br/>
   Favorite animal: Dove
   <br/>
   <br/>
   Favorite color: Red
   <br/>
   <br/>
   Hometown: Mount Olympus
  </center>
 </body>
</html>



In [14]:
print(mysoup.get_text())




Profile: Aphrodite





Name: Aphrodite

Favorite animal: Dove

Favorite color: Red

Hometown: Mount Olympus






There are a lot of extra blank lines left, but these can always be taken out using the
string   replace()   method. If we only want to get specific text from an HTML document,
using Beautiful Soup to extract the text first and then using   find()   is sometimes easier
than working with regular expressions.
However, sometimes the HTML tags are actually the elements that point out the data we want to retrieve. For instance, perhaps we want to retrieve links for all the images on the page, which will appear in   <img>   HTML tags. In this case, we can use the   find_all() method to return a list of all instances of that particular tag:

Hay muchas líneas en blanco adicionales, pero estas siempre se pueden sacar usando el
método string replace (). Si solo queremos obtener texto específico de un documento HTML,
usar Beautiful Soup para extraer el texto primero y luego usar find () es a veces más fácil
que trabajar con expresiones regulares.
Sin embargo, a veces las etiquetas HTML son en realidad los elementos que señalan los datos que queremos recuperar. Por ejemplo, quizás deseemos recuperar enlaces para todas las imágenes en la página, que aparecerán en <img> etiquetas HTML. En este caso, podemos usar el método find_all () para devolver una lista de todas las instancias de esa etiqueta en particular:

In [16]:
print(mysoup.find_all("img"))

[<img src="/static/practice/aphrodite.f297e3a4a87b.gif"/>]


In [20]:
print(mysoup.title)

<title>Profile: Aphrodite</title>


# Or get a list of all european MPS

In [34]:
page = requests.get('http://www.europarl.europa.eu/meps/en/full-list.html')
mysoup = BeautifulSoup(page.text, 'html.parser')
print(mysoup.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html lang="en" prefix="og:  http://ogp.me/ns#" xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <title>
   List of current Members | MEPs | European Parliament
  </title>
  <meta content="List of current Members | MEPs | European Parliament" name="title"/>
  <meta content="List of current Members | MEPs | European Parliament" property="og:title"/>
  <meta content="List of active Members in the European Parliament by letter or as complete list" property="og:description"/>
  <meta content="List of active Members in the European Parliament by letter or as complete list" name="description"/>
  <meta content="http://www.europarl.europa.eu/website/common/img/icon/sharelogo_facebook.jpg" property="og:image"/>
  <meta content="index, follow, noodp, noydir, notranslate" name="robots"/>
  <meta content="en

In [39]:
mep_name = mysoup.find(class_='mep_name')
print(mep_name)

<li class="mep_name"><a class="" href="/meps/en/124990/LARS_ADAKTUSSON_home.html">Lars ADAKTUSSON</a></li>


In [47]:
mep_name = mysoup.find_all(class_='mep_name')
print(mep_name)

[<li class="mep_name"><a class="" href="/meps/en/124990/LARS_ADAKTUSSON_home.html">Lars ADAKTUSSON</a></li>, <li class="mep_name"><a class="" href="/meps/en/189525/ASIM_ADEMOV_home.html">Asim ADEMOV</a></li>, <li class="mep_name"><a class="" href="/meps/en/124831/ISABELLA_ADINOLFI_home.html">Isabella ADINOLFI</a></li>, <li class="mep_name"><a class="" href="/meps/en/124797/MARCO_AFFRONTE_home.html">Marco AFFRONTE</a></li>, <li class="mep_name"><a class="" href="/meps/en/124811/LAURA_AGEA_home.html">Laura AGEA</a></li>, <li class="mep_name"><a class="" href="/meps/en/96897/JOHN+STUART_AGNEW_home.html">John Stuart AGNEW</a></li>, <li class="mep_name"><a class="" href="/meps/en/125045/CLARA+EUGENIA_AGUILERA+GARCIA_home.html">Clara Eugenia AGUILERA GARCÍA</a></li>, <li class="mep_name"><a class="" href="/meps/en/124842/DANIELA_AIUTO_home.html">Daniela AIUTO</a></li>, <li class="mep_name"><a class="" href="/meps/en/99650/TIM_AKER_home.html">Tim AKER</a></li>, <li class="mep_name"><a class="

In [52]:
for name in  mep_name:
    print(name.find('a').text)

Lars ADAKTUSSON
Asim ADEMOV
Isabella ADINOLFI
Marco AFFRONTE
Laura AGEA
John Stuart AGNEW
Clara Eugenia AGUILERA GARCÍA
Daniela AIUTO
Tim AKER
Marina ALBIOL GUZMÁN
Jan Philipp ALBRECHT
Nedzhmi ALI
Michèle ALLIOT-MARIE
Lucy ANDERSON
Martina ANDERSON
Max ANDERSSON
Eric ANDRIEU
Laima Liucija ANDRIKIENĖ
Nikos ANDROULAKIS
Gerolf ANNEMANS
Maria ARENA
Pascal ARIMONT
Marie-Christine ARNAUTU
Jonathan ARNOTT
Jean ARTHUIS
Richard ASHWORTH
Francisco ASSIS
Janice ATKINSON
Margrete AUKEN
Petras AUŠTREVIČIUS
Inés AYALA SENDER
Pilar AYUSO
