# **Ejemplos de extracción de datos mediante "Web scraping"**


## Objetivos


<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li>
            <p>Uso de la librería Beautiful Soup para Web Scraping</p>
            <ul>
                <li>Etiquetas</li>
                <li>Hijos, Padres y hermanos</li>
                <li>Atributos HTML</li>
                <li>Cadenas de navegación</li>
            </ul>
        </li>
     </ul>
    <ul>
        <li>
            <p>Filtros</p>
            <ul>
                <li>Encontrar todo</li>
                <li>Encontrar</li>
                <li>Atributos HTML</li>
                <li>Cadena navegable</li>
            </ul>
        </li>
     </ul>
     <ul>
        <li>
            <p>Descarga y extracción del contenido de una página web</p>
    </li>
         </ul> 
</div>

<hr>


Para este laboratorio vamos a instalar dos librerías:

bs4 --> BeautifulSoup es una librería con diversos métodos que facilitan la extracción de información de páginas web. https://pypi.org/project/beautifulsoup4/

requests --> Librería que permite enviar solicitudes HTTP sin necesidad de agregar cadenas de consultas a las URL, es decir, hacer que las solicitudes HTTP sean más sencillas. https://pypi.org/project/requests/

In [1]:
!pip install bs4
!pip install requests



Importamos las librerías y ya lo tenemos todo listo para iniciar la práctica.

In [2]:
from bs4 import BeautifulSoup # este módulo nos ayuda a hacer web scrapping.
import requests  # este módulo nos ayuda a descargar contenido web

<h2 id="BSO">Uso de la librería Beautiful Soup para Web Scraping</h2>


Como hemos comentado antes, BeautifulSoup es una biblioteca de Python para extraer datos de archivos HTML y XML, en nuestro caso nos vamos a centrar en archivos HTML. Se navega por el HTML como un árbol filtrando lo que estamos buscando.

Veamos el siguiente ejemplo HTML:


In [3]:
%%html
<!DOCTYPE html>
<html>
<head>
<title>Salarios de empleados</title>
</head>
<body>
<h3><b id='boldest'>Antonio García</b></h3>
<p> Salario: 25,000 € </p>
<h3> Francisco Ramirez</h3>
<p> Salario: 20,000 €  </p>
<h3> Rosa Durán </h3>
<p> Salario: 28,200 €</p>
</body>
</html>

Este código HTML lo podemos almacenar como una cadena en una variable; la llamaremos 'html'


In [4]:
html="<!DOCTYPE html><html><head><title>Salarios de empleados</title></head><body><h3><b id='boldest'>Antonio García</b></h3><p> Salario: 25,000 € </p><h3> Francisco Ramirez</h3><p> Salario: 20,000 €  </p><h3> Rosa Durán </h3><p> Salario: 28,200 €</p></body></html>"
html

"<!DOCTYPE html><html><head><title>Salarios de empleados</title></head><body><h3><b id='boldest'>Antonio García</b></h3><p> Salario: 25,000 € </p><h3> Francisco Ramirez</h3><p> Salario: 20,000 €  </p><h3> Rosa Durán </h3><p> Salario: 28,200 €</p></body></html>"

Para analizar un documento, éste lo pasamos al constructor BeautifulSoup. El objeto BeautifulSoup, lo representará como una estructura de datos anidada:

In [5]:
soup = BeautifulSoup(html, 'html5lib')

Primero, el documento se convierte a Unicode (similar a ASCII) y las entidades HTML se convierten a caracteres Unicode. Beautiful Soup transforma un documento HTML en un <b>árbol complejo</b> de objetos Python. En este laboratorio, trabajaremos con los objetos 'BeautifulSoup' y 'Tag', que para los propósitos de este laboratorio son idénticos, y los objetos 'NavigableString'.
Con el método <code> prettify () </code> podemos mostrar el HTML en la estructura anidada:


In [6]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Salarios de empleados
  </title>
 </head>
 <body>
  <h3>
   <b id="boldest">
    Antonio García
   </b>
  </h3>
  <p>
   Salario: 25,000 €
  </p>
  <h3>
   Francisco Ramirez
  </h3>
  <p>
   Salario: 20,000 €
  </p>
  <h3>
   Rosa Durán
  </h3>
  <p>
   Salario: 28,200 €
  </p>
 </body>
</html>


## Etiquetas


Podemos extraer información a partir del nombre de las etiquetas HTML. Por ejemplo, supongamos que queremos el título de la página y el nombre del primer empleado, para ello usamos la etiqueta 'title' y 'h' respectivamente para extraer la información.

In [7]:
objeto_etiqueta=soup.title #extraemos el título de la web a partir de la etiqueta 'title'
print("Contenido de objeto_etiqueta:",objeto_etiqueta)

Contenido de objeto_etiqueta: <title>Salarios de empleados</title>


Podemos ver el tipo de etiqueta <code>bs4.element.Tag</code>


In [8]:
print("Visualizar el tipo del objeto etiqueta:",type(objeto_etiqueta))

Visualizar el tipo del objeto etiqueta: <class 'bs4.element.Tag'>


Si hay más de una Etiqueta HTML con el mismo nombre, se extrae el primer elemento que se encuentre con ese nombre, esto ocurre con la etiqueta 'h3'

In [9]:
objeto_etiqueta=soup.h3
objeto_etiqueta

<h3><b id="boldest">Antonio García</b></h3>

### Hijos, padres y hermanos


Como se indicó anteriormente, el objeto <code> objeto_etiqueta </code> es un árbol donde podemos navegar a través de todas sus ramas, identificamos a los hijos, que son las ramas que cuelgan de los padres y los hermanos que son las ramas que están al mismo nivel dentro de la jerarquía de árbol. Si queremos acceder a una rama hija, cogiendo como ejemplo objeto_etiqueta:


In [10]:
etiqueta_hijo=objeto_etiqueta.b #extraemos del objeto_etiqueta el contenido dentro de la etiqueta <b></b>
objeto_etiqueta

<h3><b id="boldest">Antonio García</b></h3>

Podemos acceder a la etiqueta padre desde la etiqueta hijo

In [11]:
etiqueta_padre=etiqueta_hijo.parent
etiqueta_padre

<h3><b id="boldest">Antonio García</b></h3>

Qué es lo mismo que...


In [12]:
objeto_etiqueta # es todo el objeto

<h3><b id="boldest">Antonio García</b></h3>

El padre del <code>objeto_etiqueta</code> es el <code>body</code> de la cadena HTML.


In [13]:
objeto_etiqueta.parent

<body><h3><b id="boldest">Antonio García</b></h3><p> Salario: 25,000 € </p><h3> Francisco Ramirez</h3><p> Salario: 20,000 €  </p><h3> Rosa Durán </h3><p> Salario: 28,200 €</p></body>

<code>objeto_etiqueta</code> hermano es el párrafo <code>p</code> del elemento y lo extraemos mediante el método <code>next_sibling</code>


In [14]:
hermano_1=objeto_etiqueta.next_sibling
hermano_1

<p> Salario: 25,000 € </p>

`hermano_2` es la cabecera `header` del elemento que es también un hermano de ambos: `hermano_1` y `objeto_etiqueta`


In [15]:
hermano_2=hermano_1.next_sibling
hermano_2

<h3> Francisco Ramirez</h3>

### Atributos HTML


Si la etiqueta HTML tiene atributos, la etiqueta <code> id = "boldest" </code> tiene un atributo <code> id </code> cuyo valor es <code> boldest </code>. Podemos acceder a los atributos de una etiqueta tratando la etiqueta como un diccionario:

In [16]:
etiqueta_hijo['id']

'boldest'

Podemos acceder a ese diccionario directamente con el método <code> attrs </code>:

In [17]:
etiqueta_hijo.attrs

{'id': 'boldest'}

Podemos también trabajar con la comprobación de atributos de varios valores <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">[1]</a>.

También podemos obtener el contenido del atributo de la etiqueta usando el método <code> get () </code> de Python.

In [18]:
etiqueta_hijo.get('id')

'boldest'

### Cadena navegable


Una cadena corresponde a un fragmento de texto o contenido dentro de una etiqueta. 'BeautifulSoup' usa la clase <code> NavigableString </code> para contener ese texto de la etiqueta. 


In [19]:
etiqueta_string=etiqueta_hijo.string #con este método sacamos lo que hay en la etiqueta <b id="boldest">Antonio García</b>
etiqueta_string


'Antonio García'

Aquí podemos ver como el tipo es un NavigableString


In [20]:
type(etiqueta_string)

bs4.element.NavigableString

A NavigableString is just like a Python string or Unicode string, to be more precise. The main difference is that it also supports some  <code>BeautifulSoup</code> features. We can covert it to sting object in Python:
Un NavigableString es como una cadena de Python o una cadena Unicode. La principal diferencia es que también admite algunas funciones de <code> BeautifulSoup </code>. Podemos convertirlo en objeto string de Python:


In [21]:
unicode_string = str(etiqueta_string)
unicode_string

'Antonio García'

## Filtros


Los filtros permiten encontrar patrones complejos, el filtro más simple es una cadena. En esta sección pasaremos una cadena a un método de filtro diferente y 'BeautifulSoup' realizará una coincidencia con esa cadena exacta. Consideramos la siguiente tabla HTML que describe vuelos de cohetes:

In [22]:
%%html
<table>
  <tr>
    <td id='flight' >Número de vuelo</td>
    <td>Lugar lanzamiento</td> 
    <td>Carga útil</td>
   </tr>
  <tr> 
    <td>1</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a></td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td>
    <td>80 kg</td>
  </tr>
</table>

0,1,2
Número de vuelo,Lugar lanzamiento,Carga útil
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg


Podemos almacenar el HTML en una cadena cuya variable es <code>tabla</code>:


In [23]:
tabla="<table><tr><td id='flight'>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr> <td>1</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a></td><td>300 kg</td></tr><tr><td>2</td><td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td><td>80 kg</td></tr></table>"
tabla

"<table><tr><td id='flight'>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr> <td>1</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a></td><td>300 kg</td></tr><tr><td>2</td><td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td><td>80 kg</td></tr></table>"

In [24]:
tabla_bs = BeautifulSoup(tabla, 'html5lib')#le damos formato
tabla_bs

<html><head></head><body><table><tbody><tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td><td>300 kg</td></tr><tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td><td>80 kg</td></tr></tbody></table></body></html>

## find All


El método <code>find_all()</code> examina y recupera los descendientes de una etiqueta que coincidan con sus filtros.
Los argumentos para el método <code>find_all(name, attrs, recursive, string, limit, **kwargs)<c/ode>

### Parámetro "name"


Este parámetro se refiere al nombre de la etiqueta; el método <code>find_all</code> extraerá el contenido de todas las etiquetas con ese nombre y sus hijos.

In [26]:
tabla_rows=tabla_bs.find_all('tr')
tabla_rows

[<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>,
 <tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td><td>300 kg</td></tr>,
 <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>,
 <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td><td>80 kg</td></tr>]

El resultado es una lista de Python Iterable y cada elemento es un objeto <code> etiqueta </code>:

In [27]:
first_row =tabla_rows[0]
first_row

<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>

El tipo es un objeto de tipo <code>tag</code>


In [28]:
print(type(first_row))

<class 'bs4.element.Tag'>


Podemos obtener el hijo 


In [29]:
first_row.td

<td id="flight">Flight No</td>

Si iteramos por la lista, cada elemento corresponde a una fila en la tabla:


In [35]:
for i,row in enumerate(tabla_rows):
    print("Fila",i,"is",row)
    

Fila 0 is <tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>
Fila 1 is <tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td><td>300 kg</td></tr>
Fila 2 is <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>
Fila 3 is <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td><td>80 kg</td></tr>


Como <code>row </code> es un objeto <code>cell</code>, podemos aplicarle el método <code>find_all</code> y extraer las celdas de la tabla en el objeto <code>cells</code> usando la etiqueta <code>td</code>; estos son todos los hijos con el nombre <code>td</code>. El resultado es una lista y cada elemento corresponde a una celda y es un objeto <code> Tag </code> pudiendo también recorrer esta lista. Se puede extraer el contenido usando el atributo <code>string</code>.


In [38]:
for i,row in enumerate(tabla_rows):
    print("Fila",i)
    cells=row.find_all('td')
    for j,cell in enumerate(cells):
        print('Columna',j,"Celda",cell)

Fila 0
Columna 0 Celda <td id="flight">Flight No</td>
Columna 1 Celda <td>Launch site</td>
Columna 2 Celda <td>Payload mass</td>
Fila 1
Columna 0 Celda <td>1</td>
Columna 1 Celda <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td>
Columna 2 Celda <td>300 kg</td>
Fila 2
Columna 0 Celda <td>2</td>
Columna 1 Celda <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>
Columna 2 Celda <td>94 kg</td>
Fila 3
Columna 0 Celda <td>3</td>
Columna 1 Celda <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td>
Columna 2 Celda <td>80 kg</td>


Si usamos una lista, podemos compararlo con cualquier elemento de esa lista.

In [41]:
list_input=tabla_bs.find_all(name=["tr", "td"])
list_input

[<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>,
 <td id="flight">Flight No</td>,
 <td>Launch site</td>,
 <td>Payload mass</td>,
 <tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td><td>300 kg</td></tr>,
 <td>1</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td>,
 <td>300 kg</td>,
 <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>,
 <td>2</td>,
 <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>,
 <td>94 kg</td>,
 <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td><td>80 kg</td></tr>,
 <td>3</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td>,
 <td>80 kg</td>]

## Atributos


Si no se reconoce el argumento, se convertirá en un filtro de los atributos de la etiqueta. Por ejemplo, el argumento <code> id </code>, BeautifulSoup filtrará el atributo <code> id </code> de cada etiqueta. Los primeros elementos <code> td </code> tienen un valor de <code> id </code> de <code> flight </code>, por lo que podemos filtrar en función de ese <code> id </ code > valor.


In [42]:
tabla_bs.find_all(id="flight")

[<td id="flight">Flight No</td>]

Podemos encontrar todos los elementos que tienen enlaces a la página de Wikipedia de Florida:


In [43]:
list_input=tabla_bs.find_all(href="https://en.wikipedia.org/wiki/Florida")
list_input

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

Si establecemos el atributo <code> href </code> en True, independientemente del valor, el código busca todas las etiquetas con el valor <code> href </code>:

In [44]:
tabla_bs.find_all(href=True)

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Texas">Texas</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

Existen otros métodos para tratar los atributos y otros pocesos relacionados. Se puede ver en el siguiente enlace:
<a href='https://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors'>link</a>


<h3 id="exer_type">Otro ejemplo con: <code>find_all</code></h3>


Filtrar todos los elementos que no tengan el valor <code>href</code>
En este caso va a coger todas las etiquetas tengan o no 'href'

In [47]:
tabla_bs.find_all(href=False)

[<html><head></head><body><table><tbody><tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td><td>300 kg</td></tr><tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td><td>80 kg</td></tr></tbody></table></body></html>,
 <head></head>,
 <body><table><tbody><tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td><td>300 kg</td></tr><tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td><td>80 kg</td></tr></tbody></table></body>,
 <table><tbody><tr><td id="flight">Flight No</td><td>Launch site</td> <t

In [48]:
# Si lo ponemos a true
tabla_bs.find_all(href=True)

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Texas">Texas</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

Usando el objeto <code> soup </code>, buscamos el elemento con el contenido del atributo <code> id </code> establecido en <code> "boldest" </code>.


In [49]:
soup.find_all(id="boldest")

[<b id="boldest">Antonio García</b>]

### string


Con 'string' podemos buscar cadenas en vez de etiquetas; en el ejemplo encontramos todos los elementos con la cadena 'Florida':


In [51]:
tabla_bs.find_all(string="Florida")

['Florida', 'Florida']

## find


El método <code> find_all () </code> escanea todo el documento en busca de resultados; si lo que buscamos es un elemento, usamos el método <code> find () </code> para encontrar el primer elemento en el documento. Tenemos las dos tablas siguientes:

In [52]:
%%html
<h3>Rocket Launch </h3>

<p>
<table class='rocket'>
  <tr>
    <td>Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
  </tr>
  <tr>
    <td>1</td>
    <td>Florida</td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td>Texas</td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td>Florida </td>
    <td>80 kg</td>
  </tr>
</table>
</p>
<p>

<h3>Pizza Party  </h3>
  
    
<table class='pizza'>
  <tr>
    <td>Pizza Place</td>
    <td>Orders</td> 
    <td>Slices </td>
   </tr>
  <tr>
    <td>Domino's Pizza</td>
    <td>10</td>
    <td>100</td>
  </tr>
  <tr>
    <td>Little Caesars</td>
    <td>12</td>
    <td >144 </td>
  </tr>
  <tr>
    <td>Papa John's </td>
    <td>15 </td>
    <td>165</td>
  </tr>


0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg

0,1,2
Pizza Place,Orders,Slices
Domino's Pizza,10,100
Little Caesars,12,144
Papa John's,15,165


Almacenamos el HTML como una cadena de Python y lo asignamos a <code> doble_tabla </code>:


In [57]:
doble_tabla="<h3>Rocket Launch </h3><p><table class='rocket'><tr><td>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr><td>1</td><td>Florida</td><td>300 kg</td></tr><tr><td>2</td><td>Texas</td><td>94 kg</td></tr><tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table></p><p><h3>Pizza Party  </h3><table class='pizza'><tr><td>Pizza Place</td><td>Orders</td> <td>Slices </td></tr><tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr><tr><td>Little Caesars</td><td>12</td><td >144 </td></tr><tr><td>Papa John's </td><td>15 </td><td>165</td></tr>"

Creamos el objeto <code> BeautifulSoup </code> <code> doble_tabla_bs </code>


In [59]:
doble_tabla_bs= BeautifulSoup(doble_tabla, 'html.parser')

Podemos encontrar el nombre de la tabla usando el nombre de la etiqueta 'table'

In [60]:
doble_tabla_bs.find("table")

<table class="rocket"><tr><td>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr><td>1</td><td>Florida</td><td>300 kg</td></tr><tr><td>2</td><td>Texas</td><td>94 kg</td></tr><tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table>

Podemos filtrar por el atributo de clase para encontrar la segunda tabla, pero como 'class' es una palabra clave en Python, agregamos un guión bajo.


In [61]:
doble_tabla_bs.find("table",class_='pizza')

<table class="pizza"><tr><td>Pizza Place</td><td>Orders</td> <td>Slices </td></tr><tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr><tr><td>Little Caesars</td><td>12</td><td>144 </td></tr><tr><td>Papa John's </td><td>15 </td><td>165</td></tr></table>

## Descarga y extracción del contenido de una página web


Descargamos el contenido de la siguiente página web:


In [62]:
url = "http://www.ibm.com"

Usamos <code> get </code> para descargar el contenido de la página web en formato de texto y almacenarlo en una variable llamada <code> data </code>:


In [63]:
data  = requests.get(url).text 

Creamos un objeto <code> BeautifulSoup </code> usando el constructor <code> BeautifulSoup </code>


In [64]:
soup = BeautifulSoup(data,"html5lib")

'escrapeamos' todos los enlaces


In [65]:
for link in soup.find_all('a',href=True):

    print(link.get('href'))


https://www.ibm.com/es/es
https://www.ibm.com/sitemap/es/es
https://www.ibm.com/es-es/security/data-breach?lnk=eshpv18l1
https://es.newsroom.ibm.com/announcements?item=122667%3Flnk%3Deshpv18f1
https://www.ibm.com/es-es/cloud/cloud-pak-for-business-automation?lnk=eshpv18f2&utm_medium=OSocial&utm_source=Tumblr&utm_content=000039KU&utm_term=10013895&utm_id=organic
/downloads/cas/EBBZLDAY?lnk=eshpv18f3
https://www.ibm.com/thought-leadership/institute-business-value/report/quantum-decade?lnk=eshpv18f4
/es-es/marketing/partner-ecosystem/?lnk=eshpv18f5
https://www.ibm.com/es-es/financing/pre-owned/ibm-certified-used-equipment?lnk=eshpv18f5
/es-es/products/offers-and-discounts
https://www.ibm.com/es-es/cloud/financial-services?lnk=eshpv18T1
https://www.ibm.com/cloud/blog/announcements/ibm-cloud-for-vmware-special-promotion?lnk=eshpv18T2
https://www.ibm.com/es-es/cloud/satellite?lnk=eshpv18T3
https://www.ibm.com/es-es/cloud/sap?lnk=eshpv18T4
https://www.ibm.com/es-es/cloud/free?lnk%5B0%5D=eshpv

## Extraer todas las imágenes de las etiquetas


In [66]:
for link in soup.find_all('img'):
    print(link)
    #print(link.get('src'))

<img alt="IBM Food Trust Pescanova" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2021-06-10/IBM%20Foor%20Trust%20Pescanova%20VF.jpg"/>
<img alt="Automation" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2021-07-05/20210705-eses-automation-444x254.jpg"/>
<img alt="IDC Spotlight" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2021-06-04/Cloud-Banking.jpg"/>
<img alt="Quantum" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2021-07-10/20210621-ibv-quantum-decade-444x320.jpg"/>
<img alt="Ecosistema y partners" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2021-04-26/20210426-eses-ecosystem-444x254.jpg"/>
<img alt="" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2021-04-16/ICPO-Environmental-HP_0.jpg"/>
<img alt="IBM Cloud for Financial Services" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2021-07-29/FS-Template-444x254_0.jpg"/>
<img alt="IBM Cloud for 

## Extraer datos de tablas HTML


In [67]:
# La siguiente URL contiene una tabla html con datos sobre colores y códigos de colores.
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DA0321EN-SkillsNetwork/labs/datasets/HTMLColorCodes.html"

Antes de proceder a raspar ("escrapear") un sitio web, hay que examinar el contenido y la forma en que se organizan los datos en ese web. Lo ideal es abrir la URL anterior en un navegador y verificar cuántas filas y columnas hay en la tabla de colores.


In [68]:
# obtener el contenido de la página web en formato de texto y almacenarlo en una variable llamada datos
data  = requests.get(url).text

In [69]:
soup = BeautifulSoup(data,"html5lib")

In [72]:
#Buscar la tabla en la web
table = soup.find('table') # La tabla html está representada por la etiqueta <table>

In [73]:
#Obtener todas las filas de la tabla
for fila in table.find_all('tr'): # En HTML una fila de la tabla se reconoce por la etiqueta <tr>
    # Obtener todas las columnas de cada fila
    cols = fila.find_all('td') # en html una columna se reconoce por la etiqueta <td>
    nombre_color = cols[2].string # almacenar el valor de la columna 3 como nombre_color
    cod_color = cols[3].string # almacenar el valor de la columna 4 como cod_color
    print("{}--->{}".format(nombre_color,cod_color))

Color Name--->None
lightsalmon--->#FFA07A
salmon--->#FA8072
darksalmon--->#E9967A
lightcoral--->#F08080
coral--->#FF7F50
tomato--->#FF6347
orangered--->#FF4500
gold--->#FFD700
orange--->#FFA500
darkorange--->#FF8C00
lightyellow--->#FFFFE0
lemonchiffon--->#FFFACD
papayawhip--->#FFEFD5
moccasin--->#FFE4B5
peachpuff--->#FFDAB9
palegoldenrod--->#EEE8AA
khaki--->#F0E68C
darkkhaki--->#BDB76B
yellow--->#FFFF00
lawngreen--->#7CFC00
chartreuse--->#7FFF00
limegreen--->#32CD32
lime--->#00FF00
forestgreen--->#228B22
green--->#008000
powderblue--->#B0E0E6
lightblue--->#ADD8E6
lightskyblue--->#87CEFA
skyblue--->#87CEEB
deepskyblue--->#00BFFF
lightsteelblue--->#B0C4DE
dodgerblue--->#1E90FF


## Extraer y pasar datos de tablas HTML a un DataFrame usando BeautifulSoup y Pandas


In [74]:
import pandas as pd

In [75]:
# La siguiente URL contiene tablas html con datos sobre la población mundial.
url = "https://en.wikipedia.org/wiki/World_population"

Antes de proceder a extraer datos de un sitio web, se debe examinar el contenido y la forma en que se organizan los datos en ese sitio. Commo se ha comentado más arriba, lo ideal es abrir la URL anterior en un navegador y consultar las tablas de ese sitio web.


In [76]:
# Obtener el contenido de la página web en formato de texto y almacenarlo en una variable llamada datos
data  = requests.get(url).text

In [77]:
soup = BeautifulSoup(data,"html5lib")

In [86]:
#Buscar todas las tablas HTML en la web
tablas = soup.find_all('table')

In [87]:
# Podemos ver cuántas tablas se encontraron al verificar la longitud de la lista de tablas
print("Número de tablas encontradas: "+str(len(tablas)))

Número de tablas encontradas: 26


Supongamos que estamos buscando la tabla de los `10 países más densamente poblados`, podemos buscar en la lista de tablas en función de los datos de cada tabla, o podemos buscar el nombre de la tabla, pero es posible que esta opción no siempre funcione. En la web el nombre de la tabla está en inglés: `10 most densely populated countries´


In [89]:
for indice,tabla in enumerate(tablas):
    if ("10 most densely populated countries" in str(tabla)):
        indice_tabla = indice
print(indice_tabla)

5


Vea si puede ubicar el nombre de la tabla de la tabla, `10 most densly populated countries`, a continuación

In [91]:
print(tablas[indice_tabla].prettify())

<table class="wikitable sortable" style="text-align:right">
 <caption>
  10 most densely populated countries
  <small>
   (with population above 5 million)
  </small>
 </caption>
 <tbody>
  <tr>
   <th>
    Rank
   </th>
   <th>
    Country
   </th>
   <th>
    Population
   </th>
   <th>
    Area
    <br/>
    <small>
     (km
     <sup>
      2
     </sup>
     )
    </small>
   </th>
   <th>
    Density
    <br/>
    <small>
     (pop/km
     <sup>
      2
     </sup>
     )
    </small>
   </th>
  </tr>
  <tr>
   <td>
    1
   </td>
   <td align="left">
    <span class="flagicon">
     <img alt="" class="thumbborder" data-file-height="3456" data-file-width="5184" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/commons/thumb/4/48/Flag_of_Singapore.svg/23px-Flag_of_Singapore.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/4/48/Flag_of_Singapore.svg/35px-Flag_of_Singapore.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/4/48/Flag_of_Singa

In [92]:
population_data = pd.DataFrame(columns=["Rank", "Country", "Population", "Area", "Density"])

for fila in tablas[indice_tabla].tbody.find_all("tr"):
    col = fila.find_all("td")
    if (col != []):
        rank = col[0].text
        country = col[1].text
        population = col[2].text.strip()
        area = col[3].text.strip()
        density = col[4].text.strip()
        population_data = population_data.append({"Rank":rank, "Country":country, "Population":population, "Area":area, "Density":density}, ignore_index=True)

population_data

Unnamed: 0,Rank,Country,Population,Area,Density
0,1,Singapore,5704000,710,8033
1,2,Bangladesh,171150000,143998,1189
2,3,Lebanon,6856000,10452,656
3,4,Taiwan,23604000,36193,652
4,5,South Korea,51781000,99538,520
5,6,Rwanda,12374000,26338,470
6,7,Haiti,11578000,27065,428
7,8,Netherlands,17620000,41526,424
8,9,Israel,9380000,22072,425
9,10,India,1380420000,3287240,420


## Extraer y pasar datos de tablas HTML a un DataFrame usando BeautifulSoup y read_html


Usando el mismo objeto `url`,` data`, `soup` y` tablas` que en la última sección podemos usar la función `read_html` para crear un DataFrame.

Recordemos que la tabla que necesitamos se encuentra en `tablas [indice_tabla]`

Ahora podemos usar la función `read_html` de la librería `pandas` y darle la versión de cadena de la tabla así como el `flavor` que es el motor de análisis `bs4`.

In [94]:
pd.read_html(str(tablas[5]), flavor='bs4')

[   Rank      Country  Population  Area(km2)  Density(pop/km2)
 0     1    Singapore     5704000        710              8033
 1     2   Bangladesh   171150000     143998              1189
 2     3      Lebanon     6856000      10452               656
 3     4       Taiwan    23604000      36193               652
 4     5  South Korea    51781000      99538               520
 5     6       Rwanda    12374000      26338               470
 6     7        Haiti    11578000      27065               428
 7     8  Netherlands    17620000      41526               424
 8     9       Israel     9380000      22072               425
 9    10        India  1380420000    3287240               420]

La función `read_html` siempre devuelve una lista de DataFrames por lo que debemos elegir el que queremos de la lista. En este caso la tabla que está en la posición 5 de la lista de tablas.


In [96]:
population_data_read_html = pd.read_html(str(tablas[5]), flavor='bs4')[0]

population_data_read_html

Unnamed: 0,Rank,Country,Population,Area(km2),Density(pop/km2)
0,1,Singapore,5704000,710,8033
1,2,Bangladesh,171150000,143998,1189
2,3,Lebanon,6856000,10452,656
3,4,Taiwan,23604000,36193,652
4,5,South Korea,51781000,99538,520
5,6,Rwanda,12374000,26338,470
6,7,Haiti,11578000,27065,428
7,8,Netherlands,17620000,41526,424
8,9,Israel,9380000,22072,425
9,10,India,1380420000,3287240,420


## Extraer y pasar datos de tablas HTML a un DataFrame usando read_html


También podemos usar la función `read_html` para obtener una lista de "DataFrames" directamente desde una` url`.


In [97]:
lista_dataframe = pd.read_html(url, flavor='bs4')

Podemos ver que hay 26 DataFrames como cuando usamos `find_all` en el objeto` soup`.


In [101]:
len(lista_dataframe)

26

Finalmente, podemos elegir el DataFrame que necesitamos de la lista.


In [103]:
lista_dataframe[5]

Unnamed: 0,Rank,Country,Population,Area(km2),Density(pop/km2)
0,1,Singapore,5704000,710,8033
1,2,Bangladesh,171150000,143998,1189
2,3,Lebanon,6856000,10452,656
3,4,Taiwan,23604000,36193,652
4,5,South Korea,51781000,99538,520
5,6,Rwanda,12374000,26338,470
6,7,Haiti,11578000,27065,428
7,8,Netherlands,17620000,41526,424
8,9,Israel,9380000,22072,425
9,10,India,1380420000,3287240,420


También podemos usar el parámetro `match` para seleccionar la tabla específica que queremos. Si la tabla contiene una cadena que coincide con el texto, se leerá.

In [104]:
pd.read_html(url, match="10 most densely populated countries", flavor='bs4')[0]

Unnamed: 0,Rank,Country,Population,Area(km2),Density(pop/km2)
0,1,Singapore,5704000,710,8033
1,2,Bangladesh,171150000,143998,1189
2,3,Lebanon,6856000,10452,656
3,4,Taiwan,23604000,36193,652
4,5,South Korea,51781000,99538,520
5,6,Rwanda,12374000,26338,470
6,7,Haiti,11578000,27065,428
7,8,Netherlands,17620000,41526,424
8,9,Israel,9380000,22072,425
9,10,India,1380420000,3287240,420
