# **Web Scraping**


## Objetivos


<h2>Tabla de contenidos</h2>
    <ul>
        <li>
            <a> Objeto Beautiful Soup</a>
            <ul>
                <li>Tag</li>
                <li>Children, Parents, y Siblings</li>
                <li>Atributos HTML</li>
                <li>String navegable</li>
            </ul>
        </li>
     </ul>
    <ul>
        <li>
            <a >Filter</a>
            <ul>
                <li>find All</li>
                <li>find </li>
                <li>Atributos HTML</li>
                <li>String navegable</li>
            </ul>
        </li>
     </ul>
     <ul>
        <li>
            Descargando y haciendo <i>scraping</i> al contenido de una Web
    </li>
         </ul>

<hr>


&nbsp;Para esta práctica, usaremos Python y varias bibliotecas de Python. Algunas de estas bibliotecas pueden estar instaladas en nuestro entorno. Es posible que otras deban ser instalados. El siguiente código instalara estas bibliotecas cuando se ejecute.


In [403]:
#importamos los módulos requeridos y sus funciones.
from bs4 import BeautifulSoup # este módulo ayuda con el web scrapping.
import requests  # este módulo nos ayuda a descargar toda la pagina web.

<h2 id="BSO">Objetos Beautiful Soup</h2>

&nbsp;Beautiful Soup es una biblioteca de Python para extraer datos de archivos HTML y XML. Nos vamos a centrar en los archivos HTML. Esto se logra representando el HTML como un set de objetos con métodos utilizados para analizar(<i>parse</i>) el HTML. Podemos navegar por el HTML como un árbol y/o filtrar lo que estamos buscando.

Consideremos el siguiente HTML:

In [404]:
%%html

<!DOCTYPE html>
<html>
<head>
<title>Titulo del sitio</title>
</head>
<body>
<h3><b id='boldest'>Lebron James</b></h3>
<p> Salario: $ 92,000, 000 </p>
<h3> Stephen Curry</h3>
<p> Salario: $85,000, 000 </p>
<h3> Kevin Durant </h3>
<p> Salario: $73,200, 000</p>
</body>
</html>

Lo podemos almacenar cómo una cadena de caracteres en la variable 'html'

In [405]:
html="<!DOCTYPE html><html><head><title>Titulo del sitio</title></head><body><h3><b id='boldest'>Lebron James</b></h3><p> Salario: $ 92,000, 000 </p><h3> Stephen Curry</h3><p> Salario: $85,000, 000 </p><h3> Kevin Durant </h3><p> Salario: $73,200, 000</p></body></html>"

&nbsp; Para analizar(*parse*) el documento, lo pasamos en un constructor <code>BeautifulSoup</code>. El objeto <code>BeautifulSoup</code> representa el documento cómo una estructura de datos anidadas.

In [406]:
sopa = BeautifulSoup(html, "html.parser")

&nbsp;Primero, el documento se convierte a Unicode (similar a ASCII) y las entidades HTML se convierten a caracteres Unicode. Beautiful Soup transforma un documento HTML complejo en un árbol complejo de objetos Python. El objeto <code>BeautifulSoup</code> puede crear otros tipos de objetos. En esta práctica de laboratorio, cubriremos los objetos <code>BeautifulSoup</code> y <code>Tag</code> que para los fines de esta práctica son idénticos y los objetos <code>NavigableString</code>.

Podemos usar el metodo <code>prettify()</code> para mostrar el HTML en la estructura anidad:


In [407]:
print(sopa.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Titulo del sitio
  </title>
 </head>
 <body>
  <h3>
   <b id="boldest">
    Lebron James
   </b>
  </h3>
  <p>
   Salario: $ 92,000, 000
  </p>
  <h3>
   Stephen Curry
  </h3>
  <p>
   Salario: $85,000, 000
  </p>
  <h3>
   Kevin Durant
  </h3>
  <p>
   Salario: $73,200, 000
  </p>
 </body>
</html>


## Etiqueta


Digamos que queremos el **título** de la página y el **nombre del jugador mejor pagado**, podemos usar el <code>Tag</code>. El objeto <code>Tag</code> es un objeto que representa a una etiqueta HTML o XML en el documento original, por ejemplo, el tag *title*.

In [408]:
objeto_tag = sopa.title
print("Objeto_tag:", objeto_tag)

Objeto_tag: <title>Titulo del sitio</title>


Podemos ver que el tipo de objeto de tag es: <code>bs4.element.Tag</code>


In [409]:
print("Tag es un objeto de tipo:",type(objeto_tag))

Tag es un objeto de tipo: <class 'bs4.element.Tag'>


&nbsp;Si hay más de un <code>Tag</code> con el mismo nombre, se llama al primer elemento con ese nombre de <code>Tag</code>, este corresponde al jugador más pagado:

In [410]:
objeto_tag=sopa.h3
objeto_tag

<h3><b id="boldest">Lebron James</b></h3>

Encerrado en el atributo *bold* <code>b</code>, ayuda usar la representación de árbol. Podemos navegar hacia abajo en el árbol usando el atributo secundario para obtener el nombre.


### Children, Parents, y Siblings


Cómo se ha dicho, el objeto <code>Tag</code> es un arbol(*tree*) de objetos con el que podemos acceder a los objetos *child* del tag o navegar por la rama de la manera siguiente:


In [411]:
tag_child =objeto_tag.b
tag_child

<b id="boldest">Lebron James</b>

Podemos acceder al *parent* con el metodo <code> parent</code>


In [412]:
parent_tag=tag_child.parent
parent_tag

<h3><b id="boldest">Lebron James</b></h3>

Esto es identico a :


In [413]:
objeto_tag

<h3><b id="boldest">Lebron James</b></h3>

el *parent* del <code>objeto_tag</code> es el elemento <code>body</code>.


In [414]:
objeto_tag.parent

<body><h3><b id="boldest">Lebron James</b></h3><p> Salario: $ 92,000, 000 </p><h3> Stephen Curry</h3><p> Salario: $85,000, 000 </p><h3> Kevin Durant </h3><p> Salario: $73,200, 000</p></body>

el sibling de <code>objeto_tag</code> es el elemento <code>paragraph</code>


In [415]:
sibling_1=objeto_tag.next_sibling
sibling_1

<p> Salario: $ 92,000, 000 </p>

`sibling_2` es el elemento `header` el cual también es un hermano (*sibling*) de ambos, `sibling_1` y `objeto_tag`


In [416]:
sibling_2=sibling_1.next_sibling
sibling_2

<h3> Stephen Curry</h3>

In [417]:
#Podemos acceder al salario de Stephen Curry:
sibling_2.next_sibling 

<p> Salario: $85,000, 000 </p>

### Atributos HTML


Si la etiqueta tiene atributos, la etiqueta <code>id="boldest"</code> tiene un atributo <code>id</code> cuyo valor es <code>boldest</code>. Podemos acceder a los atributos de una etiqueta(*tag*) tratando a la etiqueta como un diccionario:

In [418]:
tag_child['id']

'boldest'

Podemos acceder al diccionario directamente con <code>attrs</code>:


In [419]:
tag_child.attrs

{'id': 'boldest'}

También podemos trabajar con *Multi-valued attributes* <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0220ENSkillsNetwork23455606-2021-01-01">\[1]</a>.


También podemos obtener el contenido del atributo del objeto <code>tag</code> usando el método <code>get()</code> de Python.

In [420]:
tag_child.get('id')

'boldest'

### Cadena navegable (<i>Navigable String</i>)


Una cadena corresponde a un fragmento de texto o contenido dentro de una etiqueta. Beautiful Soup usa la clase <code>NavigableString</code> para contener este texto. En nuestro HTML podemos obtener el nombre del primer jugador extrayendo la cadena del objeto <code>Tag</code> <code>tag_child</code> de la siguiente manera:


In [421]:
tag_string=tag_child.string
print(tag_string)
print('Tipo de objeto:', type(tag_string)) #podemos comprobar que el tipo de objeto es NavigableString

Lebron James
Tipo de objeto: <class 'bs4.element.NavigableString'>


Un NavigableString es como una cadena de Python o una cadena de Unicode, para ser más precisos. La principal diferencia es que también admite algunas características de <code>BeautifulSoup</code>. Podemos convertirlo en objeto <i>string</i> en Python:

In [422]:
unicode_string = str(tag_string)
print(unicode_string)
print(type(unicode_string))

Lebron James
<class 'str'>


<h2 id="filter">Filter</h2>


Los filtros nos permiten encontrar patrones complejos. El filtro más simple es una cadena. Pasaremos una cadena a un método de filtro y Beautiful Soup realizará una coincidencia con esa cadena exacta.<br> Consideremos el siguiente HTML de lanzamientos de cohetes:


In [423]:
%%html
<table>
  <tr>
    <td id='flight' >Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
   </tr>
  <tr> 
    <td>1</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a></td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td>
    <td>80 kg</td>
  </tr>
</table>

0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg


Podemos almacenarlo cómo una cadena en la variable *table*:

In [424]:
table="<table><tr><td id='flight'>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr> <td>1</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a></td><td>300 kg</td></tr><tr><td>2</td><td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td><td>80 kg</td></tr></table>"

In [425]:
table_bs = BeautifulSoup(table, "html.parser")

## find All


El método <code>find_all()</code> examina los descendientes de una etiqueta y recupera todos los descendientes que coinciden con este filtro.

<p>
La forma del método es <code>find_all(name, attrs, recursive, string, limit, **kwargs)</code>
</p>


### Nombre


Cuando establecemos el parámetro <code>name</code> en un nombre de etiqueta, el método extraerá todas las etiquetas con ese nombre y sus elementos secundarios.


In [426]:
table_rows=table_bs.find_all('tr')
table_rows

[<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>,
 <tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a></td><td>300 kg</td></tr>,
 <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>,
 <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a></td><td>80 kg</td></tr>]

El resultado es un iterable de Python como una lista, cada elemento es un objeto <code>tag</code>:

In [427]:
first_row =table_rows[0]
first_row

<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>

El objeto es del tipo <code>tag</code>


In [428]:
print(type(first_row))

<class 'bs4.element.Tag'>


podemos acceder al *child*


In [429]:
first_row.td

<td id="flight">Flight No</td>

Si iteramos a través de la lista, cada elemento corresponde a una fila en la tabla:

In [430]:
for i,row in enumerate(table_rows):
    print("row",i,"is",row)
    

row 0 is <tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>
row 1 is <tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a></td><td>300 kg</td></tr>
row 2 is <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>
row 3 is <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a></td><td>80 kg</td></tr>


Como <code>row</code> es un objeto <code>cell</code>, podemos aplicarle el método <code>find_all</code> y extraer las celdas de la tabla en el objeto <code>cells</code > usando la etiqueta <code>td</code>, estos son todos los *childs* con el nombre <code>td</code>. El resultado es una lista, cada elemento corresponde a una celda y es un objeto <code>Tag</code>, también podemos iterar a través de esta lista. Podemos extraer el contenido usando el atributo <code>string</code>.

In [431]:
for i,row in enumerate(table_rows):
    print("row",i)
    cells=row.find_all('td')
    for j,cell in enumerate(cells):
        print('colunm',j,"cell",cell)

row 0
colunm 0 cell <td id="flight">Flight No</td>
colunm 1 cell <td>Launch site</td>
colunm 2 cell <td>Payload mass</td>
row 1
colunm 0 cell <td>1</td>
colunm 1 cell <td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a></td>
colunm 2 cell <td>300 kg</td>
row 2
colunm 0 cell <td>2</td>
colunm 1 cell <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>
colunm 2 cell <td>94 kg</td>
row 3
colunm 0 cell <td>3</td>
colunm 1 cell <td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a></td>
colunm 2 cell <td>80 kg</td>


Si usamos una lista, podemos comparar con cualquier elemento de esa lista.

In [432]:
list_input=table_bs .find_all(name=["tr", "td"])
list_input

[<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>,
 <td id="flight">Flight No</td>,
 <td>Launch site</td>,
 <td>Payload mass</td>,
 <tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a></td><td>300 kg</td></tr>,
 <td>1</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a></td>,
 <td>300 kg</td>,
 <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>,
 <td>2</td>,
 <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>,
 <td>94 kg</td>,
 <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a></td><td>80 kg</td></tr>,
 <td>3</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a></td>,
 <td>80 kg</td>]

## Atributos


Si el argumento no se reconoce, se convertirá en un filtro en los atributos de la etiqueta. Por ejemplo, el argumento <code>id</code>, Beautiful Soup filtrará según el atributo <code>id</code> de cada etiqueta. Por ejemplo, los primeros elementos <code>td</code> tienen un valor de <code>id</code> de <code>flight</code>, por lo que podemos filtrar en función de ese <code>id</code > valor.


In [433]:
table_bs.find_all(id="flight")

[<td id="flight">Flight No</td>]

Podemos encontrar todos los elementos que tienen enlaces a la pagina de Florida en Wikipedia:


In [434]:
list_input=table_bs.find_all(href="https://en.wikipedia.org/wiki/Florida")
list_input

[<a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a>]

Si establecemos el atributo <code>href</code> en True, independientemente de cuál sea el valor, el código encuentra todas las etiquetas con el valor <code>href</code>:


In [435]:
table_bs.find_all(href=True)

[<a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a>,
 <a href="https://en.wikipedia.org/wiki/Texas">Texas</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a>]

Hay otros métodos para tratar con atributos y otros métodos relacionados. <a href='https://www.crummy.com/software/BeautifulSoup/bs4/doc/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0220ENSkillsNetwork23455606-2021-01-01#css-selectors'>Más información</a>


Usando el objeto soup <code>soup</code>, buscamos el elemento id con el valor <code>"boldest"</code>.


In [436]:
sopa.find_all(id='boldest')

[<b id="boldest">Lebron James</b>]

### string


Con un string podemos buscar strings en lugar de etiquetas, por ejemplo, todos los elementos con 'Florida':

In [437]:
table_bs.find_all(string="Florida")

['Florida', 'Florida']

## find


El método <code>find_all()</code> escanea todo el documento en busca de resultados, si está buscando un elemento, puede usar el método <code>find()</code> para encontrar el primer elemento en el documento.<br> Consideremos las siguientes dos tablas:

In [438]:
%%html
<h3>Rocket Launch </h3>

<p>
<table class='rocket'>
  <tr>
    <td>Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
  </tr>
  <tr>
    <td>1</td>
    <td>Florida</td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td>Texas</td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td>Florida </td>
    <td>80 kg</td>
  </tr>
</table>
</p>
<p>

<h3>Pizza Party  </h3>
  
    
<table class='pizza'>
  <tr>
    <td>Pizza Place</td>
    <td>Orders</td> 
    <td>Slices </td>
   </tr>
  <tr>
    <td>Domino's Pizza</td>
    <td>10</td>
    <td>100</td>
  </tr>
  <tr>
    <td>Little Caesars</td>
    <td>12</td>
    <td >144 </td>
  </tr>
  <tr>
    <td>Papa John's </td>
    <td>15 </td>
    <td>165</td>
  </tr>


0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg

0,1,2
Pizza Place,Orders,Slices
Domino's Pizza,10,100
Little Caesars,12,144
Papa John's,15,165


Almacenamos el HTML como una cadena de Python y asignamos en la variable <code>two_tables</code>:

In [439]:
two_tables="<h3>Rocket Launch </h3><p><table class='rocket'><tr><td>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr><td>1</td><td>Florida</td><td>300 kg</td></tr><tr><td>2</td><td>Texas</td><td>94 kg</td></tr><tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table></p><p><h3>Pizza Party  </h3><table class='pizza'><tr><td>Pizza Place</td><td>Orders</td> <td>Slices </td></tr><tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr><tr><td>Little Caesars</td><td>12</td><td >144 </td></tr><tr><td>Papa John's </td><td>15 </td><td>165</td></tr>"

Creamos el objeto <code>BeautifulSoup</code>, <code>two_tables_bs</code>


In [440]:
two_tables_bs= BeautifulSoup(two_tables, 'html.parser')

Podemos encontrar la primera tabla usando la tabla de nombres de etiquetas.

In [441]:
two_tables_bs.find("table")

<table class="rocket"><tr><td>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr><td>1</td><td>Florida</td><td>300 kg</td></tr><tr><td>2</td><td>Texas</td><td>94 kg</td></tr><tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table>

Podemos filtrar el atributo de clase para encontrar la segunda tabla, pero debido a que la clase es una palabra clave en Python, agregamos un guión bajo.

In [442]:
two_tables_bs.find("table",class_='pizza')

<table class="pizza"><tr><td>Pizza Place</td><td>Orders</td> <td>Slices </td></tr><tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr><tr><td>Little Caesars</td><td>12</td><td>144 </td></tr><tr><td>Papa John's </td><td>15 </td><td>165</td></tr></table>

<h2 id="DSCW">Descargando y haciendo <i>scraping</i> en el contenido de una página web</h2> 


Descargamos los contenidos de la pagina web:


In [443]:
url = "https://emanuelbe1.github.io"

Usamos el metodo <code>get</code> para descargar los contenidos de la pagina web en formato texto y almacenarlos en una variable llamada <code>datos</code>:


In [444]:
datos  = requests.get(url).text 

Creamos un objeto <code>BeautifulSoup</code> usando el constructor *BeautifulSoup* 


In [445]:
sopa = BeautifulSoup(datos,"html.parser")  # create a soup object using the variable 'data'

## Hacemos *scraping* para todos los enlaces:


In [446]:
#ejemplo de cada resultado de este bucle:
sopa.find_all('a', href=True)[2].get('href')

'articulos/preguntas_SMART.html'

In [447]:
for enlace in sopa.find_all('a',href=True):  # in html anchor/link is represented by the tag <a>

    print(enlace.get('href'))


proyecto_final_integrador_front_end/curriculum_vitae.html
articulos/seisfases_analisis_d.html
articulos/preguntas_SMART.html
articulos/reports_y_dashboards.html
articulos/small_y_big_data.html
articulos/desafios_y_ventajas_big_data


## Hacemos *scraping* para todos los tags/etiquedas de imagen


In [448]:
for enlace in sopa.find_all('img'):# en html, una imagen es representada por el tag <img>
    print(enlace)
    print(enlace.get('src'))
    
#El sitio web no tiene imagenes

## Hacemos <i>scraping</i> a los datos de las tablas HTML


In [449]:
#El siguiente enlace contiene una url con una tabla html con datos sobre colores y codigos de colores:
enlace = "https://emanuelbe1.github.io/tests_estilos/colores/tabla_colores.html"

Antes de proceder a *scrapear* un <a href= 'https://emanuelbe1.github.io/tests_estilos/colores/tabla_colores.html'>sitio web</a>, debemos examinar los contenidos y la forma en que se organizan los datos en el sitio web. Abra la URL anterior en su navegador y verifique cuántas filas y columnas hay en la tabla de colores.

In [450]:
#obtenemos el contenido de la página web en formato de texto y almacenamos en una variable llamada datos
datos  = requests.get(enlace).text

In [451]:
soup = BeautifulSoup(datos,"html.parser")

In [452]:
#Encontramos una tabla html en el sitio web 
tabla = soup.find('table') # en html, las tablas son representadas por el tag <table>

In [453]:
#Obtenemos todas las filas de la tabla
for fila in tabla.find_all('tr'): # en html, la fila en una tabla se representa con el tag/etiqueta <tr>
    # Obtenemos todas las columnas en cada fila.
    columnas = fila.find_all('td') # en html, una columna se representa con la etiqueta/tag <td>
    nombre_color = columnas[2].get_text().strip() # almacenamos los valores de la tercer columna
    codigo_color = columnas[3].get_text().strip() # almacenamos los valores de la cuarta columna
    print("{} ---- > {}".format(nombre_color,codigo_color))

Nombre del color ---- > Código Hex
       
       #RRGGBB
lightsalmon ---- > #FFA07A
salmon ---- > #FA8072
darksalmon ---- > #E9967A
lightcoral ---- > #F08080
coral ---- > #FF7F50
tomato ---- > #FF6347
orangered ---- > #FF4500
gold ---- > #FFD700
orange ---- > #FFA500
darkorange ---- > #FF8C00
lightyellow ---- > #FFFFE0
lemonchiffon ---- > #FFFACD
papayawhip ---- > #FFEFD5
moccasin ---- > #FFE4B5
peachpuff ---- > #FFDAB9
palegoldenrod ---- > #EEE8AA
khaki ---- > #F0E68C
darkkhaki ---- > #BDB76B
yellow ---- > #FFFF00
lawngreen ---- > #7CFC00
chartreuse ---- > #7FFF00
limegreen ---- > #32CD32
lime ---- > #00FF00
forestgreen ---- > #228B22
green ---- > #008000
powderblue ---- > #B0E0E6
lightblue ---- > #ADD8E6
lightskyblue ---- > #87CEFA
skyblue ---- > #87CEEB
deepskyblue ---- > #00BFFF
lightsteelblue ---- > #B0C4DE
dodgerblue ---- > #1E90FF


## Extrayendo datos de tablas HTML en un DataFrame usando BeautifulSoup y Pandas


In [454]:
import pandas as pd

In [455]:
#El enlace contiene una tablas html con los datos sobre la población mundial.
url = "https://en.wikipedia.org/wiki/World_population"

Antes de proceder a *scrapear* un sitio web, debemos examinar los contenidos y la forma en que se organizan los datos en el sitio web. Para eso abrimos la URL en el navegador y verificamos las tablas en la página web.

In [456]:
# Tomamos el contenido del sitio web en formato texto y lo almacenamos en la variable 'datos'
datos  = requests.get(url).text

In [457]:
soup = BeautifulSoup(data,"html.parser")

In [458]:
#encontramos todas las tablas html en el sitio web
tablas = soup.find_all('table')

 Suponemos que estamos buscando la tabla de los '10 most densely populated countries'. podemos mirar a través de la lista de tablas y encontrar la que buscamos en función de los datos de cada tabla. O también podemos buscar el nombre de la tabla si esta en la tabla, pero es posible que esta opción no siempre funcione.


In [459]:
tablas[4] #Podemos saber, navegando por el sitioweb, que la quinta tabla corresponde a la tabla con los datos de 
#los 10 paises más densamente poblados.

<table class="wikitable sortable" style="text-align:right">
<caption>10 most densely populated countries <small>(with population above 5 million)</small><sup class="reference" id="cite_ref-:10_107-0"><a href="#cite_note-:10-107">[102]</a></sup>
</caption>
<tbody><tr>
<th scope="col">Rank
</th>
<th scope="col">Country
</th>
<th scope="col">Population
</th>
<th scope="col">Area<br/><small>(km<sup>2</sup>)</small>
</th>
<th scope="col">Density<br/><small>(pop/km<sup>2</sup>)</small>
</th></tr>
<tr>
<td>1</td>
<td align="left"><span class="flagicon"><img alt="" class="thumbborder" data-file-height="600" data-file-width="900" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/commons/thumb/4/48/Flag_of_Singapore.svg/23px-Flag_of_Singapore.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/4/48/Flag_of_Singapore.svg/35px-Flag_of_Singapore.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/4/48/Flag_of_Singapore.svg/45px-Flag_of_Singapore.svg.png 2x" wid

In [460]:
for indice, tabla in enumerate(tablas):
    if ("10 most densely populated countries" in str(tablas[indice])):
        indice_de_tabla = indice
print(indice_de_tabla)
#tambien podemos saber buscando cúal es el indice en donde esta contenido el texto

4


In [461]:
tabla_most_densely = tablas[indice_de_tabla]
tabla_most_densely.find_all('th') #Vemos todos los nombres de columnas

[<th scope="col">Rank
 </th>,
 <th scope="col">Country
 </th>,
 <th scope="col">Population
 </th>,
 <th scope="col">Area<br/><small>(km<sup>2</sup>)</small>
 </th>,
 <th scope="col">Density<br/><small>(pop/km<sup>2</sup>)</small>
 </th>]

In [462]:
tabla_most_densely.find_all('td')[1].get_text().strip() #Vemos todos los nombres de columnas

'Singapore'

In [463]:
datos_poblacion = pd.DataFrame(columns=["Rank", "Country", "Population", "Area", "Density"])

for fila in tablas[indice_de_tabla].tbody.find_all("tr"):
    col = fila.find_all("td")
    if (col != []):
        rank = col[0].text
        country = col[1].text.strip()
        population = col[2].text.strip()
        area = col[3].text.strip()
        density = col[4].text.strip()
        datos_poblacion = datos_poblacion.append({"Rank":rank, "Country":country, "Population":population, "Area":area, "Density":density}, ignore_index=True)

datos_poblacion

Unnamed: 0,Rank,Country,Population,Area,Density
0,1,Singapore,5921231,719,8235
1,2,Bangladesh,165650475,148460,1116
2,3,Palestine[103],5223000,6025,867
3,4,Taiwan,23580712,35980,655
4,5,South Korea,51844834,99720,520
5,6,Lebanon,5296814,10400,509
6,7,Rwanda,13173730,26338,500
7,8,Burundi,12696478,27830,456
8,9,India,1389637446,3287263,423
9,10,Netherlands,17400824,41543,419


## Haciendo *Scraping* de los datos en tablas HTML a DataFrame usando BeautifulSoup y pandas.read_html()


Usando el mismo objeto `url`, `data`, `soup` y `tables` que en la última sección, podemos usar la función `read_html` para crear un DataFrame.

Recordemos que la tabla que necesitamos se encuentra en `tablas[indice_de_tabla]`

Ahora podemos usar la función `pandas` `read_html` y darle la versión de cadena de la tabla, así como el `flavor` que es el motor de análisis `bs4`.


In [464]:
pd.read_html(str(tablas[5]), flavor='bs4')

[   Rank         Country  Population  Area(km2)  Density(pop/km2)  \
 0     1           India  1389637446    3287263               423   
 1     2        Pakistan   242923845     796095               305   
 2     3      Bangladesh   165650475     148460              1116   
 3     4           Japan   124214766     377915               329   
 4     5     Philippines   114597229     300000               382   
 5     6         Vietnam   103808319     331210               313   
 6     7  United Kingdom    67791400     243610               278   
 7     8     South Korea    51844834      99720               520   
 8     9          Taiwan    23580712      35980               655   
 9    10       Sri Lanka    23187516      65610               353   
 
   Population trend[citation needed]  
 0                           Growing  
 1                   Rapidly growing  
 2                           Growing  
 3                    Declining[104]  
 4                           Growing  
 5   

La función `read_html` siempre devuelve(o <i> retorna</i>) una lista de DataFrames así que debemos seleccionar el que nosotros querremos de la lista.


In [465]:
population_data_read_html = pd.read_html(str(tablas[5]), flavor='bs4')[0]

population_data_read_html

Unnamed: 0,Rank,Country,Population,Area(km2),Density(pop/km2),Population trend[citation needed]
0,1,India,1389637446,3287263,423,Growing
1,2,Pakistan,242923845,796095,305,Rapidly growing
2,3,Bangladesh,165650475,148460,1116,Growing
3,4,Japan,124214766,377915,329,Declining[104]
4,5,Philippines,114597229,300000,382,Growing
5,6,Vietnam,103808319,331210,313,Growing
6,7,United Kingdom,67791400,243610,278,Growing
7,8,South Korea,51844834,99720,520,Steady
8,9,Taiwan,23580712,35980,655,Steady
9,10,Sri Lanka,23187516,65610,353,Growing


## Haciendo *Scraping* de los datos de tablas HTML hacia un DataFrame using read_html


También podemos usar la función `read_html` para tomar directamente un DataFrames a partir de una `url`.


In [466]:
dataframe_list = pd.read_html(url, flavor='bs4')

Podemos ver que hay 25 DataFrames como cuando usamos `find_all` en el objeto `soup`.

In [467]:
len(dataframe_list)

24

Finalmente, podemos elegir el DataFrame que necesitamos de la lista.

In [468]:
dataframe_list[5]

Unnamed: 0,Rank,Country,Population,Area(km2),Density(pop/km2),Population trend[citation needed]
0,1,India,1389637446,3287263,423,Growing
1,2,Pakistan,242923845,796095,305,Rapidly growing
2,3,Bangladesh,165650475,148460,1116,Growing
3,4,Japan,124214766,377915,329,Declining[104]
4,5,Philippines,114597229,300000,382,Growing
5,6,Vietnam,103808319,331210,313,Growing
6,7,United Kingdom,67791400,243610,278,Growing
7,8,South Korea,51844834,99720,520,Steady
8,9,Taiwan,23580712,35980,655,Steady
9,10,Sri Lanka,23187516,65610,353,Growing


También podemos usar el parámetro `match` para seleccionar la tabla específica que queremos. Si la tabla contiene una cadena que coincide con el texto, se leerá.

In [469]:
pd.read_html(url, match="10 most densely populated countries", flavor='bs4')[0]

Unnamed: 0,Rank,Country,Population,Area(km2),Density(pop/km2)
0,1,Singapore,5921231,719,8235
1,2,Bangladesh,165650475,148460,1116
2,3,Palestine[103],5223000,6025,867
3,4,Taiwan,23580712,35980,655
4,5,South Korea,51844834,99720,520
5,6,Lebanon,5296814,10400,509
6,7,Rwanda,13173730,26338,500
7,8,Burundi,12696478,27830,456
8,9,India,1389637446,3287263,423
9,10,Netherlands,17400824,41543,419
