# <p style="background-color:#9470ff; color:white; font-family:newtimeroman; font-size:300%; text-align:center; border-radius: 15px 50px;"> 💻 Webscraping 🕸️</p>

## <p style="background-color:#99a5ff; color:#14213d; font-family:newtimeroman; font-size:150%; text-align:left; border-radius: 20px 20px;"> 📑 Tabla de contenido</p>

- Objeto BeautifulSoup

    - Tag
    - Hijos, padres y hermanos
    - Atributos HTML
    - String Navegable

- Filtro 

    - Buscar todos 
    - Buscar
    - Atributos HTML
    - Caracteres navegables

- Scraping y descarga de contenidos de la web

Para este laboratorio, vamos a utilizar Python y varias bibliotecas. Algunas de estas bibliotecas pueden estar instaladas en su entorno. Otras pueden necesitar ser instaladas por usted. 

Las celdas de abajo instalarán estas bibliotecas cuando se ejecuten.

- [bs4](https://www.crummy.com/software/beautifulsoup/bs4/doc/)
- [lxml](https://lxml.de/)
- [requests](https://requests.readthedocs.io/en/master/)
- [html5lib](https://pypi.org/project/html5lib/)

In [1]:
!pip install beautifulsoup4==4.10.0 
!pip install lxml==4.6.4
!pip install html5lib==1.1 
!pip install requests==2.26.0



Importamos las librerias y funciones

In [2]:
from bs4 import BeautifulSoup # Este modulo ayuda con la extraccion de datos
import requests # Este modulo ayuda con la descarga del html

# <p style="background-color:#99a5ff; color:#14213d; font-family:newtimeroman; font-size:250%; text-align:left; border-radius: 15px 50px;"> 📦 Objeto Beautifulsoup </p>

Beautiful Soup es una biblioteca de Python para extraer datos de archivos HTML y XML, nos centraremos en los archivos HTML. Esto se logra representando el HTML como un conjunto de objetos con métodos utilizados para analizar el HTML.  Podemos navegar por el HTML como un árbol y/o filtrar lo que estamos buscando.

Considere el siguiente HTML:

In [3]:
%%html
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>
<h3><b id='boldest'>Lebron James</b></h3>
<p> Salario: $ 92,000,000 </p>
<h3> Stephen Curry</h3>
<p> Salario: $85,000, 000 </p>
<h3> Kevin Durant </h3>
<p> Salario: $73,200, 000</p>
</body>
</html>

Podemos almacenarlo como una cadena en la variable HTML:

In [4]:
html="<!DOCTYPE html><html><head><title>Page Title</title></head><body><h3><b id='boldest'>Lebron James</b></h3><p> Salary: $ 92,000,000 </p><h3> Stephen Curry</h3><p> Salary: $85,000, 000 </p><h3> Kevin Durant </h3><p> Salary: $73,200, 000</p></body></html>"

Para analizar un documento, pásalo al constructor de `BeautifulSoup`, el objeto `BeautifulSoup`, que representa el documento como una estructura de datos anidada:

In [5]:
soup = BeautifulSoup(html, 'html.parser')

Primero, El documento se convierte a Unicode, (similar a ASCII) y las entidades HTML se convierten a caracteres Unicode. 

`Beautuful Soup`(BS) transforma un documento HTML complejo en un arbol complejo de objetos python. El objeto `BS` puede crear otros tipos de objetos.

Se puede utilizar el metodo `prettify()` para moistrar el HTML en la estructura anidada:

In [6]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h3>
   <b id="boldest">
    Lebron James
   </b>
  </h3>
  <p>
   Salary: $ 92,000,000
  </p>
  <h3>
   Stephen Curry
  </h3>
  <p>
   Salary: $85,000, 000
  </p>
  <h3>
   Kevin Durant
  </h3>
  <p>
   Salary: $73,200, 000
  </p>
 </body>
</html>


# <p style="background-color:#bbd0ff; color:#14213d; font-family:newtimeroman; font-size:200%; text-align:left; border-radius: 20px 20px;"> 🏷️ Tags </p>

Digamos que queremos el titulo de la pagina y el nombre del jugador mejor pagado, Podemos utilizar el Objeto `Tag`

Este corresponde a una etiqueta HTML del documento original, por ejemplo:

La etiqueta `<title>`

tag == etiqueta 

In [7]:
objeto_etiqueta = soup.title

print(f'Objeto etiqueta(tag): {objeto_etiqueta}')

Objeto etiqueta(tag): <title>Page Title</title>


Podemos ver la etiqueta tipo `bs4.element.Tag`

In [8]:
print(f'Etiqueta de tipo objeto: {type(objeto_etiqueta)}')

Etiqueta de tipo objeto: <class 'bs4.element.Tag'>


Si hay mas que una etiqueta `Tag` con el mismo nombre, Se llama al primer elemento con ese nombre de etiqueta `Tag`, que corresponde al jugador mejor pagado:

In [9]:
objeto_etiqueta = soup.h3
objeto_etiqueta

<h3><b id="boldest">Lebron James</b></h3>

En el atributo **b** en negrita (bold), ayuda a utilizar la representacion en arbol. Podemos navegar por el arbol con el atributo `child` (hijo) para obtener el nombre

# <p style="background-color:#bbd0ff; color:#14213d; font-family:newtimeroman; font-size:200%; text-align:left; border-radius: 20px 20px;"> 🎋 Hijos, Padres y hermanos </p>

Como se ha dicho anteriormente el objeto `Tag` es un árbol de objetos podemos acceder al hijo de la etiqueta o navegar por la rama de la siguiente manera:

In [10]:
etiqueta_hijo = objeto_etiqueta.b
etiqueta_hijo

<b id="boldest">Lebron James</b>

Puede acceder al padre con la funcion `parent`

In [11]:
etiqueta_padre = etiqueta_hijo.parent
etiqueta_padre

<h3><b id="boldest">Lebron James</b></h3>

Esto es identico a:

In [12]:
objeto_etiqueta

<h3><b id="boldest">Lebron James</b></h3>

`objeto_etiqueta` padre es el elemento `body`.

In [13]:
objeto_etiqueta.parent

<body><h3><b id="boldest">Lebron James</b></h3><p> Salary: $ 92,000,000 </p><h3> Stephen Curry</h3><p> Salary: $85,000, 000 </p><h3> Kevin Durant </h3><p> Salary: $73,200, 000</p></body>

El `objeto_etiqueta` es el hermano del elemento `parrafo`

In [14]:
hermano1 = objeto_etiqueta.next_sibling
hermano1

<p> Salary: $ 92,000,000 </p>

`hermano2` es el elemento `header` que tambien es hermano de `hermano1` y `objeto_etiqueta`

In [15]:
hermano2 = hermano1.next_sibling
hermano2

<h3> Stephen Curry</h3>

### Ejercicio: Siguiente hermano
Usa el objeto `hermano2` y la propiedad `next_sibling` para encontrar el salario de Stephen Curry:

<details>
<summary>Solución</summary>

```python
hermano2.next_sibling
```

</details>

# <p style="background-color:#bbd0ff; color:#14213d; font-family:newtimeroman; font-size:200%; text-align:left; border-radius: 20px 20px;"> 📎 Atributos HTML </p>

Si la etiqueta tiene atributos, la etiqueta `id="boldest"` tiene un atributo `id` cuyo valor es `boldest`. Puedes acceder a los atributos de una etiqueta tratando la etiqueta como un diccionario:

In [16]:
etiqueta_hijo['id']

'boldest'

Se puede acceder al diccionario de atributos con la propiedad `attrs`

In [17]:
etiqueta_hijo.attrs

{'id': 'boldest'}

También puedes trabajar con atributos multivaluados, consulta [[1]](https://www.crummy.com/software/BeautifulSoup/bs4/doc/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0220ENSkillsNetwork23455606-2021-01-01) para más información.

También podemos obtener el contenido si el atributo de `tag` utilizando el método `get()` de Python.

In [18]:
etiqueta_hijo.get('id')

'boldest'

# <p style="background-color:#bbd0ff; color:#14213d; font-family:newtimeroman; font-size:200%; text-align:left; border-radius: 20px 20px;"> ↘️ String Navegable </p>

Una cadena corresponde a un trozo de texto o contenido dentro de una etiqueta. Beautiful Soup utiliza la clase `NavigableString` para contener este texto. En nuestro HTML podemos obtener el nombre del primer jugador extrayendo el sting del objeto etiqueta `tag_child`:

In [19]:
etiqueta_string = etiqueta_hijo.string
etiqueta_string

'Lebron James'

Podemos comprobar que el tipo es String Navegable

In [20]:
type(etiqueta_string)

bs4.element.NavigableString

Una NavigableString es como una cadena de Python o una cadena Unicode, para ser más precisos. La principal diferencia es que también soporta algunas características de `BeautifulSoup`. Podemos convertirlo en un objeto sting en Python:

In [21]:
unicode_string = str(etiqueta_string)
unicode_string

'Lebron James'

# <p style="background-color:#99a5ff; color:#14213d; font-family:newtimeroman; font-size:250%; text-align:left; border-radius: 20px 20px;"> 🧹 Filtro </p>

Los filtros permiten encontrar patrones complejos, el filtro más simple es una cadena. En esta sección pasaremos una cadena a un método de filtro diferente y Beautiful Soup realizará una coincidencia con esa cadena exacta. Considere el siguiente HTML de lanzamiento de cohetes:

In [22]:
%%html
<table>
  <tr>
    <td id='flight' >Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
   </tr>
  <tr> 
    <td>1</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a></td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td>
    <td>80 kg</td>
  </tr>
</table>

0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg


Podemos almacenarlo como una cadena en la tabla de variables:

In [23]:
tabla="<table><tr><td id='flight'>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr> <td>1</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a></td><td>300 kg</td></tr><tr><td>2</td><td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td><td>80 kg</td></tr></table>"

In [24]:
tabla_bs = BeautifulSoup(tabla, 'html.parser')

# <p style="background-color:#bbd0ff; color:#14213d; font-family:newtimeroman; font-size:200%; text-align:left; border-radius: 20px 20px;"> 🔎 Buscar todos </p>

El método `find_all()` busca entre los descendientes de una etiqueta y recupera todos los descendientes que coinciden con sus filtros.

La firma del método `find_all(name, attrs, recursive, string, limit, **kwargs)`

### Nombre (name)

Cuando establecemos el parámetro `name` a un nombre de etiqueta, el método extraerá todas las etiquetas con ese nombre y sus hijos.

In [25]:
tabla_filas = tabla_bs.find_all('tr')
tabla_filas

[<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>,
 <tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a></td><td>300 kg</td></tr>,
 <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>,
 <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a></td><td>80 kg</td></tr>]

El resultado es un Iterable de Python al igual que una lista, cada elemento es un objeto `tag`:

In [26]:
primer_fila = tabla_filas[0]
primer_fila

<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>

El tipo es `tag`

In [30]:
print(type(primer_fila))

<class 'bs4.element.Tag'>


Se puede obtener el hijo

In [31]:
primer_fila.td

<td id="flight">Flight No</td>

Si iteramos por la lista, cada elemento corresponde a una fila de la tabla:

In [33]:
for iteracion, fila in enumerate(tabla_filas):
    print(f'La fila {iteracion} es : {fila}')

La fila 0 es : <tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>
La fila 1 es : <tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a></td><td>300 kg</td></tr>
La fila 2 es : <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>
La fila 3 es : <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a></td><td>80 kg</td></tr>


Como `row`(fila) es un objeto `cell`(celda), podemos aplicarle el método `find_all` y extraer las celdas de la tabla en las `celdas` del objeto usando la etiqueta `td`, esto es todos los hijos con el nombre `td`. El resultado es una lista, cada elemento corresponde a una celda y es un objeto `Tag`, podemos iterar a través de esta lista también. Podemos extraer el contenido utilizando el atributo `string`.

In [34]:
for iteracion, fila in enumerate(tabla_filas):
    
    print(f'Fila {iteracion}')
    celdas = fila.findAll('td')
    
    for jteracion, celda in enumerate(celdas):
        
        print(f'Columna {jteracion} celda {celda}')

Fila 0
Columna 0 celda <td id="flight">Flight No</td>
Columna 1 celda <td>Launch site</td>
Columna 2 celda <td>Payload mass</td>
Fila 1
Columna 0 celda <td>1</td>
Columna 1 celda <td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a></td>
Columna 2 celda <td>300 kg</td>
Fila 2
Columna 0 celda <td>2</td>
Columna 1 celda <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>
Columna 2 celda <td>94 kg</td>
Fila 3
Columna 0 celda <td>3</td>
Columna 1 celda <td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a></td>
Columna 2 celda <td>80 kg</td>


Si utilizamos una lista podemos comparar con cualquier elemento de esa lista.

In [35]:
lista_entrada = tabla_bs.find_all(name=['tr', 'td'])
lista_entrada

[<tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr>,
 <td id="flight">Flight No</td>,
 <td>Launch site</td>,
 <td>Payload mass</td>,
 <tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a></td><td>300 kg</td></tr>,
 <td>1</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a></td>,
 <td>300 kg</td>,
 <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>,
 <td>2</td>,
 <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>,
 <td>94 kg</td>,
 <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a></td><td>80 kg</td></tr>,
 <td>3</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a></td>,
 <td>80 kg</td>]

# <p style="background-color:#bbd0ff; color:#14213d; font-family:newtimeroman; font-size:200%; text-align:left; border-radius: 20px 20px;"> 🧷 Atributos </p>

Si el argumento no es reconocido se convertirá en un filtro sobre los atributos de la etiqueta. Por ejemplo el argumento `id`, Beautiful Soup filtrará contra el atributo `id` de cada etiqueta. Por ejemplo, los primeros elementos `td` tienen un valor de `id` de `vuelo`, por lo tanto podemos filtrar en base a ese valor de `id`.

In [36]:
tabla_bs.find_all(id='flight')

[<td id="flight">Flight No</td>]

Podemos encontrar todos los elementos que tienen enlaces a la página de[ Wikipedia de Florida](https://en.wikipedia.org/wiki/Florida):

In [37]:
lista_entrada = tabla_bs.find_all(href='https://en.wikipedia.org/wiki/Florida')
lista_entrada

[<a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a>]

Si establecemos el atributo `href` en True, independientemente del valor, el código encuentra todas las etiquetas con valor `href`:

In [38]:
tabla_bs.find_all(href=True)

[<a href="https://en.wikipedia.org/wiki/Florida">Florida<a></a></a>,
 <a href="https://en.wikipedia.org/wiki/Texas">Texas</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida<a> </a></a>]

Existen otros métodos para tratar los atributos y otros métodos relacionados; compruebe lo siguiente [link](https://www.crummy.com/software/BeautifulSoup/bs4/doc/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0220ENSkillsNetwork23455606-2021-01-01#css-selectors)

###  Ejercicio: find_all()

Usando la lógica anterior, encuentra todos los elementos sin valor href

<details><summary>Solución</summary>

```
table_bs.find_all(href=False)

```

</details>

Usando el objeto `soup`, encuentra el elemento con el atributo `id` contenido en `"boldest"`.

<details><summary>Solución</summary>

```
soup.find_all(id="boldest")

```

</details>

# <p style="background-color:#bbd0ff; color:#14213d; font-family:newtimeroman; font-size:200%; text-align:left; border-radius: 20px 20px;"> 🔗 String </p>

Con string se pueden buscar cadenas en lugar de etiquetas, donde encontramos todos los elementos con Florida:

In [39]:
tabla_bs.find_all(string='Florida')

['Florida', 'Florida']

In [40]:
tabla_bs.find_all(text='Florida')

['Florida', 'Florida']

# <p style="background-color:#bbd0ff; color:#14213d; font-family:newtimeroman; font-size:200%; text-align:left; border-radius: 20px 20px;"> 🔍 Find </p>

El método `find_all()` escanea todo el documento en busca de resultados, es si usted está buscando un elemento puede utilizar el método `find()` para encontrar el primer elemento en el documento. Considere las siguientes dos tablas:

In [63]:
%%html
<h3>Rocket Launch </h3>

<p>
<table class='rocket'>
  <tr>
    <td>Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
  </tr>
  <tr>
    <td>1</td>
    <td>Florida</td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td>Texas</td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td>Florida </td>
    <td>80 kg</td>
  </tr>
</table>
</p>
<p>

<h3>Pizza Party  </h3>
  
    
<table class='pizza'>
  <tr>
    <td>Pizza Place</td>
    <td>Orders</td> 
    <td>Slices </td>
   </tr>
  <tr>
    <td>Domino's Pizza</td>
    <td>10</td>
    <td>100</td>
  </tr>
  <tr>
    <td>Little Caesars</td>
    <td>12</td>
    <td >144 </td>
  </tr>
  <tr>
    <td>Papa John's </td>
    <td>15 </td>
    <td>165</td>
  </tr>
</table>
</p>

0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg

0,1,2
Pizza Place,Orders,Slices
Domino's Pizza,10,100
Little Caesars,12,144
Papa John's,15,165


Almacenamos el HTML como una cadena de Python y asignamos `dos_tablas`:

In [43]:
dos_tablas="<h3>Rocket Launch </h3><p><table class='rocket'><tr><td>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr><td>1</td><td>Florida</td><td>300 kg</td></tr><tr><td>2</td><td>Texas</td><td>94 kg</td></tr><tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table></p><p><h3>Pizza Party  </h3><table class='pizza'><tr><td>Pizza Place</td><td>Orders</td> <td>Slices </td></tr><tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr><tr><td>Little Caesars</td><td>12</td><td >144 </td></tr><tr><td>Papa John's </td><td>15 </td><td>165</td></tr>"

Creamos un objeto Beautifulsoup `dos_tablas_bs`

In [44]:
dos_tablas_bs = BeautifulSoup(dos_tablas, 'html.parser')

Podemos encontrar la primera tabla utilizando la tabla de nombres de etiquetas

In [45]:
dos_tablas_bs.find('table')

<table class="rocket"><tr><td>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr><td>1</td><td>Florida</td><td>300 kg</td></tr><tr><td>2</td><td>Texas</td><td>94 kg</td></tr><tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table>

Podemos filtrar por el atributo class para encontrar la segunda tabla, pero como class es una palabra clave en Python, añadimos un guión bajo.

In [46]:
dos_tablas_bs.find('table', class_='pizza')

<table class="pizza"><tr><td>Pizza Place</td><td>Orders</td> <td>Slices </td></tr><tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr><tr><td>Little Caesars</td><td>12</td><td>144 </td></tr><tr><td>Papa John's </td><td>15 </td><td>165</td></tr></table>

# <p style="background-color:#99a5ff; color:#14213d; font-family:newtimeroman; font-size:250%; text-align:left; border-radius: 15px 50px;"> ⬇️ Scraping y descarga de contenidos de la web </p>

Descargamos el contenido de la página web de [IBM](http://www.ibm.com):

In [51]:
# Almacenamos el link en la variable
url = 'http://www.ibm.com'

Usamos `get` para descargar el contenido de la página web en formato de texto y almacenarlo en una variable llamada `data`:

In [48]:
data = requests.get(url).text

Creamos un objeto `BeautifulSoup` utilizando el constructor `BeautifulSoup`

In [49]:
soup = BeautifulSoup(data, 'html.parser')

### Obtener todos los links

In [50]:
# En HTML todos los links son representados con la etiqueta <a>
for link in soup.find_all('a', href=True): 
    
    print(link.get('href'))

https://www.ibm.com/mx/es
https://www.ibm.com/sitemap/mx/es
https://www.ibm.com/mx-es/products/z16
https://newsroom.ibm.com/Update-on-our-actions-War-in-Ukraine
https://www.ibm.com/about/es-es/secure-your-business/
https://www.ibm.com/cloud/es-es/campaign/cloud-simplicity/
https://www.ibm.com/analytics/es-es/data-fabric/
https://www.ibm.com/cloud/es-es/aiops/
https://www.ibm.com/consulting/es-es/
https://www.ibm.com/mx-es/it-infrastructure/storage/flash
https://www.ibm.com/it-infrastructure/storage/flash/offers/mx-es
https://www.ibm.com/mx-es/products/?types%5B0%5D=trial
/mx-es/qradar
/mx-es/it-infrastructure/z
/mx-es/products/cloud-pak-for-data
/mx-es/cloud/turbonomic
/mx-es/consulting/experience
https://developer.ibm.com/es/depmodels/cloud/?lnk=hpv18ct16
https://developer.ibm.com/es/technologies/artificial-intelligence/?lnk=hpv18ct19
https://developer.ibm.com/es/?lnk=hpv18ct9
https://www.ibm.com/docs/es?lnk=hpv18ct14
https://www.redbooks.ibm.com/?lnk=ushpv18ct10
https://www.ibm.com/s

### Obtener todas las etiquetas de imagenes

In [53]:
for link in soup.find_all('img'):
    
    print(link)
    print(link.get('src'))

<img alt="Seguridad predictiva para evitar el costo de una brecha de datos" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2022-02-14/ibm-security.jpg"/>
//1.cms.s81c.com/sites/default/files/2022-02-14/ibm-security.jpg
<img alt="Quienes toman decisiones consideran que TI se ha vuelto más complicado" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2022-02-14/ibm-simplify-cloud.jpg"/>
//1.cms.s81c.com/sites/default/files/2022-02-14/ibm-simplify-cloud.jpg
<img alt="Innove rápidamente con acceso simplificado a datos listos para análisis e IA" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2022-02-14/ibm-data-driven.jpg"/>
//1.cms.s81c.com/sites/default/files/2022-02-14/ibm-data-driven.jpg
<img alt="Las compañías que invierten en AIOps y automation reducen costos en un 50%" class="" loading="lazy" src="//1.cms.s81c.com/sites/default/files/2022-02-14/ibm-automate.jpg"/>
//1.cms.s81c.com/sites/default/files/2022-02-14/ibm-automate.jpg
<i

# <p style="background-color:#bbd0ff; color:#14213d; font-family:newtimeroman; font-size:200%; text-align:left; border-radius: 20px 20px;"> 📅 Obtener informacion de tablas HTML </p>

[Lista parcial de los colores que soporta HTML](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DA0321EN-SkillsNetwork/labs/datasets/HTMLColorCodes.html)

In [54]:
# La siguiente url contiene una tabla html con datos sobre colores y códigos de color.

url = 'https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DA0321EN-SkillsNetwork/labs/datasets/HTMLColorCodes.html'


Antes de proceder a `scrapear` un sitio web, es necesario examinar el contenido y la forma en que se organizan los datos en el sitio web. Abre la url anterior en tu navegador y comprueba cuántas filas y columnas hay en la tabla de colores.

obtener el contenido de la página web en formato de texto y almacenarlo en una variable llamada `colorsitos`

In [55]:
colorsitos = requests.get(url).text

In [57]:
soup = BeautifulSoup(colorsitos, 'html.parser')

In [59]:
# Encontrar la tabla en la pagina web
# En HTML las tablas se representan con la etiqueta <table>
tabla = soup.find('table')

In [60]:
# Obtener las filas de la tabla
# En html las filas se representan con la etiqueta <tr>
for fila in tabla.find_all('tr'): 
    
    # Obtener todas las columnas en cada fila
    # En HTML las columnas se representan con la etiqueta <td>
    columnas = fila.find_all('td')
    
    # Almacenar el nombre de la columna 3 como nombre_color
    nombre_color = columnas[2].string
    # Almacenar el nombre de la columna 3 como codigo_color
    codigo_color = columnas[3].string
    
    # Imprimimos el nombre del color y su valor hexadecimal
    print(f'{nombre_color} ---> {codigo_color}')
    

Color Name ---> None
lightsalmon ---> #FFA07A
salmon ---> #FA8072
darksalmon ---> #E9967A
lightcoral ---> #F08080
coral ---> #FF7F50
tomato ---> #FF6347
orangered ---> #FF4500
gold ---> #FFD700
orange ---> #FFA500
darkorange ---> #FF8C00
lightyellow ---> #FFFFE0
lemonchiffon ---> #FFFACD
papayawhip ---> #FFEFD5
moccasin ---> #FFE4B5
peachpuff ---> #FFDAB9
palegoldenrod ---> #EEE8AA
khaki ---> #F0E68C
darkkhaki ---> #BDB76B
yellow ---> #FFFF00
lawngreen ---> #7CFC00
chartreuse ---> #7FFF00
limegreen ---> #32CD32
lime ---> #00FF00
forestgreen ---> #228B22
green ---> #008000
powderblue ---> #B0E0E6
lightblue ---> #ADD8E6
lightskyblue ---> #87CEFA
skyblue ---> #87CEEB
deepskyblue ---> #00BFFF
lightsteelblue ---> #B0C4DE
dodgerblue ---> #1E90FF


# <p style="background-color:#bbd0ff; color:#14213d; font-family:newtimeroman; font-size:200%; text-align:left; border-radius: 20px 20px;"> 🐼 Obtener datos de tablas HTML en un DataFrame usando BeautifulSoup y Pandas </p>