### Beautiful Soup

- **Documentación oficial:** https://beautiful-soup-4.readthedocs.io/en/latest/

- **página que utilizaremos:**  https://scrapepark.org/spanish/

In [42]:
# Importamos las librerías para ver la versión
import requests
import bs4 
print(f'Versión de BeautifulSoup: {bs4.__version__}')
print(f'Versión de requests: {requests.__version__}')

Versión de BeautifulSoup: 4.12.2
Versión de requests: 2.31.0


In [43]:
# Importamos librerías
from bs4 import BeautifulSoup
import requests

In [44]:
# 1. Obtener el HTML
URL_BASE = 'https://scrapepark.org/courses/spanish/'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

In [45]:
# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser")
type(soup)

bs4.BeautifulSoup

#### Método find()

Nos permite obtener la información de la primera etiqueta HTML

In [46]:
primer_h2 = soup.find('h2')
print(primer_h2)

<h2>¿Por qué comprar con nosotros?</h2>


Obtenemos solo el texto

In [47]:
print(primer_h2.text)

# equivalente a:
print(soup.h2.text)

¿Por qué comprar con nosotros?
¿Por qué comprar con nosotros?


#### Método find_all()
Obtenemos TODOS los elementos de la página con la etiqueta y devuelve una "lista" que los contiene (en realidad devuelve un objeto de la clase bs4.element.ResultSet). 

In [48]:
h2_todos = soup.find_all('h2')
print(h2_todos)

[<h2>¿Por qué comprar con nosotros?</h2>, <h2>
                  #Novedades
                </h2>, <h2>
            Nuestros <span>productos</span>
</h2>, <h2>
            Testimonios de clientes
          </h2>, <h2 class="heading-container">
          Tabla de precios
        </h2>]


In [49]:
for etiqueta in h2_todos:
    print(f'Texto: {etiqueta.get_text(strip = True)}')

Texto: ¿Por qué comprar con nosotros?
Texto: #Novedades
Texto: Nuestrosproductos
Texto: Testimonios de clientes
Texto: Tabla de precios


Tambien podemos utilizar el argumento LIMIT para reducir la busqueda

In [50]:
h2_uno_solo = soup.find_all('h2',limit=1)
print(h2_uno_solo)

[<h2>¿Por qué comprar con nosotros?</h2>]


In [51]:
# Podemos iterar sobre el objeto
for etiqueta in h2_todos:
    print(f'Texto: {etiqueta.text}')

Texto: ¿Por qué comprar con nosotros?
Texto: 
                  #Novedades
                
Texto: 
            Nuestros productos

Texto: 
            Testimonios de clientes
          
Texto: 
          Tabla de precios
        


In [52]:
# get_text() para más funcionalidades
# Eliminar todos los espacios adelante y atras
for seccion in h2_todos:
  print(seccion.get_text(strip=True))


¿Por qué comprar con nosotros?
#Novedades
Nuestrosproductos
Testimonios de clientes
Tabla de precios


#### Utilizando atributos de las etiquetas

Accediendo a una clase específica

In [53]:
# Clase
divs = soup.find_all('div', class_ = "heading-container heading-center")

for div in divs:
  print(div)
  print(" ")

<div class="heading-container heading-center" id="acerca">
<h2>¿Por qué comprar con nosotros?</h2>
</div>
 
<div class="heading-container heading-center" id="productos">
<h2>
            Nuestros <span>productos</span>
</h2>
</div>
 
<div class="heading-container heading-center">
<h3>Suscríbete para obtener descuentos y ofertas</h3>
</div>
 
<div class="heading-container heading-center">
<h2>
            Testimonios de clientes
          </h2>
</div>
 


In [54]:
# Obtenemos todas las etiquetas que tengan el atributo "src" 
src_todos = soup.find_all(src=True)

# Seleccionamos solo las que terminen con .jpg
for elemento in src_todos:
  if elemento['src'].endswith(".jpg"):
    print(elemento)

<img alt="Parque de patinaje" src="images/slider-bg.jpg"/>
<img alt="Patineta 2" src="images/p2.jpg"/>


In [55]:
# Descargamos todas las imagenes
url_imagenes = []

for i, imagen in enumerate(src_todos):

  if imagen['src'].endswith('png'):

    print(imagen['src'])
    r = requests.get(f"https://scrapepark.org/courses/spanish/{imagen['src']}")

    with open(f'imagen_{i}.png', 'wb') as f:
      f.write(r.content)

images/arrival-bg-store.png


images/p1.png
images/p3.png
images/p4.png
images/p5.png
images/p6.png
images/p7.png
images/p8.png
images/p9.png
images/p10.png
images/p11.png
images/p12.png
images/client-one.png
images/client-two.png
images/client-three.png
./images/freecodecamp-logo.png


#### Tablas

Debido a que iframe nos redirecciona a una página diferente, primero tenemos que obtener la página

In [66]:
# Debido a que find_all devuelve más de un elemento con [0] elegimos el primero
soup.find_all('iframe')[0]['src']

'table.html'

Ahora que ya la tenemos, accedemos directamente a la información

In [68]:
# Información de tablas
URL_BASE = 'https://scrapepark.org/courses/spanish'
URL_TABLA = soup.find_all('iframe')[0]['src']

request_tabla = requests.get(f'{URL_BASE}/{URL_TABLA}')

In [69]:
# Volvemos a utilzar BeautifulSoup para poder acceder a los datos con find
html_tabla = request_tabla.text
soup_tabla = BeautifulSoup(html_tabla, "html.parser")
soup_tabla.find('table')

<table class="table table-bordered table-striped table-hover">
<thead class="thead-dark">
<tr>
<th> </th>
<th class="text-center">Skate</th>
<th class="text-center">Cruiser</th>
<th class="text-center" style="color: red;">Longboard</th>
<th class="text-center">Freeboard</th>
</tr>
</thead>
<tbody>
<tr>
<td>Azul</td>
<td class="text-center">$64</td>
<td class="text-center">$70</td>
<td class="text-center" style="color: red;">$80</td>
<td class="text-center">$85</td>
</tr>
<tr>
<td>Verde</td>
<td class="text-center">$69</td>
<td class="text-center">$75</td>
<td class="text-center" style="color: red;">$85</td>
<td class="text-center">$90</td>
</tr>
<tr>
<td>Negro</td>
<td class="text-center">$74</td>
<td class="text-center">$80</td>
<td class="text-center" style="color: red;">$90</td>
<td class="text-center">$95</td>
</tr>
<tr>
<td>Morado</td>
<td class="text-center">$55</td>
<td class="text-center">$60</td>
<td class="text-center" style="color: red;">$62</td>
<td class="text-center">$72<

In [71]:
# Obtenemos todas las filas y columnas pero tambien las obtenemos por el color 
productos_faltantes = soup_tabla.find_all(['th', 'td'], attrs={'style':'color: red;'})
productos_faltantes = [talle.text for talle in productos_faltantes]

print(productos_faltantes)

['Longboard', '$80', '$85', '$90', '$62', '$150']


#### Obteniendo los productos y precios de los artículos

In [73]:
divs = soup.find_all('div', class_='detail-box')
productos = []
precios = []

for div in divs:
  if (div.h6 is not None) and ('Patineta' in div.h5.text):
    producto = div.h5.get_text(strip=True)
    precio = div.h6.get_text(strip=True).replace('$', '')
    # Se puede agregar filtros
    print(f'producto: {producto:<17} | precio: {precio}')
    productos.append(producto)
    precios.append(precio)

producto: Patineta Nueva 1  | precio: 75
producto: Patineta Usada 2  | precio: 80
producto: Patineta Nueva 3  | precio: 68
producto: Patineta Usada 4  | precio: 70
producto: Patineta Nueva 5  | precio: 75
producto: Patineta Nueva 6  | precio: 58
producto: Patineta Nueva 7  | precio: 80
producto: Patineta Nueva 8  | precio: 35
producto: Patineta Nueva 9  | precio: 165
producto: Patineta Usada 10 | precio: 54
producto: Patineta Usada 11 | precio: 99
producto: Patineta Nueva 12 | precio: 110


#### URL's que contienen cambios pequeños

En este caso tenemos una URL que cambia entre contactos (contacto1, contacto2)

In [74]:
URL_BASE = "https://scrapepark.org/courses/spanish/contact"

for i in range(1,3):
  URL_FINAL = f"{URL_BASE}{i}"
  print(URL_FINAL)
  r = requests.get(URL_FINAL)
  soup = BeautifulSoup(r.text, "html.parser")
  print(soup.h5.text)

https://scrapepark.org/courses/spanish/contact1
Texto que cambia entre páginas en contacto 1 :)
https://scrapepark.org/courses/spanish/contact2
Texto que cambia entre páginas en contacto 2 :)


#### Datos que no sabemos en que parte de la página se encuentran


Para utilizamos expresiones regulares

In [77]:
# Expresiones regulares
import re

# 1. Obtener el HTML
URL_BASE = 'https://scrapepark.org/courses/spanish'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser")

telefonos = soup.find_all(string=re.compile(r"\d+-\d+-\d+"))
telefonos

[' 4-444-4444']

#### Moviéndonos por el árbol

Para saber más: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree

In [78]:
copyrights = soup.find_all(string=re.compile("©"))
copyrights[0]

'© 2022 '

Podemos navegar por el arbol. Si queremos ir a ver al padre de la equiqueta utilizamos .parent

In [81]:
primer_copyright = copyrights[0]
primer_copyright

'© 2022 '

In [82]:
primer_copyright = copyrights[0]
primer_copyright.parent

<p>© 2022 <span>Todos los derechos reservados</span>.
        <a href="https://html.design/" rel="noopener noreferrer" target="_blank">Creado con Free Html Templates</a>.
      </p>

In [83]:
# # Otro ejemplo con elementos al mismo nivel
menu = soup.find(string=re.compile("MENÚ"))
# menu.parent
menu.parent.find_next_siblings()

[<ul>
 <li><a href="#">Inicio</a></li>
 <li><a href="#">Acerca</a></li>
 <li><a href="#">Servicios</a></li>
 <li><a href="#">Testimonios</a></li>
 <li><a href="#">Contacto</a></li>
 </ul>]

#### Comentario sobre excepciones (Try except)
https://docs.python.org/es/3/tutorial/errors.html

In [84]:
strings_a_buscar = ["MENÚ", "©", "carpincho", "Patineta"]

for string in strings_a_buscar:
  try:
    resultado = soup.find(string=re.compile(string))
    print(resultado.text)
  except AttributeError:
    print(f"El string '{string}' no fue encontrado")

MENÚ
© 2022 
El string 'carpincho' no fue encontrado

                  Patineta Nueva 1
                


#### Almacenamiento de los datos

In [86]:
productos.insert(0, "productos")
precios.insert(0, "precios")
# datos = dict(zip(productos, precios))
     

datos = dict(zip(productos, precios))
     

datos.items()
     

import csv

with open('datos.csv','w') as f:
    w = csv.writer(f)
    w.writerows(datos.items())