In [1]:
# Taller de web scraping con Python
# Diplomado en Ciencia de Datos UC
# Sesión a cargo de Riva Quiroga (https://rivaquiroga.cl)

# Ejercicio 1

# Importacion de datos 

import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
import re
import math
import requests


In [4]:
# Paso 0: Guardar la URL del sitio en una variable

sitio = "https://rivaquiroga.github.io/taller-web-scraping-python-2023/ejercicio-1.html"

In [7]:
# Paso 1: Hacer una "solicitud" a la página web para traer el código fuente
respuesta = requests.get(sitio)

In [None]:
# Paso 2:
contenido = respuesta.text
print(contenido)

In [14]:
# Paso 3: crear la sopa

soup = BeautifulSoup(contenido, "html.parser")

#### Paso 4: buscar los datos que nos interesan dentro del código fuente de la página

La función find() nos permite encontrar el primer elemento que tenga una determinada etiqueta/clase. nos devuelve todo el elemento html (o sea, las etiqutas y el contenido)

In [None]:
soup.find("h2")

Para quedarnos solo con el texto se aplica el método **.get_text()**

In [19]:
soup.find("h1").get_text()

'Librerías para hacer web scraping'

Si queremos encontrar todos los elementos que tengan una determinada etiqueta/clase, usamos el método **.find_all()**. eso nos devuelve una lista con todos esos elementos.

In [20]:
soup.find_all("h2")

[<h2>BeautifulSoup</h2>, <h2>Selenium</h2>, <h2>Scrapy</h2>]

No podemos utilizar get_text() con find_all() porque ese  método funciona con cada elemento de forma individual, no con una lista:


In [21]:
soup.find_all("h2").get_text()

AttributeError: ResultSet object has no attribute 'get_text'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

tenemos que aplicarlo a cada elemento de forma individual

In [22]:
soup.find_all("h2")[0].get_text()

'BeautifulSoup'

la opción más rápida sería iterar. los pasos entonces serían:

Primero guardar en una variable la lista con todos los elementos h2:

In [23]:
elementos_h2 = soup.find_all("h2")

Luego, iterar por los elementos de esa lista, aplicarles get_text() y guardar el texto en la lista librerías

In [24]:
librerias = []

for elemento in elementos_h2:
    elemento = elemento.get_text()
    librerias.append(elemento)

Listo

In [25]:
print(librerias)

['BeautifulSoup', 'Selenium', 'Scrapy']


Ahora, extraigamos las descripciones:
Como hay varias cosas etiqquetados como p, tenemos que especificar la calse para que nos devuevla, solo la que nos interesan.

In [26]:
elementos_p = soup.find_all("p", class_ ="librerias")

Siempre es útil chequear con len() si la canitdad de elementos es la que esperábamos

In [27]:
descripciones = []
for elemento in elementos_p:
    elemento = elemento.get_text(strip = True)
    descripciones.append(elemento)

Finalmente extraemos los enlaces
En este caso no nos sirve get_text(), porque nos devuelve el texto alque está asociado el enlace, no el enlace propiamente tal.

In [28]:
soup.find("a").get_text()

'Más info'

Para obtener el enlace usamos get() e indicamos que queremos el "href". Esto es igual para todos los sitios web.

In [30]:
soup.find("a").get("href")

'https://www.crummy.com/software/BeautifulSoup/'

Ahora repetimos el proceso: guardamos todo en una lista y luego iteramos para guardar solo los enlaces en una lista nueva.

In [35]:
elementos_a = soup.find_all("a")
len(elementos_a)

3

In [37]:
enlaces = []
for elemento in elementos_a:
    elemento = elemento.get("href")
    enlaces.append(elemento)

Listo, al inicio de la próxma clase veremos como se guarda esto en un archivo csv

In [38]:
print(enlaces)

['https://www.crummy.com/software/BeautifulSoup/', 'https://www.selenium.dev/', 'https://scrapy.org/']


#### Forma alternativa propuesta por ChatGPT a través de consulta hecha por @Ignvci

In [39]:
data = {'Librerias': librerias, 'Descripción':descripciones, 'Enlace':enlaces}

In [41]:
data = pd.DataFrame(data)

In [45]:
data

Unnamed: 0,Librerias,Descripción,Enlace
0,BeautifulSoup,Es fácil de instalar y práctica para personas ...,https://www.crummy.com/software/BeautifulSoup/
1,Selenium,Es una herramienta diseñada originalmente para...,https://www.selenium.dev/
2,Scrapy,Es un framework creado para hacer web scraping...,https://scrapy.org/
