# Web Scraping con Beautiful Soup

* * * 

### Iconos utilizados en este notebook
üîî **Preguntas**: Una pregunta r√°pida para ayudarte a entender qu√© est√° pasando.<br>
ü•ä **Desaf√≠o**: Ejercicio interactivo. Lo trabajaremos en el taller.!<br>
‚ö†Ô∏è **Advertencia**: Aviso sobre cuestiones complicadas o errores comunes.<br>
üí° **Tip**:C√≥mo hacer algo de forma un poco m√°s eficiente o efectiva.<br>
üé¨ **Demo**: Mostrando algo m√°s avanzado: ¬°para que sepas para qu√© se puede usar Python!<br>

### Objetivos de aprendizaje
1. [Objetivos de aprendizaje](#when)
2. [Extracci√≥n y an√°lisis de HTML](#extract)
3. [Desmantelando la Asamblea General de Illinois](#scrape)

<a id='when'></a>

# ‚Äú¬øHacer scraping o no hacerlo?‚Äù

Cuando queremos acceder a datos de la web, primero debemos asegurarnos de que el sitio web que nos interesa ofrezca una API web. Plataformas como Twitter, Reddit y The New York Times ofrecen API. **Echa un vistazo a D-Lab [Python Web APIs](https://github.com/dlab-berkeley/Python-Web-APIs) Taller si quieres aprender a utilizar las API.**

Sin embargo, a menudo no existe una API web. En estos casos, podemos recurrir al web scraping, donde extraemos el HTML subyacente de una p√°gina web y obtenemos directamente la informaci√≥n deseada. Existen varios paquetes en Python que podemos usar para realizar estas tareas. Nos centraremos en dos paquetes: Requests y Beautiful Soup.

Nuestro estudio de caso consistir√° en extraer informaci√≥n sobre el [Senadores estatales de Illinois](http://www.ilga.gov/senate), as√≠ como el [lista de facturas](http://www.ilga.gov/senate/SenatorBills.asp?MemberID=1911&GA=98&Primary=True) Cada senador ha patrocinado. Antes de empezar, revise estos sitios web para conocer su estructura.

## Instalaci√≥n

Utilizaremos dos paquetes principales: [Solicitudes](http://docs.python-requests.org/en/latest/user/quickstart/) y [Beautiful Soup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/). Contin√∫e e instale estos paquetes, si a√∫n no lo ha hecho:

In [1]:
# üåê La librer√≠a requests es necesaria para hacer solicitudes HTTP y descargar p√°ginas web.
# üï∏Ô∏è Esto es fundamental para hacer web scraping (extraer informaci√≥n de p√°ginas web).
%pip install requests  

Note: you may need to restart the kernel to use updated packages.


In [None]:
# ü•£ La instrucci√≥n %pip install beautifulsoup4 sirve para instalar la librer√≠a Beautiful Soup 4 en tu entorno de Jupyter Notebook.
# üï∏Ô∏è Beautiful Soup es esencial para analizar y extraer informaci√≥n de archivos HTML y XML, lo que facilita el web scraping.
%pip install beautifulsoup4

Collecting beautifulsoup4
  Downloading beautifulsoup4-4.13.4-py3-none-any.whl.metadata (3.8 kB)
Collecting soupsieve>1.2 (from beautifulsoup4)
  Downloading soupsieve-2.7-py3-none-any.whl.metadata (4.6 kB)
Collecting typing-extensions>=4.0.0 (from beautifulsoup4)
  Downloading typing_extensions-4.14.1-py3-none-any.whl.metadata (3.0 kB)
Downloading beautifulsoup4-4.13.4-py3-none-any.whl (187 kB)
Downloading soupsieve-2.7-py3-none-any.whl (36 kB)
Downloading typing_extensions-4.14.1-py3-none-any.whl (43 kB)
Installing collected packages: typing-extensions, soupsieve, beautifulsoup4

   ------------- -------------------------- 1/3 [soupsieve]
   -------------------------- ------------- 2/3 [beautifulsoup4]
   -------------------------- ------------- 2/3 [beautifulsoup4]
   -------------------------- ------------- 2/3 [beautifulsoup4]
   ---------------------------------------- 3/3 [beautifulsoup4]

Successfully installed beautifulsoup4-4.13.4 soupsieve-2.7 typing-extensions-4.14.1
Note: 

Tambi√©n instalaremos el paquete `lxml`, que ayuda a soportar parte del an√°lisis que realiza Beautiful Soup:

In [3]:
%pip install lxml

Collecting lxml
  Downloading lxml-6.0.1-cp313-cp313-win_amd64.whl.metadata (3.9 kB)
Downloading lxml-6.0.1-cp313-cp313-win_amd64.whl (4.0 MB)
   ---------------------------------------- 0.0/4.0 MB ? eta -:--:--
   ----- ---------------------------------- 0.5/4.0 MB 5.7 MB/s eta 0:00:01
   ---------------------------------------- 4.0/4.0 MB 15.9 MB/s  0:00:00
Installing collected packages: lxml
Successfully installed lxml-6.0.1
Note: you may need to restart the kernel to use updated packages.


In [None]:
# Import required libraries
from bs4 import BeautifulSoup
from datetime import datetime
import requests
import time

<a id='extract'></a>

# Extracci√≥n y an√°lisis de HTML

Para extraer y analizar HTML correctamente, seguiremos los siguientes 4 pasos:
1. Realizar una solicitud GET
2. Analizar la p√°gina con Beautiful Soup
3. Buscar elementos HTML
4. Obtener los atributos y el texto de estos elementos

## Paso 1: Realizar una solicitud GET para obtener el HTML de una p√°gina

Podemos usar la biblioteca Requests para:

1. Realizar una solicitud GET a la p√°gina y
2. Leer el c√≥digo HTML de la p√°gina web.

El proceso de realizar una solicitud y obtener un resultado es similar al del flujo de trabajo de la API web. Sin embargo, ahora realizamos una solicitud directamente al sitio web y tendremos que analizar el HTML nosotros mismos. Esto contrasta con recibir datos organizados en una salida JSON o XML m√°s sencilla.

In [None]:
# Make a GET request
req = requests.get('http://www.ilga.gov/senate/default.asp')
# Read the content of the server‚Äôs response
src = req.text
# View some output
print(src[:1000])

## Paso 2: Analizar la p√°gina con Beautiful Soup

Ahora, usamos la funci√≥n `BeautifulSoup` para analizar la respuesta en un √°rbol HTML. Esto devuelve un objeto (llamado **objeto soup**) que contiene todo el HTML del documento original.

Si se produce un error relacionado con una biblioteca de an√°lisis, aseg√∫rese de haber instalado el paquete `lxml` para proporcionar a Beautiful Soup las herramientas de an√°lisis necesarias.

In [None]:
# Parse the response into an HTML tree
soup = BeautifulSoup(src, 'lxml')
# Take a look
print(soup.prettify()[:1000])

La salida se ve bastante similar a la anterior, pero ahora est√° organizada en un objeto 'soup' que nos permite recorrer la p√°gina m√°s f√°cilmente.

## Paso 3: Buscar elementos HTML

Beautiful Soup cuenta con varias funciones para encontrar componentes √∫tiles en una p√°gina. Beautiful Soup permite encontrar elementos por:

1. Etiquetas HTML
2. Atributos HTML
3. Selectores CSS

Primero, busquemos **etiquetas HTML**.

La funci√≥n `find_all` busca en el √°rbol `soup` todos los elementos con una etiqueta HTML espec√≠fica y los devuelve.

¬øQu√© hace el siguiente ejemplo?

In [None]:
# Find all elements with a certain tag
a_tags = soup.find_all("a")
print(a_tags[:10])

Dado que `find_all()` es el m√©todo m√°s popular en la API de b√∫squeda de Beautiful Soup, puedes usar un atajo. Si tratas el objeto BeautifulSoup como si fuera una funci√≥n, es lo mismo que llamar a `find_all()` en ese objeto.

Estas dos l√≠neas de c√≥digo son equivalentes:

In [None]:
a_tags = soup.find_all("a")
a_tags_alt = soup("a")
print(a_tags[0])
print(a_tags_alt[0])

¬øCu√°ntos enlaces obtuvimos?

In [None]:
print(len(a_tags))

¬°Eso es much√≠simo! Muchos elementos de una p√°gina tendr√°n la misma etiqueta HTML. Por ejemplo, si buscas todo con la etiqueta `a`, probablemente obtendr√°s m√°s resultados, muchos de los cuales quiz√°s no quieras. Recuerda que la etiqueta `a` define un hiperv√≠nculo, por lo que normalmente encontrar√°s muchos en cualquier p√°gina.

¬øQu√© suceder√≠a si quisi√©ramos buscar etiquetas HTML con ciertos atributos, como clases CSS espec√≠ficas?

Podemos hacerlo a√±adiendo un argumento adicional a `find_all`. En el siguiente ejemplo, buscamos todas las etiquetas `a` y luego las filtramos con `class_="sidemenu"`.

In [None]:
# Get only the 'a' tags in 'sidemenu' class
side_menus = soup("a", class_="sidemenu")
side_menus[:5]

Una forma m√°s eficiente de buscar elementos en un sitio web es mediante un selector CSS. Para ello, debemos usar un m√©todo diferente llamado `select()`. Simplemente pase una cadena a `.select()` para obtener todos los elementos con esa cadena como un selector CSS v√°lido.

En el ejemplo anterior, podemos usar `"a.sidemenu"` como selector CSS, que devuelve todas las etiquetas `a` con la clase `sidemenu`.

In [None]:
# Get elements with "a.sidemenu" CSS Selector.
selected = soup.select("a.sidemenu")
selected[:5]

## ü•äDesaf√≠o: Encontrar todo

Usa BeautifulSoup para encontrar todos los elementos `a` con la clase `mainmenu`.

In [None]:
# YOUR CODE HERE


Paso 4: Obtener los atributos y el texto de los elementos

Una vez identificados los elementos, necesitamos la informaci√≥n de acceso de cada uno. Normalmente, esto implica dos cosas:

1. Texto
2. Atributos

Obtener el texto dentro de un elemento es sencillo. Solo tenemos que usar el miembro `text` de un objeto `tag`:

In [None]:
# Get all sidemenu links as a list
side_menu_links = soup.select("a.sidemenu")

# Examine the first link
first_link = side_menu_links[0]
print(first_link)

# What class is this variable?
print('Class: ', type(first_link))

¬°Es una etiqueta de Beautiful Soup! Esto significa que tiene un miembro "texto":

In [None]:
print(first_link.text)

A veces necesitamos el valor de ciertos atributos. Esto es especialmente relevante para las etiquetas ¬´a¬ª o enlaces, donde el atributo ¬´href¬ª nos indica ad√≥nde lleva el enlace.

üí° **Consejo**: Puedes acceder a los atributos de una etiqueta trat√°ndola como un diccionario:

In [None]:
print(first_link['href'])

## ü•ä Desaf√≠o: Extraer atributos espec√≠ficos

Extraer todos los atributos `href` de cada URL `mainmenu`.

In [None]:
# YOUR CODE HERE


<a id='scrape'></a>

# An√°lisis de la Asamblea General de Illinois

Aunque parezca incre√≠ble, estas son las herramientas fundamentales para analizar un sitio web. Una vez que dediques m√°s tiempo a familiarizarte con HTML y CSS, simplemente ser√° cuesti√≥n de comprender la estructura de un sitio web espec√≠fico y aplicar inteligentemente las herramientas de Beautiful Soup y Python.

Apliquemos estas habilidades para analizar la [98.¬™ Asamblea General de Illinois](http://www.ilga.gov/senate/default.asp?GA=98).

En concreto, nuestro objetivo es analizar la informaci√≥n de cada senador, incluyendo su nombre, distrito y partido.

## Rastrear y analizar la p√°gina web

Rastreemos y analicemos la p√°gina web con las herramientas que aprendimos en la secci√≥n anterior.

In [None]:
# Make a GET request
req = requests.get('http://www.ilga.gov/senate/default.asp?GA=98')
# Read the content of the server‚Äôs response
src = req.text
# Soup it
soup = BeautifulSoup(src, "lxml")

## Buscar los elementos de la tabla

Nuestro objetivo es obtener los elementos de la tabla en la p√°gina web. Recuerde: las filas se identifican con la etiqueta `tr`. Usemos `find_all` para obtener estos elementos.

In [None]:
# Get all table row elements
rows = soup.find_all("tr")
len(rows)

‚ö†Ô∏è **Advertencia**: Ten en cuenta que `find_all` obtiene *todos* los elementos con la etiqueta `tr`. Solo necesitamos algunos. Si usamos la funci√≥n "Inspeccionar" de Google Chrome y observamos con atenci√≥n, podemos usar selectores CSS para obtener solo las filas que nos interesan. En concreto, queremos las filas internas de la tabla:

In [None]:
# Returns every ‚Äòtr tr tr‚Äô css selector in the page
rows = soup.select('tr tr tr')

for row in rows[:5]:
    print(row, '\n')

Parece que queremos todo lo que queda despu√©s de las dos primeras filas. Empecemos con una sola fila y construyamos nuestro bucle a partir de ah√≠.

In [None]:
example_row = rows[2]
print(example_row.prettify())

Desglosemos esta fila en sus celdas/columnas mediante el m√©todo `select` con selectores CSS. Si analizamos el HTML con atenci√≥n, hay un par de maneras de hacerlo.

* Podr√≠amos identificar las celdas por su etiqueta `td`.
* Podr√≠amos usar el nombre de clase `.detail`.
* Podr√≠amos combinar ambos y usar el selector `td.detail`.

In [None]:
for cell in example_row.select('td'):
    print(cell)
print()

for cell in example_row.select('.detail'):
    print(cell)
print()

for cell in example_row.select('td.detail'):
    print(cell)
print()

Podemos confirmar que todos son iguales.

In [None]:
assert example_row.select('td') == example_row.select('.detail') == example_row.select('td.detail')

Utilicemos el selector `td.detail` para ser lo m√°s espec√≠ficos posible.

In [None]:
# Select only those 'td' tags with class 'detail' 
detail_cells = example_row.select('td.detail')
detail_cells

La mayor√≠a de las veces, nos interesa el **texto** real de un sitio web, no sus etiquetas. Recordemos que para obtener el texto de un elemento HTML, usamos el miembro `text`:

In [None]:
# Keep only the text in each of those cells
row_data = [cell.text for cell in detail_cells]

print(row_data)

¬°Se ve bien! Ahora solo necesitamos usar nuestros conocimientos b√°sicos de Python para obtener los elementos de esta lista que necesitamos. Recuerda: queremos el nombre del senador, su distrito y su partido.

In [None]:
print(row_data[0]) # Name
print(row_data[3]) # District
print(row_data[4]) # Party

## Eliminando filas basura

Vimos al principio que no todas las filas que obtuvimos corresponden a un senador. Tendremos que hacer limpieza antes de continuar. Vean algunos ejemplos:

In [None]:
print('Row 0:\n', rows[0], '\n')
print('Row 1:\n', rows[1], '\n')
print('Last Row:\n', rows[-1])

Al escribir nuestro bucle for, queremos que solo se aplique a las filas relevantes. Por lo tanto, debemos filtrar las filas irrelevantes. Para ello, comparamos algunas de estas filas con las que necesitamos, observamos sus diferencias y luego formulamos esto en una condici√≥n.

Como puedes imaginar, hay muchas maneras de hacerlo, y depender√° del sitio web. Aqu√≠ te mostraremos algunas para que te hagas una idea de c√≥mo hacerlo.

In [None]:
# Bad rows
print(len(rows[0]))
print(len(rows[1]))

# Good rows
print(len(rows[2]))
print(len(rows[3]))

Quiz√°s las buenas filas tengan una longitud de 5. Comprob√©moslo:

In [None]:
good_rows = [row for row in rows if len(row) == 5]

# Let's check some rows
print(good_rows[0], '\n')
print(good_rows[-2], '\n')
print(good_rows[-1])

Encontramos una fila de pie de p√°gina en nuestra lista que queremos evitar. Probemos algo diferente:

In [None]:
rows[2].select('td.detail') 

In [None]:
# Bad row
print(rows[-1].select('td.detail'), '\n')

# Good row
print(rows[5].select('td.detail'), '\n')

# How about this?
good_rows = [row for row in rows if row.select('td.detail')]

print("Checking rows...\n")
print(good_rows[0], '\n')
print(good_rows[-1])

¬°Parece que encontramos algo que funcion√≥!

## Unir todo en un bucle

Ahora que hemos visto c√≥mo obtener los datos que queremos de una fila y filtrar las filas que no necesitamos, vamos a unirlo todo en un bucle.

In [None]:
# Define storage list
members = []

# Get rid of junk rows
valid_rows = [row for row in rows if row.select('td.detail')]

# Loop through all rows
for row in valid_rows:
    # Select only those 'td' tags with class 'detail'
    detail_cells = row.select('td.detail')
    # Keep only the text in each of those cells
    row_data = [cell.text for cell in detail_cells]
    # Collect information
    name = row_data[0]
    district = int(row_data[3])
    party = row_data[4]
    # Store in a tuple
    senator = (name, district, party)
    # Append to list
    members.append(senator)

In [None]:
# Should be 61
len(members)

Echemos un vistazo a lo que tenemos en "miembros".

In [None]:
print(members[:5])

## ü•ä  Desaf√≠o: Obtener elementos `href` que apunten a los proyectos de ley de los miembros

El c√≥digo anterior recupera informaci√≥n sobre:

- el nombre del senador,
- su n√∫mero de distrito,
- y su partido.

Ahora queremos recuperar la URL de la lista de proyectos de ley de cada senador. Cada URL seguir√° un formato espec√≠fico.

El formato de la lista de proyectos de ley de un senador determinado es:

`http://www.ilga.gov/senate/SenatorBills.asp?GA=98&MemberID=[MEMBER_ID]&Primary=True`

para obtener algo como:

`http://www.ilga.gov/senate/SenatorBills.asp?MemberID=1911&GA=98&Primary=True`

donde `MEMBER_ID=1911`.

Deber√≠as poder ver que, lamentablemente, `MEMBER_ID` no se extrae actualmente en nuestro c√≥digo de extracci√≥n.

Tu tarea inicial es modificar el c√≥digo anterior para que tambi√©n **recuperemos la URL completa que apunta a la p√°gina correspondiente de los proyectos de ley patrocinados por las primarias** de cada miembro, y la devolvamos junto con su nombre, distrito y partido.

Consejos:

* Para ello, deber√° obtener el elemento de anclaje correspondiente (`<a>`) en la fila de cada legislador de la tabla. Puede usar el m√©todo `.select()` en el objeto `row` del bucle para hacerlo, de forma similar al comando que busca todas las celdas `td.detail` de la fila. Recuerde que solo necesitamos el enlace a los proyectos de ley del legislador, no a los comit√©s ni a su p√°gina de perfil.
* El HTML de los elementos de anclaje se ver√° como `<a href="/senate/Senator.asp/...">Proyectos de ley</a>`. La cadena del atributo `href` contiene el enlace **relativo** que buscamos. Puede acceder a un atributo de un objeto `Tag` de BeatifulSoup de la misma manera que accede a un diccionario de Python: `anchor['attributeName']`. Consulta la <a href="http://www.crummy.com/software/BeautifulSoup/bs4/doc/#tag">documentaci√≥n</a> para obtener m√°s detalles.
* Hay muchas maneras diferentes de usar BeautifulSoup. Puedes usar cualquier m√©todo para extraer el `href`.

El c√≥digo se ha completado parcialmente. Compl√©talo donde dice `#TU C√ìDIGO AQU√ç`. Guarda la ruta en un objeto llamado `full_path`.

In [None]:
# Make a GET request
req = requests.get('http://www.ilga.gov/senate/default.asp?GA=98')
# Read the content of the server‚Äôs response
src = req.text
# Soup it
soup = BeautifulSoup(src, "lxml")
# Create empty list to store our data
members = []

# Returns every ‚Äòtr tr tr‚Äô css selector in the page
rows = soup.select('tr tr tr')
# Get rid of junk rows
rows = [row for row in rows if row.select('td.detail')]

# Loop through all rows
for row in rows:
    # Select only those 'td' tags with class 'detail'
    detail_cells = row.select('td.detail') 
    # Keep only the text in each of those cells
    row_data = [cell.text for cell in detail_cells]
    # Collect information
    name = row_data[0]
    district = int(row_data[3])
    party = row_data[4]

    # YOUR CODE HERE
    full_path = ''

    # Store in a tuple
    senator = (name, district, party, full_path)
    # Append to list
    members.append(senator)

In [None]:
# Uncomment to test 
# members[:5]

## ü•ä  Desaf√≠o: Modulariza tu c√≥digo

Convierte el c√≥digo anterior en una funci√≥n que acepte una URL, rastree la URL para encontrar sus senadores y devuelva una lista de tuplas con informaci√≥n sobre cada senador. 

In [None]:
# YOUR CODE HERE
def get_members(url):
    return [___]


In [None]:
# Test your code
url = 'http://www.ilga.gov/senate/default.asp?GA=98'
senate_members = get_members(url)
len(senate_members)

## ü•ä Desaf√≠o pr√°ctico: Escribir una funci√≥n de scraping

Queremos scraping las p√°ginas web correspondientes a los proyectos de ley patrocinados por cada proyecto de ley.

Escribir una funci√≥n llamada `get_bills(url)` para analizar la URL de un proyecto de ley. Esto implica:

- Solicitar la URL mediante la biblioteca <a href="http://docs.python-requests.org/en/latest/">`requests`</a>
- Usar las funciones de la biblioteca `BeautifulSoup` para encontrar todos los elementos `<td>` con la clase `billlist`
- Devolver una _lista_ de tuplas, cada una con:
- Descripci√≥n (2.¬™ columna)
- C√°mara (S o H) (3.¬™ columna)
- La √∫ltima acci√≥n (4.¬™ columna)
- La fecha de la √∫ltima acci√≥n (5.¬™ columna)

Esta funci√≥n se ha completado parcialmente. Complete el resto.

In [None]:
def get_bills(url):
    src = requests.get(url).text
    soup = BeautifulSoup(src)
    rows = soup.select('tr')
    bills = []
    for row in rows:
        # YOUR CODE HERE
        #bill_id =
        #description =
        #chamber =
        #last_action =
        #last_action_date =
        bill = (bill_id, description, chamber, last_action, last_action_date)
        bills.append(bill)
    return bills

In [None]:
# Uncomment to test your code
# test_url = senate_members[0][3]
# get_bills(test_url)[0:5]

### Extraer todos los proyectos de ley

Finalmente, cree un diccionario `bills_dict` que asigne un n√∫mero de distrito (la clave) a una lista de proyectos de ley (el valor) provenientes de ese distrito. Puede hacerlo recorriendo en bucle todos los miembros del senado en `members_dict` y llamando a `get_bills()` para cada una de las URL de sus proyectos de ley asociados.

**NOTA:** Por favor, llame a la funci√≥n `time.sleep(1)` en cada iteraci√≥n del bucle para no destruir el sitio web del estado.

In [None]:
# YOUR CODE HERE


In [None]:
# Uncomment to test your code
# bills_dict[52]