**Web Scraping con Beautiful Soup**  
Íconos usados en este cuaderno

🔔 **Pregunta**: Una pregunta rápida para ayudarte a entender lo que está pasando.  
🥊 **Desafío**: Ejercicio interactivo. ¡Trabajaremos en ellos durante el taller!  
⚠️ **Advertencia**: Aviso sobre aspectos complicados o errores comunes.  
💡 **Consejo**: Cómo hacer algo de manera más eficiente o efectiva.  
🎬 **Demostración**: Presentando algo más avanzado, para que veas para qué se puede usar Python.

### **Objetivos de aprendizaje**

1. **Reflexión**: ¿Hacer scraping o no hacerlo?
2. **Extracción y análisis de HTML**
3. **Scraping de la Asamblea General de Illinois**


In [None]:
### **Hacer Scraping o No Hacer Scraping**

Cuando queremos acceder a datos desde la web, primero debemos verificar si el sitio web de nuestro interés ofrece una API web. Plataformas como Twitter, Reddit y el New York Times ofrecen APIs. Si quieres aprender a usarlas, consulta el taller de APIs web en Python de D-Lab.

Sin embargo, a veces no existe una API web disponible. En estos casos, podemos recurrir al **web scraping**, donde extraemos el HTML subyacente de una página web para obtener directamente la información que necesitamos. Existen varios paquetes en Python que nos ayudan a realizar estas tareas. Nos enfocaremos en dos paquetes: **Requests** y **Beautiful Soup**.

Nuestro caso de estudio será el scraping de información sobre los **senadores estatales de Illinois**, así como la lista de proyectos de ley que ha patrocinado cada senador. Antes de comenzar, explora estos sitios web para familiarizarte con su estructura.


### **Instalación**

Utilizaremos dos paquetes principales: **Requests** y **Beautiful Soup**. Si aún no los tienes instalados, puedes hacerlo con el siguiente comando:


In [1]:
%pip install requests

Note: you may need to restart the kernel to use updated packages.


In [2]:
%pip install beautifulsoup4

Note: you may need to restart the kernel to use updated packages.


In [None]:
También instalaremos el paquete **lxml**, que ayuda a mejorar el análisis de datos que realiza Beautiful Soup. Puedes instalarlo con el siguiente comando:

In [3]:
%pip install lxml

Note: you may need to restart the kernel to use updated packages.


In [4]:
#Import required libraries
from bs4 import BeautifulSoup
from datetime import datetime
import requests
import time


In [None]:
### **Extracción y Análisis de HTML**

Para hacer **web scraping** y analizar HTML con éxito, seguiremos estos **cuatro pasos**:

1.  **Hacer una solicitud GET** 
2.  **Analizar la página con Beautiful Soup**   
3.  **Buscar elementos HTML** 
4.  **Obtener los atributos y el texto de estos elementos** 


In [None]:
### **Paso 1: Hacer una Solicitud GET para Obtener el HTML de una Página**

Podemos usar la biblioteca **Requests** para:

1.  **Hacer una solicitud GET** a la página web.    
2.  **Leer el código HTML** de la página.
    
El proceso de hacer una solicitud y obtener un resultado es similar al flujo de trabajo de una API web. Sin embargo, en este caso, estamos haciendo la solicitud **directamente al sitio web**, y **tendremos que analizar el HTML nosotros mismos**. Esto es diferente de obtener datos organizados en un formato más estructurado, como **JSON** o **XML**.


In [5]:
#Make a GET request
req = requests.get('http://www.ilga.gov/senate/default.asp')
#Read the content of the server’s response
src = req.text
#View some output
print(src[:1000])


<html lang="en"> 
<!-- Trigger/Open The Modal -->
<div style="position: fixed; z-index: 999; top: 5; left: 600; background-color: navy; display: block">
<button id="myBtn" style="color: white; background-color: navy; display: block">Translate Website</button></div>
<!-- The Modal -->
<div id="myModal" class="modal" style="display: none">
  <!-- Modal content -->
  <div class="modal-content">
      <div class="modal-header"><h3>
    <span class="close">&times;</span></h3></div>    
    <p>The Illinois General Assembly offers the Google Translate service for visitor convenience. In no way should it be considered accurate as to the translation of any content herein.</p>
    <p>Visitors of the Illinois General Assembly website are encouraged to use other translation services available on the internet.</p>
    <p>The English language version is always the official and authoritative version of this website.</p>
    <p>NOTE: To return to the original English language version, se


In [None]:
### **Paso 2: Analizar la Página con Beautiful Soup**

Ahora usaremos la función **BeautifulSoup** para **convertir la respuesta en una estructura de árbol HTML**. Esto nos devuelve un objeto llamado **soup object**, que contiene todo el HTML del documento original.

Si te encuentras con un error relacionado con una biblioteca de análisis (**parser**), asegúrate de que tienes instalado el paquete **lxml**, ya que proporciona a Beautiful Soup las herramientas necesarias para procesar el HTML.


In [6]:
#Parse the response into an HTML tree
soup = BeautifulSoup(src, 'lxml')
#Take a look
print(soup.prettify()[:1000])


<html lang="en">
 <!-- Trigger/Open The Modal -->
 <body>
  <div style="position: fixed; z-index: 999; top: 5; left: 600; background-color: navy; display: block">
   <button id="myBtn" style="color: white; background-color: navy; display: block">
    Translate Website
   </button>
  </div>
  <!-- The Modal -->
  <div class="modal" id="myModal" style="display: none">
   <!-- Modal content -->
   <div class="modal-content">
    <div class="modal-header">
     <h3>
      <span class="close">
       ×
      </span>
     </h3>
    </div>
    <p>
     The Illinois General Assembly offers the Google Translate service for visitor convenience. In no way should it be considered accurate as to the translation of any content herein.
    </p>
    <p>
     Visitors of the Illinois General Assembly website are encouraged to use other translation services available on the internet.
    </p>
    <p>
     The English language version is always the official and authoritative version of this website.
   

In [None]:
La salida se ve bastante similar a la anterior, pero ahora está organizada en un **objeto soup**, lo que nos permite recorrer la página de manera más sencilla y estructurada

In [None]:
### **Paso 3: Buscar Elementos HTML**

Beautiful Soup cuenta con varias funciones para encontrar componentes útiles en una página. Beautiful Soup permite encontrar elementos por: 

-   **Etiquetas HTML** 
-   **Atributos HTML** 
-   **Selectores CSS**
    
#### **Buscar por Etiquetas HTML**

La función **`find_all`** busca en el árbol de **soup** y devuelve **todos los elementos** que coincidan con una etiqueta HTML específica.

¿Qué hace el siguiente ejemplo?


In [7]:
#Find all elements with a certain tag
a_tags = soup.find_all("a")
print(a_tags[:10])


[<a class="goog-logo-link" href="https://translate.google.com" target="_blank"><img alt="Google Translate" height="14" src="https://www.gstatic.com/images/branding/googlelogo/1x/googlelogo_color_42x16dp.png" style="padding-right: 3px;" width="37"/>Translate</a>, <a href="/default.asp"><img alt="Illinois General Assembly" border="0" height="49" src="/images/logo_sm.gif" width="462"/></a>, <a class="mainmenu" href="/">Home</a>, <a class="mainmenu" href="/legislation/" onblur="HM_f_PopDown('elMenu1')" onfocus="HM_f_PopUp('elMenu1',event)" onmouseout="HM_f_PopDown('elMenu1')" onmouseover="HM_f_PopUp('elMenu1',event)">Legislation &amp; Laws</a>, <a class="mainmenu" href="/senate/" onblur="HM_f_PopDown('elMenu3')" onfocus="HM_f_PopUp('elMenu3',event)" onmouseout="HM_f_PopDown('elMenu3')" onmouseover="HM_f_PopUp('elMenu3',event)">Senate</a>, <a class="mainmenu" href="/house/" onblur="HM_f_PopDown('elMenu2')" onfocus="HM_f_PopUp('elMenu2',event)" onmouseout="HM_f_PopDown('elMenu2')" onmouseove

In [None]:
Porque `find_all()` es el método más popular en la API de búsqueda de Beautiful Soup, puedes usar un atajo para ello. Si tratas el objeto BeautifulSoup como si fuera una función, entonces es lo mismo que llamar a `find_all()` en ese objeto.

Estas dos líneas de código son equivalentes:


In [8]:
a_tags = soup.find_all("a")
a_tags_alt = soup("a")
print(a_tags[0])
print(a_tags_alt[0])


<a class="goog-logo-link" href="https://translate.google.com" target="_blank"><img alt="Google Translate" height="14" src="https://www.gstatic.com/images/branding/googlelogo/1x/googlelogo_color_42x16dp.png" style="padding-right: 3px;" width="37"/>Translate</a>
<a class="goog-logo-link" href="https://translate.google.com" target="_blank"><img alt="Google Translate" height="14" src="https://www.gstatic.com/images/branding/googlelogo/1x/googlelogo_color_42x16dp.png" style="padding-right: 3px;" width="37"/>Translate</a>


In [None]:
¿Cuántos enlaces obtuvimos?

In [9]:
print(len(a_tags))

213


In [None]:
¡Eso es mucho! Muchos elementos en una página tendrán la misma etiqueta HTML. Por ejemplo, si buscas todo lo que tenga la etiqueta a, es probable que obtengas más resultados, muchos de los cuales quizás no desees. Recuerda que la etiqueta a define un hipervínculo, por lo que generalmente encontrarás muchos en cualquier página dada.

¿Qué pasaría si quisiéramos buscar etiquetas HTML con ciertos atributos, como clases CSS particulares?

Podemos hacer esto añadiendo un argumento adicional a `find_all`. En el ejemplo a continuación, estamos encontrando todas las etiquetas a y luego filtrando aquellas con `class_="sidemenu"`.


In [10]:
#Get only the 'a' tags in 'sidemenu' class
side_menus = soup("a", class_="sidemenu")
side_menus[:5]


[<a class="sidemenu" href="/senate/default.asp">  Members  </a>,
 <a class="sidemenu" href="/senate/committees/default.asp">  Committees  </a>,
 <a class="sidemenu" href="/senate/schedules/default.asp">  Schedules  </a>,
 <a class="sidemenu" href="/senate/journals/default.asp">  Journals  </a>,
 <a class="sidemenu" href="/senate/transcripts/default.asp">  Transcripts  </a>]

In [None]:
Una forma más eficiente de buscar elementos en un sitio web es a través de un selector CSS. Para esto, tenemos que usar un método diferente llamado `select()`. Simplemente pasa una cadena al `.select()` para obtener todos los elementos que tengan esa cadena como un selector CSS válido.

En el ejemplo anterior, podemos usar "a.sidemenu" como un selector CSS, que devuelve todas las etiquetas a con la clase sidemenu.


In [11]:
#Get elements with "a.sidemenu" CSS Selector.
selected = soup.select("a.sidemenu")
selected[:5]


[<a class="sidemenu" href="/senate/default.asp">  Members  </a>,
 <a class="sidemenu" href="/senate/committees/default.asp">  Committees  </a>,
 <a class="sidemenu" href="/senate/schedules/default.asp">  Schedules  </a>,
 <a class="sidemenu" href="/senate/journals/default.asp">  Journals  </a>,
 <a class="sidemenu" href="/senate/transcripts/default.asp">  Transcripts  </a>]

In [None]:
### **Paso 4: Obtener Atributos y Texto de los Elementos**

Una vez que identificamos los elementos, queremos acceder a la información dentro de ellos. Generalmente, esto significa dos cosas:

-   **Texto** 
-   **Atributos** 

Obtener el texto dentro de un elemento es fácil. Solo necesitamos usar la propiedad **`.text`** de un objeto de etiqueta:


In [12]:
#Get all sidemenu links as a list
side_menu_links = soup.select("a.sidemenu")

#Examine the first link
first_link = side_menu_links[0]
print(first_link)

#What class is this variable?
print('Class: ', type(first_link))


<a class="sidemenu" href="/senate/default.asp">  Members  </a>
Class:  <class 'bs4.element.Tag'>


In [None]:
¡Es una etiqueta de Beautiful Soup! Esto significa que tiene un miembro de texto:

In [13]:
print(first_link.text)

  Members  


In [None]:
A veces queremos el valor de ciertos atributos. Esto es particularmente relevante para las etiquetas a, o enlaces, donde el atributo href nos indica a dónde lleva el enlace.

💡 Consejo: Puedes acceder a los atributos de una etiqueta tratándola como un diccionario:


In [14]:
print(first_link['href'])

/senate/default.asp


In [None]:
## **Scraping la Asamblea General de Illinois**

Créalo o no, esas son realmente las herramientas fundamentales que necesitas para raspar un sitio web. Una vez que dediques más tiempo a familiarizarte con HTML y CSS, simplemente se trata de entender la estructura de un sitio web en particular y aplicar inteligentemente las herramientas de Beautiful Soup y Python.

Apliquemos estas habilidades para raspar la 98ª Asamblea General de Illinois.

Específicamente, nuestro objetivo es raspar información sobre cada senador, incluyendo su nombre, distrito y partido.

### **Scrapear y Analizar la Página Web**

Ahora vamos a **scrapear** y **parsear** la página web utilizando las herramientas que aprendimos en la sección anterior. 


In [15]:
#Make a GET request
req = requests.get('http://www.ilga.gov/senate/default.asp?GA=98')
#Read the content of the server’s response
src = req.text
#Soup it
soup = BeautifulSoup(src, "lxml")


In [None]:
### **Buscar los elementos de la tabla**

Nuestro objetivo es obtener los elementos de la tabla en la página web. Recuerda: las filas se identifican por la etiqueta **tr**. Vamos a usar **find_all** para obtener estos elementos.


In [16]:
#Get all table row elements
rows = soup.find_all("tr")
len(rows)


73

In [None]:
⚠️ **Advertencia:** Ten en cuenta que **`find_all`** obtiene **todos** los elementos con la etiqueta `<tr>`. Sin embargo, solo queremos algunos de ellos.

Si usamos la función **"Inspeccionar"** en Google Chrome y observamos con atención, podemos utilizar **selectores CSS** para obtener solo las filas que nos interesan.

Específicamente, queremos **las filas internas** de la tabla.


In [17]:
#Returns every ‘tr tr tr’ css selector in the page
rows = soup.select('tr tr tr')

for row in rows[:5]:
    print(row, '\n')


<tr><td colspan="5">
<span class="heading">Illinois State Senators</span>
<span class="italics">  98th  General Assembly</span><br/>
<!-- 3/2/09 temp comment out until fixed for GA specific-->
<!-- add 97th ga currently no info -->
<a href="98GA_Senate_Leadership.pdf">Leadership</a> <a href="98th_Senate_Officers.pdf">Officers</a> <a href="98GA_Senate_Seating_Chart.pdf">Senate Seating Chart</a>  <span class="content"><b>Democrats:</b> 40   <b>Republicans:</b> 19</span><br/>
</td></tr> 

<tr>
<td class="header" width="45%"><a class="filetab" href="javascript:Sort('LastName','',98);" title="Sort by Senator">Senator</a></td>
<td align="center" class="header" width="15%">Bills</td>
<td align="center" class="header" width="10%">Committees</td>
<td align="center" class="header" width="15%"><a class="filetab" href="javascript:Sort('DistrictNumber','',98);" title="Sort by District">District</a></td>
<td align="center" class="header" width="15%"><a class="filetab" href="javascript:Sort('Party','

In [None]:
Parece que necesitamos todo después de las **primeras dos filas**.

Comencemos trabajando con una sola fila y, a partir de ahí, construiremos nuestro bucle. 


In [18]:
example_row = rows[2]
print(example_row.prettify())


<tr>
 <td bgcolor="white" class="detail" width="40%">
  <a class="notranslate" href="/senate/Senator.asp?GA=98&amp;MemberID=1911">
   Pamela J. Althoff
  </a>
 </td>
 <td align="center" bgcolor="white" class="detail" width="15%">
  <a href="SenatorBills.asp?GA=98&amp;MemberID=1911">
   Bills
  </a>
 </td>
 <td align="center" bgcolor="white" class="detail" width="15%">
  <a href="SenCommittees.asp?GA=98&amp;MemberID=1911">
   Committees
  </a>
 </td>
 <td align="center" bgcolor="white" class="detail" width="15%">
  32
 </td>
 <td align="center" bgcolor="white" class="detail" width="15%">
  R
 </td>
</tr>



In [None]:
Desglosaremos esta fila en sus **celdas/columnas** usando el método **`select`** con **selectores CSS**.

Si observamos detenidamente el HTML, hay varias formas de hacerlo:

1.  Podemos identificar las celdas por su etiqueta **`td`**.    
2.  Podemos usar el nombre de la clase **`.detail`**.    
3.  Podemos combinar ambos y usar el selector **`td.detail`**. 


In [19]:
for cell in example_row.select('td'):
    print(cell)
print()

for cell in example_row.select('.detail'):
    print(cell)
print()

for cell in example_row.select('td.detail'):
    print(cell)
print()


<td bgcolor="white" class="detail" width="40%"><a class="notranslate" href="/senate/Senator.asp?GA=98&amp;MemberID=1911">Pamela J. Althoff</a></td>
<td align="center" bgcolor="white" class="detail" width="15%"><a href="SenatorBills.asp?GA=98&amp;MemberID=1911">Bills</a></td>
<td align="center" bgcolor="white" class="detail" width="15%"><a href="SenCommittees.asp?GA=98&amp;MemberID=1911">Committees</a></td>
<td align="center" bgcolor="white" class="detail" width="15%">32</td>
<td align="center" bgcolor="white" class="detail" width="15%">R</td>

<td bgcolor="white" class="detail" width="40%"><a class="notranslate" href="/senate/Senator.asp?GA=98&amp;MemberID=1911">Pamela J. Althoff</a></td>
<td align="center" bgcolor="white" class="detail" width="15%"><a href="SenatorBills.asp?GA=98&amp;MemberID=1911">Bills</a></td>
<td align="center" bgcolor="white" class="detail" width="15%"><a href="SenCommittees.asp?GA=98&amp;MemberID=1911">Committees</a></td>
<td align="center" bgcolor="white" class

In [None]:
Podemos confirmar que todas estas opciones producen el mismo resultado. 

In [20]:
assert example_row.select('td') == example_row.select('.detail') == example_row.select('td.detail')

In [None]:
Utilicemos el selector **`td.detail`** para ser lo más específicos posible. 

In [21]:
#Select only those 'td' tags with class 'detail' 
detail_cells = example_row.select('td.detail')
detail_cells


[<td bgcolor="white" class="detail" width="40%"><a class="notranslate" href="/senate/Senator.asp?GA=98&amp;MemberID=1911">Pamela J. Althoff</a></td>,
 <td align="center" bgcolor="white" class="detail" width="15%"><a href="SenatorBills.asp?GA=98&amp;MemberID=1911">Bills</a></td>,
 <td align="center" bgcolor="white" class="detail" width="15%"><a href="SenCommittees.asp?GA=98&amp;MemberID=1911">Committees</a></td>,
 <td align="center" bgcolor="white" class="detail" width="15%">32</td>,
 <td align="center" bgcolor="white" class="detail" width="15%">R</td>]

In [None]:
La mayor parte del tiempo, estamos interesados en el texto real de un sitio web, no en sus etiquetas. Recuerda que para obtener el texto de un elemento HTML, usamos el atributo text:

In [22]:
#Keep only the text in each of those cells
row_data = [cell.text for cell in detail_cells]

print(row_data)


['Pamela J. Althoff', 'Bills', 'Committees', '32', 'R']


In [None]:
¡Se ve bien! Ahora solo necesitamos usar nuestros conocimientos básicos de Python para obtener los elementos de esta lista que queremos. Recuerda, queremos el nombre del senador, su distrito y su partido.

In [23]:
print(row_data[0]) # Name
print(row_data[3]) # District
print(row_data[4]) # Party


Pamela J. Althoff
32
R


In [None]:
### **Eliminar Filas No Deseadas**

Vimos al principio que no todas las filas que obtuvimos corresponden realmente a un senador. Necesitaremos hacer algo de limpieza antes de poder continuar. Echa un vistazo a algunos ejemplos:


In [24]:
print('Row 0:\n', rows[0], '\n')
print('Row 1:\n', rows[1], '\n')
print('Last Row:\n', rows[-1])


Row 0:
 <tr><td colspan="5">
<span class="heading">Illinois State Senators</span>
<span class="italics">  98th  General Assembly</span><br/>
<!-- 3/2/09 temp comment out until fixed for GA specific-->
<!-- add 97th ga currently no info -->
<a href="98GA_Senate_Leadership.pdf">Leadership</a> <a href="98th_Senate_Officers.pdf">Officers</a> <a href="98GA_Senate_Seating_Chart.pdf">Senate Seating Chart</a>  <span class="content"><b>Democrats:</b> 40   <b>Republicans:</b> 19</span><br/>
</td></tr> 

Row 1:
 <tr>
<td class="header" width="45%"><a class="filetab" href="javascript:Sort('LastName','',98);" title="Sort by Senator">Senator</a></td>
<td align="center" class="header" width="15%">Bills</td>
<td align="center" class="header" width="10%">Committees</td>
<td align="center" class="header" width="15%"><a class="filetab" href="javascript:Sort('DistrictNumber','',98);" title="Sort by District">District</a></td>
<td align="center" class="header" width="15%"><a class="filetab" href="javascrip

In [None]:
Cuando escribamos nuestro bucle **_for_**, queremos que solo se aplique a las filas relevantes. Por lo tanto, necesitaremos filtrar las filas irrelevantes. La forma de hacerlo es compararlas con las filas que sí queremos, ver en qué se diferencian y luego formular una condición basada en esas diferencias.

Como puedes imaginar, hay muchas formas posibles de hacerlo, y dependerá del sitio web. Mostraremos algunas aquí para darte una idea de cómo hacerlo.


In [25]:
#Bad rows
print(len(rows[0]))
print(len(rows[1]))

#Good rows
print(len(rows[2]))
print(len(rows[3]))


1
11
5
5


In [None]:
Quizás las filas correctas tengan una longitud de 5. Vamos a comprobarlo:

In [27]:
good_rows = [row for row in rows if len(row) == 5]
#Let's check some rows
print(good_rows[0], '\n')
print(good_rows[-2], '\n')
print(good_rows[-1])


<tr><td bgcolor="white" class="detail" width="40%"><a class="notranslate" href="/senate/Senator.asp?GA=98&amp;MemberID=1911">Pamela J. Althoff</a></td><td align="center" bgcolor="white" class="detail" width="15%"><a href="SenatorBills.asp?GA=98&amp;MemberID=1911">Bills</a></td><td align="center" bgcolor="white" class="detail" width="15%"><a href="SenCommittees.asp?GA=98&amp;MemberID=1911">Committees</a></td><td align="center" bgcolor="white" class="detail" width="15%">32</td><td align="center" bgcolor="white" class="detail" width="15%">R</td></tr> 

<tr><td bgcolor="white" class="detail" width="40%"><a class="notranslate" href="/senate/Senator.asp?GA=98&amp;MemberID=2035">Patricia Van Pelt</a></td><td align="center" bgcolor="white" class="detail" width="15%"><a href="SenatorBills.asp?GA=98&amp;MemberID=2035">Bills</a></td><td align="center" bgcolor="white" class="detail" width="15%"><a href="SenCommittees.asp?GA=98&amp;MemberID=2035">Committees</a></td><td align="center" bgcolor="white

In [None]:
Encontramos una fila de pie de página en nuestra lista que queremos evitar. Probemos otra cosa:

In [28]:
rows[2].select('td.detail') 

[<td bgcolor="white" class="detail" width="40%"><a class="notranslate" href="/senate/Senator.asp?GA=98&amp;MemberID=1911">Pamela J. Althoff</a></td>,
 <td align="center" bgcolor="white" class="detail" width="15%"><a href="SenatorBills.asp?GA=98&amp;MemberID=1911">Bills</a></td>,
 <td align="center" bgcolor="white" class="detail" width="15%"><a href="SenCommittees.asp?GA=98&amp;MemberID=1911">Committees</a></td>,
 <td align="center" bgcolor="white" class="detail" width="15%">32</td>,
 <td align="center" bgcolor="white" class="detail" width="15%">R</td>]

In [29]:
#Bad row
print(rows[-1].select('td.detail'), '\n')

#Good row
print(rows[5].select('td.detail'), '\n')

#How about this?
good_rows = [row for row in rows if row.select('td.detail')]

print("Checking rows...\n")
print(good_rows[0], '\n')
print(good_rows[-1])


[] 

[<td bgcolor="EBEBEB" class="detail" width="40%"><a class="notranslate" href="/senate/Senator.asp?GA=98&amp;MemberID=2022">Jennifer Bertino-Tarrant</a></td>, <td align="center" bgcolor="EBEBEB" class="detail" width="15%"><a href="SenatorBills.asp?GA=98&amp;MemberID=2022">Bills</a></td>, <td align="center" bgcolor="EBEBEB" class="detail" width="15%"><a href="SenCommittees.asp?GA=98&amp;MemberID=2022">Committees</a></td>, <td align="center" bgcolor="EBEBEB" class="detail" width="15%">49</td>, <td align="center" bgcolor="EBEBEB" class="detail" width="15%">D</td>] 

Checking rows...

<tr><td bgcolor="white" class="detail" width="40%"><a class="notranslate" href="/senate/Senator.asp?GA=98&amp;MemberID=1911">Pamela J. Althoff</a></td><td align="center" bgcolor="white" class="detail" width="15%"><a href="SenatorBills.asp?GA=98&amp;MemberID=1911">Bills</a></td><td align="center" bgcolor="white" class="detail" width="15%"><a href="SenCommittees.asp?GA=98&amp;MemberID=1911">Committees</a></

In [None]:
¡Parece que encontramos algo que funcionó!

In [None]:
### **Recorriéndolo Todo**

Ahora que hemos visto cómo obtener los datos que queremos de una fila y cómo filtrar las filas que no necesitamos, juntémoslo todo en un bucle.


In [30]:
#Define storage list
members = []

#Get rid of junk rows
valid_rows = [row for row in rows if row.select('td.detail')]

#Loop through all rows
for row in valid_rows:
    # Select only those 'td' tags with class 'detail'
    detail_cells = row.select('td.detail')
    # Keep only the text in each of those cells
    row_data = [cell.text for cell in detail_cells]
    # Collect information
    name = row_data[0]
    district = int(row_data[3])
    party = row_data[4]
    # Store in a tuple
    senator = (name, district, party)
    # Append to list
    members.append(senator)


In [31]:
#Should be 61
len(members)


61

In [None]:
Echemos un vistazo a lo que tenemos en **_members_**.

In [32]:
print(members[:5])

[('Pamela J. Althoff', 32, 'R'), ('Jason A. Barickman', 53, 'R'), ('Scott M Bennett', 52, 'D'), ('Jennifer Bertino-Tarrant', 49, 'D'), ('Daniel Biss', 9, 'D')]
