# Python Web Scraping — ¡Pruébalo tú mismo!

Empecemos importando las librerías necesarias y analizando la página principal de [Books To Scrape](http://books.toscrape.com/index.html).

Cada párrafo de este documento es una *celda*, que puede contener otra descripción de texto o un fragmento de código Python ejecutable. 

Para ejecutar la celda, selecciónala y haz clic en "Run" en la barra de herramientas, o simplemente presiona `Shift-Enter`. Hacer doble clic en la celda te permite editar tu contenido.

**Tip de profesionales** 🤓: ¡Ejecuta tus celdas regularmente para detectar posibles errores temprano! 

In [1]:
import requests
from bs4 import BeautifulSoup

url = "http://books.toscrape.com/index.html"
response = requests.get(url)
html = response.content
scraped = BeautifulSoup(html, 'html.parser')

Después de **ejecutar** la celda de acá arriba, podrás usar la variable `scraped` para buscar elementos en la página.

In [None]:
# Ejecuta esta celda para ver cómo se hace:

scraped.h1

😲 ¡Si te sientes perdido, puedes refrescar tus conocimientos en la plataforma de aprendizaje dentro de la sección "Aprendizajes" y en las diapositivas de la clase!

### Desafío 1: Imprime el título de la página

Para imprimir resultados en Python, puedes usar la función `print()`. Puede tomar un valor literal como argumento (`print("hello")`, `print(2)`), o una variable — ¡en ese caso, la función imprimirá el valor al que se refiere la variable! 

```python
name = "Bob"
print(name) # => Bob
```

¡Recuerda que necesitas imprimir solo el _texto_ dentro de la etiqueta `<title>`, no el elemento completo!

In [3]:
# escribe tu código aquí



<details>
<summary>
    <strong>Ver la respuesta 🤫</strong>
</summary>
<pre>
title_text = scraped.title.text.strip()
print(title_text)
</pre>    
</details>

### Desafío 2: Imprime el título *completo* del primer libro en una página

Recuerda cómo ubicar un solo elemento con BeautifulSoup. Si te pierdes, revisa las diapositivas en la plataforma Learn, o visita la sección "Aprendizajes" para tener un resumen rápido.

In [None]:
# escribe tu código aquí



<details>
<summary>
    <strong>Ver respuesta 🤫</strong>
</summary>
<pre>
title = scraped.article.h3.a["title"]
print(title)
</pre>    
</details>

### Desafío 3: Imprime *todos* los títulos completos de la página

Usa los métodos Beautiful Soup que devuelven una _colección_ de elementos. Recuerda cómo hacer un **bucle** sobre ellos (`for.. in..` construct)

In [None]:
# escribe tu código aquí



<details>
<summary>
    <strong>Ver respuesta 🤫</strong>
</summary>
<pre>
links = scraped.find_all("a", title=True)
for link in links:
    print(link["title"])
</pre>    
</details>

### Desafío 4: Imprime todos los *precios* de la página

A continuaciòn te mostramos cómo deshacerte de un símbolo de moneda y convertir el texto a un valor numérico (dado que el valor del texto inicial está en una variable llamada `price`):

`price = float(price.text.lstrip("£"))`

Puedes usar un **selector de clase CSS** para esta tarea

In [None]:
# escribe tu código aquí



<details>
<summary>
    <strong>Ver respuesta  🤫</strong>
</summary>
<pre>
prices = scraped.select(".price_color")
for price in prices:
    price = float(price.text.lstrip("£"))
    print(price)
</pre>    
</details>

### Desafío 5: Obtén el precio correspondiente para cada título

Así es como debería verse la estructura de datos resultante (una lista de Diccionarios):

```
[{'Sharp Objects': 'WICKED above her hipbone, GIRL across her heart...'}, {'Sapiens: A Brief History of Humankind': 'From a renowned historian comes a groundbreaking narrative of humanity’s ...}]
```

Ten en cuenta que las descripciones reales serán mucho más largas.

Recordatorio sobre cómo puedes agregar un diccionario a una lista:

```python
title_prices = []

# Iterate over all articles 
    # Get article's title as `title` 
    # Get article's price as `price`
    title_prices.append({title: price})

```

In [None]:
title_prices = []

# escribe tu código aquí

    
print(title_prices)

<details>
<summary>
    <strong>Ver respuesta 🤫</strong>
</summary>
<pre>
title_prices = []

articles = scraped.select(".product_pod")

for article in articles:
    title = article.h3.a["title"]
    price = article.find("p", class_="price_color")
    price_float = float(price.text.lstrip("£"))
    title_prices.append({title: price_float}) # Create a Dictionary and append to Array
    
print(title_prices)
</pre>    
</details>

## Yendo más lejos

Ahora puedes hacer clic en el ícono "Save to browser storage" cerca de "Download" en la parte superior de este notebook. La próxima vez que te conectes a MyBinder, puedes restaurar tu trabajo haciendo clic en "Restore from browser storage". 

¡Tómate todo el tiempo que necesites para crear un scraper para cualquier página web que quieras! Ten en cuenta que la información que estás tratando de scrapear debe ser de acceso público y no protegido por nombre de usuario/contraseña.

In [41]:
# Escribe tu código para un scraper completo cuando te apetezca :)