# Web Scraping em Python — Experimente você mesmo!

Vamos começar importando as bibliotecas necessárias e analisando a primeira página do site [Books To Scrape](http://books.toscrape.com/index.html).

Cada parágrafo deste documento é uma *cell*, que pode conter outra descrição de texto, ou um snipper de código Python executável. 

Para executar a célula, selecione-a e clique em "Run" na barra de ferramentas, ou simplesmente pressione `Shift-Enter`. Clicar duas vezes na célula permite editar seu conteúdo.

**Dica de PRO*** 🤓:  Execute suas células com freqüência para detectar possíveis erros antecipadamente!

In [1]:
import requests
from bs4 import BeautifulSoup

url = "http://books.toscrape.com/index.html"
response = requests.get(url)
html = response.content
scraped = BeautifulSoup(html, 'html.parser')

Depois de **executar** uma célula acima, você poderá utilizar a variável `scraped` para procurar elementos na página.

In [None]:
# Execute esta célula para ver como:

scraped.h1

😲 Se você se sentir perdido, você pode atualizar seus conhecimentos na plataforma Learn dentro da seção "Takeaways" e em slides de palestras!

### Desafio 1: Imprimir o título da página

Para imprimir algum output em Python, você pode utilizar a função `print()`. Ela pode tomar um valor literal como argumento (`print("hello")`, `print(2)`), ou uma variável - nesse caso a função imprimirá o valor a que a variável se refere! 

```python
name = "Bob"
print(name) # => Bob
```

Lembre-se que você precisa imprimir apenas o _text_ dentro da tag `<title>`, não o elemento inteiro!

In [3]:
# escreva seu código aqui



<details>
<summary>
    <strong>Revelar a resposta 🤫</strong>
</summary>
<pre>
title_text = scraped.title.text.strip()
print(title_text)
</pre>    
</details>

### Desafio 2: Imprimir o título *inteiro* do primeiro book em uma página

Lembre-se de como localizar um único elemento com BeautifulSoup. Se perdido, revisite os slides na plataforma Learn, ou visite a seção "Takeaways" para uma rápida recapitulação.

In [1]:
# escreva seu código aqui



<details>
<summary>
    <strong>Revelar a resposta 🤫</strong>
</summary>
<pre>
title = scraped.article.h3.a["title"]
print(title)
</pre>    
</details>

### Desafio 3: Imprimir *todos* os títulos completos da página

Use os métodos da BeautifulSoup que devolvem uma _collection_ de elementos. Lembre-se de como **loop** sobre eles (`for.. in..`)

In [2]:
# escreva seu código aqui



<details>
<summary>
    <strong>Revelar a resposta 🤫</strong>
</summary>
<pre>
links = scraped.find_all("a", title=True)
for link in links:
    print(link["title"])
</pre>    
</details>

### Desafio 4: Imprimir todos os *preços* a partir da página

Veja como você pode se livrar de um símbolo de moeda e converter texto para um valor numérico (dado que o valor do texto inital está em uma variável chamada `price`):

`price = float(price.text.lstrip("£"))`

Pode usar um **CSS class selector** para fazer isso

In [3]:
# escreva seu código aqui



<details>
<summary>
    <strong>Revelar a resposta 🤫</strong>
</summary>
<pre>
prices = scraped.select(".price_color")
for price in prices:
    price = float(price.text.lstrip("£"))
    print(price)
</pre>    
</details>

### Desafio 5: Obtenha um preço correspondente para cada título

Esta é a aparência da estrutura de dados resultante (uma Lista de Dictionaries):

```
[{'Sharp Objects': 'WICKED above her hipbone, GIRL across her heart...'}, {'Sapiens: A Brief History of Humankind': 'From a renowned historian comes a groundbreaking narrative of humanity’s ...}]
```

Note que as descrições reais serão muito mais longas.

Um lembrete sobre como você pode integrar um Dictionary em uma List:

```python
title_prices = []

# Iterate over all articles 
    # Get article's title as `title` 
    # Get article's price as `price`
    title_prices.append({title: price})

```

In [4]:
title_prices = []

# escreva seu código aqui

    
print(title_prices)

[]


<details>
<summary>
    <strong>Revelar a resposta 🤫</strong>
</summary>
<pre>
title_prices = []

articles = scraped.select(".product_pod")

for article in articles:
    title = article.h3.a["title"]
    price = article.find("p", class_="price_color")
    price_float = float(price.text.lstrip("£"))
    title_prices.append({title: price_float}) # Create a Dictionary and append to Array
    
print(title_prices)
</pre>    
</details>

## Para ir alem

Agora você pode clicar no ícone "Save to browser storage" ao lado de "Download" no topo deste notebook. Da próxima vez que você se conectar ao MyBinder, você poderá restaurar seu trabalho clicando em "Restore from browser storage". 

Leve o tempo que você precisar para construir um scraper para qualquer site que você quiser! Tenha em mente que as informações que você está tentando scraping devem estar em acesso público e não devem ser protegidas por login/senha.

In [41]:
# # escreva seu código aqui para um scraper completo quando se sentir pronto :)