# Exercícios BeautifulSoup4 - Quotes to Scrape 
 
## Prof. Thiago Bluhm 
### Site: http://quotes.toscrape.com 
#### Objetivo: Aprender web scraping com BeautifulSoup4 através de exercícios práticos passo a passo. 


In [1]:
# Preparação Inicial 
import requests

from urllib.request import urlopen 
from bs4 import BeautifulSoup


#### EXERCÍCIO 1: Configuração Básica 

Questão: Abra o site http://quotes.toscrape.com usando urlopen e crie uma instância do BeautifulSoup. Imprima o título da página. 

Resultado esperado: Título da página: Quotes to Scrape

In [2]:
# Abrir conexão com o site 
url = 'http://quotes.toscrape.com'
html = urlopen(url=url) 
 
# Instanciar BeautifulSoup 
soup = BeautifulSoup(html, 'html.parser') 

print(f'{soup.title.text}')

Quotes to Scrape


#### EXERCÍCIO 2: Primeira Quote 
Questão: Encontre e imprima o texto da primeira quote (citação class ‘text’) da página. 

Resultado esperado: 'The world as we have created it is a process of our thinking...' 

In [3]:
# Seu código aqui (use soup.find) 
print(f'{soup.find('span', class_='text').text}')


“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”


#### EXERCÍCIO 3: Autor da Primeira Quote 
Questão: Encontre e imprima o nome do autor da primeira quote. 
       
Resultado esperado: Autor: Albert Einstein 

In [4]:
# Seu código aqui (procure por small e class author) 
print(f'{soup.find('small', class_='author').text}')

Albert Einstein


#### EXERCÍCIO 4: Tags da Primeira Quote 
Questão: Encontre e imprima todas as tags (palavras-chave) da primeira quote. 

Resultado esperado: 

Tags da primeira quote: 
- change 
- deep-thoughts 
- thinking 
- world 

In [5]:
# Seu código aqui (procure por div com class tags)
print(f'{soup.find('div', class_='tags').text}')


            Tags:
            
change
deep-thoughts
thinking
world



#### EXERCÍCIO 5: Contar Total de Quotes 
Questão: Conte quantas quotes existem na primeira página. 

Resultado esperado: Total de quotes na página: 10 

In [6]:
# Seu código aqui (use find_all)
len(soup.find_all('div', class_='quote'))

10

#### EXERCÍCIO 6: Lista de Todos os Autores 
Questão: Crie uma lista com todos os autores únicos da página (sem repetições). 

Resultado esperado: Lista de 10 autores únicos ordenados alfabeticamente. 

In [7]:
# Seu código aqui (use set para eliminar duplicatas)
import re

bs_autores = set(soup.find_all('small', class_='author'))

regex = r'>(.*?)<'
autores = []
for bs_autor in list(bs_autores):        
    autores.append(re.findall(regex, str(bs_autor))[0])

sorted(autores)

['Albert Einstein',
 'André Gide',
 'Eleanor Roosevelt',
 'J.K. Rowling',
 'Jane Austen',
 'Marilyn Monroe',
 'Steve Martin',
 'Thomas A. Edison']

#### EXERCÍCIO 7: Quote Mais Longa 
Questão: Encontre qual é a quote mais longa (maior número de caracteres) e imprima ela com seu autor. 

In [8]:
maior = 0
quote = {}
for i in soup.find_all('div', class_='quote'):
    if len(i.text) > maior:
        maior = len(i.text)
        quote['tamanho'] = maior
        quote['quote'] = i
        quote['autor'] = i.find('small', class_='author').text


for k, v in quote.items():
    print(f'{k} --> {v}')

tamanho --> 235
quote --> <div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
<span class="text" itemprop="text">“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”</span>
<span>by <small class="author" itemprop="author">Albert Einstein</small>
<a href="/author/Albert-Einstein">(about)</a>
</span>
<div class="tags">
            Tags:
            <meta class="keywords" content="inspirational,life,live,miracle,miracles" itemprop="keywords"/>
<a class="tag" href="/tag/inspirational/page/1/">inspirational</a>
<a class="tag" href="/tag/life/page/1/">life</a>
<a class="tag" href="/tag/live/page/1/">live</a>
<a class="tag" href="/tag/miracle/page/1/">miracle</a>
<a class="tag" href="/tag/miracles/page/1/">miracles</a>
</div>
</div>
autor --> Albert Einstein


#### EXERCÍCIO 8: Buscar por Autor Específico 

Questão: Encontre todas as quotes de 'Albert Einstein' na página. 

In [9]:
for i in soup.find_all('small', class_='author'):
    if 'Albert Einstein' in i:
        print(i)

<small class="author" itemprop="author">Albert Einstein</small>
<small class="author" itemprop="author">Albert Einstein</small>
<small class="author" itemprop="author">Albert Einstein</small>


### EXERCÍCIO 9: Tags Mais Populares 

Questão: Conte quantas vezes cada tag aparece na página e mostre as 5 mais populares. 


In [10]:
# Seu código aqui (use Counter ou dicionário) 
from collections import Counter

regex = r'>(.*?)<'
tags = []
for bs_autor in soup.find_all('a', class_='tag'):        
    tags.append(re.findall(regex, str(bs_autor))[0])

print(Counter(tags).most_common(5))

[('inspirational', 4), ('life', 3), ('humor', 3), ('books', 2), ('love', 2)]


#### EXERCÍCIO 10: Navegação - Links do Menu 
Questão: Encontre todos os links de navegação no menu superior da página. 



In [11]:
# Seu código aqui (procure por nav ou ul) 
navs = soup.find_all('nav')
uls = soup.find_all('ul')

print('Em nav e ul foram encontrado apenas links para paginação!!!')

print('Fazendo busca pela class "row header-box" para achar link de menu! ')
links = soup.find_all('div', class_='row header-box')
regex = r'<a href="(.*?)"'

for l in links:    
    print(f'Link encontrado no inicio da webpace -> {re.findall(regex, str(l))}')
    


Em nav e ul foram encontrado apenas links para paginação!!!
Fazendo busca pela class "row header-box" para achar link de menu! 
Link encontrado no inicio da webpace -> ['/', '/login']


####  EXERCÍCIO 11: Extrair Informações Completas 
Questão: Crie um dicionário com todas as informações de cada quote (texto, autor, tags). 

In [12]:
# Seu código aqui

def get_texto_autor_tags_quote():
    list_quote = []

    regex = r'>(.*?)<'

    for i in soup.find_all('div', class_='quote'):
        
        # Separa Tags
        list_tags = []
        for t in i.find_all('a', class_='tag'):        
            list_tags.append(re.findall(regex, str(t))[0])

        list_quote.append({
            'text' : i.find('span', class_='text').text,
            'autor' : i.find('small', class_='author').text,        
            'tags': list_tags
        })

    return list_quote

for q in get_texto_autor_tags_quote():
    print(q)

{'text': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”', 'autor': 'Albert Einstein', 'tags': ['change', 'deep-thoughts', 'thinking', 'world']}
{'text': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”', 'autor': 'J.K. Rowling', 'tags': ['abilities', 'choices']}
{'text': '“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”', 'autor': 'Albert Einstein', 'tags': ['inspirational', 'life', 'live', 'miracle', 'miracles']}
{'text': '“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”', 'autor': 'Jane Austen', 'tags': ['aliteracy', 'books', 'classic', 'humor']}
{'text': "“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”", 'autor': 'Marilyn Monroe', 'tags': ['be-yourself', 'inspirational']}
{'tex

#### EXERCÍCIO 12: Buscar Quote por Palavra-chave 
Questão: Encontre todas as quotes que contêm a palavra 'life' (vida). 

In [13]:
for i in soup.find_all('div', class_='quote'):
    if 'life' in i.find('span', class_='text').text:
        print(i)

<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
<span class="text" itemprop="text">“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”</span>
<span>by <small class="author" itemprop="author">Albert Einstein</small>
<a href="/author/Albert-Einstein">(about)</a>
</span>
<div class="tags">
            Tags:
            <meta class="keywords" content="inspirational,life,live,miracle,miracles" itemprop="keywords"/>
<a class="tag" href="/tag/inspirational/page/1/">inspirational</a>
<a class="tag" href="/tag/life/page/1/">life</a>
<a class="tag" href="/tag/live/page/1/">live</a>
<a class="tag" href="/tag/miracle/page/1/">miracle</a>
<a class="tag" href="/tag/miracles/page/1/">miracles</a>
</div>
</div>



#### EXERCÍCIO 13: Verificar Estrutura da Página 

Questão: Encontre e imprima a estrutura básica da página (header, main, footer). 



In [14]:
estrutura_basica = ['header', 'main', 'footer']

for item in estrutura_basica:

    search = soup.find(item)    
    print(f'Estrutura do {item}:')
    if search:
        print(search.prettify())
    else:
        print(f'Nenhum elemento <{item}> encontrado.')
    print('-' * 20)


Estrutura do header:
Nenhum elemento <header> encontrado.
--------------------
Estrutura do main:
Nenhum elemento <main> encontrado.
--------------------
Estrutura do footer:
<footer class="footer">
 <div class="container">
  <p class="text-muted">
   Quotes by:
   <a href="https://www.goodreads.com/quotes">
    GoodReads.com
   </a>
  </p>
  <p class="copyright">
   Made with
   <span class="zyte">
    ❤
   </span>
   by
   <a class="zyte" href="https://www.zyte.com">
    Zyte
   </a>
  </p>
 </div>
</footer>

--------------------


#### EXERCÍCIO 14: CSS Selectors 
Questão: Use CSS selectors para encontrar todas as quotes e seus autores. 


In [15]:
# Seu código aqui (use soup.select) 
# Usa o seletor CSS para encontrar todos os elementos com a classe 'quote'
quotes = soup.select('.quote')

print('Citações e Autores:')
print('-' * 20)

for quote in quotes:
    # Dentro de cada citação, encontra o texto da citação e o autor usando seletores CSS
    text = quote.select_one('.text').get_text(strip=True)
    author = quote.select_one('.author').get_text(strip=True)

    print(f'Citação: {text}')
    print(f'Autor: {author}')
    print('-' * 20)

Citações e Autores:
--------------------
Citação: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Autor: Albert Einstein
--------------------
Citação: “It is our choices, Harry, that show what we truly are, far more than our abilities.”
Autor: J.K. Rowling
--------------------
Citação: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
Autor: Albert Einstein
--------------------
Citação: “The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
Autor: Jane Austen
--------------------
Citação: “Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
Autor: Marilyn Monroe
--------------------
Citação: “Try not to become a man of success. Rather become a man of value.”
Autor: Albert Einstein
--------------------
Citação: “It is better to be h

#### EXERCÍCIO 15: Relatório Final Completo 

Questão: Crie um relatório completo com estatísticas da página. 



In [16]:
# Seu código aqui - crie um relatório completo 

def relatorio_quotes_toscrep(url: str) -> str | None:
    # Total de Citações
    quotes = soup.select('.quote')
    total_quotes = len(quotes)

    # Total de Autores Únicos e Citações por Autor
    authors = [quote.select_one('.author').get_text(strip=True) for quote in quotes]
    unique_authors = set(authors)
    total_unique_authors = len(unique_authors)
    quotes_by_author = Counter(authors)

    # Total de Tags e Tags mais Comuns
    tags_list = []
    for quote in quotes:
        tags = quote.select('.tags .tag')
        for tag in tags:
            tags_list.append(tag.get_text(strip=True))
    total_tags = len(tags_list)
    unique_tags = set(tags_list)
    total_unique_tags = len(unique_tags)
    common_tags = Counter(tags_list).most_common(5) # Top 5 tags

    # Construção do Relatório
    report = f"""
    Estatísticas da Página: {url}

    Resumo:
    - Total de Citações na Página: {total_quotes}
    - Total de Autores Únicos: {total_unique_authors}
    - Total de Tags Únicas: {total_unique_tags}

    Detalhes por Autor:
    """
    for author, count in quotes_by_author.items():
        report += f"- {author}: {count} citações\n"

    report += "\nTags Mais Populares (Top 5):\n"
    for tag, count in common_tags:
        report += f"- {tag}: {count} vezes\n"

    return report

print(relatorio_quotes_toscrep(url=url))


    Estatísticas da Página: http://quotes.toscrape.com

    Resumo:
    - Total de Citações na Página: 10
    - Total de Autores Únicos: 8
    - Total de Tags Únicas: 26

    Detalhes por Autor:
    - Albert Einstein: 3 citações
- J.K. Rowling: 1 citações
- Jane Austen: 1 citações
- Marilyn Monroe: 1 citações
- André Gide: 1 citações
- Thomas A. Edison: 1 citações
- Eleanor Roosevelt: 1 citações
- Steve Martin: 1 citações

Tags Mais Populares (Top 5):
- inspirational: 3 vezes
- life: 2 vezes
- humor: 2 vezes
- change: 1 vezes
- deep-thoughts: 1 vezes



#### EXERCÍCIO BÔNUS: Salvar em CSV 

Questão: Salve todas as quotes em um arquivo CSV. 

In [17]:
page_url = '/'
all_quotes = []
list_quote = []

print('Iniciando a raspagem de dados...')

while page_url:
    full_url = url + page_url
    print(f'Raspando a página: {full_url}')

    response = requests.get(full_url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    regex = r'>(.*?)<'

    for i in soup.find_all('div', class_='quote'):
        
        # Separa Tags
        list_tags = []
        for t in i.find_all('a', class_='tag'):        
            list_tags.append(re.findall(regex, str(t))[0])

        list_quote.append({
            'text' : i.find('span', class_='text').text,
            'autor' : i.find('small', class_='author').text,        
            'tags': list_tags,
            'pagina': full_url
        })


    # Tentar encontrar o link para a próxima página
    next_li = soup.select_one('li.next a')
    
    if next_li:
        page_url = next_li['href']
    else:
        page_url = None # Sair do loop se não houver mais páginas
        
print('-' * 30)
print(f'Raspagem concluída!')

for item in list_quote:
    print(f'{item}')

Iniciando a raspagem de dados...
Raspando a página: http://quotes.toscrape.com/
Raspando a página: http://quotes.toscrape.com/page/2/
Raspando a página: http://quotes.toscrape.com/page/3/
Raspando a página: http://quotes.toscrape.com/page/4/
Raspando a página: http://quotes.toscrape.com/page/5/
Raspando a página: http://quotes.toscrape.com/page/6/
Raspando a página: http://quotes.toscrape.com/page/7/
Raspando a página: http://quotes.toscrape.com/page/8/
Raspando a página: http://quotes.toscrape.com/page/9/
Raspando a página: http://quotes.toscrape.com/page/10/
------------------------------
Raspagem concluída!
{'text': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”', 'autor': 'Albert Einstein', 'tags': ['change', 'deep-thoughts', 'thinking', 'world'], 'pagina': 'http://quotes.toscrape.com/'}
{'text': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”', 'autor': 'J.K. Rowling', 'tag

In [18]:
import csv

def criar_file_csv(dados, nome_file):
  
   # Obter os nomes dos campos (chaves dos dicionários)
  chaves = dados[0].keys()

  with open(nome_file, 'w', newline='') as file_csv:
    escritor = csv.DictWriter(file_csv, fieldnames=chaves)

    # Escrever o cabeçalho
    escritor.writeheader()

    # Escrever os dados
    escritor.writerows(dados)

nome_do_file = 'dados.csv'
criar_file_csv(list_quote, nome_do_file)

In [19]:
# URL base do site
url = 'https://quotes.toscrape.com'

# Encontra a primeira citação para extrair o link do autor
about_href = soup.find_all('a', string='(about)')

author_link = []
author_data = []

if about_href:
    # Encontra o link 'about' do autor dentro da citação
    regex = r'<a href="(.*?)"'

    for ah in about_href:        
        author_link.append(re.findall(regex, str(ah))[0])
    
    
    for author_page in set(author_link):                
        
        full_url = url + author_page
        print(f'Raspando a página: {full_url}')
        
        response = requests.get(full_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        
        author_data.append(
            {
                'author': soup.find('h3', class_="author-title").text,
                'data nascimento': soup.find('span', class_="author-born-date").text,
                'local nascimento': soup.find('span', class_="author-born-location").text,
                'descricao': str(soup.find('div', class_="author-description").text).strip()
            }
        )
else:
    print('Nenhuma citação encontrada na página.')

nome_do_file = 'author.csv'
criar_file_csv(author_data, nome_do_file)

Raspando a página: https://quotes.toscrape.com/author/George-R-R-Martin
Raspando a página: https://quotes.toscrape.com/author/Madeleine-LEngle
Raspando a página: https://quotes.toscrape.com/author/Mark-Twain
Raspando a página: https://quotes.toscrape.com/author/Jimi-Hendrix
Raspando a página: https://quotes.toscrape.com/author/Khaled-Hosseini
Raspando a página: https://quotes.toscrape.com/author/E-E-Cummings
Raspando a página: https://quotes.toscrape.com/author/Dr-Seuss
Raspando a página: https://quotes.toscrape.com/author/Harper-Lee
Raspando a página: https://quotes.toscrape.com/author/J-M-Barrie
Raspando a página: https://quotes.toscrape.com/author/J-K-Rowling


In [20]:
import pandas as pd

df = pd.read_csv('dados.csv')
df['autor'].unique()

array(['Albert Einstein', 'J.K. Rowling', 'Jane Austen', 'Marilyn Monroe',
       'André Gide', 'Thomas A. Edison', 'Eleanor Roosevelt',
       'Steve Martin', 'Bob Marley', 'Dr. Seuss', 'Douglas Adams',
       'Elie Wiesel', 'Friedrich Nietzsche', 'Mark Twain',
       'Allen Saunders', 'Pablo Neruda', 'Ralph Waldo Emerson',
       'Mother Teresa', 'Garrison Keillor', 'Jim Henson',
       'Charles M. Schulz', 'William Nicholson', 'Jorge Luis Borges',
       'George Eliot', 'George R.R. Martin', 'C.S. Lewis',
       'Martin Luther King Jr.', 'James Baldwin', 'Haruki Murakami',
       'Alexandre Dumas fils', 'Stephenie Meyer', 'Ernest Hemingway',
       'Helen Keller', 'George Bernard Shaw', 'Charles Bukowski',
       'Suzanne Collins', 'J.R.R. Tolkien', 'Alfred Tennyson',
       'Terry Pratchett', 'J.D. Salinger', 'George Carlin', 'John Lennon',
       'W.C. Fields', 'Ayn Rand', 'Jimi Hendrix', 'J.M. Barrie',
       'E.E. Cummings', 'Khaled Hosseini', 'Harper Lee',
       "Madeleine L'E

In [3]:
import pandas as pd

df = pd.read_csv('author.csv')    

df_sem_duplicatas = df.drop_duplicates(subset=['author'])
    
df_sem_duplicatas.to_csv('author_sem_duplicatas.csv', index=False)


Conceitos Aprendidos
• urlopen() - Abrir conexões web

• BeautifulSoup() - Parser HTML

• find() - Buscar primeiro elemento

• find_all() - Buscar todos os elementos

• select() - CSS selectors

• Navegação por atributos e classes

• Extração de texto e atributos

• Manipulação de dados extraídos

• Análise estatística dos dados

• Exportação para CSV
