# 📋 Preparação Inicial

In [3]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
import requests
from collections import Counter

### 🌐 Abrir conexão com o site "http://quotes.toscrape.com"

In [4]:
html = urlopen("http://quotes.toscrape.com")

### 📲 Instanciar BeautifulSoup 

In [5]:
soup = BeautifulSoup(html, 'html.parser')

## 🎯 **EXERCÍCIO 1: Configuração Básica**
#### 📝 **Questão:** Abra o site http://quotes.toscrape.com usando urlopen e crie uma instância do BeautifulSoup. Imprima o título da página. 

In [None]:
# Extraindo o título do site
titulo = soup.find('title').get_text()

print(f'Título do site: {titulo}')

Título do site: Quotes to Scrape


## 🎯 **EXERCÍCIO 2: Primeira Quote** 
#### 📝 **Questão:** Encontre e imprima o texto da primeira quote (citação class ‘text’) da página.

In [None]:
# Extraindo o texto da primeira quote
texto = soup.find('span').get_text()

print(f'Texto da primeira quote: {texto}')

Texto da primeira quote: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”


## 🎯 **EXERCÍCIO 3: Autor da Primeira Quote**
#### 📝 **Questão:** Encontre e imprima o nome do autor da primeira quote.

In [None]:
# Extraindo o autor da primeira quote
autor = soup.find('small').get_text()

print(f'Autor da primeira quote: {autor}')

Autor da primeira quote: Albert Einstein


## 🎯 **EXERCÍCIO 4: Tags da Primeira Quote**
#### 📝 **Questão:** Encontre e imprima todas as tags (palavras-chave) da primeira quote.

In [2]:
# Extraindo a primeira quote
quote = soup.find('div', class_='quote')

# Extraindo as tags da primeira quote
tags = [tag.text for tag in quote.find_all('a', class_='tag')]

print(f'Tags da primeira quote:')

for i in range(len(tags)):
    print(f'Tag {i+1}: {tags[i]}')

NameError: name 'soup' is not defined

## 🎯 **EXERCÍCIO 5: Contar Total de Quotes**
#### 📝 **Questão:** Conte quantas quotes existem na primeira página. 

In [32]:
# Extraindo as quotes do site
quotes = soup.find_all('div', class_='quote')

print('Total de quotes na página:', len(quotes))

Total de quotes na página: 10


## 🎯 **EXERCÍCIO 6: Lista de Todos os Autores**
#### 📝 **Questão:** Crie uma lista com todos os autores únicos da página (sem repetições). 

In [46]:
# Extraindo todos os autores
autores = soup.find_all('small', class_='author')

# Extraindo o nome de cada autor
autores = [autor.get_text() for autor in autores]

# Removendo duplicatas
autores_lista = list(set(autores))

# Ordenando o nome dos autores
autores_lista.sort()

print("Lista de Autores:")
for i in range(len(autores_lista)):
    print(f'Autor {i+1}: {autores_lista[i]}')


Lista de Autores:
Autor 1: Albert Einstein
Autor 2: André Gide
Autor 3: Eleanor Roosevelt
Autor 4: J.K. Rowling
Autor 5: Jane Austen
Autor 6: Marilyn Monroe
Autor 7: Steve Martin
Autor 8: Thomas A. Edison


## 🎯 **EXERCÍCIO 7: Quote Mais Longa**
#### 📝 **Questão:** Encontre qual é a quote mais longa (maior número de caracteres) e imprima ela com seu autor.

In [53]:
# Extraindo todas as quotes
quotes = soup.find_all('div', class_='quote')

# Iniciando variáveis para armazenar a maior quote
texto_maior = ""
autor_maior = ""

# Extraindo o texto e autor de cada quote
for quote in quotes:
    texto = quote.find('span', class_='text').get_text()
    autor = quote.find('small', class_='author').get_text()

    # Identificando o maior texto
    if len(texto) > len(texto_maior):
        texto_maior = texto
        autor_maior = autor

print(f'A quote mais longa é:\n{texto_maior}\n\nAutor: {autor_maior}')

A quote mais longa é:
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”

Autor: Albert Einstein


## 🎯 **EXERCÍCIO 8: Buscar por Autor Específico**
#### 📝 **Questão:** Encontre todas as quotes de "Albert Einstein" na página.

In [52]:
# Definindo alvo
autor_alvo = "Albert Einstein"

# Extraindo todas as quotes
quotes = soup.find_all('div', class_='quote')

# Filtrando quotes pelo autor alvo
print(f'Quotes do autor {autor_alvo}:\n')
for quote in quotes:
    autor = quote.find('small', class_='author').get_text()
    if autor == autor_alvo:
        texto = quote.find('span', class_='text').get_text()
        print(f'Quote: {texto}\n')

Quotes do autor Albert Einstein:

Quote: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”

Quote: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”

Quote: “Try not to become a man of success. Rather become a man of value.”



## 🎯 **EXERCÍCIO 9: Tags Mais Populares**
#### 📝 **Questão:** Conte quantas vezes cada tag aparece na página e mostre as 5 mais populares.

In [110]:
# Extraindo todas as tags
tags = soup.find_all('a', class_='tag')

# Transformando as tags em uma lista de strings
lista_tags = [tag.get_text() for tag in tags]

# Contando quantas vezes cada tag aparece
contagem_tags = Counter(lista_tags)

# for tag, total in contagem_tags.items():
#     print(f'Tag: {tag} - Total: {total}')

tags_mais_populares = contagem_tags.most_common(5)
print("As 5 tags que mais se repetem são:")
for tag, total in tags_mais_populares:
    print(f'{tag}: {total} vezes')

As 5 tags que mais se repetem são:
inspirational: 4 vezes
life: 3 vezes
humor: 3 vezes
books: 2 vezes
love: 2 vezes


## 🎯 **EXERCÍCIO 10: Navegação - Links do Menu**
#### 📝 **Questão:** Encontre todos os links de navegação no menu superior da página. 

In [63]:
# Definindo link principal
link_principal = "https://quotes.toscrape.com"

# Extraindo links de navegação encontrados
link_nav = [a['href'] for a in soup.find_all('a', href=True)]

print('Links de navegação encontrados na página:')
for i in range(len(link_nav)):
    if link_nav[i].startswith('/'):
        print(f'link{i}: {link_principal + link_nav[i]}')


Links de navegação encontrados na página:
link0: https://quotes.toscrape.com/
link1: https://quotes.toscrape.com/login
link2: https://quotes.toscrape.com/author/Albert-Einstein
link3: https://quotes.toscrape.com/tag/change/page/1/
link4: https://quotes.toscrape.com/tag/deep-thoughts/page/1/
link5: https://quotes.toscrape.com/tag/thinking/page/1/
link6: https://quotes.toscrape.com/tag/world/page/1/
link7: https://quotes.toscrape.com/author/J-K-Rowling
link8: https://quotes.toscrape.com/tag/abilities/page/1/
link9: https://quotes.toscrape.com/tag/choices/page/1/
link10: https://quotes.toscrape.com/author/Albert-Einstein
link11: https://quotes.toscrape.com/tag/inspirational/page/1/
link12: https://quotes.toscrape.com/tag/life/page/1/
link13: https://quotes.toscrape.com/tag/live/page/1/
link14: https://quotes.toscrape.com/tag/miracle/page/1/
link15: https://quotes.toscrape.com/tag/miracles/page/1/
link16: https://quotes.toscrape.com/author/Jane-Austen
link17: https://quotes.toscrape.com/ta

## 🎯 **EXERCÍCIO 11: Extrair Informações Completas**
#### 📝 **Questão:** Crie um dicionário com todas as informações de cada quote (texto, autor, tags). 

In [69]:
# Extraindo todas as quotes
quotes = soup.find_all('div', class_='quote')

# Inicializando dicionario para comportar as informações
informacoes_quotes = {
    'autor': [],
    'tags': [],
    'texto': []
}

# Extraindo informações de cada quote
for quote in quotes:
    texto = quote.find('span', class_='text').get_text()
    autor = quote.find('small', class_='author').get_text()
    tags = [tag.get_text() for tag in quote.find_all('a', class_='tag')]

    # Adicionando informações ao dicionário
    informacoes_quotes['autor'].append(autor)
    informacoes_quotes['tags'].append(tags)
    informacoes_quotes['texto'].append(texto)

# # Exibindo o dicionário com as informações extraídas
# informacoes_quotes

# Convertendo o dicionário em um DataFrame do pandas
df = pd.DataFrame(informacoes_quotes)
df

Unnamed: 0,autor,tags,texto
0,Albert Einstein,"[change, deep-thoughts, thinking, world]",“The world as we have created it is a process ...
1,J.K. Rowling,"[abilities, choices]","“It is our choices, Harry, that show what we t..."
2,Albert Einstein,"[inspirational, life, live, miracle, miracles]",“There are only two ways to live your life. On...
3,Jane Austen,"[aliteracy, books, classic, humor]","“The person, be it gentleman or lady, who has ..."
4,Marilyn Monroe,"[be-yourself, inspirational]","“Imperfection is beauty, madness is genius and..."
5,Albert Einstein,"[adulthood, success, value]",“Try not to become a man of success. Rather be...
6,André Gide,"[life, love]",“It is better to be hated for what you are tha...
7,Thomas A. Edison,"[edison, failure, inspirational, paraphrased]","“I have not failed. I've just found 10,000 way..."
8,Eleanor Roosevelt,[misattributed-eleanor-roosevelt],“A woman is like a tea bag; you never know how...
9,Steve Martin,"[humor, obvious, simile]","“A day without sunshine is like, you know, nig..."


## 🎯 **EXERCÍCIO 12: Buscar Quote por Palavra-chave**
#### 📝 **Questão:** Encontre todas as quotes que contêm a palavra "life" (vida). 

In [70]:
# Definindo a palavra chave
palavra_chave = "life"

# Extraindo as quotes
quotes = soup.find_all('div', class_='quote')

# Filtrando quotes que contêm a palavra chave
print(f'Quotes que contêm a palavra "{palavra_chave}":\n')
for quote in quotes:
    texto = quote.find('span', class_='text').get_text()
    if palavra_chave in texto:
        print(texto)

Quotes que contêm a palavra "life":

“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”


## 🎯 **EXERCÍCIO 13: Verificar Estrutura da Página**
#### 📝 **Questão:** Encontre e imprima a estrutura básica da página (header, main, footer).

In [75]:
# Extraindo a estrurura da página
head = soup.find('head')
body = soup.find('body')
footer = soup.find('footer')

print(f'Estrutura da página:\n>> Head:\n{head}\n\n>> Body:\n{body}\n\n>> Footer:\n{footer}')

Estrutura da página:
>> Head:
<head>
<meta charset="utf-8"/>
<title>Quotes to Scrape</title>
<link href="/static/bootstrap.min.css" rel="stylesheet"/>
<link href="/static/main.css" rel="stylesheet"/>
</head>

>> Body:
<body>
<div class="container">
<div class="row header-box">
<div class="col-md-8">
<h1>
<a href="/" style="text-decoration: none">Quotes to Scrape</a>
</h1>
</div>
<div class="col-md-4">
<p>
<a href="/login">Login</a>
</p>
</div>
</div>
<div class="row">
<div class="col-md-8">
<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
<span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
<span>by <small class="author" itemprop="author">Albert Einstein</small>
<a href="/author/Albert-Einstein">(about)</a>
</span>
<div class="tags">
            Tags:
            <meta class="keywords" content="change,deep-thoughts,thinking,world" itemprop="keywords"/>
<a c

## 🎯 **EXERCÍCIO 14: CSS Selectors**
#### 📝 **Questão:** Use CSS selectors para encontrar todas as quotes e seus autores. 

In [82]:
# Extraindo todas as quotes e autores
quotes = soup.select('div.quote')

for quote in quotes:
    texto = quote.select('span.text')[0].text
    autor = quote.select('small.author')[0].text
    print(f'Quote: {texto}\nAutor: {autor}\n')

Quote: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Autor: Albert Einstein

Quote: “It is our choices, Harry, that show what we truly are, far more than our abilities.”
Autor: J.K. Rowling

Quote: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
Autor: Albert Einstein

Quote: “The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
Autor: Jane Austen

Quote: “Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
Autor: Marilyn Monroe

Quote: “Try not to become a man of success. Rather become a man of value.”
Autor: Albert Einstein

Quote: “It is better to be hated for what you are than to be loved for what you are not.”
Autor: André Gide

Quote: “I have not failed. I've just found 10,000 ways that won't work.”
Autor: Thomas A. Edis

## 🎯 **EXERCÍCIO 15: Relatório Final Completo**
#### 📝 **Questão:** Crie um relatório completo com estatísticas da página.

In [129]:
# Extraindo todas as quotes
quotes = soup.find_all('div', class_='quote')

# Relatório final
print('📝 Relatório Final - Primeira página')
print('Site: http://quotes.toscrape.com')

print('\n📊 Estatísticas Gerais')

# Total de quotes
print(f'Total de quotes: {len(quotes)}')

# Total de autores (únicos)
autores = set()
for quote in quotes:
    autor = quote.find('small', class_='author').get_text()
    autores.add(autor)
print(f'Total de autores (únicos): {len(autores)}')

# Total de tags (únicas)
tags = set()
for quote in quotes:
    tag = quote.find_all('a', class_='tag')
    for t in tag:
        tags.add(t.text)
print(f'Total de tags (únicas): {len(tags)}')

# Total de links (únicos)
links = set()
for quote in quotes:
    link = quote.find_all('a', class_='tag')
    for l in link:
        links.add(l.text)
print(f'Total de links (únicos): {len(links)}')

# Total de autores (únicos)
autores = set()
for quote in quotes:
    autor = quote.find('small', class_='author').get_text()
    autores.add(autor)
print(f'Total de autores (únicos): {len(autores)}')

# Total de palavras
palavras = []
for quote in quotes:
    texto = quote.find('span', class_='text').get_text()
    texto = texto.replace('.', '').replace(',', '').replace('!', '').replace('?', '').replace('”', '').replace('“', '').replace("'", '')
    palavras.extend(texto.split()) 
print(f'Total de palavras: {len(palavras)}')


print('\n🔍 Análise dos Quotes (citações)')

contagem_palavras = Counter(palavras)
for palavra, total in contagem_palavras.most_common(1):
    print(f'Palavra mais comum: {palavra} - Total: {total}')
for palavra, total in contagem_palavras.most_common()[-1:]:
    print(f'Palavra menos comum: {palavra} - Total: {total}\n')

# Maior quote
maior_quote = max(quotes, key=lambda q: len(q.find('span', class_='text').get_text()))
print(f'Maior quote:\n {maior_quote.find("span", class_="text").get_text()}')

# Menor quote
menor_quote = min(quotes, key=lambda q: len(q.find('span', class_='text').get_text()))
print(f'Menor quote:\n {menor_quote.find("span", class_="text").get_text()}')


print('\n🏆 Ranking das 5 tags mais populares:')
# Extraindo todas as tags
tags = soup.find_all('a', class_='tag')

# Transformando as tags em uma lista de strings
lista_tags = [tag.get_text() for tag in tags]

# Contando quantas vezes cada tag aparece
contagem_tags = Counter(lista_tags)

posicao = 1
tags_mais_populares = contagem_tags.most_common(5)
for tag, total in tags_mais_populares:
    print(f'{posicao}° - {tag}: {total} vezes')
    posicao += 1

print('\n🧠 Autores com mais citações:')
# Extraindo todos os autores
autores = soup.find_all('small', class_='author')

# Transformando os autores em uma lista de strings
lista_autores = [autor.get_text() for autor in autores]

# Contando quantas vezes cada autor aparece
contagem_autores = Counter(lista_autores)

posicao = 1
autores_mais_populares = contagem_autores.most_common()
for autor, total in autores_mais_populares:
    print(f'{posicao}° - {autor}: {total} citações')
    posicao += 1

📝 Relatório Final - Primeira página
Site: http://quotes.toscrape.com

📊 Estatísticas Gerais
Total de quotes: 10
Total de autores (únicos): 8
Total de tags (únicas): 26
Total de links (únicos): 26
Total de autores (únicos): 8
Total de palavras: 171

🔍 Análise dos Quotes (citações)
Palavra mais comum: is - Total: 12
Palavra menos comum: night - Total: 1

Maior quote:
 “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
Menor quote:
 “A day without sunshine is like, you know, night.”

🏆 Ranking das 5 tags mais populares:
1° - inspirational: 4 vezes
2° - life: 3 vezes
3° - humor: 3 vezes
4° - books: 2 vezes
5° - love: 2 vezes

🧠 Autores com mais citações:
1° - Albert Einstein: 3 citações
2° - J.K. Rowling: 1 citações
3° - Jane Austen: 1 citações
4° - Marilyn Monroe: 1 citações
5° - André Gide: 1 citações
6° - Thomas A. Edison: 1 citações
7° - Eleanor Roosevelt: 1 citações
8° - Steve Martin: 1 citações


## 🎯 **EXERCÍCIO BÔNUS: Salvar em CSV**
#### 📝 **Questão:** Salve todas as quotes em um arquivo CSV. 

In [131]:
# Criando o DataFrame
df = pd.DataFrame(columns=['autor', 'tags', 'texto'])

# Extraindo informações de cada quote e adicionando ao DataFrame
for q in quotes:
    autor = q.find('small', class_='author').text
    tags = [tag.text for tag in q.find_all('a', class_='tag')]
    texto = q.find('span', class_='text').text

    df = pd.concat([df, pd.DataFrame({'autor': [autor], 'tags': [tags], 'texto': [texto]})], ignore_index=True)

# Ajustando os textos
df['texto'] = df['texto'].apply(lambda x: x.replace('“', '').replace('”', ''))

# Salvando o DataFrame em um arquivo CSV
df.to_csv('quotes.csv', index=False)

df

Unnamed: 0,autor,tags,texto
0,Albert Einstein,"[change, deep-thoughts, thinking, world]",The world as we have created it is a process o...
1,J.K. Rowling,"[abilities, choices]","It is our choices, Harry, that show what we tr..."
2,Albert Einstein,"[inspirational, life, live, miracle, miracles]",There are only two ways to live your life. One...
3,Jane Austen,"[aliteracy, books, classic, humor]","The person, be it gentleman or lady, who has n..."
4,Marilyn Monroe,"[be-yourself, inspirational]","Imperfection is beauty, madness is genius and ..."
5,Albert Einstein,"[adulthood, success, value]",Try not to become a man of success. Rather bec...
6,André Gide,"[life, love]",It is better to be hated for what you are than...
7,Thomas A. Edison,"[edison, failure, inspirational, paraphrased]","I have not failed. I've just found 10,000 ways..."
8,Eleanor Roosevelt,[misattributed-eleanor-roosevelt],A woman is like a tea bag; you never know how ...
9,Steve Martin,"[humor, obvious, simile]","A day without sunshine is like, you know, night."
