# Exemplo de Web Scraping com Manipulação dos Dados
Neste notebook, além de coletar citações de http://quotes.toscrape.com, também mostra como manipular o DataFrame resultante usando pandas.


In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
# Definindo a URL e obtendo o conteúdo da página
url = 'http://quotes.toscrape.com'
response = requests.get(url)

# Verificando se a requisição foi bem-sucedida
if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Encontrando todas as citações na página
    quotes = soup.find_all('div', class_='quote')
    
    # Extraindo texto e autor de cada citação
    data = []
    for quote in quotes:
        text = quote.find('span', class_='text').get_text()
        author = quote.find('small', class_='author').get_text()
        data.append({'quote': text, 'author': author})
    
    # Convertendo para DataFrame
    df = pd.DataFrame(data)
else:
    print(f"Falha ao obter a página. Status code: {response.status_code}")

In [3]:
# Exibindo as primeiras linhas do DataFrame
df.head()

Unnamed: 0,quote,author
0,“The world as we have created it is a process ...,Albert Einstein
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling
2,“There are only two ways to live your life. On...,Albert Einstein
3,"“The person, be it gentleman or lady, who has ...",Jane Austen
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe


In [4]:
# Informações gerais sobre o DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   quote   10 non-null     object
 1   author  10 non-null     object
dtypes: object(2)
memory usage: 292.0+ bytes


In [5]:
# Quantas citações cada autor possui (ordenado do maior para o menor)
author_counts = df['author'].value_counts()
author_counts

author
Albert Einstein      3
J.K. Rowling         1
Jane Austen          1
Marilyn Monroe       1
André Gide           1
Thomas A. Edison     1
Eleanor Roosevelt    1
Steve Martin         1
Name: count, dtype: int64

In [6]:
# Filtrar apenas as citações do autor "Albert Einstein"
einstein_quotes = df[df['author'] == 'Albert Einstein']
einstein_quotes

Unnamed: 0,quote,author
0,“The world as we have created it is a process ...,Albert Einstein
2,“There are only two ways to live your life. On...,Albert Einstein
5,“Try not to become a man of success. Rather be...,Albert Einstein


In [7]:
# Verificar se há alguma citação que contenha a palavra 'truth'
truth_quotes = df[df['quote'].str.contains('truth', case=False)]
truth_quotes

Unnamed: 0,quote,author


In [8]:
# Adicionar uma coluna de tamanho do texto (número de caracteres) para cada citação
df['length'] = df['quote'].str.len()
df.head()

Unnamed: 0,quote,author,length
0,“The world as we have created it is a process ...,Albert Einstein,115
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling,85
2,“There are only two ways to live your life. On...,Albert Einstein,131
3,"“The person, be it gentleman or lady, who has ...",Jane Austen,104
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe,111


In [9]:
# Estatísticas básicas sobre o tamanho das citações
df['length'].describe()

count     10.000000
mean      89.500000
std       25.404505
min       50.000000
25%       70.750000
50%       85.000000
75%      109.250000
max      131.000000
Name: length, dtype: float64

In [10]:
# Salvando o DataFrame completo em um arquivo CSV
df.to_csv('quotes.csv', index=False)
print("Dados salvos em quotes.csv")

Dados salvos em quotes.csv
