## Aula 35 - Web Scraping & Web Crawling

# Introdução - HTML 

## O que é HTML ? 

HTML significa HyperText Markup Language (Linguagem de Marcação de Hipertexto). É uma linguagem de marcação usada para estruturar e apresentar o conteúdo de uma página da web. O HTML define a estrutura lógica de uma página da web, como títulos, parágrafos, links, imagens e outros elementos.

O HTML é a base da maioria das páginas da web e funciona em conjunto com outras tecnologias, como CSS (Cascading Style Sheets) para estilizar o layout e o design, e JavaScript para adicionar interatividade e funcionalidades dinâmicas à página.

O profissional que coleta dados da Web vai ter muito contato com websites e documentos em HTML, então faz sentido entender como funcionam os conceitos básicos de HTML.

## Exemplo

![](exemplo_html.png)



## Tags

Os elementos do HTML são escritos usando tags, que são cercadas pelos caracteres **<** **>**. Essas tags fornecem instruções aos navegadores da web sobre como exibir o conteúdo. Por exemplo, a tag " < h1 > " é usada para criar um cabeçalho de primeiro nível, a tag "< p > " é usada para definir um parágrafo, e a tag "< a > " é usada para criar um link.

Abaixo temos alguns exemplos de tags que são muito utilizadas : 

< html> - indica que é um documento HTML - Todo documento HTML deve ter essa TAG. \
< title> - Tag indicando o título pertencente ao documento html \
< head> - Tag indicando cabeçalho do documento HTML ( Nada é impresso aqui, apenas para organização e divisão de blocos) \
< body> - Tag indicando "corpo" do documento HTML - conteúdo geral do documento HTML \
< div> - Tag indicando bloco de código \
< footer> - Tag indicando rodapé do documento HTML \
< h1> até < h6> - 'sub-headers'  \
< p> - Tag indicando parágrafo  \
< a> - inclusão de links  \
< br> - pular uma linha \
< strong> - tag para deixar a string em negrito \
< !--  tag exclusiva para comentários \
< ul>	Defines uma lista desordenada \
< ol>	Defines uma lista ordenada \
< li>	Define o item de uma lista \
< dl>	Define a descrição de uma lista \
< dt>	Defines um termo em uma descrição de uma lista \
< dd>	Descreve o termo em uma descrição de uma lista \
< marquee> - tag que aplica efeito de slide no objeto \
< table> - Tag para criação de tabelas, cada linha da tabela possui uma tag < tr> , a tag < th> define o Header da tabela , os dados contidos na tabela , ficam em < td>. 


## Atributos

Atributos são usados para fornecer informações adicionais sobre elementos. Eles são usados para modificar ou definir o comportamento, aparência ou outras características de um elemento. Os atributos são adicionados às tags HTML usando a sintaxe de nome/valor.


<a href="https://www.exemplo.com" target="_blank">Texto do Link</a>
Neste exemplo, temos dois atributos no elemento <a>:

O atributo **href** especifica o URL de destino de um link. 
O atributo **target** especifica onde abrir o URL. No exemplo, o valor é "_blank", indicando que o URL deve ser aberto em uma nova janela do navegador.
    
Além desses, existem muitos outros atributos que podem ser usados com diferentes elementos HTML. Alguns exemplos comuns incluem:

O atributo src é usado com a tag < img > para especificar o caminho da imagem.
    
O atributo alt é usado com a tag < img > para fornecer um texto alternativo para a imagem.
    
O atributo class é usado para definir uma classe CSS que será aplicada ao elemento.
    
O atributo id é usado para fornecer um identificador único para o elemento.
    
O atributo style é usado para definir estilos CSS inline para o elemento.
    
Esses são apenas alguns exemplos de atributos HTML. É importante consultar a documentação para obter informações sobre os atributos específicos de cada elemento HTML.

Os atributos em HTML desempenham um papel crucial na personalização e no controle do comportamento dos elementos em uma página da web. Eles permitem que você adicione interatividade, estilos, funcionalidade e muito mais.

# Identificação do alvo

Um passo importante antes de extrair dados de um website é conhecer melhor as estruturas e aspectos públicos que conseguimos visualizar a partir do endereço do Website ( URL ) .


## Informações do domínio e owners

Para obter informações sobre um domínio e seu proprietário usando Python, você pode usar a biblioteca whois. Ela permite consultar informações WHOIS de um domínio, incluindo detalhes sobre o proprietário, data de registro, servidor de nomes, etc.

In [174]:
#!pip install python-whois

In [175]:
import whois

In [178]:
info = whois.whois('www.uol.com.br')

In [179]:
info

{'domain_name': 'uol.com.br',
 'registrant_name': 'Universo Online S.A.',
 'registrant_id': '01.109.184/0004-38',
 'country': 'BR',
 'owner_c': 'CAU12',
 'admin_c': None,
 'tech_c': 'CTU6',
 'billing_c': None,
 'name_server': ['eliot.uol.com.br 200.221.11.98',
  'borges.uol.com.br 172.64.53.68',
  'charles.uol.com.br 172.64.52.59'],
 'nsstat': '20230611 AA',
 'nslastaa': '20230611',
 'saci': None,
 'creation_date': [datetime.datetime(1996, 4, 24, 0, 0),
  datetime.datetime(2003, 12, 2, 0, 0)],
 'updated_date': [datetime.datetime(2023, 6, 7, 0, 0),
  datetime.datetime(2020, 6, 2, 0, 0),
  datetime.datetime(2017, 1, 6, 0, 0)],
 'expiration_date': datetime.datetime(2025, 4, 24, 0, 0),
 'status': 'published',
 'nic_hdl_br': ['CAU12', 'CTU6'],
 'person': ['Contato Administrativo - UOL', 'Contato Tecnico - UOL'],
 'email': ['l-registrobr-uol@corp.uol.com.br', 'l-bgp@uoldiveo.com']}

## Tecnologias usadas

A biblioteca "builtwith" é uma opção alternativa para identificar as tecnologias utilizadas em um website. Ela fornece uma interface fácil de usar para extrair informações sobre as tecnologias por trás de um site. Você pode instalá-la usando o comando pip install builtwith.

In [36]:
#!pip install builtwith

In [1]:
import builtwith

In [2]:
builtwith.parse("https://www.python.org")

{'web-servers': ['Nginx'],
 'javascript-frameworks': ['Modernizr', 'jQuery', 'jQuery UI']}

## Inspecionar código-fonte

Para inspecionar detalhes dos códigos e elementos do DOM -HTML , acesse o site com seu navegador preferido e clique com o botão direito na tela e procure o item "Inspecionar" .

## O arquivo robots.txt

O arquivo "robots.txt" é um arquivo de texto usado para fornecer instruções para os bots ou "rastreadores" dos mecanismos de busca sobre como eles devem se comportar ao acessar um site. Os bots de mecanismos de busca, como o Googlebot, verificam esse arquivo antes de rastrear as páginas de um site. O objetivo principal do arquivo robots.txt é orientar os bots sobre quais partes do site podem ser rastreadas e quais devem ser ignoradas.

In [None]:
#https://www.kabum.com.br/robots.txt

# Biblioteca requests

A biblioteca Requests é uma biblioteca de Python usada para fazer requisições HTTP de forma fácil e eficiente. Ela fornece uma interface simples e elegante para enviar requisições HTTP, lidar com cabeçalhos, cookies, autenticação e muito mais.

A principal vantagem da biblioteca Requests em relação às bibliotecas HTTP padrão do Python, como urllib, é a sua sintaxe simplificada e intuitiva. Ela foi projetada para ser fácil de usar e legível, tornando a tarefa de fazer requisições HTTP muito mais simples e rápida.


## Instalação

In [49]:
#!pip install requests

In [3]:
import requests 

## Tipos de requisições

Com a biblioteca Requests, podemos enviar requisições GET, POST, PUT, DELETE e outras para interagir com APIs da web ou obter conteúdo de páginas da web. Além disso, ela permite o envio de parâmetros, dados de formulário, cabeçalhos personalizados e autenticação por meio de cookies ou tokens de autenticação.


## Enviando uma Requisição HTTP - GET para um servidor (Website)

In [2]:
import requests

In [3]:
req_books = requests.get('https://thegreatestbooks.org/')

In [None]:
req_books

## Análisando resposta de uma requisição

As APIs geralmente usam códigos de resposta HTTP para indicar o resultado de uma solicitação. 

200 OK: A solicitação foi bem-sucedida e o conteúdo solicitado está sendo retornado. \
201 Created: A solicitação foi bem-sucedida e um novo recurso foi criado como resultado. \
204 No Content: A solicitação foi bem-sucedida, mas não há conteúdo para retornar. \
400 Bad Request: A solicitação foi malformada ou contém parâmetros inválidos. \
401 Unauthorized: A solicitação requer autenticação, mas o usuário não está autenticado ou as credenciais fornecidas são inválidas. \
403 Forbidden: O servidor entendeu a solicitação, mas se recusa a atendê-la devido a restrições de acesso. \
404 Not Found: O recurso solicitado não foi encontrado no servidor. \
500 Internal Server Error: O servidor encontrou uma situação inesperada que o impediu de atender à solicitação.

Esses são apenas alguns exemplos e existem muitos outros códigos de resposta HTTP que podem ser usados em uma API, dependendo da situação específica. É importante consultar a documentação da API que você está usando para obter uma lista completa dos códigos de resposta que ela retorna.

In [8]:
import requests 

In [9]:
req_books = requests.get('https://thegreatestbooks.org/')

In [12]:
req_books.status_code

200

# Biblioteca BeautifulSoup 

BeautifulSoup é uma biblioteca de análise HTML e XML em Python. Ela permite que você extraia dados de páginas da web, analisando a estrutura do HTML/XML e navegando por seus elementos. A biblioteca fornece métodos para pesquisar, filtrar e manipular o conteúdo HTML/XML de forma conveniente.

Com o BeautifulSoup, você pode extrair dados específicos de uma página da web, como títulos, links, parágrafos, tabelas e muito mais. Ele fornece uma interface simples e intuitiva para trabalhar com documentos HTML/XML, tornando mais fácil a tarefa de raspagem de dados (web scraping) e a análise de informações em páginas da web.

Além disso, o BeautifulSoup lida com documentos HTML/XML mal formados, corrigindo erros e permitindo que você acesse o conteúdo, mesmo quando a estrutura não está corretamente definida. É uma ferramenta muito útil para desenvolvedores Python que precisam trabalhar com dados da web de forma eficiente.

## Instalação

In [None]:
#!pip install beautifulsoup4

## Uso básico 

In [4]:
from bs4 import BeautifulSoup

In [5]:
import requests 

In [6]:
req_books = requests.get('https://thegreatestbooks.org/')

In [7]:
conteudo_books = BeautifulSoup(req_books.text,'html.parser')

In [8]:
type(conteudo_books)

bs4.BeautifulSoup

In [20]:
conteudo_books.title

<title>The Greatest Books: The Best Books of All Time - 1 to 50</title>

In [22]:
conteudo_books.head.title

<title>The Greatest Books: The Best Books of All Time - 1 to 50</title>

In [None]:
conteudo_books

## Parsers

No BeautifulSoup, existem vários parsers disponíveis para trabalhar com diferentes formatos de documentos. A seguir estão os parsers principais e suas diferenças:

Python's built-in HTML parser:

Módulo Python integrado para análise de HTML.
Não requer instalação adicional.
É um parser bastante tolerante a erros e pode analisar documentos HTML malformados.
No entanto, não é tão rápido quanto outros parsers externos.
lxml parser:

Utiliza a biblioteca lxml para fazer a análise.
É geralmente mais rápido que o parser HTML integrado do Python.
É muito eficiente na análise de documentos grandes e bem formados.
Pode lidar com HTML e XML.
html5lib parser:

Utiliza a biblioteca html5lib para fazer a análise.
É um parser lento em comparação com o built-in HTML parser e o lxml parser.
É um parser extremamente tolerante a erros e pode lidar com documentos HTML malformados.
Implementa as especificações do HTML5.
As diferenças entre esses parsers podem ser resumidas em termos de velocidade, tolerância a erros e suporte a diferentes formatos de documentos. Se você estiver trabalhando com HTML bem formado e desejar velocidade e eficiência, o lxml parser é uma boa escolha. Se você estiver trabalhando com HTML potencialmente malformado e precisar de maior tolerância a erros, o html5lib parser é recomendado. Já o parser HTML integrado do Python é útil quando você precisa de simplicidade e não tem requisitos de desempenho específicos.

In [2]:
from bs4 import BeautifulSoup

In [12]:
soup = BeautifulSoup(req_google.text,'html.parser')  # built-in

In [93]:
#!pip install lxml

soup = BeautifulSoup(req_google.text,'lxml')  # lxml

In [8]:
#!pip install html5lib

soup = BeautifulSoup(req_google.text,'html5lib')  # html5lib

## método prettify

Em Beautiful Soup, o termo "prettify" refere-se a um método utilizado para melhorar a legibilidade do código HTML ou XML analisado. Quando você chama o método prettify() em um objeto Beautiful Soup, ele formata o conteúdo de maneira estruturada e clara, adicionando espaços e quebras de linha.

A função prettify() ajuda a visualizar a estrutura do documento analisado, tornando-o mais fácil de entender e depurar. É especialmente útil ao lidar com documentos HTML ou XML complexos, pois facilita a identificação de elementos aninhados e sua organização.

Aqui está um exemplo simples para ilustrar o uso do prettify():

In [23]:
conteudo_books = BeautifulSoup(req_books.text,'html.parser')

In [24]:
conteudo_books.prettify

<bound method Tag.prettify of <!DOCTYPE html>

<html>
<head>
<title>The Greatest Books: The Best Books of All Time - 1 to 50</title>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="The Top 50 greatest fiction books of all time determined by 130 lists and articles from various critics, authors and experts." name="description">
<link href="/assets/application-108e9bd24ad03d75b082fc820a5977ae2ba547a8b0b8720209be59a6777d8d86.css" media="all" rel="stylesheet"/>
<meta content="authenticity_token" name="csrf-param"/>
<meta content="/eVd0MiiSpF28DIWw6G/v8cuf67VezZA2YZdRjvQpuWABp/C03PMqXmckC801bfktAu0O+R42Stfo18FkmYIhA==" name="csrf-token"/>
<!-- HTML5 Shim and Respond.js IE8 support of HTML5 elements and media queries -->
<!--[if lt IE 9]>
      <script src="https://oss.maxcdn.com/libs/html5shiv/3.7.0/html5shiv.js"></script>
      <script src="https://oss.maxcdn.com/libs/respond.js/1.3.0/respond.min.js"></script>
    <![endif]-->
</meta></head>
<body>
<!-

## Encontrando elementos

In [None]:
#https://thegreatestbooks.org/

### método find() 

Em Beautiful Soup, find() é um método que permite buscar um elemento específico no conteúdo HTML ou XML analisado. O método find() procura e retorna a primeira ocorrência de um determinado tipo de elemento.

A estrutura básica do método find() é a seguinte:

find(name, attrs, recursive, string, ** kwargs)


name: É o nome do tipo de elemento que você está procurando, como "div", "p", "a", etc. Pode ser passado como uma string ou como uma lista de strings para buscar múltiplos tipos de elementos.

attrs: É um dicionário ou uma função que define atributos específicos que o elemento deve ter. Por exemplo, {"class": "header"} retornaria um elemento com a classe "header".

recursive: É um parâmetro booleano que indica se a busca deve ser feita recursivamente em todos os descendentes do elemento analisado. O valor padrão é True.

string: É uma string ou uma função que define o conteúdo do elemento que você está procurando.

Se nenhum elemento for encontrado, ele retorna None.

In [28]:
conteudo_books.find('title')

<title>The Greatest Books: The Best Books of All Time - 1 to 50</title>

### método find_all()

Em BeautifulSoup, findAll() é um método que permite encontrar todos os elementos correspondentes a um determinado critério em um documento HTML ou XML. Também pode ser chamado de find_all() em algumas versões mais recentes do BeautifulSoup.

A sintaxe geral do método findAll() é a seguinte:

python
Copy code
findAll(name, attrs, recursive, text, ** kwargs)

name: É uma string ou uma lista de strings que especifica o nome do elemento ou elementos que você deseja encontrar. Por exemplo, se você deseja encontrar todas as tags <a>, você pode passar 'a' como argumento.
    
attrs: É um dicionário opcional que permite filtrar os elementos com base em seus atributos. Por exemplo, se você quiser encontrar todos os elementos <a> que tenham o atributo href definido, pode passar {'href': True}.
    
recursive: É um valor booleano opcional que indica se a pesquisa deve ser feita apenas nos descendentes diretos do elemento atual (valor False) ou em todos os descendentes aninhados (valor True). O padrão é True.
    
text: É uma string opcional que permite filtrar os elementos com base no texto contido neles. Por exemplo, se você quiser encontrar todos os elementos que contenham a palavra "exemplo", pode passar 'exemplo' como argumento.
    
**kwargs: Você também pode usar argumentos de palavra-chave adicionais para fazer filtragens mais específicas com base em outros atributos dos elementos.
    
O método find_all() retorna uma lista de objetos BeautifulSoup, cada um representando um elemento correspondente encontrado no documento.

In [28]:
conteudo_books.find_all('div')

NameError: name 'conteudo_books' is not defined

In [33]:
len(conteudo_books.find_all('div'))

444

### Tags

In [29]:
conteudo_books.find('div')

NameError: name 'conteudo_books' is not defined

### Classe

In [38]:
conteudo_books.find(class_='d-none d-md-block')

<div class="d-none d-md-block">
<header class="navbar navbar-expand navbar-dark flex-column flex-sm-row bd-navbar bg-dark">
<a aria-label="The Greatest Books" class="navbar-brand mr-0 mr-md-2" href="/">The Greatest Books</a>
<div class="navbar-nav-scroll">
<ul class="navbar-nav bd-navbar-nav flex-row d-flex">
<li class="nav-item">
<a class="nav-link" href="/">Home</a>
</li>
<li class="nav-item">
<a class="nav-link active" href="/lists">The Lists</a>
</li>
<li class="dropdown nav-item">
<a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>
<div aria-labelledby="miscDropDownMenuLink" class="dropdown-menu dropdown-menu-left">
<a class="dropdown-item" href="https://thegreatestbooks.tumblr.com/" target="_blank">Blog</a>
<a class="dropdown-item" href="/tgb_1.csv">Download Fiction CSV File</a>
<a class="dropdown-item" href="/tgb_2.csv">Download Nonfiction CSV File</a>
</div>
</li>

In [39]:
conteudo_books.find_all(class_='d-none d-md-block')

[<div class="d-none d-md-block">
 <header class="navbar navbar-expand navbar-dark flex-column flex-sm-row bd-navbar bg-dark">
 <a aria-label="The Greatest Books" class="navbar-brand mr-0 mr-md-2" href="/">The Greatest Books</a>
 <div class="navbar-nav-scroll">
 <ul class="navbar-nav bd-navbar-nav flex-row d-flex">
 <li class="nav-item">
 <a class="nav-link" href="/">Home</a>
 </li>
 <li class="nav-item">
 <a class="nav-link active" href="/lists">The Lists</a>
 </li>
 <li class="dropdown nav-item">
 <a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>
 <div aria-labelledby="miscDropDownMenuLink" class="dropdown-menu dropdown-menu-left">
 <a class="dropdown-item" href="https://thegreatestbooks.tumblr.com/" target="_blank">Blog</a>
 <a class="dropdown-item" href="/tgb_1.csv">Download Fiction CSV File</a>
 <a class="dropdown-item" href="/tgb_2.csv">Download Nonfiction CSV File

### ID

In [43]:
conteudo_books.find_all(id='navbarTogglerDemo02')

[<div class="collapse navbar-collapse" id="navbarTogglerDemo02">
 <ul class="list-unstyled">
 <li class="nav-item">
 <a class="nav-link active" href="/lists">The Lists</a>
 </li>
 <li class="nav-item"><a class="nav-link" href="/users/sign_in">Sign In</a></li>
 <li class="dropdown nav-item">
 <a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>
 <div aria-labelledby="miscDropDownMenuLink" class="dropdown-menu dropdown-menu-left">
 <a class="dropdown-item" href="https://thegreatestbooks.tumblr.com/" target="_blank">Blog</a>
 <a class="dropdown-item" href="/tgb_1.csv">Download Fiction CSV File</a>
 <a class="dropdown-item" href="/tgb_2.csv">Download Nonfiction CSV File</a>
 </div>
 </li>
 <li class="nav-link">
 <a aria-expanded="false" aria-haspopup="true" class="dropdown-toggle" data-toggle="dropdown" href="#" id="filterByTypeDropDownMenuLink">Filter By Type <b class="caret"

### Atributos

In [44]:
conteudo_books.find('a',attrs={'aria-haspopup':'true'})

<a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>

### Seletores CSS

É possível realizar seleções a partir de seletores CSS , usando a lógica de estilos. 

soup.select()

In [46]:
#procurar por ID (#)

conteudo_books.select('#navbarTogglerDemo02')


[<div class="collapse navbar-collapse" id="navbarTogglerDemo02">
 <ul class="list-unstyled">
 <li class="nav-item">
 <a class="nav-link active" href="/lists">The Lists</a>
 </li>
 <li class="nav-item"><a class="nav-link" href="/users/sign_in">Sign In</a></li>
 <li class="dropdown nav-item">
 <a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>
 <div aria-labelledby="miscDropDownMenuLink" class="dropdown-menu dropdown-menu-left">
 <a class="dropdown-item" href="https://thegreatestbooks.tumblr.com/" target="_blank">Blog</a>
 <a class="dropdown-item" href="/tgb_1.csv">Download Fiction CSV File</a>
 <a class="dropdown-item" href="/tgb_2.csv">Download Nonfiction CSV File</a>
 </div>
 </li>
 <li class="nav-link">
 <a aria-expanded="false" aria-haspopup="true" class="dropdown-toggle" data-toggle="dropdown" href="#" id="filterByTypeDropDownMenuLink">Filter By Type <b class="caret"

In [47]:
#procurar por classes (.)

conteudo_books.select('.nav-link')

[<a class="nav-link" href="/">Home</a>,
 <a class="nav-link active" href="/lists">The Lists</a>,
 <a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>,
 <a class="nav-link" href="/users/sign_in">Sign In</a>,
 <a class="nav-link active" href="/lists">The Lists</a>,
 <a class="nav-link" href="/users/sign_in">Sign In</a>,
 <a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>,
 <li class="nav-link">
 <a aria-expanded="false" aria-haspopup="true" class="dropdown-toggle" data-toggle="dropdown" href="#" id="filterByTypeDropDownMenuLink">Filter By Type <b class="caret"></b></a>
 <ul class="list-unstyled">
 <li class="dropdown nav-item">
 <div aria-labelledby="filterByTypeDropDownMenuLink" class="dropdown-menu dropdown-menu-left">
 <a class="dropdown-item mobile mobile

In [48]:
# procurando por tag + atributo tag[attr="valor"]

conteudo_books.select('a[aria-haspopup="true"]')

[<a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>,
 <a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>,
 <a aria-expanded="false" aria-haspopup="true" class="dropdown-toggle" data-toggle="dropdown" href="#" id="filterByTypeDropDownMenuLink">Filter By Type <b class="caret"></b></a>,
 <a aria-expanded="false" aria-haspopup="true" class="dropdown-toggle" data-toggle="dropdown" href="#" id="filterByDateDropDownMenuLink">Filter By Date Range <b class="caret"></b></a>,
 <a aria-expanded="false" aria-haspopup="true" class="dropdown-toggle" data-toggle="dropdown" href="#" id="filterByNationalityDropDownMenuLink">Filter By Nationality <b class="caret"></b></a>]

In [None]:
conteudo_books.find('a',attrs={'aria-haspopup':'true'})

### Encontrando textos contidos nas tags

In [23]:
conteudo_books.find('title').find()

### Capturando o valor de um atributo

In [54]:
conteudo_books.find('a',attrs={'aria-haspopup':'true'})

<a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>

In [56]:
conteudo_books.find('a',attrs={'aria-haspopup':'true'}).get('aria-haspopup')

'true'

## Encontrando links ( urls )  dentro de um HTML

In [61]:
conteudo_books.find_all('a')[4].get('href')

'https://thegreatestbooks.tumblr.com/'

In [69]:
conteudo_books.find_all('a')[4]

<a class="dropdown-item" href="https://thegreatestbooks.tumblr.com/" target="_blank">Blog</a>

In [16]:
for url in conteudo_books.find_all('a'):
    
    print(url)
    
    
    

<a aria-label="The Greatest Books" class="navbar-brand mr-0 mr-md-2" href="/">The Greatest Books</a>
<a class="nav-link" href="/">Home</a>
<a class="nav-link active" href="/lists">The Lists</a>
<a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>
<a class="dropdown-item" href="https://thegreatestbooks.tumblr.com/" target="_blank">Blog</a>
<a class="dropdown-item" href="/tgb_1.csv">Download Fiction CSV File</a>
<a class="dropdown-item" href="/tgb_2.csv">Download Nonfiction CSV File</a>
<a class="nav-link" href="/users/sign_in">Sign In</a>
<a class="navbar-brand" href="/">The Greatest Books</a>
<a class="nav-link active" href="/lists">The Lists</a>
<a class="nav-link" href="/users/sign_in">Sign In</a>
<a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="miscDropDownMenuLink">Misc <b class="caret"></b></a>
<a class

## Extraindo tabelas 

In [173]:
#'https://valorinveste.globo.com/cotacoes/'

In [71]:
req_acoes = requests.get('https://valorinveste.globo.com/cotacoes/')

In [72]:
req_acoes

<Response [200]>

In [73]:
soup_acoes = BeautifulSoup(req_acoes.text , 'html.parser')

In [75]:
soup_acoes.title

<title>Cotações do dia - Bolsa B3 - Ações - Valor Investe</title>

In [78]:
tabela =soup_acoes.find('table',attrs={'data-table':'c7f81b4e-db55-4820-b762-ee4c6e54416d'})

In [82]:
cols = tabela.find('thead')

In [83]:
[col.text for col in cols]

[' ',
 '  Nome   Código   Última (R$)   Variação (%)   Fech. dia anterior (R$)  ',
 ' ']

In [86]:
rows = tabela.find_all('tr')

In [97]:
data = []
for row in rows:
    data_rows = row.find_all('td')
    data_rows = [ele.text for ele in data_rows]
    data.append([ele for ele in data_rows])

In [99]:
import pandas as pd 

In [107]:
data

[[' Nome ',
  ' Código ',
  ' Última (R$) ',
  ' Variação (%) ',
  ' Fech. dia anterior (R$) '],
 [' B3 ON ', ' B3SA3 ', ' 14,61 ', ' -1,95 % ', ' 14,90 '],
 [' VALE ON ', ' VALE3 ', ' 67,83 ', ' 1,06 % ', ' 67,12 '],
 [' ABC BRASIL PN ', ' ABCB4 ', ' 17,85 ', ' -2,46 % ', ' 18,30 '],
 [' ALPARGATAS PN ', ' ALPA4 ', ' 10,42 ', ' -4,93 % ', ' 10,96 '],
 [' ALUPAR UNT ', ' ALUP11 ', ' 29,00 ', ' -1,93 % ', ' 29,57 '],
 [' AMBEV S/A ON ', ' ABEV3 ', ' 15,27 ', ' 0,73 % ', ' 15,16 '],
 [' ANIMA ON ', ' ANIM3 ', ' 3,64 ', ' -5,70 % ', ' 3,86 '],
 [' AREZZO CO ON ', ' ARZZ3 ', ' 75,57 ', ' -4,44 % ', ' 79,08 '],
 [' AZUL PN ', ' AZUL4 ', ' 18,36 ', ' -4,42 % ', ' 19,21 '],
 [' BANRISUL PNB ', ' BRSR6 ', ' 13,91 ', ' -0,07 % ', ' 13,92 '],
 [' BB SEGURIDADE ON ', ' BBSE3 ', ' 30,61 ', ' -0,71 % ', ' 30,83 '],
 [' BR PROPERT ON ', ' BRPR3 ', ' 66,66 ', ' 0,48 % ', ' 66,34 '],
 [' BRADESCO ON ', ' BBDC3 ', ' 14,43 ', ' 0,21 % ', ' 14,40 '],
 [' BRADESCO PN ', ' BBDC4 ', ' 16,74 ', ' 0,12 % ', '

In [103]:
pd.DataFrame(data)[1].unique()

array([' Código ', ' B3SA3 ', ' VALE3 ', ' ABCB4 ', ' ALPA4 ', ' ALUP11 ',
       ' ABEV3 ', ' ANIM3 ', ' ARZZ3 ', ' AZUL4 ', ' BRSR6 ', ' BBSE3 ',
       ' BRPR3 ', ' BBDC3 ', ' BBDC4 ', ' BRAP4 ', ' BBAS3 ', ' BRKM5 ',
       ' BRFS3 ', ' BPAC11 ', ' CAML3 ', ' CRFB3 ', ' CCRO3 ', ' CMIG3 ',
       ' CMIG4 ', ' CIEL3 ', ' CGAS5 ', ' CSMG3 ', ' CPLE6 ', ' CSAN3 ',
       ' RLOG3 ', ' CPFE3 ', ' CVCB3 ', ' CYRE3 ', ' DIRR3 ', ' ECOR3 ',
       ' ELET3 ', ' ELET6 ', ' EMBR3 ', ' ENBR3 ', ' ENGI11 ', ' ENEV3 ',
       ' EGIE3 ', ' EQTL3 ', ' EVEN3 ', ' EZTC3 ', ' FESA4 ', ' FLRY3 ',
       ' GFSA3 ', ' GGBR4 ', ' GOAU4 ', ' GOLL4 ', ' GRND3 ', ' GUAR3 ',
       ' HAPV3 ', ' HBOR3 ', ' HYPE3 ', ' MEAL3 ', ' GNDI3 ', ' MYPK3 ',
       ' IRBR3 ', ' ITSA4 ', ' ITUB3 ', ' ITUB4 ', ' JBSS3 ', ' KLBN11 ',
       ' LIGT3 ', ' RENT3 ', ' AMAR3 ', ' LREN3 ', ' MDIA3 ', ' MGLU3 ',
       ' POMO4 ', ' MRFG3 ', ' LEVE3 ', ' BEEF3 ', ' MOVI3 ', ' MRVE3 ',
       ' MULT3 ', ' ODPV3 ', ' OMGE3 ', ' PETR

# Extraindo um site com BeautifulSoup + Requests + Pandas

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
req_books = requests.get('https://thegreatestbooks.org/')

In [3]:
soup_books = BeautifulSoup(req_books.text,'html.parser')

In [4]:
classe_books = soup_books.find(class_='list-body')

In [5]:
lista_ordenada = classe_books.find('ol')

In [6]:
lista_ordenada.find_all('li')[0].find('a')

<a href="/items/225">In Search of Lost Time </a>

In [7]:
for elem in lista_ordenada.find_all('li'):
    
    try:
        print(elem.find('a').text)
    except:
        pass

In Search of Lost Time 
Ulysses
Don Quixote
One Hundred Years of Solitude 
The Great Gatsby 
Moby Dick
War and Peace
Hamlet
The Odyssey
Madame Bovary
The Divine Comedy 
Lolita 
The Brothers Karamazov 
Crime and Punishment 
Wuthering Heights
The Catcher in the Rye
Pride and Prejudice
The Adventures of Huckleberry Finn
Anna Karenina
Alice's Adventures in Wonderland 
The Iliad
To the Lighthouse 
Catch-22 
Heart of Darkness
The Sound and the Fury
Nineteen Eighty Four
Great Expectations
One Thousand and One Nights
The Grapes of Wrath 
Absalom, Absalom!
Invisible Man 
To Kill a Mockingbird 
The Trial
The Red and the Black
Middlemarch
Gulliver's Travels
Beloved
Mrs. Dalloway 
The Stories of Anton Chekhov
The Stranger 
Jane Eyre
The Aeneid
Collected Fiction
The Sun Also Rises 
David Copperfield
Tristram Shandy
Leaves of Grass
The Magic Mountain
A Portrait of the Artist as a Young Man 
Midnight's Children 


In [9]:
dict_livros = {}
df_livro_full = pd.DataFrame()
for elem in lista_ordenada.find_all('li'):
    
    try:
        dict_livros['url_livro'] = 'https://thegreatestbooks.org' + elem.find('a').get('href')
    except:
        pass
    
    try:
        dict_livros['titulo_livro'] = elem.find('a').text
    except:
        pass
    
    try:
        dict_livros['autor_livro'] = elem.find_all('a')[1].text
    except:
        pass
    
    df_livro = pd.DataFrame([dict_livros])
    
    df_livro_full = pd.concat([df_livro_full,df_livro])

In [21]:
import time

In [27]:
time.strftime('%y%m%d%S')

'23061335'