# Realizar Web Scraping com Python


## Objetivo:
Introduzindo o conceito de web scraping usando Python.
- Extrair dados de páginas web de forma eficiente e ética.


### O que é web scraping
Cenários possíveis de ser utilizado: na coleta de dados para análise de mercado, monitoramento de preços, ou agregação de conteúdo.

### Importante de considerar a legalidade e a ética do web scraping.
Arquivo robots.txt das páginas e o impacto de suas ações no servidor alvo.

#### Fazendo Requisições Web em Python
- Biblioteca requests para fazer solicitações HTTP em Python.
- Usar requests.get() para recuperar o conteúdo de uma página web.

In [69]:
%pip install requests

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [70]:
import requests

# url = 'https://webscraper.io/test-sites/e-commerce/allinone'
# url = 'https://infnet.edu.br'
url = 'https://wikpedia.org'
# url = 'https://en.wikipedia.org/iusdyfgv'
resposta = requests.get(url)
print(resposta)


<Response [200]>


### Propriedades do Response



- `Propriedade/Método`	Descrição
- `apparent_encoding`	Retorna a codificação aparente
- `close()`	Fecha a conexão com o servidor
- `content`	Retorna o conteúdo da resposta, em bytes
- `cookies`	Retorna um objeto CookieJar com os cookies enviados de volta do servidor
- `elapsed`	Retorna um objeto timedelta com o tempo decorrido desde o envio da solicitação até a chegada da resposta
- `encoding`	Retorna a codificação usada para decodificar r.text
- `headers`	Retorna um dicionário de cabeçalhos de resposta
- `history`	Retorna uma lista de objetos de resposta contendo o histórico da solicitação (url)
- `is_permanent_redirect`	Retorna True se a resposta for o URL redirecionado permanente, caso contrário, False
- `is_redirect`	Retorna True se a resposta foi redirecionada, caso contrário, False
- `iter_content()`	Itera sobre a resposta
- `iter_lines()`	Itera sobre as linhas da resposta
- `json()`	Retorna um objeto JSON do resultado (se o resultado foi escrito no formato JSON, caso contrário gera um erro)
- `links`	Retorna os links do cabeçalho
- `next`	Retorna um objeto PreparedRequest para a próxima solicitação em um redirecionamento
- `ok`	Retorna True se status_code for menor que 400, caso contrário, False
- `raise_for_status()`	Se ocorrer um erro, este método retorna um objeto HTTPError
- `reason`	Retorna um texto correspondente ao código de status
- `request`	Retorna o objeto request que solicitou esta resposta
- `status_code`	Retorna um número que indica o status (200 é OK, 404 é Não Encontrado)
- `text`	Retorna o conteúdo da resposta, em unicode
- `url`	Retorna a URL da resposta

In [71]:
from pprint import pprint

display(resposta.__attrs__)
pprint(resposta.__dict__)


['_content',
 'status_code',
 'headers',
 'url',
 'history',
 'encoding',
 'reason',
 'cookies',
 'elapsed',
 'request']

{'_content': b'<!DOCTYPE html>\n<html lang="en" class="no-js">\n<head>\n<meta '
             b'charset="utf-8">\n<title>Wikipedia</title>\n<meta name="descri'
             b'ption" content="Wikipedia is a free online encyclopedia, created'
             b' and edited by volunteers around the world and hosted by the Wik'
             b'imedia Foundation.">\n<script>\ndocument.documentElement.class'
             b'Name = document.documentElement.className.replace( /(^|\\s)no'
             b'-js(\\s|$)/, "$1js-enabled$2" );\n</script>\n<meta name="viewpo'
             b'rt" content="initial-scale=1,user-scalable=yes">\n<link rel="'
             b'apple-touch-icon" href="/static/apple-touch/wikipedia.png">\n'
             b'<link rel="shortcut icon" href="/static/favicon/wikipedia.ic'
             b'o">\n<link rel="license" href="//creativecommons.org/licenses'
             b'/by-sa/4.0/">\n<style>\n.sprite{background-image:linear-gradie'
             b'nt(transparent,transparent),url(porta

In [72]:
resposta.text

'<!DOCTYPE html>\n<html lang="en" class="no-js">\n<head>\n<meta charset="utf-8">\n<title>Wikipedia</title>\n<meta name="description" content="Wikipedia is a free online encyclopedia, created and edited by volunteers around the world and hosted by the Wikimedia Foundation.">\n<script>\ndocument.documentElement.className = document.documentElement.className.replace( /(^|\\s)no-js(\\s|$)/, "$1js-enabled$2" );\n</script>\n<meta name="viewport" content="initial-scale=1,user-scalable=yes">\n<link rel="apple-touch-icon" href="/static/apple-touch/wikipedia.png">\n<link rel="shortcut icon" href="/static/favicon/wikipedia.ico">\n<link rel="license" href="//creativecommons.org/licenses/by-sa/4.0/">\n<style>\n.sprite{background-image:linear-gradient(transparent,transparent),url(portal/wikipedia.org/assets/img/sprite-de847d1a.svg);background-repeat:no-repeat;display:inline-block;vertical-align:middle}.svg-Commons-logo_sister{background-position:0 0;width:47px;height:47px}.svg-MediaWiki-logo_sister{

### Parsing de HTML com BeautifulSoup
Biblioteca BeautifulSoup é uma ferramenta para analisar / decompor / parsear o HTML obtido e extrair informações de interesse.

In [73]:
%pip install bs4

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [74]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(resposta.content, 'html.parser')
print(soup)


<!DOCTYPE html>

<html class="no-js" lang="en">
<head>
<meta charset="utf-8"/>
<title>Wikipedia</title>
<meta content="Wikipedia is a free online encyclopedia, created and edited by volunteers around the world and hosted by the Wikimedia Foundation." name="description"/>
<script>
document.documentElement.className = document.documentElement.className.replace( /(^|\s)no-js(\s|$)/, "$1js-enabled$2" );
</script>
<meta content="initial-scale=1,user-scalable=yes" name="viewport"/>
<link href="/static/apple-touch/wikipedia.png" rel="apple-touch-icon"/>
<link href="/static/favicon/wikipedia.ico" rel="shortcut icon"/>
<link href="//creativecommons.org/licenses/by-sa/4.0/" rel="license"/>
<style>
.sprite{background-image:linear-gradient(transparent,transparent),url(portal/wikipedia.org/assets/img/sprite-de847d1a.svg);background-repeat:no-repeat;display:inline-block;vertical-align:middle}.svg-Commons-logo_sister{background-position:0 0;width:47px;height:47px}.svg-MediaWiki-logo_sister{background

In [75]:
links = soup.find_all('a')

for titulo in links:
    print(titulo.attrs['href'])
display("")
pprint(titulo.__dict__)

//en.wikipedia.org/
//ru.wikipedia.org/
//ja.wikipedia.org/
//es.wikipedia.org/
//de.wikipedia.org/
//fr.wikipedia.org/
//zh.wikipedia.org/
//it.wikipedia.org/
//pt.wikipedia.org/
//fa.wikipedia.org/
//ar.wikipedia.org/
//de.wikipedia.org/
//en.wikipedia.org/
//es.wikipedia.org/
//fa.wikipedia.org/
//fr.wikipedia.org/
//it.wikipedia.org/
//arz.wikipedia.org/
//nl.wikipedia.org/
//ja.wikipedia.org/
//pl.wikipedia.org/
//pt.wikipedia.org/
//ceb.wikipedia.org/
//sv.wikipedia.org/
//uk.wikipedia.org/
//vi.wikipedia.org/
//war.wikipedia.org/
//zh.wikipedia.org/
//ru.wikipedia.org/
//af.wikipedia.org/
//ast.wikipedia.org/
//az.wikipedia.org/
//bg.wikipedia.org/
//zh-min-nan.wikipedia.org/
//bn.wikipedia.org/
//be.wikipedia.org/
//ca.wikipedia.org/
//cs.wikipedia.org/
//cy.wikipedia.org/
//da.wikipedia.org/
//et.wikipedia.org/
//el.wikipedia.org/
//eo.wikipedia.org/
//eu.wikipedia.org/
//gl.wikipedia.org/
//ko.wikipedia.org/
//hy.wikipedia.org/
//hi.wikipedia.org/
//hr.wikipedia.org/
//id.wik

''

{'_namespaces': {},
 'attrs': {'href': 'https://foundation.wikimedia.org/wiki/Special:MyLanguage/Policy:Privacy_policy'},
 'can_be_empty_element': False,
 'cdata_list_attributes': {'*': ['class', 'accesskey', 'dropzone'],
                           'a': ['rel', 'rev'],
                           'area': ['rel'],
                           'form': ['accept-charset'],
                           'icon': ['sizes'],
                           'iframe': ['sandbox'],
                           'link': ['rel', 'rev'],
                           'object': ['archive'],
                           'output': ['for'],
                           'td': ['headers'],
                           'th': ['headers']},
 'contents': ['Privacy Policy'],
 'hidden': False,
 'interesting_string_types': (<class 'bs4.element.NavigableString'>,
                              <class 'bs4.element.CData'>),
 'known_xml': False,
 'name': 'a',
 'namespace': None,
 'next_element': 'Privacy Policy',
 'next_sibling': None,
 '

In [76]:
display('')
pprint(soup.prettify(formatter='html'))
display('')
pprint(soup)





''

('<!DOCTYPE html>\n'
 '<html class="no-js" lang="en">\n'
 ' <head>\n'
 '  <meta charset="utf-8"/>\n'
 '  <title>\n'
 '   Wikipedia\n'
 '  </title>\n'
 '  <meta content="Wikipedia is a free online encyclopedia, created and edited '
 'by volunteers around the world and hosted by the Wikimedia Foundation." '
 'name="description"/>\n'
 '  <script>\n'
 '   document.documentElement.className = '
 'document.documentElement.className.replace( /(^|\\s)no-js(\\s|$)/, '
 '"$1js-enabled$2" );\n'
 '  </script>\n'
 '  <meta content="initial-scale=1,user-scalable=yes" name="viewport"/>\n'
 '  <link href="/static/apple-touch/wikipedia.png" rel="apple-touch-icon"/>\n'
 '  <link href="/static/favicon/wikipedia.ico" rel="shortcut icon"/>\n'
 '  <link href="//creativecommons.org/licenses/by-sa/4.0/" rel="license"/>\n'
 '  <style>\n'
 '   '
 '.sprite{background-image:linear-gradient(transparent,transparent),url(portal/wikipedia.org/assets/img/sprite-de847d1a.svg);background-repeat:no-repeat;display:inline-

''

<!DOCTYPE html>

<html class="no-js" lang="en">
<head>
<meta charset="utf-8"/>
<title>Wikipedia</title>
<meta content="Wikipedia is a free online encyclopedia, created and edited by volunteers around the world and hosted by the Wikimedia Foundation." name="description"/>
<script>
document.documentElement.className = document.documentElement.className.replace( /(^|\s)no-js(\s|$)/, "$1js-enabled$2" );
</script>
<meta content="initial-scale=1,user-scalable=yes" name="viewport"/>
<link href="/static/apple-touch/wikipedia.png" rel="apple-touch-icon"/>
<link href="/static/favicon/wikipedia.ico" rel="shortcut icon"/>
<link href="//creativecommons.org/licenses/by-sa/4.0/" rel="license"/>
<style>
.sprite{background-image:linear-gradient(transparent,transparent),url(portal/wikipedia.org/assets/img/sprite-de847d1a.svg);background-repeat:no-repeat;display:inline-block;vertical-align:middle}.svg-Commons-logo_sister{background-position:0 0;width:47px;height:47px}.svg-MediaWiki-logo_sister{background

#### Extrair Dados Específicos
Utilizar os métodos de BeautifulSoup para extrair informações específicas de elementos HTML, como atributos e textos.

In [77]:

# Fazendo download de uma pagina web com requests
import requests
from bs4 import BeautifulSoup
url = 'https://pt.wikipedia.org/wiki/Wikip%C3%A9dia:P%C3%A1gina_principal'
# url = 'https://infnet.edu.br'
resposta = requests.get(url)

# Utilizando BeautifulSoup para parsear o HTML
soup = BeautifulSoup(resposta.text, 'html.parser')

# Extraindo o titulo da pagina
titulo = soup.title.text
print('Titulo da pagina:\n', titulo)


Titulo da pagina:
 Wikipédia, a enciclopédia livre


In [78]:

# Exemplo de extracao de links de uma pagina
links = soup.find_all('a')
for link in links:
    print(link.get('href'))


#bodyContent
/wiki/Wikip%C3%A9dia:P%C3%A1gina_principal
/wiki/Portal:Conte%C3%BAdo_destacado
/wiki/Portal:Eventos_atuais
/wiki/Wikip%C3%A9dia:Esplanada
/wiki/Especial:Aleat%C3%B3ria
/wiki/Portal:%C3%8Dndice
/wiki/Wikip%C3%A9dia:Informe_um_erro
/wiki/Wikip%C3%A9dia:Boas-vindas
/wiki/Ajuda:P%C3%A1gina_principal
/wiki/Ajuda:P%C3%A1gina_de_testes
/wiki/Wikip%C3%A9dia:Portal_comunit%C3%A1rio
/wiki/Especial:Mudan%C3%A7as_recentes
/wiki/Wikip%C3%A9dia:Manuten%C3%A7%C3%A3o
/wiki/Ajuda:Guia_de_edi%C3%A7%C3%A3o/Como_come%C3%A7ar_uma_p%C3%A1gina
/wiki/Especial:P%C3%A1ginas_novas
/wiki/Wikip%C3%A9dia:Contato
/wiki/Wikip%C3%A9dia:P%C3%A1gina_principal
/wiki/Especial:Pesquisar
//donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=20120521SB001&uselang=pt
/w/index.php?title=Especial:Criar_conta&returnto=Wikip%C3%A9dia%3AP%C3%A1gina+principal
/w/index.php?title=Especial:Entrar&returnto=Wikip%C3%A9dia%3AP%C3%A1gina+principal
//donate.wikimedia.org/wi

### Usando o BeautifulSoup para analisar HTML

#### Principais Métodos do BeautifulSoup

In [79]:
%pip install lxml





[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [80]:
from bs4 import BeautifulSoup

html_doc = """
<html>
  <head>
    <title>Exemplo de Página</title>
  </head>
  <body>
    <p class="title"><b>Exemplo de Página</b></p>
    <p class="story">Era uma vez uma história interessante.</p>
    <p class="story">Outra história interessante.</p>
    <a href="http://example.com/page1" class="link" id="link1">Link 1</a>
    <a href="http://example.com/page2" class="link" id="link2">Link 2</a>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'lxml')
display(soup)

<html>
<head>
<title>Exemplo de Página</title>
</head>
<body>
<p class="title"><b>Exemplo de Página</b></p>
<p class="story">Era uma vez uma história interessante.</p>
<p class="story">Outra história interessante.</p>
<a class="link" href="http://example.com/page1" id="link1">Link 1</a>
<a class="link" href="http://example.com/page2" id="link2">Link 2</a>
</body>
</html>

### Métodos Principais
##### Navegação na Árvore
- soup.title: Retorna o primeiro elemento <title>.


In [81]:

print(soup.title.text)  # <title>Exemplo de Página</title>


Exemplo de Página


- soup.title.name: Retorna o nome da tag.


In [82]:

print(soup.title.name)  # title


title


- soup.title.string: Retorna o texto contido na tag.


In [83]:

print(soup.title.string)  # Exemplo de Página


Exemplo de Página


- soup.title.parent.name: Retorna o nome da tag pai do título.


In [84]:

print(soup.title.parent.name)  # head


head


- soup.p: Retorna o primeiro parágrafo.


In [85]:

print(soup.p)  # <p class="title"><b>Exemplo de Página</b></p>


<p class="title"><b>Exemplo de Página</b></p>


soup.p['class']: Retorna os atributos da tag.


In [86]:

print(soup.p['class'])  # ['title']


['title']


soup.a: Retorna o primeiro link.


In [87]:

print(soup.a)  # <a href="http://example.com/page1" class="link" id="link1">Link 1</a>

<a class="link" href="http://example.com/page1" id="link1">Link 1</a>


- soup.find_all('a'): Retorna todos os links.


In [88]:
print(soup.find_all('a'))
# [<a href="http://example.com/page1" class="link" id="link1">Link 1</a>, <a href="http://example.com/page2" class="link" id="link2">Link 2</a>]


[<a class="link" href="http://example.com/page1" id="link1">Link 1</a>, <a class="link" href="http://example.com/page2" id="link2">Link 2</a>]


- soup.find(id='link2'): Retorna o elemento com o ID especificado.


In [89]:
print(soup.find(class_='link', id='link2'))  # <a href="http://example.com/page2" class="link" id="link2">Link 2</a>

# print(soup.find(attr))

<a class="link" href="http://example.com/page2" id="link2">Link 2</a>


In [90]:
url = 'https://pt.wikipedia.org/wiki/Faculdade_Infnet'
pagina = requests.get(url)


In [91]:
soup_infnet = BeautifulSoup(pagina.content, 'html.parser')

soup_infnet.find_all('a', attrs={"class":"mw-redirect", "title":"Pós-Graduação"})

[<a class="mw-redirect" href="/wiki/P%C3%B3s-Gradua%C3%A7%C3%A3o" title="Pós-Graduação">Pós-Graduação</a>,
 <a class="mw-redirect" href="/wiki/P%C3%B3s-Gradua%C3%A7%C3%A3o" title="Pós-Graduação">Pós-Graduação</a>,
 <a class="mw-redirect" href="/wiki/P%C3%B3s-Gradua%C3%A7%C3%A3o" title="Pós-Graduação">Pós-Graduação</a>,
 <a class="mw-redirect" href="/wiki/P%C3%B3s-Gradua%C3%A7%C3%A3o" title="Pós-Graduação">Pós-Graduação</a>,
 <a class="mw-redirect" href="/wiki/P%C3%B3s-Gradua%C3%A7%C3%A3o" title="Pós-Graduação">Pós-Graduação</a>,
 <a class="mw-redirect" href="/wiki/P%C3%B3s-Gradua%C3%A7%C3%A3o" title="Pós-Graduação">Pós-Graduação</a>,
 <a class="mw-redirect" href="/wiki/P%C3%B3s-Gradua%C3%A7%C3%A3o" title="Pós-Graduação">Pós-Graduação</a>,
 <a class="mw-redirect" href="/wiki/P%C3%B3s-Gradua%C3%A7%C3%A3o" title="Pós-Graduação">Pós-Graduação</a>,
 <a class="mw-redirect" href="/wiki/P%C3%B3s-Gradua%C3%A7%C3%A3o" title="Pós-Graduação">Pós-Graduação</a>,
 <a class="mw-redirect" href="/wiki/P

#### Modificação da Árvore
soup.p['class'] = 'newClass': Modifica o valor de um atributo.


In [60]:

soup.p['class'] = 'newClass'
print(soup.p) # <p class="newClass"><b>Exemplo de Página</b></p>
display(soup)


<p class="newClass"><b>Exemplo de Página</b></p>


<html>
<head>
<title>Exemplo de Página</title>
</head>
<body>
<p class="newClass"><b>Exemplo de Página</b></p>
<p class="story">Era uma vez uma história interessante.</p>
<p class="story">Outra história interessante.</p>
<a class="link" href="http://example.com/page1" id="link1">Link 1</a>
<a class="link" href="http://example.com/page2" id="link2">Link 2</a>
</body>
</html>

- soup.a.decompose(): Remove o elemento da árvore.


In [61]:
soup.a.decompose()
print(soup)  # O primeiro link é removido do HTML

<html>
<head>
<title>Exemplo de Página</title>
</head>
<body>
<p class="newClass"><b>Exemplo de Página</b></p>
<p class="story">Era uma vez uma história interessante.</p>
<p class="story">Outra história interessante.</p>

<a class="link" href="http://example.com/page2" id="link2">Link 2</a>
</body>
</html>



#### Métodos de Busca
- soup.find_all('p'): Encontra todas as tags <p>.


In [64]:

pprint(soup_infnet.find_all('p'))
# [<p class="newClass"><b>Exemplo de Página</b></p>, <p class="story">Era uma vez uma história interessante.</p>, <p class="story">Outra história interessante.</p>]


[<p>A <b>Faculdade Infnet</b> é uma instituição brasileira de ensino superior focada em tecnologia. Sediada no <a class="mw-redirect" href="/wiki/Rio_de_Janeiro_(cidade)" title="Rio de Janeiro (cidade)">Rio de Janeiro</a>,<sup class="reference" id="cite_ref-1"><a href="#cite_note-1"><span>[</span>1<span>]</span></a></sup> oferta cursos de graduação presenciais e a distância e pós-graduação a distância.<sup class="reference" id="cite_ref-:0_2-0"><a href="#cite_note-:0-2"><span>[</span>2<span>]</span></a></sup>
</p>,
 <p>Os cursos são voltados para as engenharias tech, tais como Engenharia de Software, Engenharia da Computação, Engenharia de Dados e Inteligência Artificial, Engenharia de Redes e Segurança e Engenharia de Banco de Dados.<sup class="reference" id="cite_ref-3"><a href="#cite_note-3"><span>[</span>3<span>]</span></a></sup> Nas últimas décadas, foram mais de 30 mil alunos formados em todo o Brasil.
</p>,
 <p>Em 2019, a instituição teve o seu ensino a distância recredenciado c

- soup.find('p', class_='story'): Encontra a primeira tag <p> com a classe story.


In [65]:

print(soup.find_all('p', class_='story'))
# <p class="story">Era uma vez uma história interessante.</p>


[<p class="story">Era uma vez uma história interessante.</p>, <p class="story">Outra história interessante.</p>]


- soup.select('a[href]'): Seleciona tags usando seletores CSS.


In [93]:
print(soup_infnet.select('a[href]'))
# [<a href="http://example.com/page1" class="link" id="link1">Link 1</a>, <a href="http://example.com/page2" class="link" id="link2">Link 2</a>]


[<a class="mw-jump-link" href="#bodyContent">Saltar para o conteúdo</a>, <a accesskey="z" href="/wiki/Wikip%C3%A9dia:P%C3%A1gina_principal" title="Visitar a página principal [z]"><span>Página principal</span></a>, <a href="/wiki/Portal:Conte%C3%BAdo_destacado"><span>Conteúdo destacado</span></a>, <a href="/wiki/Portal:Eventos_atuais" title="Informação temática sobre eventos atuais"><span>Eventos atuais</span></a>, <a href="/wiki/Wikip%C3%A9dia:Esplanada"><span>Esplanada</span></a>, <a accesskey="x" href="/wiki/Especial:Aleat%C3%B3ria" title="Carregar página aleatória [x]"><span>Página aleatória</span></a>, <a href="/wiki/Portal:%C3%8Dndice"><span>Portais</span></a>, <a href="/wiki/Wikip%C3%A9dia:Informe_um_erro"><span>Informar um erro</span></a>, <a href="/wiki/Wikip%C3%A9dia:Boas-vindas"><span>Boas-vindas</span></a>, <a href="/wiki/Ajuda:P%C3%A1gina_principal" title="Um local reservado para auxílio."><span>Ajuda</span></a>, <a href="/wiki/Ajuda:P%C3%A1gina_de_testes"><span>Páginas de 

- soup.select_one('p.story'): Seleciona o primeiro elemento que corresponde ao seletor CSS.


In [95]:

print(soup.select_one('p.story'))
# <p class="story">Era uma vez uma história interessante.</p>

<p class="story">Era uma vez uma história interessante.</p>



## Desafio:
Escolha um site de sua preferencia (que permita web scraping) e escreva um script que extraia titulos de artigos ou produtos listados na pagina. O script deve armazenar os titulos extraidos em uma lista.


Criar um script de web scraping que coleta informações de um site de notícias, extraindo títulos de artigos e os respectivos links. 
Prestar atenção especial à ética do web scraping, garantindo não sobrecarregar o servidor.

# paramos aqui em 27-11-24

## Scrapping ético


#### Sites que geralmente permitem webscrapping (com ressalvas):

- Sites governamentais: Muitos portais de dados abertos do governo permitem a coleta de informações públicas. Exemplos:
- Dados Abertos Brasil: dados.gov.br
- Portal da Transparência: portaldatransparencia.gov.br
- Sites de notícias: Alguns sites de notícias permitem a coleta de manchetes e resumos, mas geralmente proíbem a cópia integral de artigos. Exemplos:
- G1: g1.globo.com
- Folha de S.Paulo
- Wikipedia: A Wikipédia permite a coleta de dados, desde que se siga a licença Creative Commons e se dê os devidos créditos.
- Sites de comércio eletrônico: Alguns sites permitem a coleta de informações de produtos, como preços e descrições, para fins de comparação. Exemplos:
- Buscapé
- Zoom: zoom.com.br
- Redes sociais: Algumas redes sociais permitem a coleta de dados públicos de perfis, como nome, foto e número de seguidores. Exemplos:
- Twitter: twitter.com (com API)
- LinkedIn: linkedin.com (com API)


#
- IMDB - Banco de dados sobre filmes, séries, e personalidades do cinema.
- Reddit - Forum com discussões e postagens sobre praticamente qualquer tópico.
- Twitter - Dados em tempo real sobre eventos, opiniões públicas e tendências.
- Amazon - Informações sobre produtos, preços e avaliações de consumidores.
- Indeed - Site de busca de empregos, ótimo para coletar dados sobre oportunidades de trabalho e tendências no mercado de trabalho.
- Craigslist - Classificados online que fornecem dados sobre uma variedade de categorias, incluindo empregos, serviços e produtos usados.
- GitHub - Repositório de código-fonte e documentação de projetos de software.
- Stack Overflow - Fórum de perguntas e respostas focado em programação e desenvolvimento de software.
- Google News - Agregador de notícias de várias fontes, útil para obter dados atualizados sobre eventos atuais.

#### Importante:

- Robots.txt: Antes de realizar webscrapping, sempre verifique o arquivo robots.txt do site. Ele indica quais partes do site podem ser coletadas por robôs.
- Termos de Uso: Leia atentamente os termos de uso do site. Alguns sites proíbem explicitamente o webscrapping.
- Respeite o site: Não sobrecarregue o servidor do site com muitas requisições. Faça pausas entre as requisições e use um user agent que se identifique como um robô.
- Lei Geral de Proteção de Dados (LGPD): Ao coletar dados pessoais, esteja ciente da LGPD e utilize os dados de forma ética e responsável.


### robots.txt

Estrutura Básica
Um arquivo robots.txt geralmente contém duas partes principais: User-agent e Disallow (ou Allow). Veja um exemplo básico:


In [None]:
User-agent: *
Disallow: /admin/
Allow: /public/

- User-agent: Especifica a qual bot as regras se aplicam. O caractere * significa todos os bots.
- Disallow: Bloqueia o acesso do bot à URL especificada. No exemplo, bloqueia o acesso à pasta /admin/.
- Allow: Permite o acesso do bot à URL especificada, mesmo que uma regra Disallow mais abrangente exista. No exemplo, permite o acesso à pasta /public/.


### Exemplos Comuns de Regras
Aqui estão alguns exemplos comuns de regras encontradas em arquivos robots.txt:



- Bloquear todo o site para todos os bots:


In [None]:

User-agent: *
Disallow: /



- Permitir acesso completo ao site para todos os bots:


In [None]:

User-agent: *
Disallow:

- Bloquear uma página específica:


In [None]:

User-agent: *
Disallow: /pagina-privada.html


- Bloquear uma pasta específica:


In [None]:

User-agent: *
Disallow: /pasta-privada/


- Permitir uma página específica em uma pasta bloqueada:


In [None]:

User-agent: *
Disallow: /pasta-privada/
Allow: /pasta-privada/pagina-publica.html


### Comandos Avançados
Além dos comandos básicos, há outros mais avançados, como Sitemap e Crawl-delay:

Sitemap: Informa ao bot a localização do sitemap do site.


In [None]:

Sitemap: http://www.exemplo.com/sitemap.xml


- Crawl-delay: Define um atraso em segundos entre solicitações feitas pelo bot. Nem todos os bots suportam esse comando.


In [None]:

User-agent: *
Crawl-delay: 10


### Interpretação
Para interpretar um arquivo robots.txt, siga estas etapas:

- Identifique o User-agent: Veja a quais bots a regra se aplica.
- Leia as regras Disallow e Allow: Determine quais URLs estão bloqueadas ou permitidas.
- Procure por regras gerais e específicas: Regras específicas geralmente vêm depois das regras gerais e podem sobrescrever as anteriores.
- Considere o Sitemap e Crawl-delay se presentes: Isso pode fornecer informações adicionais sobre a indexação e a velocidade de rastreamento.


##### Exemplo Prático
Aqui está um exemplo completo e sua interpretação:


In [None]:

User-agent: Googlebot
Disallow: /admin/
Allow: /admin/pagina-publica.html

User-agent: *
Disallow: /privado/
Sitemap: http://www.exemplo.com/sitemap.xml


- Googlebot: Não pode acessar /admin/ mas pode acessar /admin/pagina-publica.html.
- Todos os outros bots: Não podem acessar /privado/.
- Todos os bots: Podem encontrar o sitemap em http://www.exemplo.com/sitemap.xml.
  
Essas regras ajudam a gerenciar como e o que os bots podem indexar em seu site, garantindo que áreas sensíveis ou desnecessárias não sejam rastreadas e que o foco esteja no conteúdo relevante.

# Técnicas Avancadas de Web Scraping


## Usando Regex para lidar com scraping
Técnicas avancadas de web scraping que permitem lidar com paginas web mais complexas e extrair dados de maneira eficiente e robusta.


In [131]:

# Uso de expressoes regulares em web scraping
import re
from bs4 import BeautifulSoup
import requests
headers = {
    'User-Agent': 'Meu Web Scraper 1.0',
    'From': 'meuemail@exemplo.com'  # Isso e considerado uma boa pratica
}
url = 'http://daciosouza.com.br/'
resposta = requests.get(url, headers=headers)
soup = BeautifulSoup(resposta.text, 'html.parser')


In [127]:
pprint(resposta.__dict__)

{'_content': b'Not Found',
 '_content_consumed': True,
 '_next': None,
 'connection': <requests.adapters.HTTPAdapter object at 0x00000145C5597320>,
 'cookies': <RequestsCookieJar[]>,
 'elapsed': datetime.timedelta(seconds=3, microseconds=747577),
 'encoding': 'UTF-8',
 'headers': {'Date': 'Sat, 30 Nov 2024 01:12:44 GMT', 'Server': 'Apache', 'Cache-Control': 'no-cache', 'X-DS-Version': '1715446495', 'Upgrade': 'h2,h2c', 'Connection': 'Upgrade, Keep-Alive', 'Vary': 'Accept-Encoding,User-Agent', 'Content-Encoding': 'gzip', 'X-Generated': 't=1732929164652717', 'Content-Length': '29', 'Keep-Alive': 'timeout=5, max=75', 'Content-Type': 'text/html; charset=UTF-8'},
 'history': [],
 'raw': <urllib3.response.HTTPResponse object at 0x00000145C5608520>,
 'reason': 'Not Found',
 'request': <PreparedRequest [GET]>,
 'status_code': 404,
 'url': 'http://daciosouza.com.br/iuerghiuaesrhgfio.html'}


In [121]:

# Usando expressões regulares para encontrar todos os numeros de telefone no texto
cep = re.findall(r'\d{5}-\d{3}', soup.text)
print('Numeros de CEP encontrados:', cep)


Numeros de CEP encontrados: []


Certifique-se de que seu padrão regex esteja correto. Teste seu padrão em sites como regex101.com para verificar se ele corresponde aos dados que você deseja extrair.


### Manipulação de Exceções Durante o Scraping
É importante prever e lidar com possíveis exceções durante o processo de scraping, como conexões falhas, mudanças inesperadas na estrutura da página, ou limitações impostas pelo servidor.

In [138]:
resposta = requests.get('https://aulas.daciosouza.com.br/iugsefiiugf.html', headers=headers)
resposta.raise_for_status()

HTTPError: 404 Client Error: Not Found for url: https://aulas.daciosouza.com.br/iugsefiiugf.html

In [None]:
try:
    resposta = requests.get('https://aulas.daciosouza.com.br/iugsefiiugf.html', headers=headers)
    resposta.raise_for_status()  # Irá lançar uma exceção para respostas 4xx/5xx
    # Continuação do processo de scraping...
    print(" fiz o que tinha que fazer")
except requests.exceptions.HTTPError as errh:
    print ("Http Error:",errh)
except requests.exceptions.ConnectionError as errc:
    print ("Error Connecting:",errc)


Http Error: 404 Client Error: Not Found for url: https://aulas.daciosouza.com.br/iugsefiiugf.html



## Desafio:
Apliquem as técnicas avançadas de web scraping em um projeto que requer a extração de dados de um site com conteúdo dinâmico, utilizando expressões regulares para refinar a extração de dados e implementando um robusto tratamento de exceções.


Utilize as tecnicas avancadas de web scraping para extrair informacoes de um site que carrega seu conteudo dinamicamente com JavaScript. Tente extrair dados que nao estao imediatamente disponiveis no HTML da pagina inicial, mas que sao carregados posteriormente atraves de acoes do usuario ou requisicoes AJAX.


# Uso de Expressoes Regulares com BeautifulSoup


## Objetivo:
Combinar o poder das expressoes regulares com a flexibilidade do BeautifulSoup para realizar web scraping de forma mais precisa e eficiente em paginas web complexas.


## RegEx: Expressões regulares

O que são expressões regulares e como elas podem ser usadas para identificar padrões específicos em textos.

#### Conceitos Básicos de Regex
Alguns dos componentes básicos de uma expressão regular:

- Caracteres literais: correspondem exatamente ao texto especificado (ex.: a, 1).

- Metacaracteres: símbolos que têm significados especiais e ajudam a criar padrões. Por exemplo:

    - . : corresponde a qualquer caractere único, exceto quebra de linha.
    - ^ : indica o início de uma linha.
    - $ : indica o fim de uma linha.
    - \* : zero ou mais ocorrências do elemento anterior.
    - \+ : uma ou mais ocorrências do elemento anterior.
    - ? : zero ou uma ocorrência do elemento anterior.
    - \ : usado para escapar metacaracteres.
  
- Classes de caracteres: permitem especificar um conjunto de caracteres dos quais qualquer um pode corresponder.

    - [abc]: corresponde a qualquer um dos caracteres a, b, ou c.
    - [^abc]: corresponde a qualquer caractere que não seja a, b, ou c.
    - [0-9]: corresponde a qualquer dígito entre 0 e 9.
  
- Grupos e intervalos:

    - (abc): define um grupo; corresponde à sequência "abc" e permite capturar essa parte da string.
    - {2}: especifica que o elemento anterior deve ocorrer exatamente duas vezes.
    - {2,4}: especifica que o elemento anterior deve ocorrer de duas a quatro vezes.

In [None]:
import re

# Exemplo de padrão para encontrar e-mails
padrao_email = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'


In [None]:
import re

texto = "Para mais informações, envie um email para contato@exemplo.com ou sales@exemplo.com.br"
email_regex = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'

emails = re.findall(email_regex, texto)
print(emails)


['contato@exemplo.com', 'sales@exemplo.com.br']


Exemplos básicos de expressões regulares comuns.

validação de email

In [None]:
import re

email_regex = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
email = "exemplo@dominio.com"
if re.match(email_regex, email):
    print("E-mail válido!")
else:
    print("E-mail inválido!")


E-mail válido!


Verificação de Números de Telefone

Regex para verificar um número de telefone no formato internacional (+XX-XXXXXXXXX)

In [None]:
telefone_regex = r'^\+\d{2}-\d{9}$'
telefone = "+55-123456789"
if re.match(telefone_regex, telefone):
    print("Número de telefone válido!")
else:
    print("Número de telefone inválido!")


Número de telefone válido!


Validação de URLs

Regex para verificar se uma string é uma URL válida:

In [None]:
url_regex = r'^https?://[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}(?:/[a-zA-Z0-9%_./-~-]*)?$'
url = "https://www.exemplo.com/pagina"
if re.match(url_regex, url):
    print("URL válida!")
else:
    print("URL inválida!")


URL válida!


Verificação de Códigos Postais

Regex para validar códigos postais (exemplo usando o formato brasileiro, 00000-000)

In [None]:
cep_regex = r'^\d{5}-\d{3}$'
cep = "12345-678"
if re.match(cep_regex, cep):
    print("CEP válido!")
else:
    print("CEP inválido!")


CEP válido!


Validação de Senhas

Regex para verificar a força de uma senha, exigindo pelo menos 8 caracteres, incluindo números, letras maiúsculas e minúsculas, e símbolos:

In [None]:
senha_regex = r'^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[@$!%*?&])[A-Za-z\d@$!%*?&]{8,}$'
senha = "SenhaForte@123"
if re.match(senha_regex, senha):
    print("Senha forte!")
else:
    print("Senha fraca!")


Senha forte!


Verificação de Datas

Regex para verificar se uma data está no formato DD/MM/AAAA:

In [None]:
data_regex = r'^\d{2}/\d{2}/\d{4}$'
data = "01/01/2024"
if re.match(data_regex, data):
    print("Data válida!")
else:
    print("Data inválida!")


### Exemplo de utilização

In [None]:

from bs4 import BeautifulSoup
import requests
import re

url = 'https://www.infnet.edu.br/infnet/atendimento-ao-aluno/'
resposta = requests.get(url)
soup = BeautifulSoup(resposta.text, 'html.parser')

# Usando expressoes regulares para encontrar todos os e-mails na pagina
emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', soup.text)
print('E-mails encontrados:', emails)


E-mails encontrados: ['atendimento.fies@infnet.edu.br', 'prouni.ctr@infnet.edu.br', 'atendimento.esti.negocios@infnet.edu.br', 'atendimento.pos.esti.negocios@infnet.edu.br', 'atendimento.controladoria@infnet.edu.br', 'ouvidoria@infnet.edu.br']


### Otimizando Expressões Regulares
Expressões regulares são poderosas, mas podem ser complexas e lentas se não forem bem escritas. Algumas dicas para otimizar suas regex incluem:

- Usar quantificadores não-gulosos (por exemplo, .*? em vez de .*), que param assim que encontram uma correspondência, reduzindo o tempo de processamento.
- Evitar capturas desnecessárias e preferir grupos não-capturantes (?:...) quando não precisar dos dados capturados.
- Utilizar classes de caracteres específicos quando possível, para limitar as correspondências possíveis.

In [None]:
from bs4 import BeautifulSoup
import requests
import re

url = 'https://www.infnet.edu.br/infnet/atendimento-ao-aluno/'
resposta = requests.get(url)
soup = BeautifulSoup(resposta.text, 'html.parser')

# Encontrar todos os links que contêm "contato" no href
links_contato = soup.find_all('a', href=re.compile('contato'))
for link in links_contato:
    print(link.get('href'))


## Métodos Regex

Principais Métodos do Módulo re


#### re.compile(pattern, flags=0):

Compila uma expressão regular em um objeto de expressão regular, que pode ser usado para busca, substituição ou outras operações. 

A compilação de uma regex é útil quando a mesma expressão será utilizada várias vezes, pois isso pode melhorar a eficiência do código.

Flags podem modificar o comportamento da expressão regular. 

Exemplos incluem <code>re.IGNORECASE, re.MULTILINE, re.DOTALL</code>, entre outros.


#### re.search(pattern, string, flags=0):

Procura pela primeira ocorrência do padrão dentro da string. Retorna um objeto de correspondência se a regex encontrar uma correspondência, caso contrário retorna None.


In [None]:
match = re.search('n', 'Python') # busca pela letra 'n' em 'Python'.
match


<re.Match object; span=(5, 6), match='n'>

#### re.match(pattern, string, flags=0):
Semelhante ao search, mas limita a busca ao início da string. Se o padrão não aparece no início da string, retorna None.


In [None]:
match = re.match('P', 'Python') # verifica se 'Python' começa com 'P'.
match


<re.Match object; span=(0, 1), match='P'>

#### re.findall(pattern, string, flags=0):
Encontra todas as ocorrências não sobrepostas do padrão na string e as retorna como uma lista de strings.


In [None]:
matches = re.findall('n', 'Banana') #– retorna ['n', 'n'].
matches

['n', 'n']

#### re.finditer(pattern, string, flags=0):

Semelhante ao findall, mas retorna um iterador que produz objetos de correspondência em vez de uma lista.


In [None]:
for match in re.finditer('n', 'Banana'): #itera sobre todas as correspondências de 'n'.
    print(match)


<re.Match object; span=(2, 3), match='n'>
<re.Match object; span=(4, 5), match='n'>


#### re.sub(pattern, repl, string, count=0, flags=0):
Substitui as ocorrências do padrão na string pelo repl. Se count é maior que 0, apenas as primeiras count ocorrências são substituídas.


In [None]:
re.sub('azul', 'verde', 'céu azul') # resulta em 'céu verde'.


'céu verde'

#### re.split(pattern, string, maxsplit=0, flags=0):

Divide a string pelo ocorrências do padrão. Se maxsplit for maior que 0, divide no máximo maxsplit vezes.


In [None]:
re.split(',', 'um, dois, três, quatro') # retorna ['um', 'dois', 'três', 'quatro'].

['um', ' dois', ' três', ' quatro']


## Desafio:
Escreva um script que utilize BeautifulSoup juntamente com expressoes regulares para extrair e imprimir todos os URLs de uma pagina que contenham a palavra "produto" no caminho.


# Praticas Recomendadas para Web Scraping Responsavel


## Objetivo:
Como realizar web scraping de forma etica e responsável.


## Respeitando o robots.txt
O arquivo robots.txt é um padrão que os sites usam para informar aos bots quais partes do site podem ou não ser acessadas. 
- É importante de verificar e respeitar as diretrizes do robots.txt antes de iniciar o scraping.


Como localizar e interpretar o arquivo robots.txt de um site.

### Gerenciamento de Sessões e Headers
Usar as sessões com headers personalizados pode ajudar a evitar bloqueios por parte dos servidores ao identificar o scraper como um cliente legítimo.

In [102]:

# Respeitando o robots.txt
# e importante verificar o arquivo robots.txt de um site antes de iniciar o scraping
# para garantir que suas acoes estao em conformidade com as diretrizes do site.
# Exemplo: http://exemplo.com/robots.txt

# Gerenciamento de Sessoes e Headers
import requests

url = 'http://exemplo.com'
headers = {
    'User-Agent': 'Meu Web Scraper 1.0',
    'From': 'meuemail@exemplo.com'  # Isso e considerado uma boa pratica
}

resposta = requests.get(url, headers=headers)


In [103]:
import requests
from bs4 import BeautifulSoup

url = "http://exemplo.com"
headers = {
    'User-Agent': 'Meu Web Scraper',
    'From': 'meuemail@exemplo.com'  # Isso é considerado uma boa prática
}

with requests.Session() as session:
    session.headers.update(headers)
    resposta = session.get(url)
    soup = BeautifulSoup(resposta.content, 'html.parser')


### Boas Práticas de Web Scraping
Fazer pausas entre as requisições para não sobrecarregar os servidores dos sites. 
Limitar a frequência de requisições pode ajudar a evitar ser bloqueado e ser um bom cidadão da web.

In [None]:

# Fazendo pausas entre as requisicoes
import time

# Esperar 1 segundo entre as requisicoes
time.sleep(1)


### Legalidade e Ética
Além das técnicas, a ética e a legalidade do web scraping são cruciais. Analise os termos de serviço dos sites e a consideração sobre a natureza dos dados coletados, especialmente dados pessoais.

Desafio da Aula
Proposta: Encoraje os alunos a desenvolverem um script de web scraping que coleta informações de um diretório público de empresas, respeitando as regras de robots.txt, utilizando headers personalizados para as requisições e implementando pausas para simular um padrão de acesso humano.

![image.png](attachment:image.png)


## Desafio:
Implemente um web scraper que siga as praticas recomendadas apresentadas nesta aula. Escolha um site que permita scraping (conforme indicado no seu arquivo robots.txt), colete informacoes especificas e armazene-as em um arquivo. Lembre-se de configurar o User-Agent, respeitar as regras de robots.txt e fazer pausas apropriadas entre as requisicoes.

Desenvolva um script de web scraping que coleta informações de um diretório público de empresas, respeitando as regras de robots.txt, utilizando headers personalizados para as requisições e implementando pausas para simular um padrão de acesso humano.

## Lidando com Conteúdo Dinâmico

Em sites que carregam conteúdo dinamicamente com JavaScript podemos utilizar ferramentas como __Selenium__ ou __Puppeteer__ (Ferramentas automatizadas de navegador) para interagir com esses sites.
.

Sites modernos usam JavaScript para carregar conteúdo dinamicamente. Isso pode ser um desafio para o scraping, pois o requests e o BeautifulSoup não processam JavaScript. Se for esse o caso, você pode precisar de ferramentas como Selenium ou Pyppeteer, que podem controlar um navegador web e esperar pelo carregamento do JavaScript:

In [None]:
%pip install selenium

Collecting selenium
  Downloading selenium-4.27.1-py3-none-any.whl.metadata (7.1 kB)
Collecting trio~=0.17 (from selenium)
  Using cached trio-0.27.0-py3-none-any.whl.metadata (8.6 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Using cached trio_websocket-0.11.1-py3-none-any.whl.metadata (4.7 kB)
Collecting websocket-client~=1.8 (from selenium)
  Using cached websocket_client-1.8.0-py3-none-any.whl.metadata (8.0 kB)
Collecting attrs>=23.2.0 (from trio~=0.17->selenium)
  Using cached attrs-24.2.0-py3-none-any.whl.metadata (11 kB)
Collecting sortedcontainers (from trio~=0.17->selenium)
  Using cached sortedcontainers-2.4.0-py2.py3-none-any.whl.metadata (10 kB)
Collecting outcome (from trio~=0.17->selenium)
  Using cached outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting sniffio>=1.3.0 (from trio~=0.17->selenium)
  Using cached sniffio-1.3.1-py3-none-any.whl.metadata (3.9 kB)
Collecting cffi>=1.14 (from trio~=0.17->selenium)
  Using cached cffi-1.17.1-cp312-cp312


[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
from selenium import webdriver

driver = webdriver.Chrome()
driver.get(url)

# Esperar explicitamente ou implicitamente pelo carregamento de elementos
content = driver.page_source


## Desafios

Escolher um site de interesse público que permita web scraping (respeitando o robots.txt) para coletar dados que possam ser analisados. Exemplos: dados sobre produtos em e-commerce, postagens em fóruns, informações meteorológicas, entre outros.

Utilizar técnicas de web scraping aprendidas para extrair os dados necessários de um site escolhido. Isso inclui o uso de requests ou selenium para acessar o site, BeautifulSoup ou lxml para parsear o HTML, e o uso opcional de expressões regulares para refinar a extração.
Tarefa: Implementar scripts de web scraping que eficientemente colete os dados desejados, armazenando-os de forma estruturada (como em um DataFrame do Pandas ou em um arquivo JSON/CSV).

Realize a limpeza e a preparação dos dados coletados, removendo duplicatas, tratando valores ausentes e convertendo tipos de dados conforme necessário.
Tarefa: Utilizar Pandas para explorar os dados, realizar análises estatísticas básicas, identificar tendências ou padrões e extrair insights valiosos.

Apresentar os resultados da análise de dados de forma clara e informativa, utilizando gráficos e visualizações quando apropriado. O Pandas, juntamente com bibliotecas como Matplotlib ou Seaborn, pode ser utilizado para criar visualizações.
Tarefa: Preparar uma apresentação ou relatório que resume as descobertas, incluindo a metodologia de coleta de dados, os desafios enfrentados, as análises realizadas e os insights obtidos.