# Web Scraping com Python

## Introdução

Iniciaremos explorando o Website: **https://pythonwebscraping.netlify.app**

Começamos importando as bibliotecas essenciais para trabalharmos com **Web Scraping**

- A Biblioteca [requests](https://requests.readthedocs.io/en/master/) nos permite fazer requisições HTTP de forma a obtermos o conteúdo HTML do Website
- A Biblioteca [re](https://docs.python.org/3/library/re.html) nos permite trabalharmos com expressões regulares para que possamos buscar padrões nos textos extraídos do Website

In [2]:
import requests 
import re

### Requisição HTTP

Começamos executando uma requisição GET para obtermos o conteúdo HTML do Website

In [17]:
r = requests.get('https://pythonwebscraping.netlify.app')
print(type(r))

<class 'requests.models.Response'>


O método `get()` nos retorna um objeto 'requests.models.Response', podemos inspecioná-lo para visualizarmos os atributos e métodos que estão disponíveis para trabalharmos

In [18]:
print(dir(r))

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


Vamos agora verificar o conteúdo HTML que nos é retornado, para isso vamos acessar o atributo `content`

In [19]:
print(r.content)

b'<!DOCTYPE html>\n<html>\n<head>\n\t<meta charset="UTF-8">\n\t<title>Web Scraping Tutorial com Python</title>\n\t<link rel="icon" href="https://i.imgur.com/QOVnf5D.png">\n\t<style>\n\t.python {\n\t\tcolor: purple;\n\t}\n\t#titulo {\n\t\ttext-transform: uppercase;\n\t}\n\ttable {\n\t  border-collapse: collapse;\n\t}\n\n\ttable, th, td {\n\t  border: 1px solid black;\n\t  padding: 3px;\n\t}\n\t</style>\n</head>\n<body>\n\t<h1>Web Scraping</h1>\n\t<h2>Estrutura B\xc3\xa1sica HTML</h2>\n\t<img src="https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg">\n\t<p>Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,\n\t<a href="https://github.com/psf/requests-html">Requests-HTML</a>,\n\t<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e\n\t<a href="https://scrapy.org/">Scrapy</a>\n\t</p>\n\n\t<p>\xe2\x80\x9cLogic will get you from A to Z; imagination will get you everywhere.\xe2\x80\x9d <b>Albert Einstein</b></p>\n\t\n\t<h

Podemos também verificar o tipo de codificação do arquivo acessando o atributo `encoding`

In [20]:
r.encoding

'UTF-8'

O atributo `headers` nos traz detalhes sobre os headers

In [21]:
print(r.headers)

{'Cache-Control': 'public, max-age=0, must-revalidate', 'Content-Type': 'text/html; charset=UTF-8', 'Date': 'Tue, 10 Nov 2020 23:47:14 GMT', 'Etag': '"17afc31fb1188dd828f61941a34ae8ad-ssl-df"', 'Strict-Transport-Security': 'max-age=31536000; includeSubDomains; preload', 'Content-Encoding': 'gzip', 'Content-Length': '743', 'Age': '351', 'Connection': 'keep-alive', 'Server': 'Netlify', 'Vary': 'Accept-Encoding', 'X-NF-Request-ID': '6c6e39a3-537f-4934-adaa-9234afd2e07c-12269260'}


O atributo `status_code` nos permite verificar o código de status retornado, 200 significa que a requisição ocorreu com sucesso

In [22]:
r.status_code

200

O atributo `url` nos possibilita verificar a url que foi utilizada na requisição

In [23]:
r.url

'https://pythonwebscraping.netlify.app/'

Por fim o atributo `text` nos traz uma string que representa o documento html que desejamos executar o Web Scraping

In [24]:
print(r.text)

<!DOCTYPE html>
<html>
<head>
	<meta charset="UTF-8">
	<title>Web Scraping Tutorial com Python</title>
	<link rel="icon" href="https://i.imgur.com/QOVnf5D.png">
	<style>
	.python {
		color: purple;
	}
	#titulo {
		text-transform: uppercase;
	}
	table {
	  border-collapse: collapse;
	}

	table, th, td {
	  border: 1px solid black;
	  padding: 3px;
	}
	</style>
</head>
<body>
	<h1>Web Scraping</h1>
	<h2>Estrutura Básica HTML</h2>
	<img src="https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg">
	<p>Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,
	<a href="https://github.com/psf/requests-html">Requests-HTML</a>,
	<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e
	<a href="https://scrapy.org/">Scrapy</a>
	</p>

	<p>“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b></p>
	
	<h3 id='titulo'>Linguagens de Programação</h3>
	<ul>
		<li class="python">Python</li>
		<li>Perl</l

Vamos agora armazenar o conteúdo HTML em uma variável para conveniência e uso futuro desses dados

In [25]:
html = r.text

### Buscando Dados com Expressões Regulares

Usaremos o poder das expressões regulares para extrair dados de nosso Website

#### Título da Página

In [26]:
title = re.findall(r"<title>(.+?)</title>", html)

In [41]:
print(title)

['Web Scraping Tutorial com Python']


#### Parágrafos da Página

In [31]:
p = re.findall(r"<p>(.*?)</p>", html, flags=re.DOTALL) 

In [40]:
print(p)

['Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,\n\t<a href="https://github.com/psf/requests-html">Requests-HTML</a>,\n\t<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e\n\t<a href="https://scrapy.org/">Scrapy</a>\n\t', '“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b>']


#### Links da Página

In [35]:
a = re.findall(r'href=[\'"]?([^\'" >]+)', html)

In [37]:
a

['https://i.imgur.com/QOVnf5D.png',
 'https://www.python.org/',
 'https://github.com/psf/requests-html',
 'https://www.crummy.com/software/BeautifulSoup/bs4/doc/',
 'https://scrapy.org/']

#### Emails da Página

In [38]:
emails = re.findall(r'([\d\w\.]+@[\d\w\.\-]+\.\w+)', html)

In [39]:
emails

['alan@turing.com', 'john@voneumann.com', 'blaise@pascal.com']