<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Web-scraping-com-Python" data-toc-modified-id="Web-scraping-com-Python-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Web scraping com Python</a></span><ul class="toc-item"><li><span><a href="#Introdução" data-toc-modified-id="Introdução-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Introdução</a></span></li></ul></li><li><span><a href="#Conceitos-básicos" data-toc-modified-id="Conceitos-básicos-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Conceitos básicos</a></span><ul class="toc-item"><li><span><a href="#HTML" data-toc-modified-id="HTML-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>HTML</a></span></li><li><span><a href="#CSS" data-toc-modified-id="CSS-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>CSS</a></span></li><li><span><a href="#JS" data-toc-modified-id="JS-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>JS</a></span></li><li><span><a href="#Hands-On" data-toc-modified-id="Hands-On-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Hands On</a></span><ul class="toc-item"><li><span><a href="#Explicando-como-extraimos-a-explicação-da-Wikipedia" data-toc-modified-id="Explicando-como-extraimos-a-explicação-da-Wikipedia-2.4.1"><span class="toc-item-num">2.4.1&nbsp;&nbsp;</span>Explicando como extraimos a explicação da Wikipedia</a></span></li></ul></li></ul></li></ul></div>

Autor: Matheus de Vasconcellos Barroso

# Web scraping com Python

## Introdução
Aprenderemos alguns conceitos básicos de **web scraping** e como utilizar o [Python](https://www.python.org/) para essa tarefa. Mais precisamente esse material foi preparado utilizando um [Jupyter Notebook](https://jupyter.org/) e algumas extensões úteis ([`nbextensions`](https://github.com/ipython-contrib/jupyter_contrib_nbextensions)).
O exemplo que utilizaremos será a definição de [**web scraping**](https://en.wikipedia.org/wiki/Web_scraping) pela [Wikipedia](https://www.wikipedia.org/):

In [48]:
#from IPython.display import display, HTML
from IPython.display import IFrame

IFrame(src = 'https://en.wikipedia.org/wiki/Web_scraping', width = 900, height=650)


Imagine como seria útil desenvolver uma técnica para ler o primeiro ou **n** primeiros parágrafos de uma página da [Wikipedia](https://www.wikipedia.org/) para testar algorítmos de sumarização? Utilizando as técnicas de raspagem de dados podemos obter de forma simples os três primeiros parágrafos da url:

In [50]:
import requests
from bs4 import BeautifulSoup

page = requests.get("https://en.wikipedia.org/wiki/Web_scraping")
soup = BeautifulSoup(page.content, 'html.parser')
for item in soup.find_all('p')[:3]: print(item.get_text())

Web scraping, web harvesting, or web data extraction is data scraping used for extracting data from websites.[1] Web scraping software may access the World Wide Web directly using the Hypertext Transfer Protocol, or through a web browser. While web scraping can be done manually by a software user, the term typically refers to automated processes implemented using a bot or web crawler. It is a form of copying, in which specific data is gathered and copied from the web, typically into a central local database or spreadsheet, for later retrieval or analysis.

Web scraping a web page involves fetching it and extracting from it.[1][2] Fetching is the downloading of a page (which a browser does when you view the page). Therefore, web crawling is a main component of web scraping, to fetch pages for later processing. Once fetched, then extraction can take place. The content of a page may be parsed, searched, reformatted, its data copied into a spreadsheet, and so on. Web scrapers typically tak

Para alcançar esse objetivo final serão abordados alguns tópicos necessários para compreender como funciona esse processo:
+ [HTML](https://en.wikipedia.org/wiki/HTML)
+ [CSS](https://en.wikipedia.org/wiki/CSS) (Não será abordado)
+ [JS](https://en.wikipedia.org/wiki/JavaScript) (Não será abordado)

Após um melhor entedimento teórico utilizaremos algumas bibliotecas do Python para realizar essa tarefa como [`requests`](https://pypi.org/project/requests/) e [`bs4`](https://pypi.org/project/bs4/). Algumas importante, mas que não serão utilizadas: [`scrapy`](https://pypi.org/project/Scrapy/) e [`selenium`](https://pypi.org/project/selenium/)


# Conceitos básicos

## HTML

*HyperText Markup Language* (HTML) ou Linguagem de Marcação de Hipertexto é uma linguaguem que server para a construção de páginas web. Ela serve para informar ao navegador como exibir o conteúdo da página.

O HTML é formado por tags, é importante compreendê-las e reconhecê-las já que fascilitam o trabalho de raspagem de dados na web. Algumas tags principais:
- **html**: informar ao navegador aonde temos código em HTML
- **head**: contêm informações como o título da página 
- **body**: é aonde o conteúdo principal da página está inserido, usualmente é onde o scraping ocorre.
- **p**: delimita um parágrafo
- **a**: para links
- **div**: aponta uma região na página, útil para dividir o conteúdo
- **b**: texto em negrito
- **i**: texto em itálico
- **table**: cria uma tablea
- **form**: cria um formulário





## CSS

*Cascading Style Sheets* (CSS)  é um mecanismo para adicionar estilos (cores, fontes, espaçamento, etc.) a um documento web



## JS
*JavaScript* (JS) é uma linguagem de programação que adiciona interatividade às paginas web.

## Hands On

### Explicando como extraimos a explicação da Wikipedia
<br>
Primeiro precisamos importas as bibliotecas:

In [3]:
import requests
from bs4 import BeautifulSoup



Posteriormente, precisamos obter o conteúdo da página (HTML, CSS, JS). Podemos utilizar o método `get`do módulo **requests** para a *url* desejada e atribuí-lo à variável 'page':

In [4]:
page = requests.get("https://en.wikipedia.org/wiki/Web_scraping")

Se a conexão for bem sucedida teremos um status 200 para a página:

In [52]:
page.status_code

200

Podemos obter o conteúdo da página:

In [10]:
page.content[:1000]


b'<!DOCTYPE html>\n<html class="client-nojs" lang="en" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Web scraping - Wikipedia</title>\n<script>document.documentElement.className = document.documentElement.className.replace( /(^|\\s)client-nojs(\\s|$)/, "$1client-js$2" );</script>\n<script>(window.RLQ=window.RLQ||[]).push(function(){mw.config.set({"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Web_scraping","wgTitle":"Web scraping","wgCurRevisionId":897184947,"wgRevisionId":897184947,"wgArticleId":2696619,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["CS1 Danish-language sources (da)","Articles needing additional references from June 2017","All articles needing additional references","Articles needing additional references from October 2018","Articles with limited geographic scope from October 2015","USA-centric","Articles to be split from July 2018","All articles t

Observe que essa forma de exibição não é muito fácil e podemos utilizar o BeautifulSoup para nos auxiliar:

In [17]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(page.content, 'html.parser')
#soup


É possível melhorar ainda mais usando o método `prettify`

In [18]:
#print(soup.prettify())

Podemos utilizar um seletor CSS para extrair somente o corpo do HTML, veja que agora já está mais fácil encontrar o primeiro parágrafo, basta localizar o < p> a esquerda:

In [21]:
#print(soup.find('body').prettify()) # é uma outra opção via find
#soup.select("html body")

Podemos selecionar o primeiro parágrafo utilizando o método `find` para localizar uma *tag* **HTML** e o `get_text` para extrair somente o texto:

In [71]:
print(soup.find('p').get_text())

Web scraping, web harvesting, or web data extraction is data scraping used for extracting data from websites.[1] Web scraping software may access the World Wide Web directly using the Hypertext Transfer Protocol, or through a web browser. While web scraping can be done manually by a software user, the term typically refers to automated processes implemented using a bot or web crawler. It is a form of copying, in which specific data is gathered and copied from the web, typically into a central local database or spreadsheet, for later retrieval or analysis.



Veja que estamos próximos do nosso objetivo final, basta usar o método `find_all` que conseguiremos econtrat todas as tags **p**'s. Atente que os resultados serão retornados em uma lista:

In [73]:
for item in soup.find_all('p')[:3]: print(item.get_text())

Web scraping, web harvesting, or web data extraction is data scraping used for extracting data from websites.[1] Web scraping software may access the World Wide Web directly using the Hypertext Transfer Protocol, or through a web browser. While web scraping can be done manually by a software user, the term typically refers to automated processes implemented using a bot or web crawler. It is a form of copying, in which specific data is gathered and copied from the web, typically into a central local database or spreadsheet, for later retrieval or analysis.

Web scraping a web page involves fetching it and extracting from it.[1][2] Fetching is the downloading of a page (which a browser does when you view the page). Therefore, web crawling is a main component of web scraping, to fetch pages for later processing. Once fetched, then extraction can take place. The content of a page may be parsed, searched, reformatted, its data copied into a spreadsheet, and so on. Web scrapers typically tak

Resumindo, poderíamos ter utilizado somente os seguintes comandos:

In [74]:
import requests
from bs4 import BeautifulSoup

page = requests.get("https://en.wikipedia.org/wiki/Web_scraping")
soup = BeautifulSoup(page.content, 'html.parser')
for item in soup.find_all('p')[:3]: print(item.get_text())

Web scraping, web harvesting, or web data extraction is data scraping used for extracting data from websites.[1] Web scraping software may access the World Wide Web directly using the Hypertext Transfer Protocol, or through a web browser. While web scraping can be done manually by a software user, the term typically refers to automated processes implemented using a bot or web crawler. It is a form of copying, in which specific data is gathered and copied from the web, typically into a central local database or spreadsheet, for later retrieval or analysis.

Web scraping a web page involves fetching it and extracting from it.[1][2] Fetching is the downloading of a page (which a browser does when you view the page). Therefore, web crawling is a main component of web scraping, to fetch pages for later processing. Once fetched, then extraction can take place. The content of a page may be parsed, searched, reformatted, its data copied into a spreadsheet, and so on. Web scrapers typically tak

Para fixar as ideias veja como seria simples retornar os dois primeiros parágrafo na wikipédia sobre HTML, CSS e JS em três passos:
+ Lista de *url*'s
+ Função para retornar o parágrafo
+ Loop para aplicar a função a cada item na lista

Passo 1:

In [105]:
paginas = [
    'https://pt.wikipedia.org/wiki/HTML',
    'https://pt.wikipedia.org/wiki/Cascading_Style_Sheets',
    'https://pt.wikipedia.org/wiki/JavaScript'
]

paginas

['https://pt.wikipedia.org/wiki/HTML',
 'https://pt.wikipedia.org/wiki/Cascading_Style_Sheets',
 'https://pt.wikipedia.org/wiki/JavaScript']

Passo 2:

In [106]:
def retorna_n_paragrafos(url, n = 1):
    '''
    Essa função retorna os n primeiros parágrafos da url selecionada.
    Possui os seguintes argumentos:
    @url: a url desejada
    @n: número de parágrafos para retornar, default = 1
    '''
    
    page = requests.get(url)
    soup = BeautifulSoup(page.content, 'html.parser')
    paragrafos = soup.find_all('p')[:n]
    paragrafos_texto = []
    for item in paragrafos: paragrafos_texto.append(item.get_text())
    
    return '/n'.join(paragrafos_texto) #concatenar elementos e separar por nova linha


print(retorna_n_paragrafos('https://pt.wikipedia.org/wiki/HTML', n = 2))

HTML (abreviação para a expressão inglesa HyperText Markup Language, que significa Linguagem de Marcação de Hipertexto) é uma linguagem de marcação utilizada na construção de páginas na Web. Documentos HTML podem ser interpretados por navegadores. A tecnologia é fruto da junção entre os padrões HyTime e SGML.
/nHyTime é um padrão para a representação estruturada de hipermídia e conteúdo baseado em tempo. Um documento é visto como um conjunto de eventos concorrentes dependentes de tempo (como áudio, vídeo, etc.), conectados por hiperligações. O padrão é independente de outros padrões de processamento de texto em geral.



Vemos que a função funciona, o primeiro /n ocorre porque o primeiro parágrafo não tinha conteúdo.

Passo 3 (criando o loop):

In [107]:
for pagina in paginas:
    out = retorna_n_paragrafos(pagina, n = 2)
    print(pagina + '\n' + out)

https://pt.wikipedia.org/wiki/HTML
HTML (abreviação para a expressão inglesa HyperText Markup Language, que significa Linguagem de Marcação de Hipertexto) é uma linguagem de marcação utilizada na construção de páginas na Web. Documentos HTML podem ser interpretados por navegadores. A tecnologia é fruto da junção entre os padrões HyTime e SGML.
/nHyTime é um padrão para a representação estruturada de hipermídia e conteúdo baseado em tempo. Um documento é visto como um conjunto de eventos concorrentes dependentes de tempo (como áudio, vídeo, etc.), conectados por hiperligações. O padrão é independente de outros padrões de processamento de texto em geral.

https://pt.wikipedia.org/wiki/Cascading_Style_Sheets
Cascading Style Sheets (CSS) é um mecanismo para adicionar estilo (cores, fontes, espaçamento, etc.) a um documento web[1].
/nO código CSS pode ser aplicado diretamente nas tags ou ficar contido dentro das tags <style>. Também é possível, em vez de colocar a formatação dentro do docum

In [None]:
Fim.