<a href="https://colab.research.google.com/github/MariaE-duarda/google_colab-codes/blob/main/WEB_SCRAPING.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# __WEB SCRAPING__

Raspagem de dados (data scraping), em seu sentido mais amplo, é um conceito aplicado à obtenção de dados de um certo programa a partir de outro de forma a extrair conteúdo de alto valor que sejam, prioritariamente, de fácil interpretação a humanos. Atualmente, a raspagem de dados é um sinônimo para raspagem da web (web scraping), visto que a fonte mais ampla para coleta dados é a web. Então, o ato de “raspar” dados da web equivale a utilizar scripts, programas ou APIs para obter dados relevantes de sites, páginas, blogs, repositórios, ou qualquer outro lugar acessível por conectividade e requisição.


Através da raspagem de dados, podemos, entre outras coisas, como: 

- Coletar preços de ativos do mercado financeiro em tempo real;

- Baixar históricos de sinistros em saúde pública, tais como os registros de casos durante a pandemia da Covid-19;

- Localizar matérias jornalísticas sobre um mesmo tema em diversos canais de comunicação;

- Encontrar o placar final de todos os jogos da NBA nos últimos 5 anos.


Durante o curso, você já lidou implicitamente com a raspagem de dados ao utilizar, por exemplo, a função `pandas.read_csv`, por exemplo, para realizar a leitura de um arquivo CSV hospedado em um site da internet. Neste capítulo, faremos uma breve introdução à raspagem de dados usando `BeautifulSoap`, um dos módulos Python mais populares para dissecar páginas da web, de maneira a ampliar a nossa compreensão acerca dessa área de conhecimento extremamente relevante para a ciência de dados.

<center><img alt="Dublin" width="90%" src="https://th.bing.com/th/id/R.d73c73bf18ce92bca8b388ebe7f0ab1f?rik=1%2fRs%2fNnimgW4Iw&riu=http%3a%2f%2fcovalense.com%2fassets%2fUploads%2fmicrosoft.jpg&ehk=%2butjBmNETYOvQzd2QBt5SYtlkrX5LzYmSYSk6wMwdZ4%3d&risl=&pid=ImgRaw&r=0"></center>

# __HTML 5__

A maioria das páginas da internet hoje são escritas em uma linguagem chamada HTML (HyperText Markup Language), desenvolvida no início da década de 1990 como a linguagem básica da internet. O consórcio W3C (The World Wide Web Consortium) é quem assegura os padrões abertos para desenvolvedores web. Desde 2014, a versão HTML 5 é a recomendada pela W3C para todos os criadores de sites. Em 2019, a W3C e a WHATWG assinaram um acordo para uniformizar o HTML, concluindo um documento de especificações.

Um documento HTML é estruturado por meio de elementos enclausurados por um par de tags e tem a seguinte aparência:



```
<!DOCTYPE html>
<html lang="pt-br">
 <head>
  <title>Introdução à Ciência de Dados</title>
 </head>
 <body>
  <h1>Ciência de Dados no século XXI</h1>
  <p>A História começa neste <a href="historia-icd.html">link</a>.</p>
  <!-- comentário -->
 </body>
</html>
```



No exemplo, `<head>` e `</head>` são exemplo de tags de abertura e fechamento para a seção head do documento.

# __ÁRVORE DOM__

Os navegadores da web interpretam o código HTML e transformam em uma “árvore”. Esta árvore caracteriza o modelo de objetos do documento, ou, formalmente, DOM (Document Object Model). Na forma de árvore DOM, o código acima tornar-se-ia algo como:



```
|- DOCTYPE: html
|- html lang="pt-br"
   |- head
   |  |- #text:
   |  |- title
   |  |  |- #text: Introdução à Ciência de Dados
   |  |- #text:
   |- #text:
   |- body
      |- #text:
      |- h1
      |  |- #text: Ciência de Dados no século XXI
      |- #text:
      |- p
      |  |- #text: A História começa neste 
      |  |- a href="historia-icd.html"
      |     | #text: link
      |  |- #text:
      |- #comment: comentário
      |- #text:
```



# __TAGS__

Existem diversas tags disponíveis em HTML. A seguir listamos as que aparecem no código de exemplo anterior e sua descrição.

`<!DOCTYPE>` - define o tipo do documento

`<html>` - define a raiz de um documento HTML

`<head>` - enclausura os metadados (informações) sobre o documento

`<title>` - define um título para o documento

`<body>` - define o corpo do documento

`<h1>` - define cabeçalho de primeiro nível (seção)

`<p>` - define um parágrafo

`<a>` - define um hyperlink (ancoramento)

# __API'S__

A raspagem de dados pode ser otimizada através de uma API (Application Program Interface). APIs são mecanismos (interfaces) que usam aplicativos de terceiros para realizar “conexões” e puxar dados. APIs são parecidas com módulos, mas não oferecem meramente um conjunto de funções, mas sim um programa capaz de operar com muitos dados. Embora uma API possa funcionar localmente (offline), sua utilidade para raspagem de dados é melhor exibida quando se conecta a aplicativos da web (online).

Diversas instuições fornecem APIs para que desenvolvedores possam coletar dados. No início deste capítulo, mencionamos algumas aplicações de raspagem de dados. Algumas são possíveis apenas por meio de APIs. Google, Facebook, Twitter, Yahoo e Elsevier são algumas das empresas que fornecem APIs para aplicações em buscas na web, redes sociais, finanças e literatura científica. No Brasil, podemos citar como exemplos relevantes. 



# __JSON e XML__

APIs utilizadas para raspagem de dados comumente retornam a informação em formato XML (eXtensible Markup Language), blocada em tags ou JSON (JavaScript Object Notation), serializada. Embora JSON seja a escolha de APIs mais modernas, é importante ter em mente que muitos provedores de APIs as fornecem com saída XML.

Um dos argumentos em favor de JSON é a economia de caracteres. Por exemplo, a estrutura XML. 



```
<user><firstname>Juan</firstname><lastname>Hernandes</lastname><username>Fernandez</username></user>
```
possui 100 caracteres.

A mesma informação, serializada em JSON: 



```
{"user":{"firstname":"Juan","lastname":"Hernandes","username":"Fernandez"}}
```




# __BIBLIOTECAS PARA RASPAGEM DE DADOS__

Existem muitos ferramentas, bibliotecas e frameworks para raspagem de dados. Alguns exemplos são: _requests, grab, scrapy, restkit, lxml, PDFMiner. Neste capítulo, vamos dar enfoque ao módulo Python BeautifulSoap e seus interpretadores (parsers).

## Vantagens do `BeatifulSoup`
Segundo o site oficial, a BeautifulSoup: 

- Fornece métodos simples e expressões idiomáticas “Pythônicas” para navegar, pesquisar e modificar uma árvore de análise: um kit de ferramentas para dissecar um documento e extrair o que você precisa.

- Converte automaticamente os documentos recebidos em Unicode e os documentos enviados em UTF-8. Você não tem que pensar em codificações, a menos que o documento não especifique uma codificação e a Beautiful Soup não consiga detectar uma.

- Baseia-se em interpretadores (parsers) Python populares como lxml e html5lib, permitindo que você experimente diferentes estratégias de análise para obter flexibilidade.

# __RASPAGEM DE DADOS DO SITE DA UFPB__

Neste exemplo, faremos uma raspagem no site da UFPB para coletar a lista de cursos de graduação. Os passos a serem seguidos são:

1.   abrir uma requisição para a URL da PRG/UFPB;
2.   coletar o HTML da página;
3.   extrair o conteúdo da tabela de cursos na árvore DOM;
4.   construir um DataFrame cujas colunas devem conter: nome do curso, sede, modalidade, nome do(a) coordenador(a) e Centro de Ensino que administra o curso.


Primeiramente, abriremos uma requisição com `urllib.request`.

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://sigaa.ufpb.br/sigaa/public/curso/lista.jsf?nivel=G&aba=p-graduacao')
bs = BeautifulSoup(html.read(),'html.parser')

Neste ponto, criamos o objeto bs que contém a árvore DOM do documento HTML. Podemos acessar as partes do documento diretamente a partir das tags `head`, `body`, `title` etc.

In [None]:
# impressão na tela de head e body
# omitidas por serem grandes. 
# Teste em seu computador!
head = bs.head
body = bs.body
title = bs.title

title

Podemos puxar o conteúdo das tags com `contents`.

In [None]:
# é uma lista
title.contents

In [None]:
# opera sobre str
title.contents[0].strip()

Podemos navegar na árvore por meio das tags.

In [None]:
head.link

In [None]:
head.meta

In [None]:
body.li

In [None]:
body.span

# __Navegação na árvore para baixo__

A árvore DOM é baseada em uma estrutura do tipo “parents/children”. Um elemento pai pode ter um ou mais filhos e os elementos filhos podem também ter um ou mais filhos. Em termos de nível, os primeiros são filhos diretos.

- `contents` para encontrar filhas diretas como lista;

- `children` para encontrar filhas diretas como iterador;

- `descendants` para encontrar filhas diretas, filhas de filhas e assim por diante.

In [None]:
type(body.contents)

In [None]:
# iterador
for c in body.children:
    print(type(c))

In [None]:
# itera sobre todos os descendentes
k = 1
for c in body.descendants:
    if k % 500 == 0:
        print(f'descendente {k}: {type(c)}',sep=':')
    k += 1

Para navegar apenas em strings (já removendo espaços em branco) dentro de tags, podemos usar `stripped_strings`. Se quisermos considerar espaços, devemos usar apenas `strings`.

In [None]:
# idenfica o campus sede em tabela 
campus = ('Areia','Bananeiras','Rio Tinto')
for s in body.tbody.stripped_strings:
    if s in campus:
        print(s,end=',')

# __Realizando buscas na árvore__
Funções de localização bastante úteis são `find_all` e `find`. Podemos aplicá-la passando como argumento uma tag

In [None]:
body.find_all('td')[10:15]

In [None]:
body.find_all(['li','ul'])

In [None]:
# busca <table data> com classe "subFormulario"
body.find_all('td',class_="subFormulario")[:3]

Podemos também realizar buscas específicas por expressões regulares. Para isso, basta usar o módulo re e funções como `re.compile`.

In [None]:
import re

body.find_all(string=re.compile('GRAD'))

In [None]:
body.find_all(string=re.compile('CENTRO'))

In [None]:
body.find(string=re.compile('Copyright'))

# __Funções customizadas__

Agora, implementaremos algumas funções customizadas para extrair o cabeçalho e o conteúdo da tabela de cursos do site da UFPB. Essas funções varrem a árvore DOM e coletam apenas as informações de interesse, transformando-as para listas.

In [None]:
# extrai cabeçalhos
def get_table_head(t):
    '''Lê objeto tabela e extrai header para lista'''
    res = []
    thead = t.find('thead')
    th = thead.find_all('th')
    for f in th:
        res.append(f.getText().strip())
    return res

t_header = get_table_head(body.div)

t_header

In [None]:
# extrai linhas
def get_table_body(t):
    res = []
    tbody = t.find('tbody')
    tr = tbody.find_all('tr')
    for row in tr:
        this_row = []
        row_fields = row.find_all('td')
        for f in row_fields:
            this_row.append(f.getText().strip())
            res.append(this_row)
    return res

r = get_table_body(body.div)  

# __Limpeza dos dados extraídos__

Finalmente, construiremos o DataFrame a partir das listas anteriores. Porém, precisamos realizar procedimento de preenchimento de dados e limpeza.

Note que a tabela original não traz os nomes dos cursos organizados por linha. Então, precisamos de uma coluna com o nome de cada Centro de Ensino organizado por curso.

In [None]:
import pandas as pd

# cria DataFrame
df = pd.DataFrame(r,columns=t_header).drop_duplicates().reset_index(drop=True)
mask = df['Nome'].str.find('CENTRO') != -1
centros = df['Nome'].loc[mask]
idx = centros.index.values

# preenchimento
vals = []
for k in range(1,len(idx)):
    for i in range(max(idx)+1):
        if i >= idx[k-1] and i < idx[k]:
            vals.append(centros.iloc[k-1])
# extra
dx = len(df) - max(idx)
vals.extend(dx*[vals[-1]])


# limpa e renomeia
df['Centro'] = vals
df = df.drop(idx).rename(columns={"Nome": "Curso"}).reset_index(drop=True)

df