# Web-scrapping com Python

> DISCLAIMER: Notebook com fins educacionais.

## Obtendo tabelas online

Esse script mostra como obter dados do [Ranking 1500 - Empresas Mais](https://publicacoes.estadao.com.br/empresasmais/ranking-1500/) utilizando Python. Foram utilizadas 5 bibliotecas, sendo uma opcional:

* [BeastifulSoup4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) - manipula informações em HTML e XML;
* [requests](https://requests.readthedocs.io/en/latest/) - biblioteca HTTP para python;
* [Numpy](https://numpy.org/doc/stable) - manipulação de dados;
* [Pandas](https://pandas.pydata.org/docs/) - manipulação de tabelas;
* time (opcional) foi utilizada apenas para marcar tempo entre iterações. 

### Instalação

Para garantir que as bibliotecas estejam instaladas é possível chamar `"pip install <nome-biblioteca>"` no prompt de comando. Nos notebooks fazemos essa chamada precidada por pontos de exclamação para sinalizar que esse trecho deve ser executado no prompt:

In [1]:
!pip install beautifulsoup4
!pip install requests
!pip install pandas
!pip install numpy

Para aqueles que usando o Conda ou Miniconda é possível fazer a mesma chamada utilizando `conda` no lugar de `pip`.

## Obtendo os dados

A palavra reservada `import` carrega as bibliotecas. É possível carregar módulos e outros objetos separados com a palavra reservada `from` como podemos ver na próxima linha:

In [2]:
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import requests
import time # opcional para imprimir tempo de execução no final

Na primeira linha temos `from bs4 import BeautifulSoup` lê-se "Da **biblioteca bs4** importe o **módulo BeautifulSoup**".As vezes o nome utilizado para instalação difere do nome utilizado para importa-lo. Também podemos dar "apelidos" para as bibliotecas que carregamos utilizando a palavra reservada `as`. Chamar pandas de pd e numpy de np é uma prática muito comum entre pythonistas.

Obter tabelas de alguns sites é tão simples quanto chamar `pd.read_html(<site>)` (tente isso com qualquer página da Wikipedia contendo uma tabela e veja o que acontece). Outros sites dificultam a obtenção de dados de forma automatica (robôs). Nestes casos utilizamos a biblioteca requests para simular o que seria uma requisição de um navegador comum:

In [3]:
url = 'https://publicacoes.estadao.com.br/empresasmais/ranking-1500/'

header = {
  'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36',
  'X-Requested-With': 'XMLHttpRequest'
}

r = requests.get(url, headers=header)
r

Dados da página foram obtidos por meio de uma requisição HTTP. A resposta 200 mostra que nosso chamado deu certo. O passo seguinte é interpretar esses dados ("parsar") com bs4.

In [4]:
soup = BeautifulSoup(r.text, "html.parser")
#print(soup.prettify())

Descomentando a última linha acima vemos o código HTML completo da página. Ela utiliza tags, atributos e ids para organizar o conteúdo da página. Utilizando a ferramenta de desenvolvedor do seu navegador você conseguirá encontrar elementos/padrões utilizados para organizar a tabela. Neste caso um elemento que embrulhava toda a tablea era a classe "ranking-table". Podemos analisar os elementos dele usando o método `find` do bs4:

In [5]:
soup.find(class_='ranking-table')

> Curiosidade: a palavra "class" é reservada no Python e utilizada para Programação Orientada a Objetos (do inglês OOP), por isso o find ussa class_ como nome do argumento.

Os elementos que precisamos estão debaixo de classes mas nem sempre é assim. Eles podem estar ligados a ids ou outros atributos. Para fins didaticos começaremos ignorando o fato que são várias páginas e não uma única página. Depois de criar a lógica para obter os dados da primeira página, obteremos os resultados da demais aplicando um *loop*.

O primeiro passo é identificar os elementos ligados ao cabeçalho e dados. Se abrir o site irá notar que cada linha da tabela contém outra tabela. Explorando os padrões contidos em `ranking_table` descobri o seguinte:

* A **classe** "ranking-table__th" contém o cabeçalho maior;
* A **classe** "ranking-table__td" tem os dados relacionados a esse cabeçalho;
* As **classes** "ranking-table__sub-item-title" e "ranking-table__sub-item-value" contam respectivavemente com o cabeçalho e dados da tabela menor.

A seguir eu uso o primeiro padrão dentro do que chamamos de [*list comprehension*](https://www.w3schools.com/python/python_lists_comprehension.asp) para obter o primeiro cabeçalho. Também utizei o *slicing* para ignorar o primeiro e último caractéres que era um escape (\n):

In [6]:
main_header = [i.text[1:-1] for i in soup.find_all(class_='ranking-table__th')] # isso é uma list comprehension
main_header

Na sequência usei a mesma lógica, transformei o resultado usando *Numpy* para trocar uma uníca e longa lista em várias listas de de 5 elementos, imitando uma matriz de 5 colunas:

In [7]:
main_data = [i.text[1:-1] for i in soup.find_all(class_='ranking-table__td')] # separando os dados
main_data = np.array(main_data) # transformando em um array numpy
main_data = main_data.reshape((-1,5)) # trocando o formato para ter 5 colunas
main_data[:5] # exibindo as 5 primeiras linhas

Já temos os dados da primeira tabela. Usando *Pandas* conseguimos convertê-la no formato esperado:

In [8]:
df_1 = pd.DataFrame(main_data, columns=main_header)
df_1

*Pandas* cuida de exprimir os resultados em um formato amigável. Também torna fácil exportar para formatos como *Excel* e *CSV* (mais disso no final). Agora precisamos dos dados e cabeçalhos da segunda tabela.

In [9]:
sub_header = [i.text for i in soup.find_all(class_='ranking-table__sub-item-title')]
sub_header = sub_header[: len(set(sub_header))]

sub_data = [i.text for i in soup.find_all(class_='ranking-table__sub-item-value')]
sub_data = np.array(sub_data)
sub_data = sub_data.reshape(-1, len(sub_header))


df_2 = pd.DataFrame(sub_data, columns=sub_header)
df_2

Aqui utilizei dois novos truques:

1. A função `set` converte um objeto em conjunto, eliminando elementos repetidos - os cabeçalhos da tabela menor se repetiam diversas vezes;
2. A função `len` mostra o número de elementos em um conjunto ou lista (do inglês *lenght*);

Agora que temos a primeira tabela com 100 linhas e 5 colunas e a segunda tabela com 100 linhas e 15 colunas podemos juntar ambas:

In [10]:
df = pd.concat([df_1, df_2], axis=1)
df

O último passo seria exportar para um excel usando `df.to_excel('ranking_1500.xlsx')`ou para um csv com `df.to_csv('ranking_1500.csv', index=False)` mas ainda iremos iterar em cada página do site para completar a tabela. Sabendo que são 1500 empresas e 100 empresas por páginas é fácil deduzir que serão 15 páginas. Mas e se isso mudar? Existe uma forma "automática" de obter esse dado? A resposta é sim.

Observando novamente o padrão da página encontre o hiperlink que aponta para última página na classe "last". Para obter esse dado é simples:

In [11]:
soup.find(class_='last')['href']

No próximo passo eu embrulho tudo isso em um loop:

In [12]:
last_page = soup.find(class_='last')['href'] # obtendo o link
last_page = last_page.split('/')[-2] # separando os elementos entre / e acessando o penúltimo

print(f'A última página é a {last_page}') # imprimindo o resultado

last_page = int(last_page) # convertendo em inteiro

df_final = pd.DataFrame() # iniciando uma tabela vazia para guardar cada página

for page in range(last_page):
    url = f'https://publicacoes.estadao.com.br/empresasmais/ranking-1500/{page+1:0.0f}'
    time_now = time.strftime('%H:%M:%S')
    print(f'[{time_now}] Obtendo resultados da página {url}')
    
    # repetindo os passos de cima para cada página
    r = requests.get(url, headers=header)
    soup = BeautifulSoup(r.text, "html.parser")
    
    main_header = [i.text[1:-1] for i in soup.find_all(class_='ranking-table__th')] 

    main_data = [i.text[1:-1] for i in soup.find_all(class_='ranking-table__td')] 
    main_data = np.array(main_data) 
    main_data = main_data.reshape((-1,5))

    df_1 = pd.DataFrame(main_data, columns=main_header)

    sub_header = [i.text for i in soup.find_all(class_='ranking-table__sub-item-title')]
    sub_header = sub_header[: len(set(sub_header))]

    sub_data = [i.text for i in soup.find_all(class_='ranking-table__sub-item-value')]
    sub_data = np.array(sub_data)
    sub_data = sub_data.reshape(-1, len(sub_header))

    df_2 = pd.DataFrame(sub_data, columns=sub_header)
    
    df = pd.concat([df_1, df_2], axis=1)

    df_final = pd.concat([df_final, df], axis=0, ignore_index=True)

Dando uma espiada no resultado final:

In [13]:
df_final

Guardando o resultado em um arquivo excel:

In [14]:
df_final.to_excel('ranking_1500.xlsx', index=False)