# Python para data science na prática

---
# Web Scraping

## Introdução

Na era digital, a quantidade e a variedade de dados disponíveis na web crescem de maneira constante. Empresas precisam desses dados para tomar decisões, especialmente com o crescimento das ferramentas de Inteligência Artificial (IA), de aprendizado de máquina, que demandam grandes volumes de dados para treinamento. Embora muitos dados estejam acessíveis por APIs, diversos dados valiosos ainda só podem ser obtidos por meio de web scraping.

O Web Scraping é amplamente utilizado por empresas e pesquisadores para diversas finalidades, como:
- Monitorar concorrentes e analisar tendências de mercado.
- Coletar dados para estudos acadêmicos e projetos de pesquisa.
- Desenvolver aplicações de inteligência artificial e machine learning.

O Web scraping revoluciona a forma de como interagir e extrair informações da internet. 

## Aplicações
- Análise de mercado: Empresas utilizam para monitorar preços e tendências.
- Pesquisa acadêmica: Coletando dados em larga escala para estudos.
- Desenvolvimento de IA: Treinando modelos com dados retirados da web.
- Monitoramento de mídia: Acompanhar notícias e menções de marcas.

## O que é Web scraping?

A coleta automatizada de dados da Internet é quase tão antiga quanto a própria Internet. Embora web scraping não seja um termo novo, nos últimos anos a prática era mais comumente conhecida como screen scraping, mineração de dados, web harvesting ou algo semelhante.

**Web scraping** é o processo de extração automática de dados de websites. Utilizando scripts ou ferramentas específicas, é possível coletar grandes volumes de informações de páginas da web, transformando dados não estruturados em dados estruturados e organizados para análise posterior.

O web scraping, geralmente é feito escrevendo um programa automatizado que consulta um servidor web, solicita dados (geralmente na forma de HTML e outros arquivos que compõem as páginas web) e depois se analisam esses dados para extrair as informações necessárias. 

As informações são consolidadas e armazenadas em um dataset que servirá para analisar e tomar as decisões adequadas ao caso.

## O processo de Web Scraping

Os raspadores da Web operam da seguinte forma:

1. Um usuário ou um aplicativo insere uma URL no web scraper.
2. O web scraper coleta todo o conteúdo das páginas da web ou apenas as informações específicas para as quais foi configurado.
3. Em seguida, o web scraper processa os dados coletados e os formata em arquivos CSV, Excel ou JSON, que podem ser utilizados por usuários ou aplicativos.

Embora pareça um processo simples, a extração real de dados pode ser bastante complexa, especialmente se o objetivo for extrair informações específicas. Além disso, dependendo do tamanho do site copiado, o processo pode ser demorado.


## Ferramentas de Web Scraping in Python

Uma ferramenta de web scraping é uma biblioteca, software ou serviço que simplifica e facilita a extração automática de dados de um site. Entre estas bibliotecas temos as seguintes:
- Requests - [Requests](https://pypi.org/project/requests/)
- BeautifulSoup - [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
- Scrapy - [Scrapy](https://scrapy.org/)
- Selenium - [Selenium](https://www.selenium.dev/)
- Urllib3 - [urllib3](https://pypi.org/project/urllib3/)
- Lxml - [Lxml](https://pypi.org/project/lxml/)
- MechanicalSoup - [MechanicalSoup](https://mechanicalsoup.readthedocs.io/en/stable/)

### Requests

Requests é uma biblioteca de web scraping popular em Python que facilita a geração de múltiplas requisições HTTP. Isso é extremamente útil para web scraping, já que a etapa primária em qualquer processo de web scraping é enviar requisições HTTP ao servidor do site para extrair os dados exibidos na página da web desejada.

- Requests suporta a API restful e suas funcionalidades (PUT, GET, DELETE e POST) e oferece ampla documentação.
- Esta biblioteca suporta tratamento de erros, incluindo Connection Error, Timeout, TooManyRedirect, Response.raise_for_status, etc.

#### Funcionamento da bibliotecas Request  

A primeira coisa que precisamos fazer para examinar uma página da web é fazer o download dela. Podemos fazer o download de páginas usando a biblioteca **requests** do Python. 

A biblioteca requests fará uma solicitação GET para um servidor da web, que fará o download do conteúdo HTML de uma determinada página da Web. Existem vários tipos diferentes de solicitações que podemos fazer usando requests, GET é apenas uma.

#### Testando o funcionamento de requests

In [None]:
# test - import of the library request
import requests                # Biblioteca Requests
from pprint import pprint      # imprime resultados
# Testing output Requests
#response = requests.get('http://dusp.mit.edu/people')
#response = requests.get('https://larepublica.pe/')
response = requests.get('https://www.pro-football-reference.com/years/2024/draft.htm')
print(response.text)                         # Print o output da página HTML

### BeautifulSoup

> A biblioteca BeautifulSoup é amplamente usada para analisar documentos HTML, XML ou outras linguagens de marcação  e extrair dados e gerar arquivos de dados mais claramente estruturados, isso é o que se chama de ***Web Scraping ou Raspagem de Dados***. 

![wst](images/web_scrap.png)

> Em geral se usa essa técnica  para coletar informações de um website que não possuia API. Para compreenssão de alguns conceitos nessa aula é importante ter conhecimentos mínimos de HTML tree structure.

#### Leituras complementares
> -  Básico de HTML- BeautifulSoap Aqui --> [Guia para iniciantes](https://www.vooo.pro/insights/guia-para-iniciantes-de-web-scraping-em-python-usando-beautifulsoup/)
> -  Documentação oficial do BeautifulSoap --> [BeatifulSoap](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

#### Funcionamento da biblioteca BeautifulSoap 

A biblioteca **BeautifulSoup** é usada para analisar o documento e extrair os textos a partir do elementos do HTML. 

Primeiro, precisamos importar a biblioteca e criar uma instância da classe BeautifulSoup para analisar um documento pretendido.

In [12]:
# test - import of the library beautifulsoup
import pandas as pd                       # dataframes
import numpy as np                        # numeros
import seaborn as sns                     # graficos
import matplotlib.pyplot as plt           # graficos
import statsmodels.formula.api as smf     # estatistica
import bs4                                # Biblioteca BeautifulSoap

#### Testando BeautifulSoup

Os próximos passos são testes de  outputs de uma requisição do site que desejamos "raspar" os dados. 

Utilizaremos  **http://dusp.mit.edu/people**  para criar um arquivo texto (CSV) com  dados livre de formatação

In [13]:
URL = "https://www.pro-football-reference.com/years/2024/draft.htm"

#### Testando BeautifulSoup

##### Inspecionar um WebSite 

Os browsers já têm incorporado um "inspecionador", que é ativado ao clicar sobre uma página com botão direito do mouse.

![Inspecionar](images/bs.png)


##### Prettify 
- Método do BS  para visualizar a estrutura separada da página HTML
- Em linhas gerais o código a seguir irá analisar response.text criado pelo objeto BeautifulSoup e atribuido-o a soup. 

O argumento html.parser indica que queremos fazer a análise.

In [None]:
# Testing output BS
soup = bs4.BeautifulSoup(response.text, "html.parser")
print(soup.prettify())                        # Print o output usando a função 'prettify' 


#### Navegando na estrutura de dados gerada pelo Prettify

In [None]:
# Access the title 
# Access the title element
#soup.titlelement
soup.title

In [None]:
# Access the content of the title element
soup.title.string

In [None]:
# Access data in the first 'p' tag
soup.p

In [None]:
# Access data in the first 'a' tag
soup.a

In [None]:
# Retrieve all links in the document (note it returns an array)
soup.find_all('a')

In [None]:
# Retrieve all links in the document (note it returns an array)
grouping = soup.find_all(id="info")
pprint(grouping[0])
#print(grouping[0])

In [None]:
# Retrieve elements by class equal to link using the attributes argument
people = soup.find_all('div', class_='years')
pprint(people)

Visualizar os dados usando *print()*

In [None]:
draft2024 = pd.read_html(URL, header=1)[0] 
draft2024.loc[draft2024["DrAV"].isnull(), "DrAV"] = 0
print(draft2024)

Para extrair vários anos (por exemplo, 2000 a 2024), se pode usar um loop for simples – o que geralmente é possível devido a alterações sistemáticas nos dados. A experimentação é fundamental.

### Carregando os Dados em Arrays

A maneira mais fácil de acessar elementos (dados) da página é gravá-los em um arquivo temporário e manipulá-los e salvá-los como objetos. 

Observe que os dados da página a ser raspada são organizados em "counties" e várias colunas com números. Logo, salvá-los em arrays é maneira mais lógica e fácil de trabalhar com os dados futuramente.

In [39]:
# create file
import os.path 
# 
file_name = "data/draft2024.csv"  

if not os.path.isfile(file_name):
     # url
     #UTL = "https://www.pro-football-reference.com/years/2024/draft.htm" 
     # leituar da web (url)
     draft_py = pd.read_html(URL, header=1)[0] 
     # colunas requeridas 
     # Tm = times
     # SDG = San Diego
     # OAK = Oaklan
     # STL = St Louis
     conditions = [(draft_py.Tm == "SDG"), 
                   (draft_py.Tm == "OAK"), 
                   (draft_py.Tm == "STL"),]  
     # LAC = the Chargers moved to Los Angeles from San Diego 
     # LV = the Raiders moved from Oakland to Las Vegas 
     # LAR = the Rams moved from St. Louis to Los Angeles
     choices = ["LAC", "LV", "LAR"]  
     # select
     draft_py["Tm"] = np.select(conditions, choices, default = draft_py.Tm)
     # cria coluna DrAV =0 
     draft_py.loc[draft_py["DrAV"].isnull(), "DrAV"] = 0 
     # gravar em dataframe em csv
     df = pd.DataFrame(draft_py)
     df.to_csv(file_name, index=False)
     #draft_py.to_csv(file_name, index=False) 
else:  
    #draft_py = pd.read_csv(file_name, index=False) 
    #draft_py.loc[draft_py["DrAV"].isnull(), "DrAV"] = 0
    df = pd.read_csv(file_name, index=False) 
    df.loc[df["DrAV"].isnull(), "DrAV"] = 0


In [None]:
# dataset dimentions
df.shape

In [None]:
df.head()

In [94]:
file_NFL = "data/draf_NFL.csv"
url1 = "https://www.pro-football-reference.com/years/"
url2 = "/draft.htm"
#
if os.path.isfile(file_NFL):
    draft_py = pd.read_csv(file_NFL)
else:
    draft_py = pd.DataFrame()
    for i in range(2000, 2022 + 1):
        url = url1+str(i)+url2
        web_data = pd.read_html(url, header=1)[0]
        web_data["Season"] = i
        web_data = web_data.query('Tm != "Tm"')
        draft_py = pd.concat([draft_py, web_data])
    draft_py.to_csv(file_NFL)
#
draft_py.reset_index(drop=True, inplace=True)

## rename teams
# the Chargers moved to Los Angeles from San Diego
# the Raiders moved from Oakland to Las Vegas
# the Rams moved from St. Louis to Los Angeles

conditions = [
    (draft_py.Tm == "SDG"),
    (draft_py.Tm == "OAK"),
    (draft_py.Tm == "STL"),
]
choices = ["LAC", "LVR", "LAR"]
draft_py["Tm"] = np.select(conditions, choices, default=draft_py.Tm)

## replace missing DrAV with 0
draft_py.loc[draft_py["DrAV"].isnull(), "DrAV"] = 0
draft_py.to_csv("data/data_NFL.csv", index=False)

In [None]:
# shape
draft_py.shape

In [None]:
# visualizando registros
draft_py.head()

### Criando e executando o arquivo de script do BeatutifuSoap (.py) para raspagem de dados

Obeserve que podemos fazer a raspagem executando diretamente um script python através da linha de comandos, pois muitas vezes é um processo demorado. No caso dessa aula, dividimos o script em duas céluas para serem execuradas ao vivo. 

Caso deseje gerar um script .py, copie o conteúdo das duas próximas céluas em um único arquivo e execute diretamente no Python.

In [None]:
#Opcionalmente pode ser executado dentro do Jupyter
import requests
import bs4
from io import StringIO

# load and get the page from the website
url_draft = "http://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o"
page = requests.get(url_draft)
# create the soup
soup = bs4.BeautifulSoup(page.text, "html.parser")
# find all the tables
tabela = soup.find('span', 'mw-editsection').find_next('table')
#print(tabela.get_text())
#print(len(tabela))
# convertir html to objeto StringIO
tabela_io = StringIO(str(tabela))
# Transformando a tabela em um DataFrame
df = pd.read_html(tabela_io)[0]
# gravando
#df.to_csv('data/uf_pop.csv',sep=',',index=False)
#visualiza
df.head()

Gravando dados em um arquivo texto (csv) usando um loop simples. A Lógica é mais ou menos a mesma em vários casos

## Exemplo prático

In [None]:
# test - import of the library request
import requests                # Biblioteca Requests
from pprint import pprint      # imprime resultados
# Testing output Requests
#response = requests.get('http://dusp.mit.edu/people')
re_pe = requests.get('https://larepublica.pe/')
#response = requests.get('https://www.pro-football-reference.com/years/2024/draft.htm')
print(re_pe.text)  

### Usando o BeautifulSoap

In [4]:
# test - import of the library beautifulsoup
import pandas as pd                       # dataframes
import numpy as np                        # numeros
import seaborn as sns                     # graficos
import matplotlib.pyplot as plt           # graficos
import statsmodels.formula.api as smf     # estatistica
import bs4    

In [None]:
# Testing output BS
html_re = bs4.BeautifulSoup(re_pe.text, "html.parser")
print(html_re.prettify())                        # Print o output usando a função 'prettify' 


In [None]:
# Access the title 
html_re.title

In [None]:
# Acesar outros elementos 
html_re.title.string

In [None]:
body_text = html_re.find('body')
pprint(body_text)

In [None]:
# acessa links
links = body_text.find_all('h1')
pprint(links)

In [None]:
tabela = html_re.find_all('<section>')
pprint(tabela)

---
Python para data science &copy; Jorge Zavaleta, 2024