# Web Scraping com Python  
Aqui será abordado alguns conceitos importantes sobre coleta de dados *web*, que é uma forma de mineração de dados que permite a extração de dados de *sites* da *web* convertendo-os em informações estruturada para posterior análise.  
O tipo mais básico de coleta é download manual das páginas, copiando e colando o conteúdo, e isso é fundamental em Ciência de Dados.  
Estaremos usando a biblioteca *BeautifulSoup*, esta biblioteca permite coletar qualquer informação de qualquer *site*, pode sua conta bancária, *site* de vagas de emprego como o LinkedIn, a Wikipédia, um *site* de esportes, enfim, qualquer coisa (ou melhor, *site*) que imaginar.

<small>
    O vídeo usado para a produção deste documento é <i>Web Scraping with Python - Beautiful Soup Crash Course</i> do canal <i>freeCodeCamp.org</i>.
    
    Link do vídeo: https://www.youtube.com/watch?v=XVv6mJpFOb0
</small>

## Uso de Web Scraping para Arquivos Locais  
O essencial para utilizar em arquivos locais é saber sobre manipulação de arquivos, no exemplo abaixo é mostrado abrindo um arquivo no modo de leitura e armazenando o conteúdo em uma variável `content`, para ver se deu certo é só imprimir a variável (`print(content)`). Agora utilizando a biblioteca <i>BeautifulSoup</i>, ela vai utilizada para formatar o HTML e trabalhar com as <i>tags</i> do HTML como objetos do Python.

In [8]:
from bs4 import BeautifulSoup

# Abrir o arquivo
with open('home_aula.html', 'r') as html_file:
    # Lê o arquivo HTML e armazena na variável content
    content = html_file.read()

    # Intância do BeautifulSoup
    # Como argumentos serão passados o arquivo HTML (content) que é o que eu quero extrair
    # O segundo argumento é o método de análise sintática que vai usar
    soup = BeautifulSoup(content, 'lxml')

Imprimindo a variável `soup` agora ele vai mostrar toda a estrutura do HTML.  

<small>**OBS.:** Se utilizar o método `prettify()`, ele vai imprimir de uma forma mais agradável, que seria tabulado.  
A linha de código: `print(soup.prettify())`</small>

### Métodos `find()` e `find_all()`

Supondo que queiramos obter todas as <i>tags</i> h5 (são <i>tags</i> de cabeçalho), vamos criar uma variável e atribuir a variável `soup` com o método `find()`, passando como parâmetro a <i>tag</i> h5.

In [11]:
# Variável que vai armazenar o h5 que queremos conseguir
tags = soup.find('h5')
# Imprimindo...
print(tags)

<h5 class="card-title">Python for beginners</h5>


Como pode ver, a saída foi a primeira <i>tag</i> h5 encontrada, note que imprimiu apenas a primeira, caso queira encontrar todas, utilizamos o método `find_all()`

In [12]:
tags = soup.find_all('h5')
# Imprimindo...
print(tags)

[<h5 class="card-title">Python for beginners</h5>, <h5 class="card-title">Python Web Development</h5>, <h5 class="card-title">Python Machine Learning</h5>]


A saída é uma lista com todas as <i>tags</i> h5, vamos tentar pegar apenas os nomes dentro dessas <i>tags</i>.

In [15]:
for course in tags:
    print(course.text)

Python for beginners
Python Web Development
Python Machine Learning


Assim a saída é todos os texto dentro das <i>tags</i> h5.  
Isso pode ser um bom ponto de partida para entender como extrair informações de uma página web para conseguir dados específicos.  

O `find_all()` também pode ser utilizado aplicando "filtros", por exemplo, tentar pegar o nome do curso e seu preço.

In [22]:
# Vai pegar todos as div que pertence a classe card
course_cards = soup.find_all('div', class_='card')
for course in course_cards:
    # Pega o texto do cabeçalho do cord
    course_name = course.h5.text
    # Pega a tag onde está o texto do preço (ela está na tag <a>)
    course_price = course.a

    print(course_name)
    # OBS.: Imprimir apenas a variável, vai mostrar todo o conteúdo da tag
    # print(course_price)
    # Saída: <a class="btn btn-primary" href="#">Start for 20$</a>
    # Para imprimir apenas o texto, só utilizar o atributo text
    course_price = course.a.text
    print(course_price)

Python for beginners
Start for 20$
Python Web Development
Start for 50$
Python Machine Learning
Start for 100$


Para imprimir uma frase como "Pytho for beginners costs 20$", é só utilizar o método `spilt()`, ele irá acesar o último elemento do texto (visto que o preço é a última palavra).  
Utilizaremos o `split()` e dividir pelo número de espaços em branco para não precisar especificar nada, como queremos o último elemento, vamos procurar pelo índice -1.

In [24]:
for course in course_cards:
    course_name = course.h5.text
    course_price = course.a.text.split()[-1] 
    # Agora para imprimir como uma frase
    print(f'{course_name} costs {course_price}')

Python for beginners costs 20$
Python Web Development costs 50$
Python Machine Learning costs 100$


É algo bem interressante de se usar em sites reais como a Udemy, onde os preços dos cursos são atualizados constantemente, uma boa ideia seria executar esse programa a cada determinado periodo de tempo, por exemplo, semanalmente. Assim podendo ter uma capacidade de estar ciente de cada curso que a Udemy atualizou na página web onde estariamos extraindo esses dados.

## Inspetor  
O Inspetor do navegador é uma boa ferramenta para pode inspencionar o código das páginas, por exemplo, encontrar a tag onde está um botão como usamos no exemplo anterior.

## Extraindo Dados de Sites Reais  

Agora vamos subir o nível e extrair dados de sites reais com a biblioteca Requests. O exemplo será feito em um site que busca anúncios de emprego e vamos trazer todos os anúncios de um site específico. Nesse exemplo, o programa irá extrair os anúncios de emprego mais recentes publicados nesse site.

O principal passo aqui é garantir que a biblioteca Requests esteja instalada (no terminal: `pip install requests`). 

<small>**OBS.:** Como estou fazendo em um notebook não seria necessário importar o BeautifulSoup novamente, mas vou fazer isso para deixar junto das divisões (dividi em extração em arquivo e extração em site real).</samll>

### Requests  

A biblioteca Requests faz nos bastidores é solicitar informações de um site específico. Seria algo como uma pessoa real acessando um site e solicitando algumas informações, inicialmente iremos utilizar o método `get()`.

<small>**OBS.:** O HTML do site mudou, então nesse exemplo abaixo irei copiar o código da aula, mas ele não irá rodar.</small>

In [None]:
from bs4 import BeautifulSoup
import requests

# Para usar o get, iremos passar a URL do site que vamos realizar a extração
html_text = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=python&txtLocation=e', verify=False).text
# Criando uma instância do BS
soup = BeautifulSoup(html_text, 'lxml')
# Se utilizar o Inspencionar na página para localizar a parte que contém o conteúdo que queremos
jobs = soup.find_all('li', class_='clearfix job-bx wht-shd-bx')
for job in jobs:
    # Agora selecionando as vagas com a data de publicação especifica
    # O texto dela vai estar dentro de um outro span
    published_date = job.find('span', class_='sim-posted').span.text 
    if 'few' in published_date:
        # Pegando agora o nome da empresa, na aula, a saída imprimindo apenas o texto, ele vem com alguns espaços
        # Então será utilizado o replace() para substituir os espaços por nada
        company_name = job.find('h3', class_='joblist-comp-name').text.replace(' ', '')
        # Pegando as skills que a vaga pede
        skills = job.find('span', class_='srp_skills').text.replace(' ', '')
    
        # Exibindo os dados da vaga
        print(f'''
        Company Name: {company_name}
        Required Skills: {skills}
        ''')
        print('')



None


Basicamente é esse o código, ele vai pegar do site <i>TimesJobs</i> todas as vagas, eles estão em uma lista (tag li) e todas as que tiver a classe especificada no `soup.find_all()`vão ser armazenadas em `job`.  
Em seguida, vai pegar as datas de publicações e passar pela condição, só vai extrair o nome da empresa e habilidades necessárias se foi publicadas a poucos dias.  

## Formatação

A parte de extração foi realizada, agora vamos deixar mais agradável para vista, vamos formatar para deixar cada vaga com link para mais informações sobre ela e organizar.  
<small>**OBS.:** Vou copiar o código anterior e aplicar as mudanças.</small>

In [None]:
from bs4 import BeautifulSoup
import requests

# Para usar o get, iremos passar a URL do site que vamos realizar a extração
html_text = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=python&txtLocation=e', verify=False).text
# Criando uma instância do BS
soup = BeautifulSoup(html_text, 'lxml')
# Se utilizar o Inspencionar na página para localizar a parte que contém o conteúdo que queremos
jobs = soup.find_all('li', class_='clearfix job-bx wht-shd-bx')
for job in jobs:
    # Agora selecionando as vagas com a data de publicação especifica
    # O texto dela vai estar dentro de um outro span
    published_date = job.find('span', class_='sim-posted').span.text 
    if 'few' in published_date:
        # Pegando agora o nome da empresa, na aula, a saída imprimindo apenas o texto, ele vem com alguns espaços
        # Então será utilizado o replace() para substituir os espaços por nada
        company_name = job.find('h3', class_='joblist-comp-name').text.replace(' ', '')
        # Pegando as skills que a vaga pede
        skills = job.find('span', class_='srp_skills').text.replace(' ', '')
        # O conteúdo onde está o link para mais informações da vaga
        more_info = job.header.h2.a['href']
        # Retirando o print com aspas triplas e substituindo pelas aspas duplas
        # Vamos remover também os espaços em branco usando strip()
        print(f"Company Name: {company_name.strip()}")
        print(f"Required Skills: {skills.strip()}")
        print(f"More Info: {more_info}")

        print('')



## Filtro

Agora  vamos dar ao usuário a oprtunidade de filtrar alguns requisitos de habilidades que ele não possui.  
<small>**OBS.:** Vou copiar o código anterior e aplicar as mudanças.</small>

In [None]:
from bs4 import BeautifulSoup
import requests

print('Put some skill that you are not familiar with')
# Variável para  o input usada no filtro
unfamiliar_skill = input('>')
print(f'Filtering out {unfamiliar_skill}')

# Para usar o get, iremos passar a URL do site que vamos realizar a extração
html_text = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=python&txtLocation=e', verify=False).text
# Criando uma instância do BS
soup = BeautifulSoup(html_text, 'lxml')
# Se utilizar o Inspencionar na página para localizar a parte que contém o conteúdo que queremos
jobs = soup.find_all('li', class_='clearfix job-bx wht-shd-bx')
for job in jobs:
    # Agora selecionando as vagas com a data de publicação especifica
    # O texto dela vai estar dentro de um outro span
    published_date = job.find('span', class_='sim-posted').span.text 
    if 'few' in published_date:
        # Pegando agora o nome da empresa, na aula, a saída imprimindo apenas o texto, ele vem com alguns espaços
        # Então será utilizado o replace() para substituir os espaços por nada
        company_name = job.find('h3', class_='joblist-comp-name').text.replace(' ', '')
        # Pegando as skills que a vaga pede
        skills = job.find('span', class_='srp_skills').text.replace(' ', '')
        # O conteúdo onde está o link para mais informações da vaga
        more_info = job.header.h2.a['href']
        # Filtro
        if unfamiliar_skill not in skills:    
            # Retirando o print com aspas triplas e substituindo pelas aspas duplas
            # Vamos remover também os espaços em branco usando strip()
            print(f"Company Name: {company_name.strip()}")
            print(f"Required Skills: {skills.strip()}")
            print(f"More Info: {more_info}")
    
            print('')

## Coleta de Dados Periódica

Como temos a base pronta, vamos fazer com que o programa realize coletas de dados periodicas, ou seja, ele realize essa extração em um determinado periodo de tempo. Nesse caso vamos fazer para que ocorrar a cada 10 minutos.  
    <small>**OBS.:** Vou copiar o código anterior e aplicar as mudanças.</small>

In [None]:
from bs4 import BeautifulSoup
import requests
import time

print('Put some skill that you are not familiar with')
# Variável para  o input usada no filtro
unfamiliar_skill = input('>')
print(f'Filtering out {unfamiliar_skill}')

# Faz mais sentido criar uma função, assim ela será chamada em periodicamente
def find_jobs():
    # Para usar o get, iremos passar a URL do site que vamos realizar a extração
    html_text = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=python&txtLocation=e', verify=False).text
    # Criando uma instância do BS
    soup = BeautifulSoup(html_text, 'lxml')
    # Se utilizar o Inspencionar na página para localizar a parte que contém o conteúdo que queremos
    jobs = soup.find_all('li', class_='clearfix job-bx wht-shd-bx')
    for job in jobs:
        # Agora selecionando as vagas com a data de publicação especifica
        # O texto dela vai estar dentro de um outro span
        published_date = job.find('span', class_='sim-posted').span.text 
        if 'few' in published_date:
            # Pegando agora o nome da empresa, na aula, a saída imprimindo apenas o texto, ele vem com alguns espaços
            # Então será utilizado o replace() para substituir os espaços por nada
            company_name = job.find('h3', class_='joblist-comp-name').text.replace(' ', '')
            # Pegando as skills que a vaga pede
            skills = job.find('span', class_='srp_skills').text.replace(' ', '')
            # O conteúdo onde está o link para mais informações da vaga
            more_info = job.header.h2.a['href']
            # Filtro
            if unfamiliar_skill not in skills:    
                # Retirando o print com aspas triplas e substituindo pelas aspas duplas
                # Vamos remover também os espaços em branco usando strip()
                print(f"Company Name: {company_name.strip()}")
                print(f"Required Skills: {skills.strip()}")
                print(f"More Info: {more_info}")
        
                print('')

if __name__ == '__main__':
    while True:
        # Chama a função
        find_jobs()
        # Agora vem a parte de chamada periodica, vamos utilizar o sleep
        # Ele vai permitir que o programa espere por um determinado periodo de tempo
        # time.sleep(600)
        # ou
        time_wait = 10
        print(f'Waiting {time_wait} minutes...')
        time.sleep(time_wait * 60)

Put some skill that you are not familiar with


> django


Filtering out django




Waiting 10 minutes...


## Armazenando em Arquivos de Texto

Agora vamos pegar essas informações e armazenar em um local separado. Eles serão armazenados em um diretórios chamado posts.  
<small>**OBS.:** Vou copiar o código anterior e aplicar as mudanças.</small>

In [None]:
from bs4 import BeautifulSoup
import requests
import time

print('Put some skill that you are not familiar with')
# Variável para  o input usada no filtro
unfamiliar_skill = input('>')
print(f'Filtering out {unfamiliar_skill}')

# Faz mais sentido criar uma função, assim ela será chamada em periodicamente
def find_jobs():
    # Para usar o get, iremos passar a URL do site que vamos realizar a extração
    html_text = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=python&txtLocation=e', verify=False).text
    # Criando uma instância do BS
    soup = BeautifulSoup(html_text, 'lxml')
    # Se utilizar o Inspencionar na página para localizar a parte que contém o conteúdo que queremos
    jobs = soup.find_all('li', class_='clearfix job-bx wht-shd-bx')
    for index, job in enumerate(jobs):
        # Agora selecionando as vagas com a data de publicação especifica
        # O texto dela vai estar dentro de um outro span
        published_date = job.find('span', class_='sim-posted').span.text 
        if 'few' in published_date:
            # Pegando agora o nome da empresa, na aula, a saída imprimindo apenas o texto, ele vem com alguns espaços
            # Então será utilizado o replace() para substituir os espaços por nada
            company_name = job.find('h3', class_='joblist-comp-name').text.replace(' ', '')
            # Pegando as skills que a vaga pede
            skills = job.find('span', class_='srp_skills').text.replace(' ', '')
            # O conteúdo onde está o link para mais informações da vaga
            more_info = job.header.h2.a['href']
            # Filtro
            if unfamiliar_skill not in skills:
                with open('posts/{index}.txt', 'w') as f:
                    # Retirando o print com aspas triplas e substituindo pelas aspas duplas
                    # Vamos remover também os espaços em branco usando strip()
                    f.write(f"Company Name: {company_name.strip()} \n")
                    f.write(f"Required Skills: {skills.strip()} \n")
                    f.write(f"More Info: {more_info}")
                print(f'File saved: {index}.txt')

if __name__ == '__main__':
    while True:
        # Chama a função
        find_jobs()
        # Agora vem a parte de chamada periodica, vamos utilizar o sleep
        # Ele vai permitir que o programa espere por um determinado periodo de tempo
        # time.sleep(600)
        # ou
        time_wait = 10
        print(f'Waiting {time_wait} minutes...')
        time.sleep(time_wait * 60)