# Web Scraping Job Postings Data from InfoJobs

## Overview

This project involves building a web scraper using Python and Selenium to extract job listings from the popular job search platform, InfoJobs. The scraper will extract relevant information such as job titles, companies, locations, job descriptions, and more.

## Steps

The main steps involved in this project are:

1. Setting up the development environment.
2. Understanding the basics of web scraping.
3. Analyzing the website structure of InfoJobs.
4. Writing the Python code to extract job data from InfoJobs.
5. Saving the extracted data to a CSV file.

## Prerequisites

Before starting this project, you should have some basic knowledge of Python programming and HTML structure. You will also need the following Python packages:

- Selenium
- Time
- pandas

If you're working in a Jupyter Notebook environment, you can install any additional packages using `!pip install packagename` within a notebook cell. For example:

- `!pip install pandas`
- `!pip install time`
- `!pip install selenium`

## Usage

To use the web scraper, run the Python script `script.py`. This will start the web scraper and save the extracted job data to a CSV file.

## Contributing

Contributions are welcome. Please open an issue to discuss your idea or submit a pull request.

## License

This project is licensed under the MIT License. See the `LICENSE` file for details.

In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.chrome.options import Options

import time
import pandas as pd


In [54]:

def get_vagas():
    """ 
    Função principal responsável por fazer o scraping das vagas de emprego do site InfoJobs.
    
    """

    # instance of Options class allows
    # us to configure Headless Chrome
    options = Options()

    # this parameter tells Chrome that
    # it should be run without UI (Headless)
    options.add_argument('--headless=new')



    numero_de_interações = int(input("Digite o numero de interacoes: "))

    for i in range(1,numero_de_interações):
        URL = f"https://www.infojobs.com.br/empregos-em-sao-paulo.aspx?page={i}"
        #driver = webdriver.Chrome(options=options)
        driver = webdriver.Chrome()
        driver.get(URL)
        driver.maximize_window()

        time.sleep(5)
        cookies_button = driver.find_element(By.XPATH, "/html/body/div[1]/div/div/div/div/div/div[3]/button[2]")
        cookies_button.click()
        time.sleep(1)



        def get_score():
            """
            Função responsável por fazer o scraping da nota da empresa. Caso não tenha nota, retorna "Sem nota".

            """

            xpath_options = ['/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[1]/div[1]/div[1]/a/div/span[1]',
                            
                            ]

            vaga_score = None

            for xpath_options in xpath_options:
                try:
                    vaga_score = driver.find_element(By.XPATH, xpath_options).text
                    break
                except NoSuchElementException:
                    pass
            
            if vaga_score is not None:
                return vaga_score
            else:
                return "Sem nota"


        def get_num_score():
            """
            Função responsável por fazer o scraping do número de avaliações da empresa. Caso não tenha avaliações, retorna "Sem avaliações".

            """

            try:
                primeira_vaga_avaliacoes = driver.find_element(By.XPATH, "/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[1]/div[1]/div[1]/div[2]")
                return primeira_vaga_avaliacoes.text
            except:
                return "Sem avaliações"
            

        def get_title():
            """
            Função responsável por fazer o scraping do título da vaga.

            """


            xpath_options = ['//*[@id="VacancyHeader"]/div[1]/div[1]/h2',
                            '//*[@id="VacancyHeader"]/div[2]/div/h2',
                            ]


            vaga_title = None

            for xpath_options in xpath_options:
                try:
                    time.sleep(1)
                    vaga_title = driver.find_element(By.XPATH, xpath_options).text
                    break
                except NoSuchElementException:
                    pass
            
            if vaga_title is not None:
                return vaga_title
            else:
                return "Título não encontrado"


        def get_empresa_name():
            """
            Função responsável por fazer o scraping do nome da empresa.

            """
            # Preciso mudar essa estrutura para um código melhor.

            xpath_options = [
            "/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[1]/div[1]/div[1]/div[1]/a",
            "/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[1]/div[1]/div[1]/div[1]/a",
            "/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[2]/div/div[2]/div[1]",
            "/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[1]/div/div[1]/div[2]"
            ]

            vaga_empresa = None

            for xpath_options in xpath_options:
                try:
                    time.sleep(1)
                    vaga_empresa = driver.find_element(By.XPATH, xpath_options).text
                    break
                except NoSuchElementException:
                    pass

            if vaga_empresa is not None:
                return vaga_empresa
            else:
                return "Nome da empresa não encontrado"



        def get_localizacao():
            """
            Função responsável por fazer o scraping da localização da vaga.

            """

            xpath_options = ['/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[1]/div[1]/div[2]/div[1]',
                            '//*[@id="VacancyHeader"]/div[2]/div/div[2]/div[1]',
                            ]

            vaga_localizacao = None

            for xpath_options in xpath_options:
                try:
                    time.sleep(1)
                    vaga_localizacao = driver.find_element(By.XPATH, xpath_options).text
                    break
                except NoSuchElementException:
                    pass
            
            if vaga_localizacao is not None:
                return vaga_localizacao
            else:
                return "Localização não encontrada"
            

        def get_modelo():
            """
            Função responsável por fazer o scraping do modelo da vaga. Caso não tenha modelo, retorna "Sem modelo".

            """

            xpath_options = ['/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[1]/div[1]/div[2]/div[3]', 
                            '/*[@id="VacancyHeader"]/div[2]/div/div[2]/div[3]'
                            ]

            vaga_modelo = None

            for xpath_options in xpath_options:
                try:
                    vaga_modelo = driver.find_element(By.XPATH, xpath_options).text
                    break
                except NoSuchElementException:
                    pass

            if vaga_modelo is not None:
                return vaga_modelo
            else:
                return "Modelo de trabalho não encontrado"


        def get_vaga_salario():
            """
            Função responsável por fazer o scraping do salário da vaga.

            """

            xpath_options = ['/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[1]/div[1]/div[2]/div[2]',
                            '/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[2]/div/div[2]/div[2]',
                            '/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[1]/div[1]/div[2]/div[2]',
                            '/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[2]/div/div[2]/div[2]'
                            ]

            vaga_salario = None

            for xpath_options in xpath_options:
                try:
                    time.sleep(1)
                    vaga_salario = driver.find_element(By.XPATH, xpath_options)
                    vaga_salario = vaga_salario.text
                    break
                except NoSuchElementException:
                    pass

            if vaga_salario is not None:
                return vaga_salario
            else:
                return "Salário não encontrado"
        


        def get_vaga_descricao():
            """
            Função responsável por fazer o scraping da descrição da vaga.

            """

            xpath_options = ['/html/body/main/div[2]/form/div/div[2]/div/div/div/div[2]',
                            '//*[@id="VacancyHeader"]/div[2]/div/div[2]/div[2]/span'
                            
                            ]

            vaga_descricao = None

            for xpath_options in xpath_options:
                try:
                    vaga_descricao = driver.find_element(By.XPATH, xpath_options).text
                    break
                except NoSuchElementException:
                    pass
            
            if vaga_descricao is not None:
                return vaga_descricao
            else:
                return "Descrição não encontrada."



        def get_link_vaga():
            
            xpath_options = ['/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[3]/div[2]/a',
                             '/html/body/main/div[2]/form/div/div[2]/div/div/div/div[1]/div[3]/div[2]/a'
                             
                             ]

            vaga_link = None

            for xpath_options in xpath_options:
                try:
                    vaga_link = driver.find_element(By.XPATH, xpath_options).get_attribute("data-url")
                    break
                except NoSuchElementException:
                    pass
            
            if vaga_link is not None:
                return vaga_link
            else:
                return "Link não encontrado"


        def get_description():
            """
            Função responsável por fazer o scraping da descrição da vaga.
            """

            vaga_title = get_title()
            vaga_empresa = get_empresa_name()
            vaga_localizacao = get_localizacao()
            vaga_modelo = get_modelo()
            vaga_salario = get_vaga_salario()
            # vaga_descricao = get_vaga_descricao()

            vaga_num_score = get_num_score()
            vaga_score = get_score()
            link_vaga = get_link_vaga()

            data = pd.DataFrame(columns=['Vaga', 'Empresa','Pontuacao_Empresa','Numero_Avaliacoes','Localizacao_da_Vaga', 'Modelo', 'Salario', 'Link_Vaga'], 
                                data=[[vaga_title, vaga_empresa,vaga_score,vaga_num_score, vaga_localizacao, vaga_modelo, vaga_salario, link_vaga]])

            data.to_csv('output.csv', mode='a', header=False, index=False, encoding='utf-8')




        def get_element():
            
            for i in range(1, 20):
                time.sleep(1)
                element = f'/html/body/main/div[2]/form/div/div[1]/div[2]/div[{i}]'
                click_element = driver.find_element(By.XPATH, element)
                click_element.click()

                get_description()

                with open('output.csv', 'r', encoding='utf-8') as file:
                    last_line = file.readlines()[-1]
            
            return print(last_line)

        get_element()
        driver.quit()

get_vagas()
  

Agente De Call Center Receptivo,QI BRAZIL RH,Sem nota,Sem avaliações,"São Paulo - SP, a 10,7 km de você.",Híbrido,Salário a combinar,https://www.infojobs.com.br/vaga-de-agente-call-center-receptivo-em-sao-paulo__9326556.aspx

MONTADOR ELETRÕNICO,Solange Vieira,Sem nota,Sem avaliações,"São Carlos - SP, a 205,4 km de você.",Presencial,"R$ 1.600,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-montador-eletronico-em-sao-paulo__9138196.aspx

Repositor De Frrios,ATACADAO,"4,4",31.934 avaliações,"São Paulo - SP, a 7,6 km de você.",Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-repositor-frrios-em-sao-paulo__9326554.aspx

Jardineiro,Bourbon Destination Club,Sem nota,Sem avaliações,"Atibaia - SP, a 245,2 km de você.",Presencial,"R$ 1.900,00 a R$ 1.926,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-jardineiro-em-sao-paulo__9154560.aspx

Chefe De Fila,Bourbon Destination Club,Sem nota,Sem avaliações,"Atibaia - SP, a 245,2 km de você.",Presencial,Salário a combina

In [3]:
df = pd.read_csv('output.csv')
df

Unnamed: 0,Vaga,Empresa,Pontuacao_Empresa,Numero_Avaliacoes,Localizacao_da_Vaga,Modelo,Salario,Link_Vaga
0,Recuperador De Credito Jr - Osasco,INTERVALOR COBRANCA MATRIZ,41,4.168 avaliações,São Paulo - SP,Presencial,"R$ 1.324,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-recuperado...
1,Operador De Estacionamento - Itupeva E Região,Park Indigo Brasil,40,2.451 avaliações,Itupeva - SP,Presencial,"R$ 1.900,00 a R$ 1.980,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-operador-e...
2,Atendente De Restaurante,QUINTAL DO ZE,Sem nota,Sem avaliações,São Paulo - SP,Presencial,"R$ 2.000,00 a R$ 2.059,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-atendente-...
3,ANALISTA MARKETING I,SODEXO RETAIL COMERCIO DE REFEICOES LTDA,Sem nota,Sem avaliações,São Paulo - SP,Home office,Salário a combinar,https://www.infojobs.com.br/vaga-de-analista-m...
4,AUXILIAR DE SERVIÇOS GERAIS - PARAÍSO,EMPRESA CONFIDENCIAL,Sem nota,EMPRESA CONFIDENCIAL,São Paulo - SP,Presencial,"R$ 1.589,00 a R$ 1.590,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-auxiliar-s...
...,...,...,...,...,...,...,...,...
1897,Ajudante Geral - Noturno.,Premium Talents,Sem nota,Sem avaliações,"Guarulhos - SP, a 17,7 km de você.",Presencial,"R$ 1.684,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-ajudante-g...
1898,Analista De Suporte N1,RHF TALENTOS,45,179 avaliações,"São Paulo - SP, a 11,9 km de você.",Presencial,"R$ 2.200,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-analista-s...
1899,Analista Financeiro Pleno- CONHECIMENTO EM PRO...,LUANDRE SERVICOS TEMPORARIOS LTDA. (C-I),44,4.475 avaliações,"São Paulo - SP, a 12 km de você.",Presencial,"R$ 3.000,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-analista-f...
1900,Porteiro Diurno - Guarulhos,MASTERCAM Serviços,34,18 avaliações,"Guarulhos - SP, a 12,3 km de você.",Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-porteiro-d...


In [22]:
df['Empresa'].value_counts()

Empresa
Nome da empresa não encontrado                 31
EMPRESA CONFIDENCIAL                           29
POLLY CONSULTORIA EM SERVICOS TERCEIRIZADOS    21
METARH                                         13
Dia Brasil Sociedade Limitada                  12
                                               ..
RESTOQUE SA                                     1
You Like - Treinamento e Desenvolvimento        1
Fábrica de Bares                                1
Serhum RH                                       1
CapacitaRH                                      1
Name: count, Length: 162, dtype: int64

In [23]:
df.tail(3)

Unnamed: 0,Vaga,Empresa,Pontuacao_Empresa,Numero_Avaliacoes,Localizacao_da_Vaga,Modelo,Salario,Link_Vaga
479,Secretária,EMPRESA CONFIDENCIAL,EMPRESA CONFIDENCIAL,Sem avaliações,Rio de Janeiro - RJ,Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-secretaria...
480,Auxiliar Técnico Em Laboratório / Colorista Te...,Timbre,43,43,Todo Brasil,Presencial,"R$ 2.150,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-auxiliar-t...
481,Vendedor Externo De Publicidade - Cabo Frio - ...,"Cabo Frio - RJ, a 478,9 km de você.",Sem nota,Sem avaliações,Cabo Frio - RJ,Presencial,"R$ 2.000,00 a R$ 5.000,00 (Bruto mensal)",Link não encontrado


In [4]:
df['Localizacao_da_Vaga']

0                             São Paulo - SP
1                               Itupeva - SP
2                             São Paulo - SP
3                             São Paulo - SP
4                             São Paulo - SP
                        ...                 
1897      Guarulhos - SP, a 17,7 km de você.
1898      São Paulo - SP, a 11,9 km de você.
1899        São Paulo - SP, a 12 km de você.
1900      Guarulhos - SP, a 12,3 km de você.
1901    Mogi Guaçu - SP, a 126,3 km de você.
Name: Localizacao_da_Vaga, Length: 1902, dtype: object

In [5]:
df['Localizacao_da_Vaga'] = df['Localizacao_da_Vaga'].str.split(',').str[0]
df['Localizacao_da_Vaga']

0        São Paulo - SP
1          Itupeva - SP
2        São Paulo - SP
3        São Paulo - SP
4        São Paulo - SP
             ...       
1897     Guarulhos - SP
1898     São Paulo - SP
1899     São Paulo - SP
1900     Guarulhos - SP
1901    Mogi Guaçu - SP
Name: Localizacao_da_Vaga, Length: 1902, dtype: object

In [6]:
df.to_csv('output.csv' , header=False, index=False, encoding='utf-8')

In [7]:
df['Localizacao_da_Vaga'].value_counts()

Localizacao_da_Vaga
São Paulo - SP         945
Rio de Janeiro - RJ     65
Guarulhos - SP          58
Barueri - SP            57
Campinas - SP           49
                      ... 
Cantagalo - RJ           1
Fernandópolis - SP       1
Tanabi - SP              1
Guapiaçu - SP            1
Olímpia - SP             1
Name: count, Length: 129, dtype: int64

In [8]:
df['Empresa'].value_counts()

Empresa
Nome da empresa não encontrado              165
EMPRESA CONFIDENCIAL                        151
CARREFOUR                                    34
Dia Brasil Sociedade Limitada                34
TELEPERFORMANCE                              28
                                           ... 
RANDSTAD - FILIAL PAULISTA                    1
ASSOCIACAO SEQUENCIAL DE ENSINO SUPERIOR      1
INSTITUTO EUVALDO LODI                        1
FUTURA PORTARIA INTELIGENTE                   1
Clínica Daher                                 1
Name: count, Length: 586, dtype: int64

In [9]:
df = df.sample(frac=1).reset_index(drop=True)

In [12]:
df

Unnamed: 0,Vaga,Empresa,Pontuacao_Empresa,Numero_Avaliacoes,Localizacao_da_Vaga,Modelo,Salario,Link_Vaga
0,AUXILIAR LOGISTICO - CAMPINAS,GRUPO SRM,40,884 avaliações,Campinas - SP,Presencial,"R$ 100,00 a R$ 180,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-auxiliar-l...
1,Auxiliar De Vendas - SEM EXPERIENCIA (AD),GARCIA EMPREENDIMENTOS,Sem nota,Sem avaliações,São Paulo - SP,Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-auxiliar-v...
2,Ajudante De Expedição (PCD) - Sorocaba,BIMBO BRASIL LTDA,44,4.131 avaliações,Sorocaba - SP,PCD Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-ajudante-e...
3,Supervisora Comercial - Estética & Beleza,"São Paulo - SP, a 12,2 km de você.",Sem nota,Sem avaliações,São Paulo - SP,Modelo de trabalho não encontrado,Salário a combinar,Link não encontrado
4,Auxiliar De Cozinha - Montagem E Condimentação...,O Burguês Burger - São José do Rio Preto/SP,Sem nota,Sem avaliações,São José do Rio Preto - SP,Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-auxiliar-c...
...,...,...,...,...,...,...,...,...
1897,COPEIRA HOSPITALAR - SOROCABA,PAINEIRAS LIMPEZA E SERVICOS GERAIS LTDA,45,987 avaliações,Sorocaba - SP,Presencial,"R$ 1.708,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-copeira-ho...
1898,Atendente Quiosque Fini - Shopping Golden Square,Grupo Nexus,43,45 avaliações,São Bernardo do Campo - SP,Presencial,"R$ 1.440,00 a R$ 1.449,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-atendente-...
1899,Mensageiro,REDE D'OR SAO LUIZ S.A.,44,20.871 avaliações,São Caetano do Sul - SP,Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-mensageiro...
1900,VENDEDOR - CASA VERDE // SP,MAZZINI,44,3.141 avaliações,São Paulo - SP,Presencial,"R$ 1.790,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-vendedor-c...
