# Web Scraping Job Postings Data from InfoJobs

## Overview

This project involves building a web scraper using Python and Selenium to extract job listings from the popular job search platform, InfoJobs. The scraper will extract relevant information such as job titles, companies, locations, job descriptions, and more.

## Steps

The main steps involved in this project are:

1. Setting up the development environment.
2. Understanding the basics of web scraping.
3. Analyzing the website structure of InfoJobs.
4. Writing the Python code to extract job data from InfoJobs.
5. Saving the extracted data to a CSV file.

## Prerequisites

Before starting this project, you should have some basic knowledge of Python programming and HTML structure. You will also need the following Python packages:

- Selenium
- Time
- pandas

If you're working in a Jupyter Notebook environment, you can install any additional packages using `!pip install packagename` within a notebook cell. For example:

- `!pip install pandas`
- `!pip install time`
- `!pip install selenium`

## Usage

To use the web scraper, run the Python script `script.py`. This will start the web scraper and save the extracted job data to a CSV file.

## Contributing

Contributions are welcome. Please open an issue to discuss your idea or submit a pull request.

## License

This project is licensed under the MIT License. See the `LICENSE` file for details.

In [3]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.chrome.options import Options

import time
import pandas as pd


# Tratamento dos Dados

In [42]:
df = pd.read_csv('output.csv')

## Remoção de Linhas com algum problemas.

In [43]:
# Removendo linhas com a palavra "" no nome da empresa
df = df[~df['Empresa'].str.contains('avaliações', case=False, na=False)]


In [44]:
# Removendo linhas truncadas com "EMPRESA CONFIDENCIAL" na coluna Pontuacao_Empresa

df = df[~df['Pontuacao_Empresa'].str.contains('EMPRESA CONFIDENCIAL', case=False, na=False)]

In [45]:
# Removendo linhas truncadas com "EMPRESA CONFIDENCIAL" na coluna Numero_Avaliacoes
df = df[~df['Numero_Avaliacoes'].str.contains('EMPRESA CONFIDENCIAL', case=False, na=False)]

In [46]:
# Removendo linhas truncadas com a pontuação da empresa na coluna Numero_Avaliacoes
df = df[df['Numero_Avaliacoes'].str.contains('avaliações', case=False, na=False)]

In [47]:
df = df.drop_duplicates()

In [48]:
df.reset_index(drop=True, inplace=True)

In [49]:
df

Unnamed: 0,Vaga,Empresa,Pontuacao_Empresa,Numero_Avaliacoes,Localizacao_da_Vaga,Modelo,Salario,Link_Vaga
0,AUXILIAR LOGISTICO - CAMPINAS,GRUPO SRM,40,884 avaliações,Campinas - SP,Presencial,"R$ 100,00 a R$ 180,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-auxiliar-l...
1,Auxiliar De Vendas - SEM EXPERIENCIA (AD),GARCIA EMPREENDIMENTOS,Sem nota,Sem avaliações,São Paulo - SP,Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-auxiliar-v...
2,Ajudante De Expedição (PCD) - Sorocaba,BIMBO BRASIL LTDA,44,4.131 avaliações,Sorocaba - SP,PCD Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-ajudante-e...
3,Supervisora Comercial - Estética & Beleza,"São Paulo - SP, a 12,2 km de você.",Sem nota,Sem avaliações,São Paulo - SP,Modelo de trabalho não encontrado,Salário a combinar,Link não encontrado
4,Auxiliar De Cozinha - Montagem E Condimentação...,O Burguês Burger - São José do Rio Preto/SP,Sem nota,Sem avaliações,São José do Rio Preto - SP,Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-auxiliar-c...
...,...,...,...,...,...,...,...,...
4717,Professor De Inglês - Bairro Moinho Velho/Sacomã,Delta Idiomas,Sem nota,Sem avaliações,São Paulo - SP,Presencial,Salário a combinar,https://www.infojobs.com.br/vaga-de-professor-...
4718,Auxiliar De Estoque,Consultoria Acerta,Sem nota,Sem avaliações,São Paulo - SP,Presencial,"R$ 1.629,00 a R$ 2.080,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-auxiliar-e...
4719,Analista De E-Commerce (Moda Feminina),LK DESIGN,Sem nota,Sem avaliações,São Paulo - SP,Presencial,"R$ 2.500,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-analista-c...
4720,Ajudante De Eletricista,Semote RH,Sem nota,Sem avaliações,São Paulo - SP,Presencial,"R$ 1.898,00 (Bruto mensal)",https://www.infojobs.com.br/vaga-de-ajudante-e...


In [41]:
df['Empresa'].value_counts()

Empresa
Nome da empresa não encontrado    681
Inclusiva RH                       39
Estagiando Centro de Estágio       31
Futura Estágios                    30
EMPREGGA                           29
                                 ... 
DISTRISUPER                         1
GRACIENE P DE SOUSA                 1
FERROVIA                            1
HASA DOCUMENTOS                     1
D'acampos Construtora               1
Name: count, Length: 2402, dtype: int64

In [35]:
df['Localizacao_da_Vaga']

0                    Campinas - SP
1                   São Paulo - SP
2                    Sorocaba - SP
3                   São Paulo - SP
4       São José do Rio Preto - SP
                   ...            
6727                São Paulo - SP
6728                São Paulo - SP
6729                São Paulo - SP
6730                São Paulo - SP
6731                São Paulo - SP
Name: Localizacao_da_Vaga, Length: 6732, dtype: object

In [36]:
df = df.sample(frac=1).reset_index(drop=True)

In [51]:
df.to_csv('output_tratado.csv' , header=False, index=False, encoding='utf-8')