# Web Scraping Job Vacancies

## Introduction

In this project, we'll build a web scraper to extract job listings from a popular job search platform. We'll extract job titles, companies, locations, job descriptions, and other relevant information.

Here are the main steps we'll follow in this project:

1. Setup our development environment
2. Understand the basics of web scraping
3. Analyze the website structure of our job search platform
4. Write the Python code to extract job data from our job search platform
5. Save the data to a CSV file
6. Test our web scraper and refine our code as needed

## Prerequisites

Before starting this project, you should have some basic knowledge of Python programming and HTML structure. In addition, you may want to use the following packages in your Python environment:

- requests
- BeautifulSoup
- csv
- datetime

These packages should already be installed in Coursera's Jupyter Notebook environment, however if you'd like to install additional packages that are not included in this environment or are working off platform you can install additional packages using `!pip install packagename` within a notebook cell such as:

- `!pip install requests`
- `!pip install BeautifulSoup`

## Step 1: Importing Required Libraries

In [21]:
!pip install pandas matplotlib seaborn selenium
!pip install webdriver_manager

Collecting webdriver_manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl (27 kB)
Installing collected packages: webdriver_manager
Successfully installed webdriver_manager-4.0.2


### 1. Realizar la solicitud HTTP al sitio

In [69]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import pandas as pd

def enter_job_url():
    while  True:
        try:
            job = input('Ingresa el trabajo que quieres buscar: ').strip()
            listjob = job.split()

# Podria mejorarse para filtrar por ubicación
# url = 'https://co.computrabajo.com/' + 'trabajo-de-' + "-".join(listjob) + 'de-' + location
# Tambien se prodria verificar en una lista o base de datos solo por nombre del trabajo y location para filtrar y no buscar ofertas que no corresponden        
            url = 'https://co.computrabajo.com/' + 'trabajo-de-' + "-".join(listjob)

        
            print(f"URL a buscar: {url}")
            return url
        except ValueError as ve:
            print(ve)
        except Exception as e:
            print(f"Error Inesperado: {e}")

### 2. Analizar el HTML y guardar los datos en un csv

In [73]:
def analysis_HTML():
    # Obtén la URL para buscar el trabajo
    url = enter_job_url()

    # Configurar Selenium y abrir la página web
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service)

    driver.get(url)

    # Esperar explícitamente hasta que los elementos carguen (máximo 20 segundos)
    try:
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.CLASS_NAME, 'box_offer'))
        )
    except:
        print("No se pudo cargar la página a tiempo.")
        driver.quit()
        return

    # Extraer ofertas
    def extract_offers():
        html = driver.page_source
        soup = BeautifulSoup(html, 'html.parser')

        # Usar una lista para almacenar la información de las ofertas
        job_list = []
        
         # Extraer el número total de ofertas desde el h1 dentro del div box_title
        num_offers = soup.select_one('div.box_title h1.title_page span.fwB')

        if num_offers:
            # Obtener el texto dentro del span y procesarlo
            num_offers_text = num_offers.text.strip()

            try:
                # Intentar convertir a número entero
                total_offers = int(num_offers_text.replace('.', ''))
                print(f"Total de ofertas: {total_offers}")
            except ValueError:
                print(f"Error al convertir a entero: '{num_offers_text}' no es un número válido.")
        else:
            print("No se encontró el número de ofertas.")

# Iterar sobre los primeros 20 artículos, porque no hace el cambio de pagina-- a mejorar
        for i in range(total_offers):
            offer_tag = soup.find('article', {'data-lc': f'ListOffers-Score4-{i}'})
            
            if not offer_tag:
                continue  # Si no encuentra la oferta, pasa a la siguiente

            # Extraer título, enlace, empresa, ubicación, salario y tiempo de publicación
            title_tag = offer_tag.find('h2', class_='fs18 fwB')
            title = title_tag.get_text(strip=True) if title_tag else 'No disponible'

            link_tag = offer_tag.find('a', class_='js-o-link fc_base')
            link = link_tag['href'] if link_tag else 'No disponible'

            company_tag = offer_tag.find('a', class_='fc_base t_ellipsis')
            company = company_tag.get_text(strip=True) if company_tag else 'No disponible'

            location_tag = offer_tag.find('p', class_='fs16 fc_base mt5')
            location = location_tag.get_text(strip=True) if location_tag else 'No disponible'

            salary_tag = offer_tag.find('div', class_='fs13 mt15')
            salary = salary_tag.get_text(strip=True) if salary_tag else 'No especificado'

            time_posted_tag = offer_tag.find('p', class_='fs13 fc_aux mt15')
            time_posted = time_posted_tag.get_text(strip=True) if time_posted_tag else 'No disponible'

            # Agregar los datos a la lista de ofertas
            job_list.append({
                'title': title,
                'link': link,
                'company': company,
                'location': location,
                'salary': salary,
                'time_posted': time_posted
            })

        return job_list

    # Guardar datos en un archivo CSV
    def save_csv():
        offers = extract_offers()
        if offers:
            df = pd.DataFrame(offers)
            df.to_csv('Job_Offers.csv', index=False)
            print("Datos guardados en Job_Offers.csv")
        else:
            print("No se encontraron ofertas para guardar.")

    save_csv()
    driver.quit()

analysis_HTML()


Ingresa el trabajo que quieres buscar:  profesor de fisica


URL a buscar: https://co.computrabajo.com/trabajo-de-profesor-de-fisica
Total de ofertas: 175
Datos guardados en Job_Offers.csv


### 3. Visualizar los datos

In [81]:


"""PASOS
leer el csv
extraer los datos a imprimir:
    1. titulo de la oferta
    2. Company
    3. ubicacion  ---- la misma si se aplica el filtro
    4. salario
    5. el timepo de publicacion

cual es el grafico mas optimo para mostrar los datos?
que quiero mostrar?
el salario de cada oferta?
que pasa con la experiencia? ------ necesito saber cuanta experiencia solicitan en cada oferta para eso hay que aplicar el filtro 

reconocer las limitaciones de la pagina de empleos por que algunos filtros no aplican correctamente, por que no aplican sobre las
descripciones de cada oferta, sino por indicación del coampañio u ofertante. 

"""

