In [1]:
# Importación de librerias
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.common.exceptions import NoSuchElementException
import pandas as pd
import time
import random

# Opciones del navegador
chrome_options = Options()
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--headless')  
chrome_options.add_argument('--window-size=1420,1080')
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument("--disable-notifications")
chrome_options.add_argument("--remote-debugging-port=9222")
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
chrome_options.add_experimental_option('useAutomationExtension', False)
chrome_options.add_experimental_option("excludeSwitches", ["disable-popup-blocking"])

In [2]:
# Clase para personalización
class bcolors:
    WARNING = '\033[93m'
    FAIL = '\033[91m'

# Control de errores
try:   
    # Definición de función
    def Seconds(result):
        hours = round(result/3600)
        minutes = round((result - (hours * 3600))/60)
        seconds = round(result - ((hours * 3600) + (minutes * 60)))
        if seconds < 0: seconds = seconds*-1
        final_time = "El sitema tardó: " + str(hours) + " horas " + str(minutes) + " minutos " + str(seconds) + " segundos en finalizar su ejeción"
        return final_time
    
except Exception as e: 
    print(bcolors.FAIL + "Revisa el error => ", e) # Impresión del error personalizado

In [3]:
# Variables para DataFrame
tags_urgents = []
tags_featured = []
jobs_title = []
companies_name = []
companies_link = []
companies_calcifications = []
companies_locations = []
companies_locations_after = []
short_descriptions = []
how_longs = []
all_jobs = []


# Captura del tema de interés de la persona
interest = input("¿Cuál es el trabajo de tu interés?: ")
print('\n')

# Mensaje para visualización del inicio del proceso
print("Se inició el Web Scraping a Computrabajo del tema: '" + interest + "', por favor espere...")

# Variable para definir el inicio de tiempo en ejecución
start = time.time()

# Acceso a la página
driver = webdriver.Chrome(
    service = Service(ChromeDriverManager().install()),
    options = chrome_options
)

driver.get("https://co.computrabajo.com/")
search_bar = driver.find_element(By.CSS_SELECTOR, "input#prof-cat-search-input")
search_bar.clear()
search_bar.send_keys(interest)
search_bar.send_keys(Keys.RETURN)

# Ciclo para recorrer todas las páginas
while(True):
        
    # Div (Urgente - Destacado) (contiene varios elementos)
    elements = driver.find_elements(By.CSS_SELECTOR, "div.w100.bClick")

    # Ciclo para separa cada uno de los elementos
    for element in elements:
    # ****************************************************************************************************************
        # Captura de la etiqueta "urgente" en las ofertas que la tengan
        spans_u =  element.find_elements(By.CSS_SELECTOR, 'span.tag.urgent.mr10.mb10')
        if spans_u: 
            for span_u in spans_u:
                tags_urgents.append(span_u.text)
        else: tags_urgents.append('...')

    # ****************************************************************************************************************

        # Captura de la etiqueta "destacado" en las ofertas que la tengan
        spans_d =  element.find_elements(By.CSS_SELECTOR, 'span.tag.dest.mr10.mb10')
        if spans_d: 
            for span_d in spans_d:
                tags_featured.append(span_d.text)
        else: tags_featured.append('...')

    # ****************************************************************************************************************

        # Captura del título de la oferta
        jobs = element.find_elements(By.CSS_SELECTOR, 'a.js-o-link.fc_base')
        if jobs:
            for job in jobs:
                jobs_title.append(job.text)
        else: jobs_title.append("...")

    # ****************************************************************************************************************

        # Captura del nombre de la empresa que oferta el trabajo
        companies = element.find_elements(By.CSS_SELECTOR, 'a.fc_base.hover.it-blank')
        if companies:
            for company in companies:
                companies_name.append(company.text)
        else: companies_name.append("...")

    # ****************************************************************************************************************

        # Captura del enlace a la página de la empresa
        companies = element.find_elements(By.CSS_SELECTOR, 'a.fc_base.hover.it-blank')
        if companies:
            for company in companies:
                companies_link.append(company.get_attribute('href'))
        else: companies_link.append("...")

    # ****************************************************************************************************************

        # Captura de la calificación de la empresa
        ratings = element.find_elements(By.CSS_SELECTOR, 'span.ml10.mr10')
        if ratings:
            for rating in ratings:
                companies_calcifications.append(rating.text)
        else: companies_calcifications.append("...")

    # ****************************************************************************************************************

        # Captura de la ubicación de la empresa
        locations = element.find_elements(By.CSS_SELECTOR, 'p.fs16.fc_base.mt5.mb10')
        if locations:
            for location in locations:
                companies_locations.append(location.get_attribute('textContent'))
        else: companies_locations.append("...")

    # ****************************************************************************************************************

        # Captura de la descripción oferta del trabajo
        descriptions = element.find_elements(By.CSS_SELECTOR, "p.fc_aux.t_word_wrap.mb10.hide_m")

        if descriptions:
            for description in descriptions:
                short_descriptions.append(description.text)
        else: short_descriptions.append("...")

    # ****************************************************************************************************************

        # Captura de la hora de publicación de la oferta
        longs = element.find_elements(By.CSS_SELECTOR, "p.fs13.fc_aux")

        if longs:
            for long in longs:
                how_longs.append(long.text)
        else: how_longs.append("...")

    # ****************************************************************************************************************

    # Limpieza del campo de ubicación en la oferta de trabajo
    # (esto se hace es porque es un texto statico y contiene espacios y otros caracteres no relevantes para el caso)
    companies_locations_after = [company_location.split('\n')[-1].strip(' ') for company_location in companies_locations]

    # Construcción del diccionario 
    data_jobs = {
        "tags_urgents": tags_urgents,
        "tags_featured": tags_featured,
        "jobs_title": jobs_title,
        "companies_name": companies_name,
        "companies_link": companies_link,
        "companies_calcifications": companies_calcifications,
        "companies_locations_after": companies_locations_after,
        "short_descriptions": short_descriptions,
        "how_longs": how_longs
    }

    # Control del error al momento de finalizar el páginado
    try:
        next_button = driver.find_element(By.CSS_SELECTOR, 'span.b_next.buildLink.cp')
        if next_button: 
            elements = []
            next_button.click()
        else: break;
    except NoSuchElementException:
        break
    
    # Construcción inicial del dataframe
    df =  pd.DataFrame(data_jobs)
    all_jobs.append(df)

# Contrucción final del DataFrame
df = pd.concat(all_jobs)

# Limpieza del DataFrame
df = df.drop_duplicates()

# Generación del archivo csv
df.to_csv("OfertasLaboralesDe" + interest + "EnCompuTrabajo.csv")

# ****************************************************************************************************************
# Variable para definir el inicio de tiempo en ejecución
end = time.time()

# Variable para calcular tiempo y para enviar a la función
result = end-start

#Impresión del tiempo que tardó
print(Seconds(result))

# Finalización de la ejecución
print("Web Scraping finalizado a: " + driver.title)
driver.close()

¿Cuál es el trabajo de tu interés?: Logística


Se inició el Web Scraping a Computrabajo del tema: 'Logística', por favor espere...
El sitema tardó: 1 horas 3 minutos 17 segundos en finalizar su ejeción
Web Scraping finalizado a: Trabajo de logistica, Página 501 | Portal de Empleo Computrabajo


In [4]:
df

Unnamed: 0,tags_urgents,tags_featured,jobs_title,companies_name,companies_link,companies_calcifications,companies_locations_after,short_descriptions,how_longs
0,...,...,"Auxiliar de Bodega, Logísticos, Operarios con ...",ACTIVOS S A S,https://co.computrabajo.com/activos,42,"Bogotá, D.C., Bogotá, D.C.",Importante empresa de servicios aeroportuarios...,Hace 15 minutos
1,...,...,operario de logistica,nexarte servicios temporales s.a,https://co.computrabajo.com/empresas/ofertas-d...,42,"Risaralda, Pereira",Importante empresa nacional requiere para su e...,Hace 16 minutos
2,...,...,auxiliar de bodega logístico con curso de altu...,Espacio y Mercadeo S.A.S,https://co.computrabajo.com/empresas/ofertas-d...,40,"Bogotá, D.C., Bogotá, D.C.",50 nuevas vacantes para trabajar en el área de...,Hace 31 minutos
3,...,...,"cajero operativo, auxiliares de bodega, auxili...",PROSEGUR GESTION DE ACTIVOS COLOMBIA SAS,https://co.computrabajo.com/empresas/ofertas-d...,43,"Boyacá, Tunja",Importante multinacional requiere para su equi...,Hace 46 minutos
4,...,...,Auxiliares de bodega / Auxiliares Logisticos/ ...,Adecco Colombia S.A.,https://co.computrabajo.com/adecco-colombia-sa,43,"Cundinamarca, Mosquera",Importante empresa del sector logístico requie...,Hace 1 hora
...,...,...,...,...,...,...,...,...,...
9995,...,...,Conductor Distribuidor de alimentos,MANPOWER PROFESSIONAL LTDA,https://co.computrabajo.com/manpower,44,"Cundinamarca, Funza","Si tienes bachiller académico culminado, con e...",Ayer
9996,Se precisa Urgente,Empleo destacado,Conductores.,SUMMAR TEMPORALES SAS,https://co.computrabajo.com/summar,42,"Cundinamarca, Funza","Importante empresa del sector de construcción,...",Ayer
9997,Se precisa Urgente,Empleo destacado,Conductor,MANPOWER PROFESSIONAL LTDA,https://co.computrabajo.com/manpower,44,"Antioquia, Medellín",Importante Empresa del sector requiere de cond...,Ayer
9998,...,...,"Vendedor, asesor comercial o impulsador",Espacio y Mercadeo S.A.S,https://co.computrabajo.com/empresas/ofertas-d...,40,"Bogotá, D.C., Bogotá, D.C.",¡Unete a nuestro gran equipo! Importante empre...,Ayer
