In [1]:
import time
import random
import re
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
from datetime import datetime

### CREACI√ìN DEL NAVEGADOR REAL

In [2]:
# ============================================================================
# CONFIGURACI√ìN INICIAL
# ============================================================================

# N√∫mero de p√°ginas a recorrer
PAGINAS_A_RECORRER = 15

# ============================================================================
# FILTROS - PALABRAS CLAVE
# ============================================================================

# WHITELIST: Palabras que S√ç queremos (datos, an√°lisis, tech)
palabras_clave_datos = (
    # An√°lisis (muy com√∫n en Colombia)
    r"analista.*dato|analista.*informaci√≥n|analista.*negocio|"
    r"analista.*business|business.*analyst|analista.*bi|"
    r"analista.*financiero|analista.*riesgo|analista.*cr√©dito|"
    
    # Data en ingl√©s (menos com√∫n pero existe)
    r"data\s+analyst|data\s+engineer|data\s+scientist|"
    
    # Tecnolog√≠as espec√≠ficas
    r"\bsql\b|\bpython\b|power\s*bi|tableau|excel.*avanzado|"
    r"excel.*macros|vba\b|r\s+studio|rstudio|"
    
    # BI y reporter√≠a
    r"business\s+intelligence|inteligencia.*negocio|"
    r"reporter√≠a|reporting|dashboard|"
    
    # Big Data y ML (raro pero existe)
    r"big\s+data|machine\s+learning|cient√≠fico.*dato|"
    
    # Bases de datos
    r"base.*dato.*sql|administrador.*base.*dato|"
    r"ingeniero.*dato|desarrollador.*bi|"
    
    # T√©rminos amplios pero relacionados
    r"anal√≠tica|analytics|estad√≠stica.*aplicada|"
    r"modelamiento|modelaci√≥n.*dato"
)

# BLACKLIST: Palabras que NO queremos
palabras_blacklist = (
    # 1. VENTAS Y COMERCIAL
    r"asesor.*comercial|ejecutivo.*comercial|vendedor|gestor.*comercial|"
    r"representante.*venta|l√≠der.*venta|supervisor.*venta|"
    r"impulsa|promotor|televentas|preventa|posventa|"
    
    # 2. CALL CENTER Y ATENCI√ìN AL CLIENTE
    r"call\s*center|contact\s*center|teleoperador|"
    r"agente.*servicio|asesor.*telef√≥nico|"
    r"back\s*office.*admin|recepcionista|telemarketing|"
    
    # 3. BILING√úE (generalmente call center)
    r"biling√ºe|bilingual|english.*required|"
    r"nivel.*ingl√©s.*c1|nivel.*ingl√©s.*b2|"
    
    # 4. SALUD Y ENFERMER√çA
    r"enfermer|auxiliar.*salud|m√©dico|odont√≥logo|"
    r"fisioterapeuta|terapeuta|cuidador|enfermero|"
    r"bacteri√≥logo|nutricionista|fonoaudi√≥logo|"
    
    # 5. SERVICIOS GENERALES Y OPERATIVOS
    r"mensajero|conductor|chofer|domiciliario|repartidor|"
    r"vigilante|guarda|seguridad|aseo|limpieza|"
    r"operario|auxiliar.*bodega|auxiliar.*almac√©n|"
    r"estibador|montacarguista|ayudante.*general|"
    
    # 6. GASTRONOM√çA Y HOTELER√çA
    r"chef|cocinero|mesero|bartender|barista|"
    r"auxiliar.*cocina|steward|cajero.*restaurante|"
    r"parrillero|pizzero|ayudante.*cocina|"
    
    # 7. CONTABILIDAD OPERATIVA (no anal√≠tica)
    r"auxiliar.*contable|asistente.*contable|"
    r"contador.*junior(?!\s+data)|facturador|"
    r"tesorero|cartera|cajero(?!\s+data)|"
    
    # 8. ADMINISTRATIVO B√ÅSICO (no estrat√©gico)
    r"recepcionista|secretaria|auxiliar.*admin.*(?!.*data|.*bi)|"
    r"archivador|mensajer√≠a.*interna|"
    r"asistente.*direcci√≥n(?!.*data)|"
    
    # 9. RECURSOS HUMANOS OPERATIVO
    r"auxiliar.*n√≥mina|auxiliar.*talento|"
    r"reclutador.*masivo|gestor.*personal.*temporal|"
    
    # 10. PRODUCCI√ìN Y MANUFACTURA
    r"operador.*producci√≥n|supervisor.*planta|"
    r"operador.*m√°quina|t√©cnico.*mantenimiento|"
    r"soldador|mec√°nico|electricista|tornero|"
    
    # 11. CONSTRUCCI√ìN
    r"maestro.*obra|oficial.*construcci√≥n|alba√±il|"
    r"plomero|electricista.*residencial|ayudante.*construcci√≥n|"
    
    # 12. LEGAL B√ÅSICO
    r"auxiliar.*jur√≠dico|asistente.*legal(?!.*compliance.*data)|"
    r"archivador.*jur√≠dico|"
    
    # 13. LOG√çSTICA OPERATIVA
    r"auxiliar.*log√≠stica(?!.*data|.*bi)|"
    r"coordinador.*despachos(?!.*data)|"
    r"auxiliar.*inventario(?!.*data)|"
    
    # 14. EDUCACI√ìN B√ÅSICA
    r"docente|profesor|maestro.*primaria|"
    r"auxiliar.*pedag√≥gico|ni√±era|"
    
    # 15. OTROS SERVICIOS
    r"estilista|peluquero|manicurista|masajista|"
    r"fot√≥grafo.*eventos|dise√±ador.*gr√°fico.*junior(?!.*data)"
)

# Compilar patrones (m√°s eficiente)
patron_si = re.compile(rf"(?i)({palabras_clave_datos})")
patron_no = re.compile(rf"(?i)\b({palabras_blacklist})\b")

In [3]:
# ============================================================================
# INICIAR SELENIUM
# ============================================================================

print("üöÄ Iniciando navegador Chrome...")
opciones_chrome = Options()
opciones_chrome.add_argument("--start-maximized")
opciones_chrome.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36")
opciones_chrome.add_argument("--disable-blink-features=AutomationControlled")
opciones_chrome.add_experimental_option("excludeSwitches", ["enable-automation"])
opciones_chrome.add_experimental_option('useAutomationExtension', False)

servicio = Service(ChromeDriverManager().install())
navegador = webdriver.Chrome(service=servicio, options=opciones_chrome)

print("‚úÖ Navegador iniciado correctamente\n")

# ============================================================================
# VARIABLES PARA ALMACENAR RESULTADOS
# ============================================================================

ofertas_aceptadas = []          # Lista principal de ofertas que PASAN los filtros
ofertas_rechazadas_blacklist = []   # Ofertas rechazadas por estar en blacklist
ofertas_rechazadas_sin_keywords = [] # Ofertas rechazadas por no tener keywords
ofertas_todas = []              # TODAS las ofertas sin filtrar (para an√°lisis)
enlaces_procesados = set()      # Para evitar duplicados
estadisticas_por_pagina = []    # M√©tricas de cada p√°gina

url_base = "https://co.computrabajo.com/empleos-en-bogota-dc?pubdate=1"

# ============================================================================
# PROCESO DE SCRAPING
# ============================================================================

print("="*70)
print("üîç INICIANDO B√öSQUEDA DE OFERTAS DE DATOS EN BOGOT√Å")
print("="*70)

try:
    for numero_pagina in range(1, PAGINAS_A_RECORRER + 1):
        # Construir URL
        if numero_pagina > 1:
            url = f"{url_base}&p={numero_pagina}"
        else:
            url = url_base
        
        print(f"\nüìÑ P√°gina {numero_pagina}/{PAGINAS_A_RECORRER}...")
        
        # Navegar a la p√°gina
        navegador.get(url)
        tiempo_espera = random.uniform(4, 7)
        time.sleep(tiempo_espera)
        
        # Parsear HTML
        soup = BeautifulSoup(navegador.page_source, 'html.parser')
        tarjetas_ofertas = soup.find_all('article', class_='box_offer')
        
        # Contadores para esta p√°gina
        aceptadas_pagina = 0
        rechazadas_blacklist_pagina = 0
        rechazadas_sin_keywords_pagina = 0
        
        print(f"   üîé Encontradas {len(tarjetas_ofertas)} ofertas en la p√°gina")
        
        # Procesar cada oferta
        for tarjeta in tarjetas_ofertas:
            try:
                # Extraer t√≠tulo
                tag_titulo = tarjeta.find('a', class_='js-o-link')
                if not tag_titulo:
                    continue
                
                titulo = tag_titulo.get_text(strip=True)
                href = tag_titulo.get('href', '')
                
                if not href:
                    continue
                
                link = "https://co.computrabajo.com" + href
                
                # Evitar duplicados
                if link in enlaces_procesados:
                    continue
                
                enlaces_procesados.add(link)
                
                # Extraer empresa
                tag_empresa = tarjeta.find('p', class_='fs16')
                if not tag_empresa:
                    tag_empresa = tarjeta.find('span', class_='fc_base')
                empresa = tag_empresa.get_text(strip=True) if tag_empresa else "Confidencial"
                
                # Extraer fecha
                tag_fecha = tarjeta.find('span', class_='fc_verde')
                if not tag_fecha:
                    tag_fecha = tarjeta.find('p', class_='fs13 fc_base mt5')
                fecha = tag_fecha.get_text(strip=True) if tag_fecha else "Hoy"
                
                # Extraer ubicaci√≥n
                tag_ubicacion = tarjeta.find('p', class_='fs13 fc_base')
                ubicacion = tag_ubicacion.get_text(strip=True) if tag_ubicacion else "Bogot√°"
                
                # Crear diccionario con toda la info
                info_oferta = {
                    'titulo': titulo,
                    'empresa': empresa,
                    'ubicacion': ubicacion,
                    'fecha': fecha,
                    'link': link,
                    'pagina': numero_pagina,
                    'timestamp_scraping': datetime.now().strftime("%Y-%m-%d %H:%M:%S")
                }
                
                # Guardar en TODAS (sin filtrar)
                ofertas_todas.append(info_oferta.copy())
                
                # ============================================================
                # APLICAR FILTROS
                # ============================================================
                
                # PASO 1: ¬øEst√° en la blacklist?
                resultado_blacklist = patron_no.search(titulo)
                
                if resultado_blacklist:
                    # RECHAZADA por blacklist
                    palabra_problema = resultado_blacklist.group()
                    info_oferta['razon_rechazo'] = f'Blacklist: {palabra_problema}'
                    ofertas_rechazadas_blacklist.append(info_oferta)
                    rechazadas_blacklist_pagina += 1
                    print(f"      üö´ {titulo[:45]}... [{palabra_problema}]")
                    continue
                
                # PASO 2: ¬øTiene keywords de datos?
                resultado_whitelist = patron_si.search(titulo)
                
                if resultado_whitelist:
                    # ‚úÖ ACEPTADA
                    keyword_encontrada = resultado_whitelist.group()
                    info_oferta['keyword_match'] = keyword_encontrada
                    ofertas_aceptadas.append(info_oferta)
                    aceptadas_pagina += 1
                    print(f"      ‚úÖ {titulo}")
                else:
                    # RECHAZADA por no tener keywords
                    info_oferta['razon_rechazo'] = 'Sin keywords de datos'
                    ofertas_rechazadas_sin_keywords.append(info_oferta)
                    rechazadas_sin_keywords_pagina += 1
                    print(f"      ‚è≠Ô∏è {titulo[:45]}...")
            
            except Exception as error:
                print(f"      ‚ùå Error procesando tarjeta: {str(error)[:50]}")
                continue
        
        # Guardar estad√≠sticas de la p√°gina
        stats_pagina = {
            'numero_pagina': numero_pagina,
            'ofertas_encontradas': len(tarjetas_ofertas),
            'aceptadas': aceptadas_pagina,
            'rechazadas_blacklist': rechazadas_blacklist_pagina,
            'rechazadas_sin_keywords': rechazadas_sin_keywords_pagina,
            'tiempo_espera': round(tiempo_espera, 2)
        }
        estadisticas_por_pagina.append(stats_pagina)
        
        # Resumen de la p√°gina
        print(f"\n   üìä Resumen p√°gina {numero_pagina}:")
        print(f"      ‚úÖ Aceptadas: {aceptadas_pagina}")
        print(f"      üö´ Rechazadas (blacklist): {rechazadas_blacklist_pagina}")
        print(f"      ‚è≠Ô∏è Rechazadas (sin keywords): {rechazadas_sin_keywords_pagina}")
        print(f"      üìà Total acumulado aceptadas: {len(ofertas_aceptadas)}")
        
        # Guardado intermedio cada 5 p√°ginas
        if numero_pagina % 5 == 0 and ofertas_aceptadas:
            df_backup = pd.DataFrame(ofertas_aceptadas)
            archivo_backup = f'backup_pagina_{numero_pagina}.csv'
            print(f"      üíæ Backup guardado: {archivo_backup}")

except KeyboardInterrupt:
    print("\n\n‚ö†Ô∏è Proceso interrumpido manualmente por el usuario")

except Exception as error_general:
    print(f"\n\n‚ùå Error general: {str(error_general)}")
    import traceback
    traceback.print_exc()

finally:
    print("\nüîí Cerrando navegador...")
    navegador.quit()

üöÄ Iniciando navegador Chrome...
‚úÖ Navegador iniciado correctamente

üîç INICIANDO B√öSQUEDA DE OFERTAS DE DATOS EN BOGOT√Å

üìÑ P√°gina 1/15...
   üîé Encontradas 20 ofertas en la p√°gina
      ‚è≠Ô∏è Auxiliar Motorizado para trabajar en Telecomu...
      üö´ Coordinador de Seguridad Parqueadero... [Seguridad]
      üö´ Asesor en ventas call center idioma portugu√©s... [call center]
      üö´ Auxiliares de Bodega, ayudante log√≠stico, ali... [Auxiliares de Bodega]
      üö´ Conductor repartidor... [Conductor]
      ‚è≠Ô∏è Auxiliar de farmacia Nocturno Bogot√° Zona Nor...
      ‚è≠Ô∏è Carpintero e instalador avanzado Bogot√°...
      ‚è≠Ô∏è ¬°Buscamos Analista de nomina!...
      ‚è≠Ô∏è Tecnico de mantenimiento industrial...
      üö´ Operario log√≠stico Materias Primas... [Operario]
      üö´ Operario de Producci√≥n ‚ÄìExperiencia sustancia... [Operario]
      ‚è≠Ô∏è Cajeros, tiempo completo disponibilidad inmed...
      ‚è≠Ô∏è Facilitador de Servicio al cliente...
      

In [5]:
# ============================================================================
# GUARDAR TODOS LOS RESULTADOS
# ============================================================================

timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")

print("\n" + "="*70)
print("üíæ GUARDANDO RESULTADOS...")
print("="*70)

# 1. OFERTAS ACEPTADAS (las buenas)
df_aceptadas = pd.DataFrame(ofertas_aceptadas)
# Eliminar duplicados por si acaso
df_aceptadas = df_aceptadas.drop_duplicates(subset=['link'], keep='first')
archivo_aceptadas = f'ofertas_ACEPTADAS_{timestamp}.csv'
print(f"‚úÖ Ofertas ACEPTADAS: {len(df_aceptadas)} ‚Üí {archivo_aceptadas}")

# 2. OFERTAS RECHAZADAS POR BLACKLIST
df_rechazadas_bl = pd.DataFrame(ofertas_rechazadas_blacklist)
archivo_rechazadas_bl = f'ofertas_RECHAZADAS_blacklist_{timestamp}.csv'
print(f"üö´ Ofertas rechazadas (blacklist): {len(df_rechazadas_bl)} ‚Üí {archivo_rechazadas_bl}")

# 3. OFERTAS RECHAZADAS POR NO TENER KEYWORDS
df_rechazadas_kw = pd.DataFrame(ofertas_rechazadas_sin_keywords)
archivo_rechazadas_kw = f'ofertas_RECHAZADAS_sin_keywords_{timestamp}.csv'
print(f"‚è≠Ô∏è Ofertas rechazadas (sin keywords): {len(df_rechazadas_kw)} ‚Üí {archivo_rechazadas_kw}")


# 4. TODAS LAS OFERTAS (sin filtrar)
df_todas = pd.DataFrame(ofertas_todas)
df_todas = df_todas.drop_duplicates(subset=['link'], keep='first')

# 5. ESTAD√çSTICAS POR P√ÅGINA
df_stats = pd.DataFrame(estadisticas_por_pagina)
archivo_stats = f'estadisticas_por_pagina_{timestamp}.csv'
print(f"üìä Estad√≠sticas por p√°gina: {archivo_stats}")

# ============================================================================
# RESUMEN FINAL
# ============================================================================

print("\n" + "="*70)
print("üìä RESUMEN FINAL DEL SCRAPING")
print("="*70)

total_ofertas_procesadas = len(ofertas_todas)
total_aceptadas = len(ofertas_aceptadas)
total_rechazadas_bl = len(ofertas_rechazadas_blacklist)
total_rechazadas_kw = len(ofertas_rechazadas_sin_keywords)
total_rechazadas = total_rechazadas_bl + total_rechazadas_kw

print(f"\nüìà Ofertas procesadas: {total_ofertas_procesadas}")
print(f"   ‚úÖ Aceptadas: {total_aceptadas} ({total_aceptadas/total_ofertas_procesadas*100:.1f}%)" if total_ofertas_procesadas > 0 else "   ‚úÖ Aceptadas: 0")
print(f"   üö´ Rechazadas: {total_rechazadas} ({total_rechazadas/total_ofertas_procesadas*100:.1f}%)" if total_ofertas_procesadas > 0 else "   üö´ Rechazadas: 0")
print(f"      ‚Ä¢ Por blacklist: {total_rechazadas_bl}")
print(f"      ‚Ä¢ Sin keywords: {total_rechazadas_kw}")

# Top palabras de blacklist que m√°s rechazaron
if total_rechazadas_bl > 0:
    print("\nüö´ TOP 10 PALABRAS DE BLACKLIST QUE M√ÅS RECHAZARON:")
    print("-" * 70)
    razones = [oferta['razon_rechazo'] for oferta in ofertas_rechazadas_blacklist]
    conteo_razones = {}
    for razon in razones:
        conteo_razones[razon] = conteo_razones.get(razon, 0) + 1
    
    top_razones = sorted(conteo_razones.items(), key=lambda x: x[1], reverse=True)[:10]
    for razon, cantidad in top_razones:
        print(f"   ‚Ä¢ {razon}: {cantidad} ofertas")

print("\n" + "="*70)
print("‚ú® PROCESO COMPLETADO")
print("="*70)

# ============================================================================
# VARIABLES DISPONIBLES PARA INSPECCI√ìN
# ============================================================================

print("\nüí° VARIABLES DISPONIBLES PARA INSPECCI√ìN:")
print("   ‚Ä¢ ofertas_aceptadas           ‚Üí Lista con ofertas que pasaron filtros")
print("   ‚Ä¢ ofertas_rechazadas_blacklist ‚Üí Lista con ofertas rechazadas por blacklist")
print("   ‚Ä¢ ofertas_rechazadas_sin_keywords ‚Üí Lista con ofertas sin keywords")
print("   ‚Ä¢ df_aceptadas                ‚Üí DataFrame de ofertas aceptadas")
print("   ‚Ä¢ df_rechazadas_kw            ‚Üí DataFrame de rechazadas sin keywords")
print("   ‚Ä¢ df_todas                    ‚Üí DataFrame de todas las ofertas")
print("   ‚Ä¢ enlaces_procesados          ‚Üí Set con todos los links procesados")
print("   ‚Ä¢ patron_si                   ‚Üí Patr√≥n regex de whitelist")
print("   ‚Ä¢ patron_no                   ‚Üí Patr√≥n regex de blacklist")


üíæ GUARDANDO RESULTADOS...
‚úÖ Ofertas ACEPTADAS: 3 ‚Üí ofertas_ACEPTADAS_20260214_094631.csv
üö´ Ofertas rechazadas (blacklist): 130 ‚Üí ofertas_RECHAZADAS_blacklist_20260214_094631.csv
‚è≠Ô∏è Ofertas rechazadas (sin keywords): 167 ‚Üí ofertas_RECHAZADAS_sin_keywords_20260214_094631.csv
üìä Estad√≠sticas por p√°gina: estadisticas_por_pagina_20260214_094631.csv

üìä RESUMEN FINAL DEL SCRAPING

üìà Ofertas procesadas: 300
   ‚úÖ Aceptadas: 3 (1.0%)
   üö´ Rechazadas: 297 (99.0%)
      ‚Ä¢ Por blacklist: 130
      ‚Ä¢ Sin keywords: 167

üö´ TOP 10 PALABRAS DE BLACKLIST QUE M√ÅS RECHAZARON:
----------------------------------------------------------------------
   ‚Ä¢ Blacklist: Call Center: 15 ofertas
   ‚Ä¢ Blacklist: Asesor comercial: 13 ofertas
   ‚Ä¢ Blacklist: call center: 12 ofertas
   ‚Ä¢ Blacklist: Operario: 8 ofertas
   ‚Ä¢ Blacklist: Biling√ºe: 8 ofertas
   ‚Ä¢ Blacklist: Asesor Comercial: 6 ofertas
   ‚Ä¢ Blacklist: Conductor: 5 ofertas
   ‚Ä¢ Blacklist: Auxiliar Admin

In [6]:
df_aceptadas

Unnamed: 0,titulo,empresa,ubicacion,fecha,link,pagina,timestamp_scraping,keyword_match
0,Analista de datos/experiencia en bases de recu...,"4,4ATENTO S.A.",Bogot√°,Hoy,https://co.computrabajo.com/ofertas-de-trabajo...,7,2026-02-14 09:44:13,Analista de dato
1,Reporting con experiencia en area contable o f...,"4,1CUSTOMER OPERATION SUCCES S.A.S.",Bogot√°,Hoy,https://co.computrabajo.com/ofertas-de-trabajo...,7,2026-02-14 09:44:13,Reporting
2,Analista legal de Privacidad y Protecci√≥n de ...,Importante empresa del sector Outsourcing,Bogot√°,Hoy,https://co.computrabajo.com/ofertas-de-trabajo...,8,2026-02-14 09:44:20,Analista legal de Privacidad y Protecci√≥n de ...


In [8]:
df_rechazadas_kw.to_excel(r"C:\Users\9 ----- SIG\Downloads\ofertas.xlsx", index = False) 