In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from datetime import datetime
import ast
import os
import pandas as pd
import pickle

In [None]:
import os
import toml

if os.name == "posix":  # Linux, macOS
    import mysql.connector  # Usar MySQL en Linux, macOS
elif os.name == "nt":  # Windows
    import pymysql  # Usar PyMySQL en Windows
else:
    raise Exception("Sistema operativo no soportado")

config = toml.load("../.streamlit/secrets.toml")
db_config = config["database"]
database = db_config["database"]

# Conectar a MySQL
if os.name == "posix":  # Linux/macOS
    conn = mysql.connector.connect(
        host=db_config["host"],
        user=db_config["user"],
        password=db_config["password"],
        database=database
    )
elif os.name == "nt":  # Windows
    conn = pymysql.connect(
        host=db_config["host"],
        user=db_config["user"],
        password=db_config["password"],
        database=database,
        cursorclass=pymysql.cursors.DictCursor)

cursor = conn.cursor()

# Consulta obtener el último id_man
query_id = """
SELECT id_oferta 
FROM ofertas 
WHERE id_oferta LIKE "id_man_%" 
ORDER BY CAST(SUBSTRING_INDEX(id_oferta, "_", -1) AS UNSIGNED) DESC 
LIMIT 1;
"""
cursor.execute(query_id)

if os.name == "posix":
    ultimo_id_man = cursor.fetchone()[0]
else:
    ultimo_id_man = cursor.fetchone()["id_oferta"]

# Consulta obtener las URLs
query_urls = """
SELECT url 
FROM ofertas 
WHERE url LIKE "https://www.getmanfred.com%";
"""
cursor.execute(query_urls)

urls_existent = [url[0] for url in cursor.fetchall()]

cursor.close()
conn.close()

## Sacar las nuevas ofertas

In [3]:
def crear_navegador():
    options = webdriver.ChromeOptions()
    options.add_argument("--headless")  
    options.add_argument("--disable-gpu")
    options.add_argument("--blink-settings=imagesEnabled=false")
    options.add_argument("--disable-extensions")
    return webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

def extraer_ofertas_manfred(urls_existent):  
    browser = crear_navegador()
    url = "https://www.getmanfred.com/ofertas-empleo?onlyActive=false&currency=%E2%82%AC"
    browser.get(url)
    browser.implicitly_wait(10)
    
    ofertas = browser.find_elements(By.CSS_SELECTOR, "a[href^="/ofertas-empleo/"]")

    urls_ofertas = [oferta.get_attribute("href") for oferta in ofertas]
    
    urls_a_procesar = [url for url in urls_ofertas if url not in urls_existent]
    
    todas_ofertas_extraidas = []
    MAX_OFERTAS_POR_SESION = 100
    ofertas_procesadas = 0
    
    # Genera un solo timestamp para todo el proceso
    timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    
    for i, oferta_url in enumerate(urls_a_procesar): 
        try:
            if ofertas_procesadas == MAX_OFERTAS_POR_SESION:
                browser.quit()
                browser = crear_navegador()
                ofertas_procesadas = 0
            
            browser.get(oferta_url)
            WebDriverWait(browser, 15).until(EC.presence_of_element_located((By.CLASS_NAME, "sc-f61a956f-0")))
            
            url_actual = browser.current_url
            oferta_titulo = browser.find_element(By.CLASS_NAME, "sc-f61a956f-0").text if browser.find_elements(By.CLASS_NAME, "sc-f61a956f-0") else "No disponible"
            
            oferta_info_texto = browser.find_elements(By.CLASS_NAME, "sc-6d3685c2-5")
            textos = [elem.text for elem in oferta_info_texto]
            oferta_lugar = browser.find_elements(By.CLASS_NAME, "sc-6d3685c2-2")
            datos = [elem.text for elem in oferta_lugar]
            diccionario_oferta01 = dict(zip(textos, datos))
            
            oferta_info_texto02 = browser.find_elements(By.CLASS_NAME, "sc-c51cd5df-3")
            textos02 = [elem.text for elem in oferta_info_texto02]
            oferta_lugar02 = browser.find_elements(By.CLASS_NAME, "sc-c51cd5df-4")
            datos02 = [elem.text for elem in oferta_lugar02]
            diccionario_oferta02 = dict(zip(textos02, datos02))
            
            tecnologias = browser.find_elements(By.CLASS_NAME, "sc-e4487fe1-2")
            tecnologias_info = [elem.text for elem in tecnologias]
            niveles = browser.find_elements(By.CLASS_NAME, "sc-e4487fe1-5")
            niveles_tecnologia = [elem.text for elem in niveles]
            diccionario_tecnologias = dict(zip(tecnologias_info, niveles_tecnologia))
            
            otras_habilidades = browser.find_elements(By.CLASS_NAME, "sc-22385303-2")
            otras_habilidades_info = [elem.text for elem in otras_habilidades]
            
            oferta_activa = browser.find_element(By.CLASS_NAME, "sc-81fb91b0-11").text if browser.find_elements(By.CLASS_NAME, "sc-81fb91b0-11") else "Activa"
            
            oferta_info = {
                "url": url_actual,
                "fecha_extraccion": timestamp,
                "titulo": oferta_titulo,
                "oferta_activada": oferta_activa,
                "detalles_1": diccionario_oferta01,
                "detalles_2": diccionario_oferta02,
                "tecnologias": {"Tecnologías": diccionario_tecnologias},
                "habilidades": {"Otras habilidades": otras_habilidades_info}
            }
            
            todas_ofertas_extraidas.append(oferta_info)
            ofertas_procesadas += 1
            print(f"Oferta {i+1} guardada correctamente.")
        
        except Exception as e:
            print(f"Error con la oferta {i+1}: {e}")
    
    browser.quit()
    
    df = pd.json_normalize(todas_ofertas_extraidas, sep="_")
    df.to_pickle("/Pickles/ofertas_nuevas_manfred.pkl") 
    print("Datos guardados en pickle")


In [4]:
extraer_ofertas_manfred(urls_existent)

Oferta 1 guardada correctamente.
Oferta 2 guardada correctamente.
Oferta 3 guardada correctamente.
Oferta 4 guardada correctamente.
Oferta 5 guardada correctamente.
Oferta 6 guardada correctamente.
Oferta 7 guardada correctamente.
Oferta 8 guardada correctamente.
Oferta 9 guardada correctamente.
Oferta 10 guardada correctamente.
Oferta 11 guardada correctamente.
Oferta 12 guardada correctamente.
Oferta 13 guardada correctamente.
Oferta 14 guardada correctamente.
Oferta 15 guardada correctamente.
Oferta 16 guardada correctamente.
Oferta 17 guardada correctamente.
Oferta 18 guardada correctamente.
Oferta 19 guardada correctamente.
Datos guardados en pickle


In [5]:
extraccion = "/Pickles/ofertas_nuevas_manfred.pkl"

In [6]:
import pandas as pd
import numpy as np
import emoji
import datetime


def limpieza_manfred_actualizacion(extraccion, ultimo_id_man):

    df = pd.read_pickle(extraccion)

    ultimo_numero = int(ultimo_id_man.split("_")[-1])  # Obtiene el número final del ID

    df["id"] = ["id_man_" + str(ultimo_numero + i + 1) for i in range(len(df))]

    columna_extraida_ = df.pop("id")
    df.insert(0, "id", columna_extraida_)
    
    #Nueva columna con el nombre de la empresa a partir de la url y la mueve a la segunda posición
    df["empresa"] = df["url"].apply(lambda x: x.split("/")[-1].split("-")[0])
    columna_extraida = df.pop("empresa")
    df.insert(1, "empresa", columna_extraida)
    
    
    #Elimina "tecnologias_Tecnologías_" de todos los nomnbres de columna
    df.columns = df.columns.str.replace("tecnologias_Tecnologías_", "", regex=False)
    
    #Renombra columnas que empiezan por detalles_1_, detalles_2_
    
    df = df.rename(columns={"detalles_1_SALARIO" : "Salario", 
                            "detalles_1_PRESENCIAL" : "Presencial", 
                            "detalles_1_TELETRABAJO" : "Teletrabajo",
                            "detalles_1_REMOTO" : "Remoto", 
                            "detalles_2_DÍA LABORABLE" : "dia_laborable",
                            "detalles_2_VACACIONES" : "vacaciones",
                            "detalles_2_JORNADA LABORAL" : "jornada_laboral",
                            "detalles_2_TURNO CONTINUO" : "turno_continuo", 
                            "detalles_1_VARIABLE" : "variable"})
    
    #Quitar " DÍAS" en columna vacaciones
    
    df["vacaciones"] = df["vacaciones"].str.replace(" DÍAS", "")
    df["vacaciones"].value_counts()
    # Reemplazar "ILIMITADO" con NaN
    df["vacaciones"] = df["vacaciones"].replace("ILIMITADO", np.nan)

    
    ###Columna habilidades_Otras habilidades. 
    
    # Convierte los strings a listas.
    #df["habilidades_Otras habilidades"] = df["habilidades_Otras habilidades"].apply(ast.literal_eval)
    
    #Crea una lista con las habilidades únicas
    todas_habilidades = sum(df["habilidades_Otras habilidades"], [])
    habilidades_unicas = list(set(todas_habilidades))
    
    # Crea una columna para cada habilidad única y usa la columna original para poblar las nuevas conlumnas con 1 o 0
    for habilidad in habilidades_unicas:
        df[habilidad] = df["habilidades_Otras habilidades"].apply(lambda x: 1 if habilidad in x else 0)
    
    #Elimina la columna habilidades_Otras habilidades. 
    df = df.drop("habilidades_Otras habilidades", axis = 1)
    
    #Dividimos las columnas en 3 categorías y generamos un df para cada uno de ellos.
    # Definir categorías
    general = ["id", "empresa", "url", "fecha_extraccion", "titulo", "oferta_activada", "Salario",
               "Presencial", "Teletrabajo", "dia_laborable", "vacaciones", "jornada_laboral",
               "variable", "turno_continuo", "Remoto"]
    
    habilidades = habilidades_unicas
    programas = [i for i in df.columns if i not in general + habilidades]
    
    general_df = df.reindex(columns=general)
    programas_df = df[["id"] + programas]
    habilidades_df = df[["id"] + habilidades]    
    
    #Poblamos programas_df con booleanos en función de lo que la oferta solicita
    programas_df.loc[:,programas_df.columns != "id"] = programas_df.loc[:,programas_df.columns != "id"].fillna(0)
    programas_df.loc[:,programas_df.columns != "id"] = programas_df.loc[:,programas_df.columns != "id"].map(lambda x: 1 if x != 0 else 0)
    
    #Sacamos los emojis de la columna titulo
    general_df["titulo"] = general_df["titulo"].apply(lambda x: emoji.replace_emoji(x, replace="")) 
    
    #Modificamos la columna oferta activada a booleanos
    general_df["oferta_activada"] = general_df["oferta_activada"].apply(lambda x: 1 if x == "Activa" else 0)
    
    #Limpieza columna Salario
    general_df["Salario"] =  general_df["Salario"].str.replace("DESDE €", "").str.replace("HASTA €","").str.replace("€","").str.replace("K","").str.replace("£", "")
    general_df["Salario"] =  general_df["Salario"].str.replace("HASTA \u202f", "").str.replace("HASTA US$", "").str.replace("US$", "").str.replace("MXN$", "")
    general_df[["Salario_desde", "Salario_hasta"]] = general_df["Salario"].str.split("-", expand= True)
    general_df["Salario_hasta"] = general_df["Salario_hasta"].fillna(general_df["Salario_desde"])
    general_df[["Salario_desde", "Salario_hasta"]] = general_df[["Salario_desde", "Salario_hasta"]].astype("float")
    general_df.drop(columns = ["Salario"], inplace = True)
    
    #Limpieza columna turno_continuo  
    general_df["turno_continuo"] = general_df["turno_continuo"].apply(lambda x : "No" if pd.isna(x) else x)
    #Convertir turno continuo a booleano
    general_df["turno_continuo"] = np.where(general_df["turno_continuo"] == "No", 0, 1)
    
    # Verificar si la columna "variable" existe, si no, la crea con NaN
    if "variable" not in df.columns:
        df["variable"] = np.nan  # Crear la columna "variable" con NaN
    else:
        #Limpieza de variable y la lleva hasta la posición 7, al lado de sueldo
        general_df["variable"] = general_df["variable"].str.replace("+€","").str.replace("K","").str.replace("+\u202f€","").str.replace(",",".").astype("float")
        general_df["variable"] = general_df["variable"].fillna(0)
        columna_variable_extraida = general_df.pop("variable")
        general_df.insert(7, "variable", columna_variable_extraida)
    
    #Basandose teletrabajo y Remoto actualizamos la columna teletrabajo con el porcentaje de teletrabajo que permite la oferta
    #Drop de la columna remoto
    
    general_df["Teletrabajo"] = general_df.apply(lambda x : "100%" if pd.isna(x ["Teletrabajo"]) and x["Remoto"] == "100%" else ("0" if pd.isna(x["Teletrabajo"]) and pd.isna(x["Remoto"]) else x["Teletrabajo"]), axis=1)
    general_df["Teletrabajo"] = general_df["Teletrabajo"].str.replace("%","").astype("int")
    general_df = general_df.drop("Remoto", axis = 1)
    
    #general_df["vacaciones"] = general_df["vacaciones"].replace("ILIMITADO", np.nan)

    
    #Cambio de jornadas
    general_df["Jornada"] = np.where(
        (general_df["jornada_laboral"].isna()) & (general_df["dia_laborable"] == "JORNADA COMPLETA"), "JORNADA COMPLETA",
        np.where(
            (general_df["jornada_laboral"] == "FLEXIBLE") & (general_df["dia_laborable"] == "JORNADA COMPLETA"), "JORNADA COMPLETA FLEXIBLE",
                np.where(
                    (general_df["jornada_laboral"].isna()) & (general_df["dia_laborable"].isna()), "JORNADA COMPLETA",
                    "JORNADA COMPLETA")))
    
    general_df.drop(columns = ["jornada_laboral", "dia_laborable"], inplace = True)
    
    
    general_df.to_pickle("/Pickles/manfred_general_limpio_actualizacion.pkl")
    habilidades_df.to_pickle("/Pickles/manfred_habilidades_matricial_actualizacion.pkl")
    programas_df.to_pickle("/Pickles/manfred_programas_matricial_actualizacion.pkl")

    return general_df, habilidades_df, programas_df

In [9]:
limpieza_manfred_actualizacion(extraccion, ultimo_id_man)

(             id       empresa  \
 0   id_man_1227         tier1   
 1   id_man_1228  covermanager   
 2   id_man_1229        vocali   
 3   id_man_1230         nuela   
 4   id_man_1231      salsadev   
 5   id_man_1232         tymit   
 6   id_man_1233        neitec   
 7   id_man_1234        dcycle   
 8   id_man_1235           sdg   
 9   id_man_1236  covermanager   
 10  id_man_1237  chequemotiva   
 11  id_man_1238      pampling   
 12  id_man_1239        durcal   
 13  id_man_1240      mushdesk   
 14  id_man_1241        durcal   
 15  id_man_1242     doofinder   
 16  id_man_1243      nexthink   
 17  id_man_1244          daar   
 18  id_man_1245     dynatrace   
 
                                                   url     fecha_extraccion  \
 0   https://www.getmanfred.com/ofertas-empleo/7058...  2025-03-06 02:37:21   
 1   https://www.getmanfred.com/ofertas-empleo/7054...  2025-03-06 02:37:21   
 2   https://www.getmanfred.com/ofertas-empleo/6987...  2025-03-06 02:37:21   
 3