# Identificación del rol demandado en base a las skills

In [4]:
import os
from pymongo import MongoClient
import unicodedata
from tqdm import tqdm

In [5]:


# -----------------------------------------------------
# Conexión a la base de datos usando las variables de entorno
# -----------------------------------------------------
uri = f"mongodb+srv://root:{os.getenv('DB_PASS')}@cluster0.pse9r.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
cliente_db = MongoClient(uri)

try:
    cliente_db.admin.command('ping')
    print("Conexion realizada con exito!")
    
    db = cliente_db[os.getenv('DB_NAME')]
    coleccion = db[os.getenv('DB_COLECTION')]
except Exception as e:
    print("Error de conexión:", e)
    exit(1)

# -----------------------------------------------------
# Función para normalizar textos:
# Convierte a minúsculas, elimina espacios laterales y remueve acentos.
# -----------------------------------------------------
def normalizar(texto):
    texto = texto.lower().strip()
    texto = unicodedata.normalize('NFKD', texto)
    texto = ''.join(c for c in texto if not unicodedata.combining(c))
    return texto

# -----------------------------------------------------
# Diccionario que mapea cada rol a sus skills con los pesos asignados.
# -----------------------------------------------------
roles_skills = {
    "Data Analyst": {
         "python": 0.5,
         "powerbi": 1.0,
         "r": 0.5,
         "excel": 0.7,
         "visualizacion de datos": 1.0,
         "tableau": 0.9,
         "data analysis": 0.6,
         "estadistica descriptiva": 0.8,
         "analisis critico": 0.7,
         "analisis": 0.6,
         "trabajoenequipo": 0.5,
         "comunicacion": 0.5,
         "data visualization": 1.0
    },
    "Data Engineer": {
         "python": 0.6,
         "etl": 1.0,
         "data lakes": 0.9,
         "apache spark": 1.0,
         "hadoop": 0.9,
         "apache kafka": 0.8,
         "sql": 1.0,
         "data warehouses": 0.9,
         "docker": 0.7,
         "gcp": 0.8,
         "aws": 0.8,
         "cloud computing": 0.8,
         "kubernetes": 0.8,
         "nosql": 0.7
    },
    "Data Scientist": {
         "python": 1.0,
         "r": 0.9,
         "machine learning": 1.0,
         "deep learning": 0.9,
         "tensorflow": 0.8,
         "pytorch": 0.8,
         "nlp": 0.8,
         "data mining": 0.7,
         "analisis predictivo": 0.9,
         "statistics": 0.7,
         "keras": 0.7,
         "powerbi": 0.4,
    },
    "Data Security & Privacy": {
         "seguridad": 1.0,
         "seguridad de sistemas": 0.9,
         "gdpr": 1.0,
         "iso 27001": 0.9,
         "gestion de riesgos": 0.8,
         "auditoria de datos": 0.7,
         "sistemas de seguridad": 0.9,
         "python": 0.5
    }
}

# -----------------------------------------------------
# Función que, dada una lista de skills del documento,
# calcula el puntaje para cada rol y devuelve el rol con mayor puntaje.
# Si ningún rol suma puntos, devuelve "Ninguna".
# -----------------------------------------------------
def identificar_rol(skills_doc):
    # Inicializamos el puntaje de cada rol en cero.
    puntuaciones = {rol: 0 for rol in roles_skills}
    
    # Recorremos cada skill del documento
    for skill in skills_doc:
        skill_norm = normalizar(skill)
        # Sumamos el peso correspondiente para cada rol si la skill se encuentra en el diccionario
        for rol, skills_mapping in roles_skills.items():
            if skill_norm in skills_mapping:
                puntuaciones[rol] += skills_mapping[skill_norm]
    
    # Seleccionamos el rol con el mayor puntaje
    rol_identificado = max(puntuaciones, key=puntuaciones.get)
    
    # Si el máximo puntaje es 0, significa que ninguna skill coincide; se asigna "Ninguna".
    if puntuaciones[rol_identificado] == 0:
        return "Ninguna"
    return rol_identificado

# -----------------------------------------------------
# Recorremos los documentos de la colección y actualizamos la clave "cat_identificada"
# -----------------------------------------------------
for doc in tqdm(coleccion.find(), desc='Identificando roles de ofertas...'):
    skills_doc = doc.get("Skills", [])
    rol = identificar_rol(skills_doc)
    
    coleccion.update_one(
        {"_id": doc["_id"]},
        {"$set": {"cat_identificada": rol}}
    )

print('Documentos actualizados correctamente')


Conexion realizada con exito!


Identificando roles de ofertas...: 1662it [00:39, 42.39it/s]

Documentos actualizados correctamente



