In [2]:
from pymongo.mongo_client import MongoClient
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pickle  # Para guardar el vectorizador
from dotenv import load_dotenv
import os
from tqdm import tqdm

load_dotenv()

True

In [3]:
uri = f"mongodb+srv://root:{os.getenv('DB_PASS')}@cluster0.pse9r.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

cliente_db = MongoClient(uri)

# Send a ping to confirm a successful connection
try:
    cliente_db.admin.command('ping')
    print("Conexion realizada con exito!")

    db = cliente_db[os.getenv('DB_NAME')]
    coleccion = db[os.getenv('DB_COLECTION')]
except Exception as e:
    print(e)

Conexion realizada con exito!


In [11]:
# Extraer todas las skills de la base de datos
# cursor = coleccion.find({}, {"Skills": 1, "_id": 0})
# all_skills = [" ".join(doc["Skills"]).lower() for doc in cursor]  # Convertir listas en strings

In [12]:
# # Inicializar el vectorizador TF-IDF
# vectorizer = TfidfVectorizer(lowercase=True)

# # Entrenar el vectorizador con todas las skills de la BD
# tfidf_matrix = vectorizer.fit_transform(all_skills)

# # Guardar el vectorizador en disco para futuras consultas
# with open("tfidf_vectorizer.pkl", "wb") as f:
#     pickle.dump(vectorizer, f)

# print("Vectorizador TF-IDF entrenado y guardado.")

In [13]:
# # Función para vectorizar una oferta con TF-IDF
# def vectorizar_skills(offer_skills, vectorizer):
#     offer_text = " ".join(offer_skills).lower()  # Convertir lista en texto
#     return vectorizer.transform([offer_text]).toarray()[0].tolist()  # Convertir a lista

# # Procesar todas las ofertas y almacenar los vectores en MongoDB
# for offer in tqdm(coleccion.find(), desc='Vectorizando ofertas... '):
#     offer_vector = vectorizar_skills(offer["Skills"], vectorizer)
#     coleccion.update_one({"_id": offer["_id"]}, {"$set": {"Skills_vectorizadas": offer_vector}})

# print("Vectorización de ofertas completada y almacenada en MongoDB.")


In [14]:
# Cargar el vectorizador previamente guardado
with open("tfidf_vectorizer.pkl", "rb") as f:
    vectorizer = pickle.load(f)

# Función para recomendar ofertas
def recommend_jobs(user_skills, vectorizer, collection, top_n=5):
    # Vectorizar las skills del usuario con TF-IDF
    user_text = " ".join(user_skills).lower()
    user_vector = vectorizer.transform([user_text]).toarray()

    # Extraer todas las ofertas con sus vectores almacenados
    offers = list(collection.find({}, {"_id": 1, "Titulo": 1, "Descripcion": 1, "Skills": 1, "Skills_vectorizadas": 1}))
    
    # Convertir los vectores de las ofertas en una matriz NumPy
    offer_vectors = np.array([offer["Skills_vectorizadas"] for offer in offers])

    # Calcular similitud coseno entre usuario y ofertas
    similarities = cosine_similarity(user_vector, offer_vectors)[0]
    
    # Ordenar ofertas por similitud
    sorted_offers = sorted(zip(offers, similarities), key=lambda x: x[1], reverse=True)
    
    # Devolver las N mejores ofertas
    top_offers = sorted_offers[:top_n]
    return [{"Titulo": offer["Titulo"], "Skills": offer['Skills'], "Descripcion": offer['Descripcion'], "Similitud": round(sim, 2)} for offer, sim in top_offers]

# Probar con un usuario
user_skills = ['iso']
recommended_jobs = recommend_jobs(user_skills, vectorizer, coleccion)

# Mostrar resultados
for job in recommended_jobs:
    print(job)


{'Titulo': 'Information Security Consultant', 'Skills': ['iso 27001'], 'Descripcion': 'En SecureFlow Corp, buscamos un/a Information Security Consultant apasionado/a por la protección y seguridad de la información, que quiera unirse a nuestro equipo en Barcelona, España. Tu principal misión será garantizar la confidencialidad, integridad y disponibilidad de los datos, implementando medidas de seguridad efectivas y asegurando el cumplimiento normativo, como ISO 27001 o GDPR. Requisitos mínimos incluyen 3-5 años de experiencia en el sector y conocimientos avanzados en tecnologías como Trabajo en equipo, Comunicación efectiva, Análisis crítico, ISO 27001. Ofrecemos un entorno dinámico, salario competitivo y formación continua para mantenerte a la vanguardia en privacidad y seguridad de datos.', 'Similitud': 0.71}
{'Titulo': 'Data Protection Officer', 'Skills': ['gdpr', 'iso 27001'], 'Descripcion': 'En SecureFlow Corp, buscamos un/a Data Protection Officer apasionado/a por la protección y 

### version mejorada

In [4]:
# Cargar el vectorizador previamente guardado
with open("tfidf_vectorizer.pkl", "rb") as f:
    vectorizer = pickle.load(f)

# Función para recomendar un número específico de ofertas ordenadas por similitud
def recommend_jobs(user_skills, vectorizer, collection, top_n=10, similarity_threshold=0.30):
    # Vectorizar las skills del usuario con TF-IDF
    user_text = " ".join(user_skills).lower()
    user_vector = vectorizer.transform([user_text]).toarray()

    # Extraer solo los IDs y los vectores de habilidades de las ofertas
    offers = list(collection.find({}, {"_id": 1, "Skills_vectorizadas": 1}))

    # Convertir los vectores de las ofertas en una matriz NumPy
    offer_vectors = np.array([offer["Skills_vectorizadas"] for offer in offers])

    # Calcular similitud coseno entre usuario y ofertas
    similarities = cosine_similarity(user_vector, offer_vectors)[0]

    # Filtrar y ordenar ofertas por similitud
    matching_offers = sorted(
        [{"_id": str(offer["_id"]), "Similitud": round(sim, 2)}
         for offer, sim in zip(offers, similarities) if sim > similarity_threshold],
        key=lambda x: x["Similitud"], reverse=True
    )

    # Devolver solo las 'top_n' ofertas más similares
    return matching_offers[:top_n]

# Probar con un usuario
user_skills = ['r', 'machine learning', 'sql', 'azure', 'nosql', 'data visualization', 'bi', 'python']
recommended_jobs = recommend_jobs(user_skills, vectorizer, coleccion, top_n=5)

# Mostrar resultados
for job in recommended_jobs:
    print(job)


{'_id': '6799f4092cee2337199c9aad', 'Similitud': 0.51}
{'_id': '6799f4092cee2337199c9baa', 'Similitud': 0.51}
{'_id': '6799f4092cee2337199c9bae', 'Similitud': 0.51}
{'_id': '6799f40b2cee2337199c9dc6', 'Similitud': 0.47}
{'_id': '6799f40b2cee2337199c9ddc', 'Similitud': 0.47}


In [5]:
from bson import ObjectId

# Función para recuperar ofertas completas excluyendo 'Skills_vectorizadas'
def get_job_details_by_ids(job_ids, collection):
    # Convertir los IDs a ObjectId si es necesario
    object_ids = [ObjectId(job["_id"]) for job in job_ids]
    
    # Consultar la base de datos excluyendo 'Skills_vectorizadas'
    jobs = list(collection.find({"_id": {"$in": object_ids}}, {"Skills_vectorizadas": 0}))

    return jobs

# Probar la función con los IDs obtenidos de la recomendación
job_details = get_job_details_by_ids(recommended_jobs, coleccion)

# Mostrar resultados
for job in job_details:
    print(job)

{'_id': ObjectId('6799f4092cee2337199c9aad'), 'Titulo': 'Business Intelligence Analyst', 'Empresa': 'Trend Analytics', 'Ubicacion': 'Zaragoza, España', 'Salario': ['50.000', '70.000'], 'Experiencia minima': 'Al menos 5 años', 'Tipo de contrato': 'Indefinido, jornada completa', 'Estudios minimos': ['Grado en Estadística', ' Matemáticas', ' Informática o similar'], 'Skills': ['python', 'sql', 'bi'], 'Descripcion': "En Trend Analytics, nos encontramos en la búsqueda de un/a Business Intelligence Analyst para unirte a nuestro equipo ubicado en Zaragoza, España. Este puesto ofrece la oportunidad de trabajar en proyectos innovadores, con impacto directo en la estrategia y la toma de decisiones de nuestra empresa. Como parte de tu trabajo, utilizarás tus habilidades en Python, SQL, Comunicación, BI para analizar datos complejos, identificar patrones y proporcionar insights clave para el negocio. Estamos especialmente interesados en profesionales con experiencia en Python, SQL, Comunicación, B