In [4]:
from pymongo.mongo_client import MongoClient
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pickle  # Para guardar el vectorizador
from dotenv import load_dotenv
import os
from tqdm import tqdm

load_dotenv()

True

In [5]:
uri = f"mongodb+srv://root:{os.getenv('DB_PASS')}@cluster0.pse9r.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

cliente_db = MongoClient(uri)

# Send a ping to confirm a successful connection
try:
    cliente_db.admin.command('ping')
    print("Conexion realizada con exito!")

    db = cliente_db[os.getenv('DB_NAME')]
    coleccion = db[os.getenv('DB_COLECTION')]
except Exception as e:
    print(e)

Conexion realizada con exito!


In [6]:
# Extraer todas las skills de la base de datos
# cursor = coleccion.find({}, {"Skills": 1, "_id": 0})
# all_skills = [" ".join(doc["Skills"]).lower() for doc in cursor]  # Convertir listas en strings

In [7]:
# # Inicializar el vectorizador TF-IDF
# vectorizer = TfidfVectorizer(lowercase=True)

# # Entrenar el vectorizador con todas las skills de la BD
# tfidf_matrix = vectorizer.fit_transform(all_skills)

# # Guardar el vectorizador en disco para futuras consultas
# with open("tfidf_vectorizer.pkl", "wb") as f:
#     pickle.dump(vectorizer, f)

# print("Vectorizador TF-IDF entrenado y guardado.")

In [8]:
# # Función para vectorizar una oferta con TF-IDF
# def vectorizar_skills(offer_skills, vectorizer):
#     offer_text = " ".join(offer_skills).lower()  # Convertir lista en texto
#     return vectorizer.transform([offer_text]).toarray()[0].tolist()  # Convertir a lista

# # Procesar todas las ofertas y almacenar los vectores en MongoDB
# for offer in tqdm(coleccion.find(), desc='Vectorizando ofertas... '):
#     offer_vector = vectorizar_skills(offer["Skills"], vectorizer)
#     coleccion.update_one({"_id": offer["_id"]}, {"$set": {"Skills_vectorizadas": offer_vector}})

# print("Vectorización de ofertas completada y almacenada en MongoDB.")


In [9]:
# Cargar el vectorizador previamente guardado
with open("tfidf_vectorizer.pkl", "rb") as f:
    vectorizer = pickle.load(f)

# Función para recomendar ofertas
def recommend_jobs(user_skills, vectorizer, collection, top_n=5):
    # Vectorizar las skills del usuario con TF-IDF
    user_text = " ".join(user_skills).lower()
    user_vector = vectorizer.transform([user_text]).toarray()

    # Extraer todas las ofertas con sus vectores almacenados
    offers = list(collection.find({}, {"_id": 1, "Titulo": 1, "Descripcion": 1, "Skills": 1, "Skills_vectorizadas": 1}))
    
    # Convertir los vectores de las ofertas en una matriz NumPy
    offer_vectors = np.array([offer["Skills_vectorizadas"] for offer in offers])

    # Calcular similitud coseno entre usuario y ofertas
    similarities = cosine_similarity(user_vector, offer_vectors)[0]
    
    # Ordenar ofertas por similitud
    sorted_offers = sorted(zip(offers, similarities), key=lambda x: x[1], reverse=True)
    
    # Devolver las N mejores ofertas
    top_offers = sorted_offers[:top_n]
    return [{"Titulo": offer["Titulo"], "Skills": offer['Skills'], "Descripcion": offer['Descripcion'], "Similitud": round(sim, 2)} for offer, sim in top_offers]

# Probar con un usuario
user_skills = ["machine learning", 'excel']
recommended_jobs = recommend_jobs(user_skills, vectorizer, coleccion)

# Mostrar resultados
for job in recommended_jobs:
    print(job)


{'Titulo': 'Analista Predictivo Junior', 'Skills': ['sql', 'excel', 'powerbi', 'machine learning'], 'Descripcion': 'En TechCorp AI, estamos en busca de un/a Analista Predictivo Junior con pasión por transformar datos en soluciones estratégicas que impulsen resultados de alto impacto. Este puesto, basado en Valencia, España, ofrece una oportunidad única de trabajar en proyectos innovadores que redefinen las posibilidades dentro del campo de la ciencia de datos.\n\nEn este rol, serás responsable de aplicar tu experiencia en SQL, Excel, Power BI, comunicación efectiva, trabajo en equipo para diseñar, implementar y optimizar modelos avanzados de machine learning y análisis de datos. Trabajarás de la mano con equipos multidisciplinarios para identificar oportunidades, resolver problemas complejos y traducir desafíos en estrategias accionables basadas en datos. Además, tendrás un impacto directo en proyectos que promueven la innovación tecnológica en sectores clave.\n\nRequisitos principales

### version mejorada

In [10]:
# Cargar el vectorizador previamente guardado
with open("tfidf_vectorizer.pkl", "rb") as f:
    vectorizer = pickle.load(f)

# Función para recomendar un número específico de ofertas ordenadas por similitud
def recommend_jobs(user_skills, vectorizer, collection, top_n=5, similarity_threshold=0.30):
    # Vectorizar las skills del usuario con TF-IDF
    user_text = " ".join(user_skills).lower()
    user_vector = vectorizer.transform([user_text]).toarray()

    # Extraer solo los IDs y los vectores de habilidades de las ofertas
    offers = list(collection.find({}, {"_id": 1, "Skills_vectorizadas": 1}))

    # Convertir los vectores de las ofertas en una matriz NumPy
    offer_vectors = np.array([offer["Skills_vectorizadas"] for offer in offers])

    # Calcular similitud coseno entre usuario y ofertas
    similarities = cosine_similarity(user_vector, offer_vectors)[0]

    # Filtrar y ordenar ofertas por similitud
    matching_offers = sorted(
        [{"_id": str(offer["_id"]), "Similitud": round(sim, 2)}
         for offer, sim in zip(offers, similarities) if sim > similarity_threshold],
        key=lambda x: x["Similitud"], reverse=True
    )

    # Devolver solo las 'top_n' ofertas más similares
    return matching_offers[:top_n]

# Probar con un usuario
user_skills = ["machine learning", "excel"]
recommended_jobs = recommend_jobs(user_skills, vectorizer, coleccion, top_n=5)

# Mostrar resultados
for job in recommended_jobs:
    print(job)


{'_id': '6799f40b2cee2337199c9e94', 'Similitud': 0.83}
{'_id': '6799f40b2cee2337199c9e85', 'Similitud': 0.69}
{'_id': '6799f40b2cee2337199c9e8b', 'Similitud': 0.63}
{'_id': '6799f40b2cee2337199c9e61', 'Similitud': 0.59}
{'_id': '6799f40b2cee2337199c9ed9', 'Similitud': 0.59}


In [None]:
from bson import ObjectId

# Función para recuperar ofertas completas excluyendo 'Skills_vectorizadas'
def get_job_details_by_ids(job_ids, collection):
    # Convertir los IDs a ObjectId si es necesario
    object_ids = [ObjectId(job["_id"]) for job in job_ids]
    
    # Consultar la base de datos excluyendo 'Skills_vectorizadas'
    jobs = list(collection.find({"_id": {"$in": object_ids}}, {"Skills_vectorizadas": 0}))

    return jobs

# Probar la función con los IDs obtenidos de la recomendación
job_details = get_job_details_by_ids(recommended_jobs, coleccion)

# Mostrar resultados
for job in job_details:
    print(job)

{'_id': ObjectId('6799f40b2cee2337199c9e61'), 'Titulo': 'Analista Predictivo Junior', 'Empresa': 'TechCorp AI', 'Ubicacion': 'Valencia, España', 'Salario': ['30.000', '40.000'], 'Experiencia minima': 'Al menos 2 años', 'Tipo de contrato': 'Por proyecto, jornada parcial', 'Estudios minimos': ['Ciclo Formativo Grado Superior'], 'Skills': ['sql', 'excel', 'powerbi', 'comunicacion efectiva', 'trabajo en equipo', 'machine learning'], 'Descripcion': 'En TechCorp AI, estamos en busca de un/a Analista Predictivo Junior con pasión por transformar datos en soluciones estratégicas que impulsen resultados de alto impacto. Este puesto, basado en Valencia, España, ofrece una oportunidad única de trabajar en proyectos innovadores que redefinen las posibilidades dentro del campo de la ciencia de datos.\n\nEn este rol, serás responsable de aplicar tu experiencia en SQL, Excel, Power BI, comunicación efectiva, trabajo en equipo para diseñar, implementar y optimizar modelos avanzados de machine learning 