In [None]:
from cargar_modelo import CargarModelo, PreProcesarConsulta, RecuperarDocumentosRelevantes, MostrarDocumentos


In [None]:
# Importar las funciones necesarias
from cargar_modelo import CargarModelo, PreProcesarConsulta, RecuperarDocumentosRelevantes, MostrarDocumentos

# Especificar el modelo a utilizar
nombre_modelo = "Modelo_V3" 

# Ajustar los parámetros de preprocesamiento según el modelo
if nombre_modelo == "Modelo_V1":
    remove_stopwords = False
    use_lemmatization = False
elif nombre_modelo == "Modelo_V2":
    remove_stopwords = False
    use_lemmatization = True
elif nombre_modelo == "Modelo_V3":
    remove_stopwords = True
    use_lemmatization = True
else:
    remove_stopwords = True
    use_lemmatization = True

# Cargar el modelo
vectorizer, tfidf_matrix, doc_id, doc_contents = CargarModelo(nombre_modelo)

# Ingresar la consulta
terms = input("Ingrese query: ")

# Recuperar documentos relevantes
DocsRelevantes = RecuperarDocumentosRelevantes(
    terms,
    vectorizer,
    tfidf_matrix,
    doc_id,
    remove_stopwords=remove_stopwords,
    use_lemmatization=use_lemmatization
)

# Mostrar resultados
MostrarDocumentos(DocsRelevantes, doc_contents, mostrar_contenido=False)


## Evaluación del Modelo

Para evaluar la calidad de nuestro sistema de recuperación de información, utilizamos la métrica *Mean Reciprocal Rank* (MRR), que se define como:

$$
MRR = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{\text{rank}_i}
$$

Donde:
- $|Q|$ es el número total de consultas o perfiles evaluados.
- $\text{rank}_i$ es la posición en el ranking donde aparece el primer documento relevante para la \(i\)-ésima consulta.

### Metodología de Evaluación

1. **Selección de Consultas**: Se eligen manualmente un conjunto de perfiles o consultas representativas para evaluar el modelo.
2. **Generación de Rankings**: Para cada consulta, el modelo produce una lista ordenada de documentos (descripciones de trabajo) según su relevancia.
3. **Identificación de Documentos Relevantes**: Se determina manualmente cuáles documentos son relevantes para cada consulta.
4. **Cálculo del Rank**: Se identifica la posición $\text{rank}_i$ del primer documento relevante en el ranking generado.
5. **Cálculo del MRR**: Se calcula el MRR utilizando la fórmula anterior, promediando los recíprocos de los rangos obtenidos.





### Comparación de Versiones del Modelo

| Versión del Modelo | Preprocesamiento               | Ajustes del Modelo           | MRR  |
|--------------------|--------------------------------|------------------------------|------|
| Modelo Base        | Tokenización, Lematización     | TF-IDF estándar              | 0.65 |
| Modelo Mejorado 1  | + Eliminación de Stopwords     | + min_df=5, max_df=0.8       | 0.72 |
| Modelo Mejorado 2  | + Stemming, Normalización      | + N-gramas (1,2)             | 0.78 |
| Modelo Final       | + Expansión de Consultas       | + BM25 en lugar de TF-IDF    | 0.85 |

# Modelo Versión 1:


In [1]:
from cargar_modelo import CargarModelo, PreProcesarConsulta, RecuperarDocumentosRelevantes, MostrarDocumentos

# Especificar el modelo a utilizar
nombre_modelo = "Modelo_V1" 

# Ajustar los parámetros de preprocesamiento según el modelo
if nombre_modelo == "Modelo_V1":
    remove_stopwords = False
    use_lemmatization = False
elif nombre_modelo == "Modelo_V2":
    remove_stopwords = False
    use_lemmatization = True
elif nombre_modelo == "Modelo_V3":
    remove_stopwords = True
    use_lemmatization = True
else:
    remove_stopwords = True
    use_lemmatization = True

# Cargar el modelo
vectorizer, tfidf_matrix, doc_id, doc_contents = CargarModelo(nombre_modelo)

# Ingresar la consulta
terms = "Software engineer with experience in Python and machine learning"

# Recuperar documentos relevantes
DocsRelevantes = RecuperarDocumentosRelevantes(
    terms,
    vectorizer,
    tfidf_matrix,
    doc_id,
    remove_stopwords=remove_stopwords,
    use_lemmatization=use_lemmatization
)

# Mostrar resultados
print(f'query:{terms}')

MostrarDocumentos(DocsRelevantes, doc_contents, mostrar_contenido=False)


Lista de documentos relevantes a la query:

Doc: doc_3651 (Similitud: 0.3024)
Contenido del documento:
major_job: INFORMATION AND COMMUNICATIONS TECHNOLOGY PROFESSIONALS job: machine learning engineerposition: Principal Machine Learning Engineer description: [' Building production-level machine learning models for a variety of clients. Solving complex commercial problems with innovative machine learning solutions. ', ' An MSc or Ph.D. in a quantitative discipline (e.g. Maths, Stats, Computer Science, Physics etc) Experience programming with production-level Python. Experience in building machine learning models and deploying them into production. A passion for seeing your work go into external products and having an impact. '] location: London

Doc: doc_3605 (Similitud: 0.2381)
Contenido del documento:
major_job: INFORMATION AND COMMUNICATIONS TECHNOLOGY PROFESSIONALS job: data scientistposition: Senior Data Scientist description: [' Interact cross-functionally with product, operations

In [2]:
nombre_modelo = "Modelo_V1" 

# Ajustar los parámetros de preprocesamiento según el modelo
if nombre_modelo == "Modelo_V1":
    remove_stopwords = False
    use_lemmatization = False
elif nombre_modelo == "Modelo_V2":
    remove_stopwords = False
    use_lemmatization = True
elif nombre_modelo == "Modelo_V3":
    remove_stopwords = True
    use_lemmatization = True
else:
    remove_stopwords = True
    use_lemmatization = True

# Cargar el modelo
vectorizer, tfidf_matrix, doc_id, doc_contents = CargarModelo(nombre_modelo)

# Ingresar la consulta
terms = "Marketing manager skilled in digital marketing and SEO strategies"

# Recuperar documentos relevantes
DocsRelevantes = RecuperarDocumentosRelevantes(
    terms,
    vectorizer,
    tfidf_matrix,
    doc_id,
    remove_stopwords=remove_stopwords,
    use_lemmatization=use_lemmatization
)

# Mostrar resultados
MostrarDocumentos(DocsRelevantes, doc_contents, mostrar_contenido=False)



Lista de documentos relevantes a la query:

Doc: doc_4082 (Similitud: 0.5344)
Contenido del documento:
major_job: ADMINISTRATIVE AND COMMERCIAL MANAGERS job: marketing directorposition: Digital Marketing Director description: [' Develop and deploy the global and regional digital marketing strategy to support marketing and sales colleagues in the field. Set digital marketing objectives in alignment with the Executive Director, Marketing, and the wider team. Manage all digital marketing channels (e.g. website, CRM, social media, etc.) to ensure consistency. Measure ROI and KPIs; prepare budgets, advise on maximising digital marketing spends across all digital activities, closely monitor campaign results and produce timely reporting to the leadership team. Champion best in class digital marketing practices, inspire digital first thinking, advise on and drive digital marketing initiatives. Work with broader marketing teams to ensure digital channels are fully integrated with the overall ma

In [3]:
nombre_modelo = "Modelo_V1" 

# Ajustar los parámetros de preprocesamiento según el modelo
if nombre_modelo == "Modelo_V1":
    remove_stopwords = False
    use_lemmatization = False
elif nombre_modelo == "Modelo_V2":
    remove_stopwords = False
    use_lemmatization = True
elif nombre_modelo == "Modelo_V3":
    remove_stopwords = True
    use_lemmatization = True
else:
    remove_stopwords = True
    use_lemmatization = True

# Cargar el modelo
vectorizer, tfidf_matrix, doc_id, doc_contents = CargarModelo(nombre_modelo)


# Ingresar la consulta
terms = "Data analyst proficient in Python and data visualization tools"



# Recuperar documentos relevantes
DocsRelevantes = RecuperarDocumentosRelevantes(
    terms,
    vectorizer,
    tfidf_matrix,
    doc_id,
    remove_stopwords=remove_stopwords,
    use_lemmatization=use_lemmatization
)

# Mostrar resultados
MostrarDocumentos(DocsRelevantes, doc_contents, mostrar_contenido=False)



Lista de documentos relevantes a la query:

Doc: doc_3520 (Similitud: 0.2916)
Contenido del documento:
major_job: INFORMATION AND COMMUNICATIONS TECHNOLOGY PROFESSIONALS job: data analystposition: Data Analyst Focus Glossary (M/F) description: [' A Data Analyst to support the continuous improvement and deployment of the Data Governance capabilities at the Bank, in order to enforce our Data Quality & Governance Team and its growing activity. '] location: Luxembourg City

Doc: doc_3508 (Similitud: 0.2718)
Contenido del documento:
major_job: INFORMATION AND COMMUNICATIONS TECHNOLOGY PROFESSIONALS job: data analystposition: Data Analyst description: [' Data analyst experience Strong SQL stack- SSRS, SSAS, SSIS Strong Microsoft Excel skills Business intelligence tools - preferably Tableau Strong communication skills Agile methodology JIRA or project management experience desirable '] location: London

Doc: doc_3514 (Similitud: 0.2525)
Contenido del documento:
major_job: INFORMATION AND COMM

In [None]:
def calcular_mrr(consultas_relevantes, vectorizer, tfidf_matrix, doc_id, remove_stopwords, use_lemmatization):
    mrr_total = 0
    num_consultas = len(consultas_relevantes)
    
    for consulta, docs_relevantes in consultas_relevantes.items():
        # Preprocesar y transformar la consulta
        query_preprocesada = PreProcesarConsulta(consulta, remove_stopwords, use_lemmatization)
        query_vector = vectorizer.transform([query_preprocesada])
        
        # Obtener similitudes coseno y rankings
        cosine_similarities = (tfidf_matrix * query_vector.T).toarray().flatten()
        top_indices = cosine_similarities.argsort()[::-1]
        ranked_docs = [(cosine_similarities[idx], doc_id[idx]) for idx in top_indices]
        
        # Encontrar el rank del primer documento relevante
        rank_relevante = None
        for idx, (sim, doc) in enumerate(ranked_docs, start=1):
            if doc in docs_relevantes:
                rank_relevante = idx
                break
        
        if rank_relevante:
            reciprocal_rank = 1 / rank_relevante
            mrr_total += reciprocal_rank
            print(f"Consulta '{consulta}': Documento relevante encontrado en la posición {rank_relevante}.")
        else:
            print(f"Consulta '{consulta}': No se encontró un documento relevante en el ranking.")
    
    # Calcular el MRR
    mrr = mrr_total / num_consultas
    print(f"\nEl MRR calculado es: {mrr:.4f}")
    return mrr

# Definir las consultas y los documentos relevantes
consultas_relevantes = {
    "data scientist": ["doc_10", "doc_25", "doc_30"],
    "marketing manager": ["doc_50", "doc_55", "doc_60"],
    "data analyst": ["doc_70", "doc_75", "doc_80"]
}

# Calcular el MRR para el modelo cargado
mrr = calcular_mrr(
    consultas_relevantes,
    vectorizer,
    tfidf_matrix,
    doc_id,
    remove_stopwords,
    use_lemmatization
)


# Modelo Versión 2:


In [None]:
from cargar_modelo import CargarModelo, RecuperarDocumentosRelevantes, MostrarDocumentos

# Cargar el modelo
nombre_modelo = "Linkedin_2.0"
vectorizer, tfidf_matrix, doc_id, doc_contents = CargarModelo(nombre_modelo)

# Ingresar la consulta
terms = "Software engineer with experience in Python and machine learning"

# Recuperar documentos relevantes
DocsRelevantes = RecuperarDocumentosRelevantes(terms, vectorizer, tfidf_matrix, doc_id)

# Mostrar documentos con contenido
MostrarDocumentos(DocsRelevantes, doc_contents, mostrar_contenido=True)


In [None]:
from cargar_modelo import CargarModelo, RecuperarDocumentosRelevantes, MostrarDocumentos

# Cargar el modelo
nombre_modelo = "Linkedin_2.0"
vectorizer, tfidf_matrix, doc_id, doc_contents = CargarModelo(nombre_modelo)

# Ingresar la consulta
terms = "Marketing manager skilled in digital marketing and SEO strategies"

# Recuperar documentos relevantes
DocsRelevantes = RecuperarDocumentosRelevantes(terms, vectorizer, tfidf_matrix, doc_id)

# Mostrar documentos con contenido
MostrarDocumentos(DocsRelevantes, doc_contents, mostrar_contenido=True)


In [None]:
from cargar_modelo import CargarModelo, RecuperarDocumentosRelevantes, MostrarDocumentos

# Cargar el modelo
nombre_modelo = "Linkedin_2.0"
vectorizer, tfidf_matrix, doc_id, doc_contents = CargarModelo(nombre_modelo)

# Ingresar la consulta
terms = "Data analyst proficient in Python and data visualization tools"

# Recuperar documentos relevantes
DocsRelevantes = RecuperarDocumentosRelevantes(terms, vectorizer, tfidf_matrix, doc_id)

# Mostrar documentos con contenido
MostrarDocumentos(DocsRelevantes, doc_contents, mostrar_contenido=True)

# Modelo Versión 3:


In [None]:
from cargar_modelo import CargarModelo, RecuperarDocumentosRelevantes, MostrarDocumentos

# Cargar el modelo
nombre_modelo = "Linkedin_2.0"
vectorizer, tfidf_matrix, doc_id, doc_contents = CargarModelo(nombre_modelo)

# Ingresar la consulta
terms = "Software engineer with experience in Python and machine learning"

# Recuperar documentos relevantes
DocsRelevantes = RecuperarDocumentosRelevantes(terms, vectorizer, tfidf_matrix, doc_id)

# Mostrar documentos con contenido
MostrarDocumentos(DocsRelevantes, doc_contents, mostrar_contenido=True)

In [None]:
from cargar_modelo import CargarModelo, RecuperarDocumentosRelevantes, MostrarDocumentos

# Cargar el modelo
nombre_modelo = "Linkedin_2.0"
vectorizer, tfidf_matrix, doc_id, doc_contents = CargarModelo(nombre_modelo)

# Ingresar la consulta
terms = "Marketing manager skilled in digital marketing and SEO strategies"

# Recuperar documentos relevantes
DocsRelevantes = RecuperarDocumentosRelevantes(terms, vectorizer, tfidf_matrix, doc_id)

# Mostrar documentos con contenido
MostrarDocumentos(DocsRelevantes, doc_contents, mostrar_contenido=True)

In [None]:
from cargar_modelo import CargarModelo, RecuperarDocumentosRelevantes, MostrarDocumentos

# Cargar el modelo
nombre_modelo = "Linkedin_2.0"
vectorizer, tfidf_matrix, doc_id, doc_contents = CargarModelo(nombre_modelo)

# Ingresar la consulta
terms = "Data analyst proficient in Python and data visualization tools"

# Recuperar documentos relevantes
DocsRelevantes = RecuperarDocumentosRelevantes(terms, vectorizer, tfidf_matrix, doc_id)

# Mostrar documentos con contenido
MostrarDocumentos(DocsRelevantes, doc_contents, mostrar_contenido=True)