<a href="https://colab.research.google.com/github/DilanAndrade007/dilan-andrade-portafolio/blob/main/Untitled15.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Ejercicio 03: Cálculo de Relevancia y Ranking de Documentos
El objetivo de este ejercicio es calcular analíticamente la relevancia de cada documento en un corpus y luego ordenar (rankear) los documentos basándonos en esa puntuación de relevancia para tres consultas específicas. Seguirás los siguientes pasos:

Descripción del Ejercicio

Procesamiento del Corpus:

Leer y parsear el archivo XML proporcionado que contiene el corpus de documentos con sus metadatos (keywords, autor y fecha).
Procesamiento de las Consultas:

Definir las consultas proporcionadas.
Extraer las palabras clave de cada consulta.
Cálculo de Relevancia:

Utilizar métricas de similitud (Similitud Coseno y Jaccard) entre la representación vectorial de los documentos y las de las consultas.
Calcular la puntuación de relevancia para cada documento del corpus respecto a cada consulta.
Ranking de Documentos:

Ordenar los documentos en función de su puntuación de relevancia de mayor a menor.
Mostrar el ranking de documentos para cada consulta.


In [7]:
# Importar las librerías necesarias
import xml.etree.ElementTree as ET

# Definir las consultas
queries = {
    1: "Impacto de la salud mental en el rendimiento académico de los estudiantes universitarios",
    2: "Actividades extracurriculares y bienestar emocional en el campus universitario",
    3: "Estrategias universitarias para reducir el estrés en estudiantes"
}
# Definir una lista de stopwords en español
stopwords = {'de', 'el', 'en', 'la', 'los', 'las', 'y', 'a', 'que', 'para', 'un', 'una', 'es', 'con', 'por', 'del'}


# Función para procesar el texto y extraer palabras clave
def process_text(text):
    # Convertir a minúsculas
    text = text.lower()
    # Reemplazar caracteres no alfanuméricos por espacios
    import re
    text = re.sub(r'[^a-záéíóúñü]+', ' ', text)
    # Tokenizar y eliminar palabras vacías si es necesario
    tokens = text.strip().split()
    # Filtrar stopwords
    tokens = [token for token in tokens if token not in stopwords]
    return set(tokens)

# Paso 1: Leer y parsear el archivo XML
def parse_corpus(xml_file):
    tree = ET.parse(xml_file)
    root = tree.getroot()
    corpus = {}
    for doc in root.findall('document'):
        doc_id = int(doc.get('id'))
        title = doc.find('title').text
        keywords = doc.find('keywords').text
        author = doc.find('author').text
        date = doc.find('date').text
        # Procesar las palabras clave
        keyword_set = process_text(keywords)
        corpus[doc_id] = {
            'title': title,
            'keywords': keyword_set,
            'author': author,
            'date': date
        }
    return corpus


In [8]:
corpus = parse_corpus('/content/03ranking_corpus.xml')
corpus

{1: {'title': 'El aumento de la telemedicina para el tratamiento de condiciones de salud crónicas.',
  'keywords': {'crónica',
   'médica',
   'salud',
   'tecnología',
   'telemedicina',
   'tratamiento'},
  'author': 'Dr. Juan Pérez',
  'date': '2023-01-15'},
 2: {'title': 'Cómo la nutrición balanceada afecta el rendimiento académico y la salud mental en estudiantes.',
  'keywords': {'académico',
   'estudiantes',
   'mental',
   'nutrición',
   'rendimiento',
   'salud'},
  'author': 'Dra. María López',
  'date': '2023-02-10'},
 3: {'title': 'Estudio sobre cómo las relaciones de amistad contribuyen al bienestar de los estudiantes en el campus.',
  'keywords': {'amistad',
   'bienestar',
   'campus',
   'estudiantil',
   'relaciones',
   'sociales'},
  'author': 'Miguel Rodríguez',
  'date': '2023-03-05'},
 4: {'title': 'El rol de las bibliotecas universitarias en el fomento de la investigación académica.',
  'keywords': {'academia',
   'bibliotecas',
   'investigación',
   'recursos

In [9]:
# Extraer palabras clave de cada consulta usando la función process_text
query_keywords = {query_id: process_text(query) for query_id, query in queries.items()}

# Imprimir las palabras clave de cada consulta
query_keywords

{1: {'académico',
  'estudiantes',
  'impacto',
  'mental',
  'rendimiento',
  'salud',
  'universitarios'},
 2: {'actividades',
  'bienestar',
  'campus',
  'emocional',
  'extracurriculares',
  'universitario'},
 3: {'estrategias', 'estrés', 'estudiantes', 'reducir', 'universitarias'}}

In [25]:
import numpy as np

# Obtener el vocabulario todos los documentos y consultas
all_keywords = set()
for doc in corpus.values():
    all_keywords.update(doc['keywords'])
for query_keywords_set in query_keywords.values():
    all_keywords.update(query_keywords_set)

# Crear un diccionario con el vocubulario donde a cada uno se le agrega un indice
keyword_to_index = {keyword: idx for idx, keyword in enumerate(all_keywords)}
print(keyword_to_index)

{'comparación': 0, 'emocional': 1, 'trabajan': 2, 'beneficios': 3, 'equilibrio': 4, 'estudiantes': 5, 'compartidas': 6, 'universidad': 7, 'grupos': 8, 'jóvenes': 9, 'tecnológicas': 10, 'desarrollo': 11, 'mental': 12, 'familiar': 13, 'vida': 14, 'deportes': 15, 'tecnología': 16, 'meditación': 17, 'hábitos': 18, 'psicológico': 19, 'reducción': 20, 'colaboración': 21, 'tecnológicos': 22, 'universitaria': 23, 'talleres': 24, 'médica': 25, 'espacios': 26, 'ambiental': 27, 'reducir': 28, 'investigación': 29, 'tratamiento': 30, 'programas': 31, 'sostenible': 32, 'desempeño': 33, 'remotas': 34, 'universitarios': 35, 'servicios': 36, 'actividad': 37, 'academia': 38, 'lectura': 39, 'riesgo': 40, 'redes': 41, 'edificios': 42, 'integración': 43, 'educación': 44, 'artificial': 45, 'campus': 46, 'tecnologías': 47, 'medicina': 48, 'creatividad': 49, 'académica': 50, 'bicicletas': 51, 'concentración': 52, 'extracurriculares': 53, 'diseño': 54, 'saludables': 55, 'universitarias': 56, 'académico': 57, '

In [26]:
# Función para crear vectores binarios para documentos o consultas
def create_binary_vector(keywords, keyword_to_index):
    vector = np.zeros(len(keyword_to_index))
    for keyword in keywords:
        if keyword in keyword_to_index:
            vector[keyword_to_index[keyword]] = 1
    return vector

# Función para calcular la similitud de Jaccard
def jaccard_similarity(set1, set2):
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0


In [27]:
# Función para calcular la similitud de coseno
def cosine_similarity(vector1, vector2):
    dot_product = np.dot(vector1, vector2)
    norm_a = np.linalg.norm(vector1)
    norm_b = np.linalg.norm(vector2)
    return dot_product / (norm_a * norm_b) if norm_a != 0 and norm_b != 0 else 0


In [28]:
# Calcular similitudes entre cada consulta y cada documento
similarities = {query_id: {} for query_id in queries}

for query_id, query_keywords_set in query_keywords.items():
    query_vector = create_binary_vector(query_keywords_set, keyword_to_index)

    for doc_id, doc_info in corpus.items():
        doc_vector = create_binary_vector(doc_info['keywords'], keyword_to_index)

        # Calcular similitud de Coseno
        cos_sim = cosine_similarity(query_vector, doc_vector)

        # Calcular similitud de Jaccard
        jaccard_sim = jaccard_similarity(query_keywords_set, doc_info['keywords'])

        # Guardar ambas similitudes
        similarities[query_id][doc_id] = {
            'cosine_similarity': cos_sim,
            'jaccard_similarity': jaccard_sim
        }

# Mostrar las similitudes
similarities

{1: {1: {'cosine_similarity': 0.1543033499620919,
   'jaccard_similarity': 0.08333333333333333},
  2: {'cosine_similarity': 0.7715167498104595, 'jaccard_similarity': 0.625},
  3: {'cosine_similarity': 0.0, 'jaccard_similarity': 0.0},
  4: {'cosine_similarity': 0.0, 'jaccard_similarity': 0.0},
  5: {'cosine_similarity': 0.0, 'jaccard_similarity': 0.0},
  6: {'cosine_similarity': 0.1543033499620919,
   'jaccard_similarity': 0.08333333333333333},
  7: {'cosine_similarity': 0.7715167498104595, 'jaccard_similarity': 0.625},
  8: {'cosine_similarity': 0.1543033499620919,
   'jaccard_similarity': 0.08333333333333333},
  9: {'cosine_similarity': 0.0, 'jaccard_similarity': 0.0},
  10: {'cosine_similarity': 0.0, 'jaccard_similarity': 0.0},
  11: {'cosine_similarity': 0.6172133998483676,
   'jaccard_similarity': 0.4444444444444444},
  12: {'cosine_similarity': 0.33806170189140655, 'jaccard_similarity': 0.2},
  13: {'cosine_similarity': 0.5345224838248487,
   'jaccard_similarity': 0.36363636363636