## Corrección del Examen de 1er bimestre

Considere el siguiente corpus:

In [75]:
doc1 = "Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo."
doc2 = "El desarrollo de habilidades blandas es fundamental para los informáticos, ya que estas competencias facilitan la interacción y colaboración en entornos de trabajo dinámicos."
doc3 = "En la informática, la resolución de problemas es una habilidad técnica esencial, pero combinarla con habilidades blandas como la creatividad y el pensamiento crítico puede llevar a soluciones innovadoras."
doc4 = "La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas."
doc5 = "La inteligencia emocional es una habilidad blanda vital para los informáticos. Permite gestionar mejor las emociones propias y las de los demás, facilitando así un entorno de trabajo más armonioso y productivo."

# wset es el conjunto de palabras en el corpus
wset = set()
# docs es el arreglo de documentos en el corpus
docs = [doc1, doc2, doc3, doc4, doc5]

#### 0. Preprocesamiento del corpus

Considere las siguientes palabras vacías, o stop words:
{a, así, como, con, de, del, el, en, es, estas, la, las, los, más, para, pero, por, que, son, un, una, y, ya}

In [76]:
import string
from collections import defaultdict

stopw = ['la','de','y','los','las','el','en','es','para','una','estas','a','así','son','del','ya','que','pero','con','como','por','un','más']
# stopw = []

word_counts = defaultdict(int)
for doc in docs:
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        if word not in stopw:
            wset.add(word)
            word_counts[word.lower()] += 1

# sorted_word_count es un arreglo de términos con su respectivo conteo
# está ordenado del término más frecuente al menos frecuente
sorted_word_count = sorted(word_counts.items(), key=lambda item: item[1], reverse=True)
print(sorted_word_count)

[('habilidades', 4), ('blandas', 3), ('fundamentales', 3), ('informática', 3), ('habilidad', 3), ('informáticos', 2), ('trabajo', 2), ('blanda', 2), ('permite', 2), ('éxito', 1), ('campo', 1), ('incluyen', 1), ('comunicación', 1), ('efectiva', 1), ('capacidad', 1), ('trabajar', 1), ('equipo', 1), ('gestión', 1), ('tiempo', 1), ('desarrollo', 1), ('fundamental', 1), ('competencias', 1), ('facilitan', 1), ('interacción', 1), ('colaboración', 1), ('entornos', 1), ('dinámicos', 1), ('resolución', 1), ('problemas', 1), ('técnica', 1), ('esencial', 1), ('combinarla', 1), ('creatividad', 1), ('pensamiento', 1), ('crítico', 1), ('puede', 1), ('llevar', 1), ('soluciones', 1), ('innovadoras', 1), ('empatía', 1), ('ejemplo', 1), ('profesionales', 1), ('entender', 1), ('anticipar', 1), ('necesidades', 1), ('usuarios', 1), ('mejorando', 1), ('calidad', 1), ('productos', 1), ('técnicas', 1), ('desarrolladas', 1), ('inteligencia', 1), ('emocional', 1), ('vital', 1), ('gestionar', 1), ('mejor', 1), ('

In [77]:
# se repite el procesamiento anterior de conteo de palabras, integrando la actividad de Stemming
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('spanish')
stopw = ['la','de','y','los','lo','las','el','en','es','para','una','estas', 'esta','a','así','son','del','ya','que','pero','con','como','por','un','más','má','demá', 'par','asi']
# stopw = []

stem_docs = []
for doc in docs:
    sdoc = []
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        if word not in stopw:
            sdoc.append(stemmer.stem(word))
    stem_docs.append(sdoc)

word_counts = defaultdict(int)
for doc in docs:
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        word = stemmer.stem(word)
        if word not in stopw:
            wset.add(word)
            word_counts[word.lower()] += 1
            
sorted_word_count = sorted(word_counts.items(), key=lambda item: item[1], reverse=True)
print(sorted_word_count)

[('habil', 7), ('bland', 5), ('informat', 5), ('fundamental', 4), ('trabaj', 3), ('gestion', 2), ('desarroll', 2), ('facilit', 2), ('entorn', 2), ('tecnic', 2), ('permit', 2), ('mejor', 2), ('product', 2), ('exit', 1), ('camp', 1), ('inclu', 1), ('comun', 1), ('efect', 1), ('capac', 1), ('equip', 1), ('tiemp', 1), ('competent', 1), ('interaccion', 1), ('colabor', 1), ('dinam', 1), ('resolu', 1), ('problem', 1), ('esencial', 1), ('per', 1), ('combin', 1), ('com', 1), ('creativ', 1), ('pensamient', 1), ('critic', 1), ('pued', 1), ('llev', 1), ('solucion', 1), ('innov', 1), ('empat', 1), ('ejempl', 1), ('profesional', 1), ('entend', 1), ('anticip', 1), ('neces', 1), ('usuari', 1), ('calid', 1), ('inteligent', 1), ('emocional', 1), ('vital', 1), ('emocion', 1), ('propi', 1), ('demas', 1), ('mas', 1), ('armoni', 1)]


#### 1. Determine un espacio vectorial para la representación de documentos con 10 dimensiones. Considere a las palabras a partir de su raíz, para simplificar su representación computacional.

In [78]:
ev = sorted_word_count[2:11]
ev.append(sorted_word_count[36])
print(ev)

[('informat', 5), ('fundamental', 4), ('trabaj', 3), ('gestion', 2), ('desarroll', 2), ('facilit', 2), ('entorn', 2), ('tecnic', 2), ('permit', 2), ('solucion', 1)]


#### 2. Construya una matriz binaria de incidencias (presencia/ausencia)

In [79]:
# ev_docs es un arreglo con la representación binaria (presencia/ausencia) de los documentos en el espacio vectorial
ev_docs = []
for doc in stem_docs:
    ev_doc = []
    for dim in ev:
        if dim[0] in doc:
            ev_doc.append(1)
        else:
            ev_doc.append(0)
    ev_docs.append(ev_doc)
print(ev_docs)

[[1, 1, 1, 1, 0, 0, 0, 0, 0, 0], [1, 1, 1, 0, 1, 1, 1, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0, 1, 0, 1], [1, 1, 0, 0, 1, 0, 0, 1, 1, 0], [1, 0, 1, 1, 0, 1, 1, 0, 1, 0]]


#### 3. Utilizando la similitud Jaccard, determine cuáles son los documentos por recuperarse para las siguientes consultas:
3.1. “habilidad” AND “blanda” AND “fundamental”

3.2. “habilidad” AND “blanda” AND NOT “técnica”

3.3. “gestión” OR “solución”

In [80]:
# hablidad AND blanda AND fundamental
q1 = [0,1,0,0,0,0,0,0,0,0]
# hablidad AND blanda AND NOT técnica
q2 = [1,1,1,1,1,1,1,0,1,1]
# gestión OR solución
q3 = [0,0,0,1,0,0,0,0,0,1]

queries = [q1,q2,q3]
read_queries = ['hablidad AND blanda AND fundamental', 'hablidad AND blanda AND NOT técnica', 'gestión OR solución']

Similitud Jaccard: $JSim=|Q\cap D|/|Q\cup D|$

In [81]:
def jsim(q,d):
    c = 0
    for i in range(len(q)):
        # contar los elementos iguales a 1 que son comunes entre los dos conjuntos
        if q[i] == d[i] and d[i] == 1:
            c += 1
    f = 0
    for i in range(len(q)):
        # contar los elementos iguales a 1 en cualquiera de los dos conjuntos
        if q[i] == 1 or d[i] == 1:
            f += 1
    #print('c',c,'f',f)
    return c/f

In [82]:
for i in range(len(queries)):
    print('-------------------------------------------------------')
    print('QUERY: ',i,read_queries[i])
    for j in range(0,len(ev_docs)):
        #print(queries[i],ev_docs[j])
        jsim_ = jsim(queries[i],ev_docs[j])
        if jsim_ > 0:
            print('doc',j,'Jsim',jsim_)
            print(docs[j])

-------------------------------------------------------
QUERY:  0 hablidad AND blanda AND fundamental
doc 0 Jsim 0.25
Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo.
doc 1 Jsim 0.16666666666666666
El desarrollo de habilidades blandas es fundamental para los informáticos, ya que estas competencias facilitan la interacción y colaboración en entornos de trabajo dinámicos.
doc 3 Jsim 0.2
La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas.
-------------------------------------------------------
QUERY:  1 hablidad AND blanda AND NOT técnica
doc 0 Jsim 0.4444444444444444
Las habilidades blandas son fundamentales para el éxito en el campo de la inform

#### 4. Con el mismo espacio vectorial del punto 1, construya una matriz de términos y documentos (matriz TF-IDF).

Frecuencia de término: $TF_{ij}=count(t_i,d_j)/|d_j|$

Frecuencia inversa de término: $IDF_{ij} = log(|corpus|/count(d_j,t_i))$

In [83]:
import numpy as np
from math import log

def create_tf_idf_matrix(stem_docs, ev):
    # Obtener dimensiones de la matriz
    n_docs = len(stem_docs)
    n_terms = len(ev)
    
    # Inicializar matrices
    tf_matrix = np.zeros((n_docs, n_terms))
    idf_vector = np.zeros(n_terms)
    tf_idf_matrix = np.zeros((n_docs, n_terms))
    
    # Calcular TF para cada documento y término
    for i, doc in enumerate(stem_docs):
        doc_length = len(doc)
        for j, term in enumerate(ev):
            term_count = doc.count(term[0])  # term[0] porque ev contiene tuplas (término, frecuencia)
            if doc_length > 0:
                tf_matrix[i][j] = term_count / doc_length
    
    # Calcular IDF para cada término
    for j, term in enumerate(ev):
        # Contar en cuántos documentos aparece el término
        doc_count = sum(1 for doc in stem_docs if term[0] in doc)
        if doc_count > 0:
            idf_vector[j] = log(n_docs / doc_count)
    
    # Calcular TF-IDF
    for i in range(n_docs):
        for j in range(n_terms):
            tf_idf_matrix[i][j] = tf_matrix[i][j] * idf_vector[j]
    
    return tf_matrix, idf_vector, tf_idf_matrix

# Calcular las matrices
tf_matrix, idf_vector, tf_idf_matrix = create_tf_idf_matrix(stem_docs, ev)

# Imprimir resultados
print("Términos del espacio vectorial:")
for i, term in enumerate(ev):
    print(f"{term[0]}", end=" ")
print("\n")

print("\nMatriz TF:")
print(tf_matrix)

print("\nVector IDF:")
print(idf_vector)

print("\nMatriz TF-IDF:")
print(tf_idf_matrix)

# Crear un DataFrame para mejor visualización
import pandas as pd

# Crear DataFrame para TF-IDF
terms = [term[0] for term in ev]
tf_idf_df = pd.DataFrame(tf_idf_matrix, 
                        columns=terms,
                        index=[f'Doc {i+1}' for i in range(len(stem_docs))])

print("\nMatriz TF-IDF en formato DataFrame:")
print(tf_idf_df.round(4))

Términos del espacio vectorial:
informat fundamental trabaj gestion desarroll facilit entorn tecnic permit solucion 


Matriz TF:
[[0.0625     0.125      0.0625     0.0625     0.         0.
  0.         0.         0.         0.        ]
 [0.08333333 0.08333333 0.08333333 0.         0.08333333 0.08333333
  0.08333333 0.         0.         0.        ]
 [0.0625     0.         0.         0.         0.         0.
  0.         0.0625     0.         0.0625    ]
 [0.05882353 0.05882353 0.         0.         0.05882353 0.
  0.         0.05882353 0.05882353 0.        ]
 [0.05882353 0.         0.05882353 0.05882353 0.         0.05882353
  0.05882353 0.         0.05882353 0.        ]]

Vector IDF:
[0.         0.51082562 0.51082562 0.91629073 0.91629073 0.91629073
 0.91629073 0.91629073 0.91629073 1.60943791]

Matriz TF-IDF:
[[0.         0.0638532  0.0319266  0.05726817 0.         0.
  0.         0.         0.         0.        ]
 [0.         0.0425688  0.0425688  0.         0.07635756 0.07635756
 

In [84]:
import numpy as np
from math import log

def create_tf_idf_matrix(stem_docs, ev):
    n_docs, n_terms = len(stem_docs), len(ev)
    tf_matrix = np.zeros((n_docs, n_terms))
    
    # Calcular TF y IDF en un solo paso
    doc_frequencies = np.zeros(n_terms)
    for i, doc in enumerate(stem_docs):
        doc_len = len(doc)
        if doc_len > 0:
            for j, term in enumerate(ev):
                count = doc.count(term[0])
                tf_matrix[i][j] = count / doc_len
                doc_frequencies[j] += 1 if count > 0 else 0
    
    # Calcular IDF y TF-IDF
    idf_vector = np.log(n_docs / np.maximum(doc_frequencies, 1))
    tf_idf_matrix = tf_matrix * idf_vector
    
    return tf_idf_matrix, idf_vector

In [85]:
def process_query(query_text, ev, stemmer, stopw):
    """Procesa una consulta y retorna su vector TF-IDF"""
    query_terms = [stemmer.stem(term) for term in query_text.lower().translate(
        str.maketrans('', '', string.punctuation)).split() 
        if term not in stopw]
    
    query_vector = np.array([1 if term[0] in query_terms else 0 for term in ev])
    query_len = np.sum(query_vector)
    
    return (query_vector / query_len) * idf_vector if query_len > 0 else query_vector

In [86]:
def rank_documents(query_text, ev, stemmer, stopw, tf_idf_matrix, docs):
    """Rankea todos los documentos para una consulta dada"""
    # Procesar consulta y calcular similitudes
    query_vector = process_query(query_text, ev, stemmer, stopw)
    similarities = cosine_similarity(query_vector.reshape(1, -1), tf_idf_matrix)[0]
    
    # Crear DataFrame con todos los resultados
    results = pd.DataFrame({
        'Ranking': range(1, len(docs) + 1),
        'Documento': [f'Doc {i+1}' for i in range(len(docs))],
        'Similitud': similarities,
        'Texto': docs
    })
    
    # Ordenar por similitud descendente y actualizar ranking
    results = results.sort_values('Similitud', ascending=False)
    results['Ranking'] = range(1, len(docs) + 1)
    
    return results

def display_results(query, ranked_docs):
    """Muestra resultados detallados incluyendo todos los documentos"""
    print(f"\n{'='*80}")
    print(f"Resultados para la consulta: '{query}'")
    print('='*80)
    
    # Mostrar documento más relevante
    top_doc = ranked_docs.iloc[0]
    print(f"\nDOCUMENTO MÁS RELEVANTE:")
    print(f"Ranking: {top_doc['Ranking']}")
    print(f"Documento: {top_doc['Documento']}")
    print(f"Similitud: {top_doc['Similitud']:.4f}")
    print(f"Texto: {top_doc['Texto']}")
    
    # Mostrar ranking completo
    print("\nRANKING COMPLETO DE DOCUMENTOS:")
    for _, doc in ranked_docs.iterrows():
        print(f"\nRanking: {doc['Ranking']}")
        print(f"Documento: {doc['Documento']}")
        print(f"Similitud: {doc['Similitud']:.4f}")
        print(f"Texto: {doc['Texto']}")
        print("-" * 40)
    
    # Mostrar estadísticas
    print("\nESTADÍSTICAS DE SIMILITUD:")
    print(f"Máxima similitud: {ranked_docs['Similitud'].max():.4f}")
    print(f"Mínima similitud: {ranked_docs['Similitud'].min():.4f}")
    print(f"Similitud promedio: {ranked_docs['Similitud'].mean():.4f}")


In [87]:
# Crear matriz TF-IDF
tf_idf_matrix, idf_vector = create_tf_idf_matrix(stem_docs, ev)

print("\nMatriz TF-IDF:")
print(tf_idf_matrix.round(4))
print("\nVector IDF:")
print(idf_vector.round(4))

# Procesar consultas
queries = [
    "habilidades blandas fundamentales",
    "habilidades técnicas",
    "solución y gestión en informática"
]

# Analizar y mostrar resultados para cada consulta
for query in queries:
    ranked_docs = rank_documents(query, ev, stemmer, stopw, tf_idf_matrix, docs)
    display_results(query, ranked_docs)


Matriz TF-IDF:
[[0.     0.0639 0.0319 0.0573 0.     0.     0.     0.     0.     0.    ]
 [0.     0.0426 0.0426 0.     0.0764 0.0764 0.0764 0.     0.     0.    ]
 [0.     0.     0.     0.     0.     0.     0.     0.0573 0.     0.1006]
 [0.     0.03   0.     0.     0.0539 0.     0.     0.0539 0.0539 0.    ]
 [0.     0.     0.03   0.0539 0.     0.0539 0.0539 0.     0.0539 0.    ]]

Vector IDF:
[0.     0.5108 0.5108 0.9163 0.9163 0.9163 0.9163 0.9163 0.9163 1.6094]

Resultados para la consulta: 'habilidades blandas fundamentales'

DOCUMENTO MÁS RELEVANTE:
Ranking: 1
Documento: Doc 1
Similitud: 0.6977
Texto: Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo.

RANKING COMPLETO DE DOCUMENTOS:

Ranking: 1
Documento: Doc 1
Similitud: 0.6977
Texto: Las habilidades blandas son fundamentales para el éxito en el campo de la informática. 

In [88]:
# Crear matriz TF-IDF
tf_idf_matrix, tf_idf_df = create_tf_idf_matrix(stem_docs, ev)

print("\nMatriz TF-IDF:")
print(tf_idf_matrix)
print(tf_idf_df)

# Procesar consultas
queries = [
    "habilidades blandas fundamentales",
    "habilidades técnicas",
    "solución y gestión en informática"
]

# Analizar resultados
for query in queries:
    results = rank_and_analyze_documents(query, ev, stemmer, stopw, tf_idf_matrix, docs)
    display_results(query, results)


Matriz TF-IDF:
[[0.         0.0638532  0.0319266  0.05726817 0.         0.
  0.         0.         0.         0.        ]
 [0.         0.0425688  0.0425688  0.         0.07635756 0.07635756
  0.07635756 0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         0.05726817 0.         0.10058987]
 [0.         0.03004857 0.         0.         0.05389945 0.
  0.         0.05389945 0.05389945 0.        ]
 [0.         0.         0.03004857 0.05389945 0.         0.05389945
  0.05389945 0.         0.05389945 0.        ]]
[0.         0.51082562 0.51082562 0.91629073 0.91629073 0.91629073
 0.91629073 0.91629073 0.91629073 1.60943791]


TypeError: rank_and_analyze_documents() missing 1 required positional argument: 'idf_vector'

#### 5. Calcule el vector de la consulta utilizando las mismas fórmulas de TF-IDF.

In [None]:
def calculate_query_tf_idf(query_vector, idf_vector):
    """
    Calcula el vector TF-IDF para una consulta
    
    Args:
        query_vector: Vector binario de la consulta
        idf_vector: Vector IDF calculado previamente del corpus
    
    Returns:
        Vector TF-IDF de la consulta
    """
    # Convertir a numpy array si no lo es
    query = np.array(query_vector)
    
    # Calcular TF para la consulta (como es binaria, será 1/número_de_términos_en_consulta)
    query_length = np.sum(query)
    if query_length > 0:
        tf_query = query / query_length
    else:
        tf_query = query
    
    # Calcular TF-IDF multiplicando por IDF
    query_tf_idf = tf_query * idf_vector
    
    return query_tf_idf

# Calcular TF-IDF para cada consulta
queries_tf_idf = []
for i, query in enumerate(queries):
    query_tf_idf = calculate_query_tf_idf(query, idf_vector)
    queries_tf_idf.append(query_tf_idf)
    
# Mostrar resultados en un DataFrame
queries_df = pd.DataFrame(queries_tf_idf, 
                         columns=[term[0] for term in ev],
                         index=[f'Query {i+1}: {read_queries[i]}' for i in range(len(queries))])

print("Vectores TF-IDF de las consultas:")
print(queries_df.round(4))

# Mostrar un resumen comparativo
print("\nResumen de vectores TF-IDF:")
for i, (query, query_tf_idf) in enumerate(zip(read_queries, queries_tf_idf)):
    print(f"\nQuery {i+1}: {query}")
    print("Términos con peso > 0:")
    for term, weight in zip([term[0] for term in ev], query_tf_idf):
        if weight > 0:
            print(f"- {term}: {weight:.4f}")

Vectores TF-IDF de las consultas:
                                              informat  fundamental  trabaj  \
Query 1: hablidad AND blanda AND fundamental       0.0       0.5108  0.0000   
Query 2: hablidad AND blanda AND NOT técnica       0.0       0.0568  0.0568   
Query 3: gestión OR solución                       0.0       0.0000  0.0000   

                                              gestion  desarroll  facilit  \
Query 1: hablidad AND blanda AND fundamental   0.0000     0.0000   0.0000   
Query 2: hablidad AND blanda AND NOT técnica   0.1018     0.1018   0.1018   
Query 3: gestión OR solución                   0.4581     0.0000   0.0000   

                                              entorn  tecnic  permit  solucion  
Query 1: hablidad AND blanda AND fundamental  0.0000     0.0  0.0000    0.0000  
Query 2: hablidad AND blanda AND NOT técnica  0.1018     0.0  0.1018    0.1788  
Query 3: gestión OR solución                  0.0000     0.0  0.0000    0.8047  

Resumen de vect

#### 6. Utilizando la similitud coseno, determine cuáles son los documentos por recuperarse para las siguientes consultas:
6.1. “habilidades blandas fundamentales”

6.2. “habilidades técnicas”

6.3. “solución y gestión en informática”

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

def process_query(query_text, ev, stemmer, stopw):
    """
    Procesa una consulta de texto y la convierte en vector binario
    """
    # Tokenización y stemming de la consulta
    query_terms = query_text.lower().translate(str.maketrans('', '', string.punctuation)).split()
    query_stems = [stemmer.stem(term) for term in query_terms if term not in stopw]
    
    # Crear vector binario
    query_vector = []
    for term in ev:
        query_vector.append(1 if term[0] in query_stems else 0)
    
    return query_vector

def calculate_cosine_similarities(query_tf_idf, tf_idf_matrix):
    """
    Calcula la similitud coseno entre la consulta y todos los documentos
    """
    # Reshape query vector para que coincida con el formato esperado
    query_vector = query_tf_idf.reshape(1, -1)
    
    # Calcular similitud coseno
    similarities = cosine_similarity(query_vector, tf_idf_matrix)[0]
    
    return similarities

# Definir las nuevas consultas
new_queries = [
    "habilidades blandas fundamentales",
    "habilidades técnicas",
    "solución y gestión en informática"
]

# Procesar cada consulta y calcular similitudes
print("Resultados de búsqueda para las consultas:\n")

for i, query_text in enumerate(new_queries, 1):
    print(f"\nConsulta {i}: '{query_text}'")
    
    # Procesar la consulta
    query_vector = process_query(query_text, ev, stemmer, stopw)
    
    # Calcular TF-IDF de la consulta
    query_tf_idf = calculate_query_tf_idf(query_vector, idf_vector)
    
    # Calcular similitudes coseno
    similarities = calculate_cosine_similarities(query_tf_idf, tf_idf_matrix)
    
    # Crear DataFrame con resultados
    results = pd.DataFrame({
        'Documento': [f'Doc {j+1}' for j in range(len(docs))],
        'Texto': docs,
        'Similitud': similarities
    })
    
    # Ordenar por similitud descendente
    results = results.sort_values('Similitud', ascending=False)
    
    # Mostrar solo documentos con similitud > 0
    relevant_results = results[results['Similitud'] > 0].round(4)
    
    if len(relevant_results) > 0:
        print("\nDocumentos relevantes encontrados (ordenados por similitud):")
        for _, row in relevant_results.iterrows():
            print(f"\nDoc {row['Documento']}")
            print(f"Similitud: {row['Similitud']:.4f}")
            print(f"Texto: {row['Texto']}")
    else:
        print("No se encontraron documentos relevantes para esta consulta.")
        
    print("\n" + "="*80)

# Visualización adicional de los vectores TF-IDF de las consultas
print("\nVectores TF-IDF de las consultas:")
for i, query_text in enumerate(new_queries, 1):
    query_vector = process_query(query_text, ev, stemmer, stopw)
    query_tf_idf = calculate_query_tf_idf(query_vector, idf_vector)
    
    print(f"\nConsulta {i}: '{query_text}'")
    print("Términos con peso > 0:")
    for term, weight in zip([term[0] for term in ev], query_tf_idf):
        if weight > 0:
            print(f"- {term}: {weight:.4f}")

Resultados de búsqueda para las consultas:


Consulta 1: 'habilidades blandas fundamentales'

Documentos relevantes encontrados (ordenados por similitud):

Doc Doc 1
Similitud: 0.6977
Texto: Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo.

Doc Doc 4
Similitud: 0.3064
Texto: La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas.

Doc Doc 2
Similitud: 0.2929
Texto: El desarrollo de habilidades blandas es fundamental para los informáticos, ya que estas competencias facilitan la interacción y colaboración en entornos de trabajo dinámicos.


Consulta 2: 'habilidades técnicas'

Documentos relevantes encontrados (ordenados por similitud):

Doc Doc 4
Sim

#### 7. Ordene los documentos en función de su similitud con la consulta, de mayor a menor.

In [None]:
def rank_documents_by_similarity(query_text, ev, stemmer, stopw, tf_idf_matrix, docs, threshold=0.0):
    """
    Rankea los documentos según su similitud con la consulta
    
    Args:
        query_text: texto de la consulta
        ev: espacio vectorial
        stemmer: stemmer para procesar la consulta
        stopw: stopwords
        tf_idf_matrix: matriz TF-IDF de los documentos
        docs: lista de documentos originales
        threshold: umbral mínimo de similitud (default 0.0)
    
    Returns:
        DataFrame con los documentos rankeados
    """
    # Procesar la consulta
    query_vector = process_query(query_text, ev, stemmer, stopw)
    query_tf_idf = calculate_query_tf_idf(query_vector, idf_vector)
    
    # Calcular similitudes
    similarities = calculate_cosine_similarities(query_tf_idf, tf_idf_matrix)
    
    # Crear DataFrame con resultados
    rankings = pd.DataFrame({
        'Ranking': range(1, len(docs) + 1),
        'Documento': [f'Documento {i+1}' for i in range(len(docs))],
        'Similitud': similarities,
        'Texto': docs
    })
    
    # Ordenar por similitud descendente
    rankings = rankings.sort_values('Similitud', ascending=False)
    rankings['Ranking'] = range(1, len(docs) + 1)
    
    return rankings[rankings['Similitud'] > threshold]

# Lista de consultas
queries = [
    "habilidades blandas fundamentales",
    "habilidades técnicas",
    "solución y gestión en informática"
]

# Procesar cada consulta y mostrar rankings
for i, query in enumerate(queries, 1):
    print(f"\n{'='*80}")
    print(f"Consulta {i}: '{query}'")
    print('='*80)
    
    # Obtener rankings
    rankings = rank_documents_by_similarity(
        query,
        ev,
        stemmer,
        stopw,
        tf_idf_matrix,
        docs
    )
    
    if len(rankings) > 0:
        print("\nRanking de documentos por relevancia:")
        print("\nDocumentos ordenados por similitud (mostrando solo similitudes > 0):\n")
        
        # Formatear la salida para mejor legibilidad
        for _, row in rankings.iterrows():
            if row['Similitud'] > 0:
                print(f"Posición {row['Ranking']}")
                print(f"Documento: {row['Documento']}")
                print(f"Similitud: {row['Similitud']:.4f}")
                print(f"Texto: {row['Texto']}")
                print("-" * 80)
                
        # Mostrar resumen estadístico
        print("\nResumen estadístico de similitudes:")
        print(rankings['Similitud'].describe().round(4))
    else:
        print("\nNo se encontraron documentos relevantes para esta consulta.")
        
    print("\nDistribución de similitudes:")
    if len(rankings) > 0:
        rankings_stats = pd.DataFrame({
            'Estadística': ['Máxima similitud', 'Mínima similitud', 'Similitud promedio'],
            'Valor': [
                rankings['Similitud'].max(),
                rankings['Similitud'].min(),
                rankings['Similitud'].mean()
            ]
        })
        print(rankings_stats.round(4))


Consulta 1: 'habilidades blandas fundamentales'

Ranking de documentos por relevancia:

Documentos ordenados por similitud (mostrando solo similitudes > 0):

Posición 1
Documento: Documento 1
Similitud: 0.6977
Texto: Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo.
--------------------------------------------------------------------------------
Posición 2
Documento: Documento 4
Similitud: 0.3064
Texto: La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas.
--------------------------------------------------------------------------------
Posición 3
Documento: Documento 2
Similitud: 0.2929
Texto: El desarrollo de habilidades blandas es fundamental p

#### 8. Determine cuál es el documento más relevante para la consulta dada.

In [None]:
def find_most_relevant_document(query_text, ev, stemmer, stopw, tf_idf_matrix, docs):
    """
    Encuentra y analiza el documento más relevante para una consulta dada
    
    Args:
        query_text: texto de la consulta
        ev: espacio vectorial
        stemmer: stemmer para procesar la consulta
        stopw: stopwords
        tf_idf_matrix: matriz TF-IDF de los documentos
        docs: lista de documentos originales
    
    Returns:
        dict con información del documento más relevante
    """
    # Procesar la consulta
    query_vector = process_query(query_text, ev, stemmer, stopw)
    query_tf_idf = calculate_query_tf_idf(query_vector, idf_vector)
    
    # Calcular similitudes
    similarities = calculate_cosine_similarities(query_tf_idf, tf_idf_matrix)
    
    # Encontrar el documento más relevante
    max_sim_index = np.argmax(similarities)
    max_similarity = similarities[max_sim_index]
    
    # Obtener términos más importantes del documento
    doc_terms = [term[0] for term in ev]
    doc_weights = tf_idf_matrix[max_sim_index]
    
    # Crear dict con términos y sus pesos
    important_terms = {
        term: weight for term, weight in zip(doc_terms, doc_weights)
        if weight > 0
    }
    
    return {
        'doc_index': max_sim_index,
        'doc_text': docs[max_sim_index],
        'similarity': max_similarity,
        'important_terms': dict(sorted(important_terms.items(), 
                                     key=lambda x: x[1], 
                                     reverse=True))
    }

# Lista de consultas
queries = [
    "habilidades blandas fundamentales",
    "habilidades técnicas",
    "solución y gestión en informática"
]

print("Análisis de documentos más relevantes para cada consulta:\n")

for i, query in enumerate(queries, 1):
    print(f"\n{'='*80}")
    print(f"Consulta {i}: '{query}'")
    print('='*80)
    
    # Encontrar documento más relevante
    result = find_most_relevant_document(
        query,
        ev,
        stemmer,
        stopw,
        tf_idf_matrix,
        docs
    )
    
    if result['similarity'] > 0:
        print(f"\nDocumento más relevante (#{result['doc_index'] + 1}):")
        print(f"\nTexto del documento:\n{result['doc_text']}")
        print(f"\nSimilitud con la consulta: {result['similarity']:.4f}")
        
        print("\nAnálisis de términos importantes en el documento:")
        for term, weight in result['important_terms'].items():
            print(f"- {term}: {weight:.4f}")
            
        # Mostrar términos comunes entre consulta y documento
        query_stems = [stemmer.stem(term) for term in query.lower().split() 
                      if term not in stopw]
        common_terms = [term for term in result['important_terms'].keys() 
                       if term in query_stems]
        
        print("\nTérminos comunes entre consulta y documento:")
        for term in common_terms:
            print(f"- {term}")
            
    else:
        print("\nNo se encontró ningún documento relevante para esta consulta.")
        
    print("\nComparación con segundo documento más relevante:")
    # Obtener todas las similitudes ordenadas
    sorted_indices = np.argsort(similarities)[::-1]
    if len(sorted_indices) > 1 and similarities[sorted_indices[1]] > 0:
        second_best_idx = sorted_indices[1]
        print(f"Diferencia de similitud: {(similarities[sorted_indices[0]] - similarities[second_best_idx]):.4f}")
        print(f"Texto del segundo documento más relevante:\n{docs[second_best_idx]}")
    else:
        print("No hay segundo documento relevante para comparar.")

Análisis de documentos más relevantes para cada consulta:


Consulta 1: 'habilidades blandas fundamentales'

Documento más relevante (#1):

Texto del documento:
Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo.

Similitud con la consulta: 0.6977

Análisis de términos importantes en el documento:
- fundamental: 0.0639
- gestion: 0.0573
- trabaj: 0.0319

Términos comunes entre consulta y documento:
- fundamental

Comparación con segundo documento más relevante:
Diferencia de similitud: 0.4456
Texto del segundo documento más relevante:
Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo.

Consulta 2: 'habilidades técnicas'

Documento más relevante (#4):

Texto del docum