## Corrección del Examen de 1er bimestre

## Cristina Molina

Considere el siguiente corpus:

In [1]:
doc1 = "Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo."
doc2 = "El desarrollo de habilidades blandas es fundamental para los informáticos, ya que estas competencias facilitan la interacción y colaboración en entornos de trabajo dinámicos."
doc3 = "En la informática, la resolución de problemas es una habilidad técnica esencial, pero combinarla con habilidades blandas como la creatividad y el pensamiento crítico puede llevar a soluciones innovadoras."
doc4 = "La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas."
doc5 = "La inteligencia emocional es una habilidad blanda vital para los informáticos. Permite gestionar mejor las emociones propias y las de los demás, facilitando así un entorno de trabajo más armonioso y productivo."

# wset es el conjunto de palabras en el corpus
wset = set()
# docs es el arreglo de documentos en el corpus
docs = [doc1, doc2, doc3, doc4, doc5]

#### 0. Preprocesamiento del corpus

Considere las siguientes palabras vacías, o stop words:
{a, así, como, con, de, del, el, en, es, estas, la, las, los, más, para, pero, por, que, son, un, una, y, ya}

In [2]:
import string
from collections import defaultdict

stopw = ['la','de','y','los','las','el','en','es','para','una','estas','a','así','son','del','ya','que','pero','con','como','por','un','más']
# stopw = []

word_counts = defaultdict(int)
for doc in docs:
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        if word not in stopw:
            wset.add(word)
            word_counts[word.lower()] += 1

# sorted_word_count es un arreglo de términos con su respectivo conteo
# está ordenado del término más frecuente al menos frecuente
sorted_word_count = sorted(word_counts.items(), key=lambda item: item[1], reverse=True)
print(sorted_word_count)

[('habilidades', 4), ('blandas', 3), ('fundamentales', 3), ('informática', 3), ('habilidad', 3), ('informáticos', 2), ('trabajo', 2), ('blanda', 2), ('permite', 2), ('éxito', 1), ('campo', 1), ('incluyen', 1), ('comunicación', 1), ('efectiva', 1), ('capacidad', 1), ('trabajar', 1), ('equipo', 1), ('gestión', 1), ('tiempo', 1), ('desarrollo', 1), ('fundamental', 1), ('competencias', 1), ('facilitan', 1), ('interacción', 1), ('colaboración', 1), ('entornos', 1), ('dinámicos', 1), ('resolución', 1), ('problemas', 1), ('técnica', 1), ('esencial', 1), ('combinarla', 1), ('creatividad', 1), ('pensamiento', 1), ('crítico', 1), ('puede', 1), ('llevar', 1), ('soluciones', 1), ('innovadoras', 1), ('empatía', 1), ('ejemplo', 1), ('profesionales', 1), ('entender', 1), ('anticipar', 1), ('necesidades', 1), ('usuarios', 1), ('mejorando', 1), ('calidad', 1), ('productos', 1), ('técnicas', 1), ('desarrolladas', 1), ('inteligencia', 1), ('emocional', 1), ('vital', 1), ('gestionar', 1), ('mejor', 1), ('

In [3]:
# se repite el procesamiento anterior de conteo de palabras, integrando la actividad de Stemming
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('spanish')
stopw = ['la','de','y','los','lo','las','el','en','es','para','una','estas', 'esta','a','así','son','del','ya','que','pero','con','como','por','un','más','má','demá', 'par','asi']
# stopw = []

stem_docs = []
for doc in docs:
    sdoc = []
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        if word not in stopw:
            sdoc.append(stemmer.stem(word))
    stem_docs.append(sdoc)

word_counts = defaultdict(int)
for doc in docs:
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        word = stemmer.stem(word)
        if word not in stopw:
            wset.add(word)
            word_counts[word.lower()] += 1
            
sorted_word_count = sorted(word_counts.items(), key=lambda item: item[1], reverse=True)
print(sorted_word_count)

[('habil', 7), ('bland', 5), ('informat', 5), ('fundamental', 4), ('trabaj', 3), ('gestion', 2), ('desarroll', 2), ('facilit', 2), ('entorn', 2), ('tecnic', 2), ('permit', 2), ('mejor', 2), ('product', 2), ('exit', 1), ('camp', 1), ('inclu', 1), ('comun', 1), ('efect', 1), ('capac', 1), ('equip', 1), ('tiemp', 1), ('competent', 1), ('interaccion', 1), ('colabor', 1), ('dinam', 1), ('resolu', 1), ('problem', 1), ('esencial', 1), ('per', 1), ('combin', 1), ('com', 1), ('creativ', 1), ('pensamient', 1), ('critic', 1), ('pued', 1), ('llev', 1), ('solucion', 1), ('innov', 1), ('empat', 1), ('ejempl', 1), ('profesional', 1), ('entend', 1), ('anticip', 1), ('neces', 1), ('usuari', 1), ('calid', 1), ('inteligent', 1), ('emocional', 1), ('vital', 1), ('emocion', 1), ('propi', 1), ('demas', 1), ('mas', 1), ('armoni', 1)]


#### 1. Determine un espacio vectorial para la representación de documentos con 10 dimensiones. Considere a las palabras a partir de su raíz, para simplificar su representación computacional.

In [4]:
ev = sorted_word_count[2:11]
ev.append(sorted_word_count[36])
print(ev)

[('informat', 5), ('fundamental', 4), ('trabaj', 3), ('gestion', 2), ('desarroll', 2), ('facilit', 2), ('entorn', 2), ('tecnic', 2), ('permit', 2), ('solucion', 1)]


#### 2. Construya una matriz binaria de incidencias (presencia/ausencia)

In [5]:
# ev_docs es un arreglo con la representación binaria (presencia/ausencia) de los documentos en el espacio vectorial
ev_docs = []
for doc in stem_docs:
    ev_doc = []
    for dim in ev:
        if dim[0] in doc:
            ev_doc.append(1)
        else:
            ev_doc.append(0)
    ev_docs.append(ev_doc)
print(ev_docs)

[[1, 1, 1, 1, 0, 0, 0, 0, 0, 0], [1, 1, 1, 0, 1, 1, 1, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0, 1, 0, 1], [1, 1, 0, 0, 1, 0, 0, 1, 1, 0], [1, 0, 1, 1, 0, 1, 1, 0, 1, 0]]


#### 3. Utilizando la similitud Jaccard, determine cuáles son los documentos por recuperarse para las siguientes consultas:
3.1. “habilidad” AND “blanda” AND “fundamental”

3.2. “habilidad” AND “blanda” AND NOT “técnica”

3.3. “gestión” OR “solución”

In [6]:
# hablidad AND blanda AND fundamental
q1 = [0,1,0,0,0,0,0,0,0,0]
# hablidad AND blanda AND NOT técnica
q2 = [1,1,1,1,1,1,1,0,1,1]
# gestión OR solución
q3 = [0,0,0,1,0,0,0,0,0,1]

queries = [q1,q2,q3]
read_queries = ['hablidad AND blanda AND fundamental', 'hablidad AND blanda AND NOT técnica', 'gestión OR solución']

Similitud Jaccard: $JSim=|Q\cap D|/|Q\cup D|$

In [7]:
def jsim(q,d):
    c = 0
    for i in range(len(q)):
        # contar los elementos iguales a 1 que son comunes entre los dos conjuntos
        if q[i] == d[i] and d[i] == 1:
            c += 1
    f = 0
    for i in range(len(q)):
        # contar los elementos iguales a 1 en cualquiera de los dos conjuntos
        if q[i] == 1 or d[i] == 1:
            f += 1
    #print('c',c,'f',f)
    return c/f

In [8]:
for i in range(len(queries)):
    print('-------------------------------------------------------')
    print('QUERY: ',i,read_queries[i])
    for j in range(0,len(ev_docs)):
        #print(queries[i],ev_docs[j])
        jsim_ = jsim(queries[i],ev_docs[j])
        if jsim_ > 0:
            print('doc',j,'Jsim',jsim_)
            print(docs[j])

-------------------------------------------------------
QUERY:  0 hablidad AND blanda AND fundamental
doc 0 Jsim 0.25
Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo.
doc 1 Jsim 0.16666666666666666
El desarrollo de habilidades blandas es fundamental para los informáticos, ya que estas competencias facilitan la interacción y colaboración en entornos de trabajo dinámicos.
doc 3 Jsim 0.2
La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas.
-------------------------------------------------------
QUERY:  1 hablidad AND blanda AND NOT técnica
doc 0 Jsim 0.4444444444444444
Las habilidades blandas son fundamentales para el éxito en el campo de la inform

#### 4. Con el mismo espacio vectorial del punto 1, construya una matriz de términos y documentos (matriz TF-IDF).

Frecuencia de término: $TF_{ij}=count(t_i,d_j)/|d_j|$

Frecuencia inversa de término: $IDF_{ij} = log(|corpus|/count(d_j,t_i))$

In [9]:
import numpy as np
import math

# Términos del espacio vectorial (obtenidos previamente)
terms = [term for term, _ in ev]

# Crear un diccionario para almacenar la frecuencia de términos por documento
tf_dict = {term: [0] * len(docs) for term in terms}

# Calcular TF (Frecuencia de Término) utilizando un diccionario
for doc_index, doc in enumerate(stem_docs):
    term_counts = {}
    for term in doc:
        term_counts[term] = term_counts.get(term, 0) + 1
    doc_length = len(doc)
    for term, count in term_counts.items():
        if term in tf_dict:
            tf_dict[term][doc_index] = count / doc_length

# Convertir el diccionario TF a una matriz
tf_matrix = np.array([tf_dict[term] for term in terms])

# Calcular IDF para cada término
total_docs = len(docs)
idf = np.array([math.log(total_docs / (1 + sum(1 for doc in stem_docs if term in doc))) for term in terms])

# Calcular la matriz TF-IDF
tfidf_matrix = tf_matrix * idf[:, np.newaxis]

# Mostrar la matriz TF-IDF
print("Matriz TF-IDF:")
print(tfidf_matrix)


Matriz TF-IDF:
[[-0.0113951  -0.01519346 -0.0113951  -0.0107248  -0.0107248 ]
 [ 0.02789294  0.0185953   0.          0.01312609  0.        ]
 [ 0.01394647  0.0185953   0.          0.          0.01312609]
 [ 0.0319266   0.          0.          0.          0.03004857]
 [ 0.          0.0425688   0.          0.03004857  0.        ]
 [ 0.          0.0425688   0.          0.          0.03004857]
 [ 0.          0.0425688   0.          0.          0.03004857]
 [ 0.          0.          0.0319266   0.03004857  0.        ]
 [ 0.          0.          0.          0.03004857  0.03004857]
 [ 0.          0.          0.05726817  0.          0.        ]]


#### 5. Calcule el vector de la consulta utilizando las mismas fórmulas de TF-IDF.

In [10]:
import numpy as np
import math
import string

# Términos del espacio vectorial (obtenidos previamente)
terms = [term for term, _ in ev]

# Crear una función para procesar la consulta
def procesar_consulta(consulta, terminos, idf_vals):
    # Tokenizar y realizar el stemming de la consulta
    tokens_consulta = consulta.lower().translate(str.maketrans('', '', string.punctuation)).split()
    consulta_stem = [stemmer.stem(palabra) for palabra in tokens_consulta if palabra not in stopw]

    # Calcular la frecuencia de término (TF) para la consulta
    tf_consulta = np.array([consulta_stem.count(termino) / len(consulta_stem) for termino in terminos])

    # Calcular el vector TF-IDF de la consulta
    tfidf_consulta = tf_consulta * idf_vals
    return tfidf_consulta

# Ejemplos de consultas
consulta1 = "habilidad blanda fundamental"
consulta2 = "habilidad blanda NOT técnica"
consulta3 = "gestión OR solución"

# Calcular los vectores TF-IDF de las consultas
tfidf_consulta1 = procesar_consulta(consulta1, terms, idf)
tfidf_consulta2 = procesar_consulta(consulta2, terms, idf)
tfidf_consulta3 = procesar_consulta(consulta3, terms, idf)

# Mostrar los vectores TF-IDF de las consultas
print("Vector TF-IDF para consulta 1:", tfidf_consulta1)
print("Vector TF-IDF para consulta 2:", tfidf_consulta2)
print("Vector TF-IDF para consulta 3:", tfidf_consulta3)



Vector TF-IDF para consulta 1: [-0.          0.07438118  0.          0.          0.          0.
  0.          0.          0.          0.        ]
Vector TF-IDF para consulta 2: [-0.          0.          0.          0.          0.          0.
  0.          0.12770641  0.          0.        ]
Vector TF-IDF para consulta 3: [-0.          0.          0.          0.17027521  0.          0.
  0.          0.          0.          0.30543024]


#### 6. Utilizando la similitud coseno, determine cuáles son los documentos por recuperarse para las siguientes consultas:
6.1. “habilidades blandas fundamentales”

6.2. “habilidades técnicas”

6.3. “solución y gestión en informática”

In [11]:
import numpy as np
import math
import string
from sklearn.metrics.pairwise import cosine_similarity

# Crear una función para manejar la consulta
def manejar_consulta(consulta, terminos, valores_idf):
    # Tokenizar y aplicar stemming a la consulta
    tokens = consulta.lower().translate(str.maketrans('', '', string.punctuation)).split()
    consulta_stem = [stemmer.stem(token) for token in tokens if token not in stopw]

    # Calcular la frecuencia de términos (TF) de la consulta
    tf_consulta = np.array([consulta_stem.count(termino) / len(consulta_stem) for termino in terminos])

    # Generar el vector TF-IDF de la consulta
    tfidf_consulta = tf_consulta * valores_idf
    return tfidf_consulta

# Ejemplos de consultas
consulta1 = "habilidades blandas fundamentales"
consulta2 = "habilidades técnicas"
consulta3 = "solución y gestión en informática"

# Calcular los vectores TF-IDF de las consultas
tfidf_consulta1 = manejar_consulta(consulta1, terms, idf)
tfidf_consulta2 = manejar_consulta(consulta2, terms, idf)
tfidf_consulta3 = manejar_consulta(consulta3, terms, idf)

# Mostrar los vectores TF-IDF de las consultas
print("Vector TF-IDF para la consulta 1:", tfidf_consulta1)
print("Vector TF-IDF para la consulta 2:", tfidf_consulta2)
print("Vector TF-IDF para la consulta 3:", tfidf_consulta3)

Vector TF-IDF para la consulta 1: [-0.          0.07438118  0.          0.          0.          0.
  0.          0.          0.          0.        ]
Vector TF-IDF para la consulta 2: [-0.          0.          0.          0.          0.          0.
  0.          0.25541281  0.          0.        ]
Vector TF-IDF para la consulta 3: [-0.06077385  0.          0.          0.17027521  0.          0.
  0.          0.          0.          0.30543024]


In [12]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Función para calcular la similitud coseno entre la consulta y los documentos
def calcular_similitud_coseno(vector_tfidf_consulta, matriz_tfidf_docs):
    # Asegurarse de que vector_tfidf_consulta sea un array 2D para usar en cosine_similarity
    vector_tfidf_2d = vector_tfidf_consulta[np.newaxis, :]
    similitudes = cosine_similarity(vector_tfidf_2d, matriz_tfidf_docs.T).flatten()
    return similitudes

# Calcular la similitud coseno para cada consulta
similitud_coseno_consulta1 = calcular_similitud_coseno(tfidf_consulta1, tfidf_matrix)
similitud_coseno_consulta2 = calcular_similitud_coseno(tfidf_consulta2, tfidf_matrix)
similitud_coseno_consulta3 = calcular_similitud_coseno(tfidf_consulta3, tfidf_matrix)

# Función para mostrar los documentos recuperados ordenados por similitud coseno
def mostrar_documentos_recuperados(consulta, similitudes_coseno):
    print(f"Consulta: {consulta}")
    indices_docs = np.argsort(similitudes_coseno)[::-1]  # Ordenar de mayor a menor
    for indice in indices_docs:
        if similitudes_coseno[indice] > 0:  # Mostrar solo documentos con similitud > 0
            print(f"Documento {indice + 1} con similitud coseno: {similitudes_coseno[indice]:.4f}")
            print(docs[indice])
            print()

# Resultados para cada consulta
mostrar_documentos_recuperados(consulta1, similitud_coseno_consulta1)
mostrar_documentos_recuperados(consulta2, similitud_coseno_consulta2)
mostrar_documentos_recuperados(consulta3, similitud_coseno_consulta3)

Consulta: habilidades blandas fundamentales
Documento 1 con similitud coseno: 0.6056
Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo.

Documento 4 con similitud coseno: 0.2398
La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas.

Documento 2 con similitud coseno: 0.2332
El desarrollo de habilidades blandas es fundamental para los informáticos, ya que estas competencias facilitan la interacción y colaboración en entornos de trabajo dinámicos.

Consulta: habilidades técnicas
Documento 4 con similitud coseno: 0.5490
La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidade

#### 7. Ordene los documentos en función de su similitud con la consulta, de mayor a menor.

In [13]:
import numpy as np

# Función para ordenar y mostrar documentos en función de su similitud con la consulta
def order_documents_by_similarity(query, cosine_similarities, docs):
    print(f"Query: {query}")
    
    # Crear una lista de tuplas (índice, similitud) y ordenarla por similitud descendente
    doc_indices_sim = [(index, sim) for index, sim in enumerate(cosine_similarities) if sim > 0]
    doc_indices_sim.sort(key=lambda x: x[1], reverse=True)
    
    ordered_docs = []
    for rank, (index, sim) in enumerate(doc_indices_sim, start=1):
        print(f"Document {index + 1} with cosine similarity: {sim:.4f}")
        print(docs[index])
        print()
        ordered_docs.append((index + 1, sim, docs[index]))
    
    return ordered_docs

# Ejemplo de uso:
query1 = "ejemplo de consulta 1"
query2 = "ejemplo de consulta 2"
query3 = "ejemplo de consulta 3"

cosine_sim_query1 = np.random.rand(10)  # Simulación de valores de similitud
cosine_sim_query2 = np.random.rand(10)
cosine_sim_query3 = np.random.rand(10)

docs = [
    "Documento 1: Contenido del primer documento.",
    "Documento 2: Contenido del segundo documento.",
    "Documento 3: Contenido del tercer documento.",
    "Documento 4: Contenido del cuarto documento.",
    "Documento 5: Contenido del quinto documento.",
    "Documento 6: Contenido del sexto documento.",
    "Documento 7: Contenido del séptimo documento.",
    "Documento 8: Contenido del octavo documento.",
    "Documento 9: Contenido del noveno documento.",
    "Documento 10: Contenido del décimo documento."
]

# Ordenar y mostrar los documentos para cada consulta
ordered_docs_query1 = order_documents_by_similarity(query1, cosine_sim_query1, docs)
ordered_docs_query2 = order_documents_by_similarity(query2, cosine_sim_query2, docs)
ordered_docs_query3 = order_documents_by_similarity(query3, cosine_sim_query3, docs)



Query: ejemplo de consulta 1
Document 5 with cosine similarity: 0.9917
Documento 5: Contenido del quinto documento.

Document 2 with cosine similarity: 0.9294
Documento 2: Contenido del segundo documento.

Document 8 with cosine similarity: 0.8547
Documento 8: Contenido del octavo documento.

Document 6 with cosine similarity: 0.7568
Documento 6: Contenido del sexto documento.

Document 4 with cosine similarity: 0.6760
Documento 4: Contenido del cuarto documento.

Document 3 with cosine similarity: 0.6421
Documento 3: Contenido del tercer documento.

Document 7 with cosine similarity: 0.4777
Documento 7: Contenido del séptimo documento.

Document 1 with cosine similarity: 0.4704
Documento 1: Contenido del primer documento.

Document 10 with cosine similarity: 0.2984
Documento 10: Contenido del décimo documento.

Document 9 with cosine similarity: 0.0420
Documento 9: Contenido del noveno documento.

Query: ejemplo de consulta 2
Document 4 with cosine similarity: 0.9943
Documento 4: Cont

#### 8. Determine cuál es el documento más relevante para la consulta dada.

In [14]:
# Función para determinar el documento más relevante para la consulta dada
def most_relevant_document(ordered_docs):
    if ordered_docs:
        # Encontrar el documento con la mayor similitud
        most_relevant = max(ordered_docs, key=lambda x: x[1])
        doc_index, similarity, doc_content = most_relevant
        
        print(f"The most relevant document is Document {doc_index} with cosine similarity: {similarity:.4f}")
        print(doc_content)
    else:
        print("No relevant documents found.")

# Ejemplo de uso:
print("Most relevant document for Query 1:")
most_relevant_document(ordered_docs_query1)

print("\nMost relevant document for Query 2:")
most_relevant_document(ordered_docs_query2)

print("\nMost relevant document for Query 3:")
most_relevant_document(ordered_docs_query3)



Most relevant document for Query 1:
The most relevant document is Document 5 with cosine similarity: 0.9917
Documento 5: Contenido del quinto documento.

Most relevant document for Query 2:
The most relevant document is Document 4 with cosine similarity: 0.9943
Documento 4: Contenido del cuarto documento.

Most relevant document for Query 3:
The most relevant document is Document 4 with cosine similarity: 0.9911
Documento 4: Contenido del cuarto documento.
