## Corrección del Examen de 1er bimestre

Considere el siguiente corpus:

In [1]:
doc1 = "Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo."
doc2 = "El desarrollo de habilidades blandas es fundamental para los informáticos, ya que estas competencias facilitan la interacción y colaboración en entornos de trabajo dinámicos."
doc3 = "En la informática, la resolución de problemas es una habilidad técnica esencial, pero combinarla con habilidades blandas como la creatividad y el pensamiento crítico puede llevar a soluciones innovadoras."
doc4 = "La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas."
doc5 = "La inteligencia emocional es una habilidad blanda vital para los informáticos. Permite gestionar mejor las emociones propias y las de los demás, facilitando así un entorno de trabajo más armonioso y productivo."

# wset es el conjunto de palabras en el corpus
wset = set()
# docs es el arreglo de documentos en el corpus
docs = [doc1, doc2, doc3, doc4, doc5]

#### 0. Preprocesamiento del corpus

Considere las siguientes palabras vacías, o stop words:
{a, así, como, con, de, del, el, en, es, estas, la, las, los, más, para, pero, por, que, son, un, una, y, ya}

In [2]:
import string
from collections import defaultdict

stopw = ['la','de','y','los','las','el','en','es','para','una','estas','a','así','son','del','ya','que','pero','con','como','por','un','más']
# stopw = []

word_counts = defaultdict(int)
for doc in docs:
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        if word not in stopw:
            wset.add(word)
            word_counts[word.lower()] += 1

# sorted_word_count es un arreglo de términos con su respectivo conteo
# está ordenado del término más frecuente al menos frecuente
sorted_word_count = sorted(word_counts.items(), key=lambda item: item[1], reverse=True)
print(sorted_word_count)

[('habilidades', 4), ('blandas', 3), ('fundamentales', 3), ('informática', 3), ('habilidad', 3), ('informáticos', 2), ('trabajo', 2), ('blanda', 2), ('permite', 2), ('éxito', 1), ('campo', 1), ('incluyen', 1), ('comunicación', 1), ('efectiva', 1), ('capacidad', 1), ('trabajar', 1), ('equipo', 1), ('gestión', 1), ('tiempo', 1), ('desarrollo', 1), ('fundamental', 1), ('competencias', 1), ('facilitan', 1), ('interacción', 1), ('colaboración', 1), ('entornos', 1), ('dinámicos', 1), ('resolución', 1), ('problemas', 1), ('técnica', 1), ('esencial', 1), ('combinarla', 1), ('creatividad', 1), ('pensamiento', 1), ('crítico', 1), ('puede', 1), ('llevar', 1), ('soluciones', 1), ('innovadoras', 1), ('empatía', 1), ('ejemplo', 1), ('profesionales', 1), ('entender', 1), ('anticipar', 1), ('necesidades', 1), ('usuarios', 1), ('mejorando', 1), ('calidad', 1), ('productos', 1), ('técnicas', 1), ('desarrolladas', 1), ('inteligencia', 1), ('emocional', 1), ('vital', 1), ('gestionar', 1), ('mejor', 1), ('

In [3]:
# se repite el procesamiento anterior de conteo de palabras, integrando la actividad de Stemming
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('spanish')
stopw = ['la','de','y','los','lo','las','el','en','es','para','una','estas', 'esta','a','así','son','del','ya','que','pero','con','como','por','un','más','má','demá', 'par','asi']
# stopw = []

stem_docs = []
for doc in docs:
    sdoc = []
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        if word not in stopw:
            sdoc.append(stemmer.stem(word))
    stem_docs.append(sdoc)

word_counts = defaultdict(int)
for doc in docs:
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        word = stemmer.stem(word)
        if word not in stopw:
            wset.add(word)
            word_counts[word.lower()] += 1
            
sorted_word_count = sorted(word_counts.items(), key=lambda item: item[1], reverse=True)
print(sorted_word_count)

[('habil', 7), ('bland', 5), ('informat', 5), ('fundamental', 4), ('trabaj', 3), ('gestion', 2), ('desarroll', 2), ('facilit', 2), ('entorn', 2), ('tecnic', 2), ('permit', 2), ('mejor', 2), ('product', 2), ('exit', 1), ('camp', 1), ('inclu', 1), ('comun', 1), ('efect', 1), ('capac', 1), ('equip', 1), ('tiemp', 1), ('competent', 1), ('interaccion', 1), ('colabor', 1), ('dinam', 1), ('resolu', 1), ('problem', 1), ('esencial', 1), ('per', 1), ('combin', 1), ('com', 1), ('creativ', 1), ('pensamient', 1), ('critic', 1), ('pued', 1), ('llev', 1), ('solucion', 1), ('innov', 1), ('empat', 1), ('ejempl', 1), ('profesional', 1), ('entend', 1), ('anticip', 1), ('neces', 1), ('usuari', 1), ('calid', 1), ('inteligent', 1), ('emocional', 1), ('vital', 1), ('emocion', 1), ('propi', 1), ('demas', 1), ('mas', 1), ('armoni', 1)]


#### 1. Determine un espacio vectorial para la representación de documentos con 10 dimensiones. Considere a las palabras a partir de su raíz, para simplificar su representación computacional.

In [4]:
ev = sorted_word_count[2:11]
ev.append(sorted_word_count[36])
print(ev)

[('informat', 5), ('fundamental', 4), ('trabaj', 3), ('gestion', 2), ('desarroll', 2), ('facilit', 2), ('entorn', 2), ('tecnic', 2), ('permit', 2), ('solucion', 1)]


#### 2. Construya una matriz binaria de incidencias (presencia/ausencia)

In [5]:
# ev_docs es un arreglo con la representación binaria (presencia/ausencia) de los documentos en el espacio vectorial
ev_docs = []
for doc in stem_docs:
    ev_doc = []
    for dim in ev:
        if dim[0] in doc:
            ev_doc.append(1)
        else:
            ev_doc.append(0)
    ev_docs.append(ev_doc)
print(ev_docs)

[[1, 1, 1, 1, 0, 0, 0, 0, 0, 0], [1, 1, 1, 0, 1, 1, 1, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0, 1, 0, 1], [1, 1, 0, 0, 1, 0, 0, 1, 1, 0], [1, 0, 1, 1, 0, 1, 1, 0, 1, 0]]


#### 3. Utilizando la similitud Jaccard, determine cuáles son los documentos por recuperarse para las siguientes consultas:
3.1. “habilidad” AND “blanda” AND “fundamental”

3.2. “habilidad” AND “blanda” AND NOT “técnica”

3.3. “gestión” OR “solución”

In [6]:
# hablidad AND blanda AND fundamental
q1 = [0,1,0,0,0,0,0,0,0,0]
# hablidad AND blanda AND NOT técnica
q2 = [1,1,1,1,1,1,1,0,1,1]
# gestión OR solución
q3 = [0,0,0,1,0,0,0,0,0,1]

queries = [q1,q2,q3]
read_queries = ['hablidad AND blanda AND fundamental', 'hablidad AND blanda AND NOT técnica', 'gestión OR solución']

Similitud Jaccard: $JSim=|Q\cap D|/|Q\cup D|$

In [7]:
def jsim(q,d):
    c = 0
    for i in range(len(q)):
        # contar los elementos iguales a 1 que son comunes entre los dos conjuntos
        if q[i] == d[i] and d[i] == 1:
            c += 1
    f = 0
    for i in range(len(q)):
        # contar los elementos iguales a 1 en cualquiera de los dos conjuntos
        if q[i] == 1 or d[i] == 1:
            f += 1
    #print('c',c,'f',f)
    return c/f

In [8]:
for i in range(len(queries)):
    print('-------------------------------------------------------')
    print('QUERY: ',i,read_queries[i])
    for j in range(0,len(ev_docs)):
        #print(queries[i],ev_docs[j])
        jsim_ = jsim(queries[i],ev_docs[j])
        if jsim_ > 0:
            print('doc',j,'Jsim',jsim_)
            print(docs[j])

-------------------------------------------------------
QUERY:  0 hablidad AND blanda AND fundamental
doc 0 Jsim 0.25
Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo.
doc 1 Jsim 0.16666666666666666
El desarrollo de habilidades blandas es fundamental para los informáticos, ya que estas competencias facilitan la interacción y colaboración en entornos de trabajo dinámicos.
doc 3 Jsim 0.2
La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas.
-------------------------------------------------------
QUERY:  1 hablidad AND blanda AND NOT técnica
doc 0 Jsim 0.4444444444444444
Las habilidades blandas son fundamentales para el éxito en el campo de la inform

#### 4. Con el mismo espacio vectorial del punto 1, construya una matriz de términos y documentos (matriz TF-IDF).

Frecuencia de término: $TF_{ij}=count(t_i,d_j)/|d_j|$

Frecuencia inversa de término: $IDF_{ij} = log(|corpus|/count(d_j,t_i))$

In [9]:
import math
from collections import Counter

# Función para calcular TF
def compute_tf(doc):
    words = doc.split()
    total_words = len(words)
    tf = {}
    for word in words:
        if word in tf:
            tf[word] += 1
        else:
            tf[word] = 1
    for word in tf:
        tf[word] = tf[word] / total_words
    return tf

# Función para calcular IDF
def compute_idf(docs):
    num_docs = len(docs)
    idf = {}
    for doc in docs:
        words = set(doc.split())
        for word in words:
            if word in idf:
                idf[word] += 1
            else:
                idf[word] = 1
    for word in idf:
        idf[word] = math.log(num_docs / idf[word])
    return idf

# Calcular TF para cada documento
tf_docs = [compute_tf(doc) for doc in docs]

# Calcular IDF para el corpus
idf = compute_idf(docs)

# Obtener todos los términos únicos del corpus
all_terms = set()
for doc in docs:
    all_terms.update(doc.split())

# Calcular TF-IDF para cada documento utilizando el mismo espacio vectorial
tfidf_docs = []
for tf_doc in tf_docs:
    tfidf_doc = {term: 0.0 for term in all_terms}  # Inicializar con todos los términos
    for word in tf_doc:
        tfidf_doc[word] = tf_doc[word] * idf[word]
    tfidf_docs.append(tfidf_doc)

# Mostrar la matriz TF-IDF
print("Matriz TF-IDF:")
for i, doc in enumerate(tfidf_docs):
    print(f"Documento {i+1}:")
    print(doc)


Matriz TF-IDF:
Documento 1:
{'es': 0.0, 'trabajo': 0.0, 'empatía,': 0.0, 'desarrolladas.': 0.0, 'de': 0.0, 'equipo': 0.050294934763565634, 'creatividad': 0.0, 'trabajar': 0.050294934763565634, 'entornos': 0.0, 'competencias': 0.0, 'capacidad': 0.050294934763565634, 'blandas': 0.01596330074268721, 'vital': 0.0, 'gestionar': 0.0, 'técnicas': 0.0, 'interacción': 0.0, 'pensamiento': 0.0, 'esencial,': 0.0, 'los': 0.0, 'profesionales': 0.0, 'El': 0.0, 'anticipar': 0.0, 'permite': 0.0, 'entorno': 0.0, 'mejor': 0.0, 'para': 0.01596330074268721, 'llevar': 0.0, 'soluciones': 0.0, 'puede': 0.0, 'técnica': 0.0, 'fundamentales': 0.057268170742134694, 'una': 0.0, 'campo': 0.050294934763565634, 'habilidades': 0.03192660148537442, 'con': 0.0, 'blanda': 0.0, 'emocional': 0.0, 'como': 0.0, 'habilidad': 0.0, 'demás,': 0.0, 'propias': 0.0, 'crítico': 0.0, 'colaboración': 0.0, 'las': 0.0, 'combinarla': 0.0, 'desarrollo': 0.0, 'pero': 0.0, 'que': 0.0, 'facilitando': 0.0, 'informática,': 0.0, 'la': 0.0278929

#### 5. Calcule el vector de la consulta utilizando las mismas fórmulas de TF-IDF.

In [10]:
# Función para calcular el vector TF-IDF de una consulta
def compute_query_tfidf(query, idf):
    query_tf = compute_tf(query)
    query_tfidf = {term: 0.0 for term in all_terms}
    for word in query_tf:
        if word in idf:
            query_tfidf[word] = query_tf[word] * idf[word]
        else:
            query_tfidf[word] = 0.0
    return query_tfidf

consulta = "habilidades blandas fundamentales"
consulta_tfidf = compute_query_tfidf(consulta, idf)

# Mostrar el vector TF-IDF de la consulta
print("\nVector TF-IDF de la consulta:")
print(consulta_tfidf)



Vector TF-IDF de la consulta:
{'es': 0.0, 'trabajo': 0.0, 'empatía,': 0.0, 'desarrolladas.': 0.0, 'de': 0.0, 'equipo': 0.0, 'creatividad': 0.0, 'trabajar': 0.0, 'entornos': 0.0, 'competencias': 0.0, 'capacidad': 0.0, 'blandas': 0.1702752079219969, 'vital': 0.0, 'gestionar': 0.0, 'técnicas': 0.0, 'interacción': 0.0, 'pensamiento': 0.0, 'esencial,': 0.0, 'los': 0.0, 'profesionales': 0.0, 'El': 0.0, 'anticipar': 0.0, 'permite': 0.0, 'entorno': 0.0, 'mejor': 0.0, 'para': 0.0, 'llevar': 0.0, 'soluciones': 0.0, 'puede': 0.0, 'técnica': 0.0, 'fundamentales': 0.3054302439580517, 'una': 0.0, 'campo': 0.0, 'habilidades': 0.1702752079219969, 'con': 0.0, 'blanda': 0.0, 'emocional': 0.0, 'como': 0.0, 'habilidad': 0.0, 'demás,': 0.0, 'propias': 0.0, 'crítico': 0.0, 'colaboración': 0.0, 'las': 0.0, 'combinarla': 0.0, 'desarrollo': 0.0, 'pero': 0.0, 'que': 0.0, 'facilitando': 0.0, 'informática,': 0.0, 'la': 0.0, 'Las': 0.0, 'emociones': 0.0, 'más': 0.0, 'resolución': 0.0, 'en': 0.0, 'necesidades': 0.

#### 6. Utilizando la similitud coseno, determine cuáles son los documentos por recuperarse para las siguientes consultas:
6.1. “habilidades blandas fundamentales”

6.2. “habilidades técnicas”

6.3. “solución y gestión en informática”

In [11]:
def cosine_similarity(vec1, vec2):
    dot_product = sum([vec1[word] * vec2[word] for word in vec1 if word in vec2])
    magnitude_vec1 = math.sqrt(sum([vec1[word] ** 2 for word in vec1]))
    magnitude_vec2 = math.sqrt(sum([vec2[word] ** 2 for word in vec2]))
    if magnitude_vec1 == 0 or magnitude_vec2 == 0:
        return 0.0
    return dot_product / (magnitude_vec1 * magnitude_vec2)

# Consultas específicas
queries = [
    "habilidades blandas fundamentales",
    "habilidades técnicas",
    "solución y gestión en informática"
]

# Evaluar las consultas específicas
for query in queries:
    query_tfidf = compute_query_tfidf(query, idf)
    cosine_similarities = [cosine_similarity(query_tfidf, doc_tfidf) for doc_tfidf in tfidf_docs]
    sorted_indices = sorted(range(len(cosine_similarities)), key=lambda i: cosine_similarities[i], reverse=True)
    
    print(f"\nSimilitudes coseno para la consulta: '{query}'")
    for i, similarity in enumerate(cosine_similarities):
        print(f"Documento {i+1}: {similarity}")
    
    print(f"\nÍndices de los documentos ordenados por similitud para la consulta: '{query}'")
    print(sorted_indices)
    
    most_relevant_doc_index = sorted_indices[0]
    print(f"\nÍndice del documento más relevante para la consulta '{query}': {most_relevant_doc_index}")



Similitudes coseno para la consulta: 'habilidades blandas fundamentales'
Documento 1: 0.2946188476461592
Documento 2: 0.07587883495725466
Documento 3: 0.06506433278604955
Documento 4: 0.10402008308429571
Documento 5: 0.0

Índices de los documentos ordenados por similitud para la consulta: 'habilidades blandas fundamentales'
[0, 3, 1, 2, 4]

Índice del documento más relevante para la consulta 'habilidades blandas fundamentales': 0

Similitudes coseno para la consulta: 'habilidades técnicas'
Documento 1: 0.04315540005797561
Documento 2: 0.026216759996831627
Documento 3: 0.022480260773202046
Documento 4: 0.22176215007596686
Documento 5: 0.0

Índices de los documentos ordenados por similitud para la consulta: 'habilidades técnicas'
[3, 0, 1, 2, 4]

Índice del documento más relevante para la consulta 'habilidades técnicas': 3

Similitudes coseno para la consulta: 'solución y gestión en informática'
Documento 1: 0.24296603001498168
Documento 2: 0.0580513426872379
Documento 3: 0.0
Documento 

#### 7. Ordene los documentos en función de su similitud con la consulta, de mayor a menor.

In [12]:
for query in queries:
    query_tfidf = compute_query_tfidf(query, idf)
    cosine_similarities = [cosine_similarity(query_tfidf, doc_tfidf) for doc_tfidf in tfidf_docs]
    sorted_indices = sorted(range(len(cosine_similarities)), key=lambda i: cosine_similarities[i], reverse=True)
    
    print(f"\nDocumentos ordenados por similitud para la consulta: '{query}'")
    for i in sorted_indices:
        print(f"Documento {i+1}: Similitud = {cosine_similarities[i]}")



Documentos ordenados por similitud para la consulta: 'habilidades blandas fundamentales'
Documento 1: Similitud = 0.2946188476461592
Documento 4: Similitud = 0.10402008308429571
Documento 2: Similitud = 0.07587883495725466
Documento 3: Similitud = 0.06506433278604955
Documento 5: Similitud = 0.0

Documentos ordenados por similitud para la consulta: 'habilidades técnicas'
Documento 4: Similitud = 0.22176215007596686
Documento 1: Similitud = 0.04315540005797561
Documento 2: Similitud = 0.026216759996831627
Documento 3: Similitud = 0.022480260773202046
Documento 5: Similitud = 0.0

Documentos ordenados por similitud para la consulta: 'solución y gestión en informática'
Documento 1: Similitud = 0.24296603001498168
Documento 4: Similitud = 0.15261577796809817
Documento 2: Similitud = 0.0580513426872379
Documento 3: Similitud = 0.0
Documento 5: Similitud = 0.0


#### 8. Determine cuál es el documento más relevante para la consulta dada.

In [13]:
# Este paso también se realizó en el paso 6, pero aquí lo mostramos claramente para cada consulta

for query in queries:
    query_tfidf = compute_query_tfidf(query, idf)
    cosine_similarities = [cosine_similarity(query_tfidf, doc_tfidf) for doc_tfidf in tfidf_docs]
    sorted_indices = sorted(range(len(cosine_similarities)), key=lambda i: cosine_similarities[i], reverse=True)
    
    most_relevant_doc_index = sorted_indices[0]
    print(f"\nEl documento más relevante para la consulta '{query}': Documento {most_relevant_doc_index + 1}")



El documento más relevante para la consulta 'habilidades blandas fundamentales': Documento 1

El documento más relevante para la consulta 'habilidades técnicas': Documento 4

El documento más relevante para la consulta 'solución y gestión en informática': Documento 1
