## Corrección del Examen de 1er bimestre

Considere el siguiente corpus:

In [1]:
doc1 = "Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo."
doc2 = "El desarrollo de habilidades blandas es fundamental para los informáticos, ya que estas competencias facilitan la interacción y colaboración en entornos de trabajo dinámicos."
doc3 = "En la informática, la resolución de problemas es una habilidad técnica esencial, pero combinarla con habilidades blandas como la creatividad y el pensamiento crítico puede llevar a soluciones innovadoras."
doc4 = "La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas."
doc5 = "La inteligencia emocional es una habilidad blanda vital para los informáticos. Permite gestionar mejor las emociones propias y las de los demás, facilitando así un entorno de trabajo más armonioso y productivo."

# wset es el conjunto de palabras en el corpus
wset = set()
# docs es el arreglo de documentos en el corpus
docs = [doc1, doc2, doc3, doc4, doc5]

#### 0. Preprocesamiento del corpus

Considere las siguientes palabras vacías, o stop words:
{a, así, como, con, de, del, el, en, es, estas, la, las, los, más, para, pero, por, que, son, un, una, y, ya}

In [2]:
import string
from collections import defaultdict

stopw = ['la','de','y','los','las','el','en','es','para','una','estas','a','así','son','del','ya','que','pero','con','como','por','un','más']
# stopw = []

word_counts = defaultdict(int)
for doc in docs:
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        if word not in stopw:
            wset.add(word)
            word_counts[word.lower()] += 1

# sorted_word_count es un arreglo de términos con su respectivo conteo
# está ordenado del término más frecuente al menos frecuente
sorted_word_count = sorted(word_counts.items(), key=lambda item: item[1], reverse=True)
print(sorted_word_count)

[('habilidades', 4), ('blandas', 3), ('fundamentales', 3), ('informática', 3), ('habilidad', 3), ('informáticos', 2), ('trabajo', 2), ('blanda', 2), ('permite', 2), ('éxito', 1), ('campo', 1), ('incluyen', 1), ('comunicación', 1), ('efectiva', 1), ('capacidad', 1), ('trabajar', 1), ('equipo', 1), ('gestión', 1), ('tiempo', 1), ('desarrollo', 1), ('fundamental', 1), ('competencias', 1), ('facilitan', 1), ('interacción', 1), ('colaboración', 1), ('entornos', 1), ('dinámicos', 1), ('resolución', 1), ('problemas', 1), ('técnica', 1), ('esencial', 1), ('combinarla', 1), ('creatividad', 1), ('pensamiento', 1), ('crítico', 1), ('puede', 1), ('llevar', 1), ('soluciones', 1), ('innovadoras', 1), ('empatía', 1), ('ejemplo', 1), ('profesionales', 1), ('entender', 1), ('anticipar', 1), ('necesidades', 1), ('usuarios', 1), ('mejorando', 1), ('calidad', 1), ('productos', 1), ('técnicas', 1), ('desarrolladas', 1), ('inteligencia', 1), ('emocional', 1), ('vital', 1), ('gestionar', 1), ('mejor', 1), ('

In [3]:
# se repite el procesamiento anterior de conteo de palabras, integrando la actividad de Stemming
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('spanish')
stopw = ['la','de','y','los','lo','las','el','en','es','para','una','estas', 'esta','a','así','son','del','ya','que','pero','con','como','por','un','más','má','demá', 'par','asi']
# stopw = []

stem_docs = []
for doc in docs:
    sdoc = []
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        if word not in stopw:
            sdoc.append(stemmer.stem(word))
    stem_docs.append(sdoc)

word_counts = defaultdict(int)
for doc in docs:
    for word in doc.lower().translate(str.maketrans('', '', string.punctuation)).split(" "):
        word = stemmer.stem(word)
        if word not in stopw:
            wset.add(word)
            word_counts[word.lower()] += 1
            
sorted_word_count = sorted(word_counts.items(), key=lambda item: item[1], reverse=True)
print(sorted_word_count)

[('habil', 7), ('bland', 5), ('informat', 5), ('fundamental', 4), ('trabaj', 3), ('gestion', 2), ('desarroll', 2), ('facilit', 2), ('entorn', 2), ('tecnic', 2), ('permit', 2), ('mejor', 2), ('product', 2), ('exit', 1), ('camp', 1), ('inclu', 1), ('comun', 1), ('efect', 1), ('capac', 1), ('equip', 1), ('tiemp', 1), ('competent', 1), ('interaccion', 1), ('colabor', 1), ('dinam', 1), ('resolu', 1), ('problem', 1), ('esencial', 1), ('per', 1), ('combin', 1), ('com', 1), ('creativ', 1), ('pensamient', 1), ('critic', 1), ('pued', 1), ('llev', 1), ('solucion', 1), ('innov', 1), ('empat', 1), ('ejempl', 1), ('profesional', 1), ('entend', 1), ('anticip', 1), ('neces', 1), ('usuari', 1), ('calid', 1), ('inteligent', 1), ('emocional', 1), ('vital', 1), ('emocion', 1), ('propi', 1), ('demas', 1), ('mas', 1), ('armoni', 1)]


#### 1. Determine un espacio vectorial para la representación de documentos con 10 dimensiones. Considere a las palabras a partir de su raíz, para simplificar su representación computacional.

In [4]:
ev = sorted_word_count[2:11]
ev.append(sorted_word_count[36])
print(ev)

[('informat', 5), ('fundamental', 4), ('trabaj', 3), ('gestion', 2), ('desarroll', 2), ('facilit', 2), ('entorn', 2), ('tecnic', 2), ('permit', 2), ('solucion', 1)]


#### 2. Construya una matriz binaria de incidencias (presencia/ausencia)

In [5]:
# ev_docs es un arreglo con la representación binaria (presencia/ausencia) de los documentos en el espacio vectorial
ev_docs = []
for doc in stem_docs:
    ev_doc = []
    for dim in ev:
        if dim[0] in doc:
            ev_doc.append(1)
        else:
            ev_doc.append(0)
    ev_docs.append(ev_doc)
print(ev_docs)

[[1, 1, 1, 1, 0, 0, 0, 0, 0, 0], [1, 1, 1, 0, 1, 1, 1, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0, 1, 0, 1], [1, 1, 0, 0, 1, 0, 0, 1, 1, 0], [1, 0, 1, 1, 0, 1, 1, 0, 1, 0]]


#### 3. Utilizando la similitud Jaccard, determine cuáles son los documentos por recuperarse para las siguientes consultas:
3.1. “habilidad” AND “blanda” AND “fundamental”

3.2. “habilidad” AND “blanda” AND NOT “técnica”

3.3. “gestión” OR “solución”

In [11]:
# hablidad AND blanda AND fundamental
q1 = [0,1,0,0,0,0,0,0,0,0]
# hablidad AND blanda AND NOT técnica
q2 = [1,1,1,1,1,1,1,0,1,1]
# gestión OR solución
q3 = [0,0,0,1,0,0,0,0,0,1]

queries = [q1,q2,q3]
read_queries = ['hablidad AND blanda AND fundamental', 'hablidad AND blanda AND NOT técnica', 'gestión OR solución']

Similitud Jaccard: $JSim=|Q\cap D|/|Q\cup D|$

In [32]:
def jsim(q,d):
    c = 0
    for i in range(len(q)):
        # contar los elementos iguales a 1 que son comunes entre los dos conjuntos
        if q[i] == d[i] and d[i] == 1:
            c += 1
    f = 0
    for i in range(len(q)):
        # contar los elementos iguales a 1 en cualquiera de los dos conjuntos
        if q[i] == 1 or d[i] == 1:
            f += 1
    #print('c',c,'f',f)
    return c/f

In [34]:
for i in range(len(queries)):
    print('-------------------------------------------------------')
    print('QUERY: ',i,read_queries[i])
    for j in range(0,len(ev_docs)):
        #print(queries[i],ev_docs[j])
        jsim_ = jsim(queries[i],ev_docs[j])
        if jsim_ > 0:
            print('doc',j,'Jsim',jsim_)
            print(docs[j])

-------------------------------------------------------
QUERY:  0 hablidad AND blanda AND fundamental
doc 0 Jsim 0.25
Las habilidades blandas son fundamentales para el éxito en el campo de la informática. Estas habilidades fundamentales incluyen la comunicación efectiva, la capacidad de trabajar en equipo y la gestión del tiempo.
doc 1 Jsim 0.16666666666666666
El desarrollo de habilidades blandas es fundamental para los informáticos, ya que estas competencias facilitan la interacción y colaboración en entornos de trabajo dinámicos.
doc 3 Jsim 0.2
La empatía, por ejemplo, es una habilidad blanda que permite a los profesionales de la informática entender y anticipar las necesidades fundamentales de los usuarios, mejorando así la calidad de los productos y técnicas desarrolladas.
-------------------------------------------------------
QUERY:  1 hablidad AND blanda AND NOT técnica
doc 0 Jsim 0.4444444444444444
Las habilidades blandas son fundamentales para el éxito en el campo de la inform

#### 4. Con el mismo espacio vectorial del punto 1, construya una matriz de términos y documentos (matriz TF-IDF).

Frecuencia de término: $TF_{ij}=count(t_i,d_j)/|d_j|$

Frecuencia inversa de término: $IDF_{ij} = log(|corpus|/count(d_j,t_i))$

#### 5. Calcule el vector de la consulta utilizando las mismas fórmulas de TF-IDF.

#### 6. Utilizando la similitud coseno, determine cuáles son los documentos por recuperarse para las siguientes consultas:
6.1. “habilidades blandas fundamentales”

6.2. “habilidades técnicas”

6.3. “solución y gestión en informática”

#### 7. Ordene los documentos en función de su similitud con la consulta, de mayor a menor.

#### 8. Determine cuál es el documento más relevante para la consulta dada.