# Ejercicio 02: Cálculo de la Matriz TF-IDF y Búsqueda de Consultas en un Corpus

Integrantes: Rossy Armendariz, Alejandro Chavez, Javier Quishpe

El objetivo de este ejercicio es calcular la matriz TF-IDF de un corpus de documentos y luego aplicar una serie de consultas para recuperar los documentos más relevantes. Este ejercicio te ayudará a comprender cómo funciona el modelo de espacio vectorial y cómo se utiliza TF-IDF para ponderar términos en documentos y consultas.

Seguirás los siguientes pasos:

Pasos del Ejercicio

1. Preprocesamiento del texto:
    * Lectura del corpus desde el archivo TXT.
    * Tokenización de los documentos.
    * Normalización del texto (conversión a minúsculas, eliminación de signos de puntuación).
    * Eliminación de palabras vacías (stopwords).

2. Construcción de la matriz TF-IDF:
    * Cálculo de la frecuencia de término (TF) para cada término en cada documento.
    * Cálculo de la frecuencia inversa de documento (IDF) para cada término en el corpus.
    * Cálculo del peso TF-IDF para cada término en cada documento.

3. Procesamiento de las consultas:
    * Preprocesamiento de las consultas de manera similar a los documentos.
    * Representación de las consultas en el espacio vectorial TF-IDF.

4. Cálculo de similitudes:
    * Cálculo de la similitud entre cada consulta y los documentos del corpus utilizando la similitud del coseno.

5. Ranking de documentos:
    * Ordenar los documentos de mayor a menor similitud para cada consulta.
    * Mostrar los documentos más relevantes para cada consulta.

Consultas

Las consultas a aplicar son las siguientes:

    "inteligencia artificial en medicina"
    "beneficios de la educación a distancia"
    "realidad aumentada en videojuegos"
    "desarrollo personal y hábitos saludables"
    "futuro del comercio electrónico"
    "tecnologías en cine moderno"
    "competencias de e-sports"
    "diagnóstico con dispositivos portátiles"
    "literatura de ciencia ficción"
    "plataformas de streaming"

**Bibliotecas necesarias**

In [84]:
import nltk
from nltk.corpus import stopwords
from math import log

Primero, se realiza la lectura del corpus txt.

In [85]:
datos = []
with open('./data/02tfidfmatrix_corpus.txt', mode='r', encoding='utf-8') as file:
    datos = file.readlines()

En base al corpus se tokeniza los documentos.

In [86]:
tokens = []
for linea in datos:
    if "Documento" in linea:
        partes = linea.split(":", 1)
        if len(partes) > 1:
            contenido = partes[1].strip().lower()
            palabras = contenido.split()
            palabras = [palabra.replace('.', '').replace(',', '') for palabra in palabras]
            tokens.append(palabras)
print(tokens)

[['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia', 'sin', 'embargo', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto'], ['el', 'desarrollo', 'de', 'videojuegos', 'ha', 'alcanzado', 'un', 'nuevo', 'nivel', 'con', 'tecnologías', 'como', 'la', 'realidad', 'aumentada', 'y', 'la', 'inteligencia', 'artificial', 'los', 'jugadores', 'ahora', 'pueden', 'interactuar', 'en', 'mundos', 'virtuales', 'más', 'inmersivos', 'este', 'crecimiento', 'también', 'impulsa', 'el', 'mercado', 'de', 'los', 'e-sports', 'donde', 'las', 'competencias', 'profesionales', 'atraen', 'a', 'millones', 'de', 'espect

Se normaliza el texto, donde se convierte a minúsculas y se elimina de signos de puntuación. Además, se crea una lista de palabras únicas.

In [87]:
vocab = list(set(word.lower().replace(',', '').replace('.', '') for sublist in tokens for word in sublist))
print(vocab)


['presencial', 'permitiendo', 'educación', 'distancia', 'creciente', 'médicos', 'uno', 'mejores', 'especialmente', 'a', 'integral', 'los', 'su', 'películas', 'plataformas', 'ubicación', 'sobre', 'basadas', 'mejorar', 'optimizando', 'individual', 'en', 'que', 'cine', 'aquellos', 'interactuar', 'real', 'incorporando', 'sino', 'está', 'accesibles', 'datos', 'se', 'como', 'medicina', 'empresas', 'comercio', 'mercado', 'programas', 'convertido', 'rápidamente', 'adopción', 'automático', 'portátiles', 'cambiado', 'años', 'experiencias', 'estudiantes', 'habilidades', 'diagnostican', 'justas', 'flexibilidad', 'eficiencia', 'rápidos', 'avanzadas', 'sus', 'bienestar', 'educativa', 'profesionales', 'ahora', 'reflexionar', 'pagos', 'consume', 'artificial', 'nivel', 'la', 'compras', 'escenas', 'sesgos', 'impulsa', 'compramos', 'cómo', 'literarios', 'contenido', 'siendo', 'trabajos', 'solo', 'implicaciones', 'perpetúen', 'evolucionado', 'crecimiento', 'contexto', 'mundo', 'realistas', 'género', 'tecn

Eliminar los stopwprds usando la biblioteca nltk.

In [88]:
nltk.download('stopwords')
stop_words = set(stopwords.words('spanish'))

tokens = [[word for word in doc if word not in stop_words] for doc in tokens]
vocab = sorted(set(word for word in vocab if word not in stop_words))
print(vocab)

['acceder', 'accesibles', 'acceso', 'además', 'adopción', 'adoptando', 'ahora', 'alcanzado', 'algoritmos', 'aplicaciones', 'aprendizaje', 'aquellos', 'artificial', 'atraen', 'aumentada', 'aumento', 'aunque', 'automático', 'avances', 'avanzadas', 'avanzando', 'años', 'basadas', 'beneficios', 'bienestar', 'buscan', 'cada', 'calidad', 'cambiado', 'cambiando', 'ciencia', 'cine', 'cinematográficas', 'comercio', 'competencias', 'completo', 'compramos', 'compras', 'consume', 'consumidores', 'contenido', 'contexto', 'continúa', 'convertido', 'crear', 'creciente', 'crecimiento', 'cuidados', 'cursos', 'cuándo', 'cómo', 'datos', 'decisiones', 'demanda', 'democratizando', 'desafían', 'desafío', 'desarrollo', 'diagnostican', 'diarias', 'digitales', 'dispositivos', 'distancia', 'e-sports', 'educación', 'educativa', 'efectos', 'eficaces', 'eficiencia', 'electrónico', 'embargo', 'empresas', 'enfermedades', 'enfoque', 'entretiene', 'escenas', 'especialmente', 'espectadores', 'estudiantes', 'evolucionad

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Crear la matriz TF.

In [89]:
tf_matrix = []

for words in tokens:
    term_count = {}

    for word in words:
        if word in term_count:
            term_count[word] += 1
        else:
            term_count[word] = 1

    tf_vector = []
    for word in vocab:
        tf_value = term_count.get(word, 0)
        tf_vector.append(tf_value)

    tf_matrix.append(tf_vector)

print("Matriz TF:")
print(tf_matrix)

Matriz TF:
[[0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1], [0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0

Se procede a calcular la frecuencia inversa de documento (IDF) para cada término en el corpus. Aplicando la función: IDF=log N/nt

In [90]:
N = len(tf_matrix)
nt = [sum(1 for doc in tf_matrix if doc[i] > 0) for i in range(len(vocab))]

idf = [log10(N / n) if n > 0 else 0 for n in nt]
print(idf)

[0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.6020599913279624, 0.9030899869919435, 0.4259687322722811, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.4259687322722811, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.6020599913279624, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435, 0.6020599913279624, 0.9030899869919435, 0.9030899869919435, 0.9030899869919435,

Se calcula matriz tf idf.

In [91]:
tfidf_matrix = []

for tf_vector in tf_matrix:
    tfidf_vector = [tf * idf[i] for i, tf in enumerate(tf_vector)]
    tfidf_matrix.append(tfidf_vector)

print(tfidf_matrix)

[[0.0, 0.0, 0.0, 0.0, 0.0, 0.9030899869919435, 0.0, 0.0, 0.9030899869919435, 0.0, 0.6020599913279624, 0.0, 0.4259687322722811, 0.0, 0.0, 0.0, 0.0, 0.9030899869919435, 0.0, 0.0, 0.9030899869919435, 0.0, 0.9030899869919435, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9030899869919435, 0.9030899869919435, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9030899869919435, 0.9030899869919435, 0.0, 0.0, 0.0, 0.9030899869919435, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9030899869919435, 0.0, 0.9030899869919435, 0.6020599913279624, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9030899869919435, 0.0, 0.0, 0.9030899869919435, 0.0, 0.9030899869919435, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.4259687322722811, 0.0, 0.0, 0.0, 0.0, 0.9030899869919435, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.6020599913279624, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9

Preprocesamiento de las consultas de manera similar a los documentos.

In [92]:
consultas = [
    "inteligencia artificial en medicina",
    "beneficios de la educación a distancia",
    "realidad aumentada en videojuegos",
    "desarrollo personal y hábitos saludables",
    "futuro del comercio electrónico",
    "tecnologías en cine moderno",
    "competencias de e-sports",
    "diagnóstico con dispositivos portátiles",
    "literatura de ciencia ficción",
    "plataformas de streaming"
]

preprocessed_consultas = []

for consulta in consultas:
    consulta = consulta.lower()
    palabras = consulta.replace('.', '').replace(',', '').split()
    palabras = [palabra for palabra in palabras if palabra not in stop_words]
    preprocessed_consultas.append(palabras)

print("Consultas preprocesadas:", preprocessed_consultas)

Consultas preprocesadas: [['inteligencia', 'artificial', 'medicina'], ['beneficios', 'educación', 'distancia'], ['realidad', 'aumentada', 'videojuegos'], ['desarrollo', 'personal', 'hábitos', 'saludables'], ['futuro', 'comercio', 'electrónico'], ['tecnologías', 'cine', 'moderno'], ['competencias', 'e-sports'], ['diagnóstico', 'dispositivos', 'portátiles'], ['literatura', 'ciencia', 'ficción'], ['plataformas', 'streaming']]


Representación de las consultas en el espacio vectorial TF-IDF.Donde calcula TF para cada término en la consulta usando el vocabulario del corpus y crea la matriz tf idf de la consulta en el espacio vectorial.

In [93]:
tfidf_consultas_matrix = []

for consulta in preprocessed_consultas:
    term_count = {word: consulta.count(word) for word in consulta}

    tfidf_vector = []
    for word in vocab:
        tf = term_count.get(word, 0)
        idf_value = idf[vocab.index(word)]
        tfidf_vector.append(tf * idf_value)

    tfidf_consultas_matrix.append(tfidf_vector)
print(tfidf_consultas_matrix)


[[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.4259687322722811, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.4259687322722811, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9030899869919435, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0

Se realiza el cálculo de la similitud entre cada consulta y los documentos del corpus utilizando la similitud del coseno.

In [94]:
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

tfidf_docs_df = pd.DataFrame(tfidf_matrix, columns=vocab)
tfidf_queries_df = pd.DataFrame(tfidf_consultas_matrix, columns=vocab)

cosine_similarities = cosine_similarity(tfidf_queries_df, tfidf_docs_df)
cosine_similarities_df = pd.DataFrame(cosine_similarities,
                                      index=[f'Consulta {i+1}' for i in range(len(preprocessed_consultas))],
                                      columns=[f'Documento {j+1}' for j in range(len(tfidf_matrix))])

print("Similitud del Coseno entre cada consulta y cada documento:")
print(cosine_similarities_df)


Similitud del Coseno entre cada consulta y cada documento:
             Documento 1  Documento 2  Documento 3  Documento 4  Documento 5  \
Consulta 1      0.070946     0.077749     0.000000     0.000000     0.000000   
Consulta 2      0.000000     0.000000     0.000000     0.339681     0.000000   
Consulta 3      0.000000     0.328391     0.000000     0.000000     0.049992   
Consulta 4      0.000000     0.050299     0.000000     0.000000     0.000000   
Consulta 5      0.000000     0.000000     0.268029     0.000000     0.000000   
Consulta 6      0.000000     0.077673     0.000000     0.000000     0.211361   
Consulta 7      0.000000     0.297041     0.000000     0.000000     0.000000   
Consulta 8      0.000000     0.000000     0.000000     0.000000     0.000000   
Consulta 9      0.000000     0.000000     0.000000     0.000000     0.000000   
Consulta 10     0.000000     0.000000     0.077483     0.000000     0.211361   

             Documento 6  Documento 7  Documento 8  
Consult

Se ordena los documentos de mayor a menor similitud para cada consulta.

In [95]:
resultados_ordenados = {}

for consulta in cosine_similarities_df.index:
    documentos_ordenados = cosine_similarities_df.loc[consulta].sort_values(ascending=False)
    resultados_ordenados[consulta] = documentos_ordenados.index.tolist()

Se imprime los 3 documentos más relevantes para cada consulta.

In [96]:
num_relevantes = 3
resultados_relevantes = {}

for consulta in cosine_similarities_df.index:
    documentos_ordenados = cosine_similarities_df.loc[consulta].sort_values(ascending=False)
    documentos_mas_relevantes = documentos_ordenados.head(num_relevantes)
    resultados_relevantes[consulta] = documentos_mas_relevantes

# Mostrar los documentos más relevantes para cada consulta
for consulta, documentos in resultados_relevantes.items():
    print(f"\n{consulta}:")
    for doc, similitud in documentos.items():
        print(f"{doc}: Similitud = {similitud}")



Consulta 1:
Documento 8: Similitud = 0.3420018156801749
Documento 6: Similitud = 0.08323289088405109
Documento 2: Similitud = 0.07774926796936832

Consulta 2:
Documento 4: Similitud = 0.33968141828257
Documento 1: Similitud = 0.0
Documento 2: Similitud = 0.0

Consulta 3:
Documento 2: Similitud = 0.3283910361853181
Documento 5: Similitud = 0.049992189330578
Documento 1: Similitud = 0.0

Consulta 4:
Documento 7: Similitud = 0.3779644730092273
Documento 2: Similitud = 0.05029897071569618
Documento 1: Similitud = 0.0

Consulta 5:
Documento 3: Similitud = 0.26802898696874367
Documento 6: Similitud = 0.06391860304981602
Documento 8: Similitud = 0.05843245001400352

Consulta 6:
Documento 5: Similitud = 0.2113611589646981
Documento 2: Similitud = 0.0776726761712312
Documento 1: Similitud = 0.0

Consulta 7:
Documento 2: Similitud = 0.2970408686025609
Documento 1: Similitud = 0.0
Documento 3: Similitud = 0.0

Consulta 8:
Documento 8: Similitud = 0.29069776841647016
Documento 1: Similitud = 0.0
