# Ejercicio 02: Cálculo de la Matriz TF-IDF y Búsqueda de Consultas en un Corpus

El objetivo de este ejercicio es calcular la matriz TF-IDF de un corpus de documentos y luego aplicar una serie de consultas para recuperar los documentos más relevantes. Este ejercicio te ayudará a comprender cómo funciona el modelo de espacio vectorial y cómo se utiliza TF-IDF para ponderar términos en documentos y consultas.

Seguirás los siguientes pasos:

Pasos del Ejercicio

1. Preprocesamiento del texto:
    * Lectura del corpus desde el archivo TXT.
    * Tokenización de los documentos.
    * Normalización del texto (conversión a minúsculas, eliminación de signos de puntuación).
    * Eliminación de palabras vacías (stopwords).

2. Construcción de la matriz TF-IDF:
    * Cálculo de la frecuencia de término (TF) para cada término en cada documento.
    * Cálculo de la frecuencia inversa de documento (IDF) para cada término en el corpus.
    * Cálculo del peso TF-IDF para cada término en cada documento.

3. Procesamiento de las consultas:
    * Preprocesamiento de las consultas de manera similar a los documentos.
    * Representación de las consultas en el espacio vectorial TF-IDF.

4. Cálculo de similitudes:
    * Cálculo de la similitud entre cada consulta y los documentos del corpus utilizando la similitud del coseno.

5. Ranking de documentos:
    * Ordenar los documentos de mayor a menor similitud para cada consulta.
    * Mostrar los documentos más relevantes para cada consulta.

Consultas

Las consultas a aplicar son las siguientes:

    "inteligencia artificial en medicina"
    "beneficios de la educación a distancia"
    "realidad aumentada en videojuegos"
    "desarrollo personal y hábitos saludables"
    "futuro del comercio electrónico"
    "tecnologías en cine moderno"
    "competencias de e-sports"
    "diagnóstico con dispositivos portátiles"
    "literatura de ciencia ficción"
    "plataformas de streaming"

## Preprocesamiento de datos


In [1]:
corpus=[]
with open ('/content/sample_data/02tfidfmatrix_corpus.txt','r') as f:
    for line in f:
        corpus.append(line.strip().split(':')[1].lower().replace(',','').replace('.',''))
print(corpus)

[' la inteligencia artificial continúa avanzando rápidamente transformando sectores como la salud y las finanzas las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia sin embargo el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos la ética es fundamental en este contexto', ' el desarrollo de videojuegos ha alcanzado un nuevo nivel con tecnologías como la realidad aumentada y la inteligencia artificial los jugadores ahora pueden interactuar en mundos virtuales más inmersivos este crecimiento también impulsa el mercado de los e-sports donde las competencias profesionales atraen a millones de espectadores en todo el mundo', ' el comercio electrónico ha cambiado la forma en que compramos con la creciente demanda de compras en línea las empresas están optimizando sus plataformas digitales para ofrecer mejores experiencias de usuario desde recomendaciones personalizadas hasta pagos rápidos l

In [2]:
vocab = []
for i in range(0,len(corpus)):
    vocab.extend(corpus[i].lower().replace(',','').replace('.','').split())
vocab = set(vocab)
print(len(vocab))
print(vocab)

230
{'alcanzado', 'artificial', 'compramos', 'línea', 'monitorean', 'están', 'nivel', 'falta', 'más', 'millones', 'integral', 'otros', 'profesionales', 'evolucionado', 'perpetúen', 'público', 'decisiones', 'inteligencia', 'series', 'distancia', 'recomendaciones', 'medicina', 'continúa', 'sean', 'justas', 'competencias', 'experiencias', 'flexibilidad', 'efectos', 'sino', 'saludables', 'está', 'la', 'consume', 'aumento', 'ficción', 'tiempo', 'rápidos', 'enfermedades', 'beneficios', 'completo', 'a', 'en', 'compras', 'desde', 'individual', 'virtuales', 'contenido', 'ofrecer', 'finanzas', 'videojuegos', 'comercio', 'tecnología', 'diagnostican', 'acceso', 'siendo', 'cambiando', 'streaming', 'además', 'desafían', 'sigue', 'mejorar', 'invita', 'personas', 'programas', 'automático', 'embargo', 'salud', 'y', 'todo', 'humanidad', 'datos', 'acceder', 'usuario', 'cine', 'adoptando', 'un', 'ubicación', 'incorporando', 'cursos', 'de', 'temas', 'planetas', 'permitiendo', 'para', 'atraen', 'basadas', '

## Construcción de matriz TF-IDF

### contrucción de matriz TF

In [3]:
def calculate_tf(corpus, vocab):
    tf_matrix = []
    for doc in corpus:
        tf_vector = [doc.strip().split().count(word) for word in vocab]  # Contar ocurrencias de cada palabra en el documento
        tf_matrix.append(tf_vector)

    return tf_matrix


In [4]:
# Generar la matriz TF
tf_matrix = calculate_tf(corpus, vocab)
print("MATRIZ TF:")
print(len(tf_matrix))
for row in tf_matrix:
    print(row)


MATRIZ TF:
8
[0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 2, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 3, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0]
[1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 3, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0

### Calculo IDF


In [5]:
import math
def calculate_idf(corpus, vocab):
  N= len(corpus)
  IDF=[]
  for word in vocab:
    count=0
    for doc in corpus:
      if word in doc:
        count+=1
    IDF.append(math.log(N/count))
  return IDF

In [6]:
print("VECTOR IDF:")
# Generar EL VECTOR IDF
IDF = calculate_idf(corpus, vocab)
print(len(IDF))
print(IDF)

VECTOR IDF:
230
[2.0794415416798357, 0.9808292530117262, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 0.9808292530117262, 2.0794415416798357, 2.0794415416798357, 0.6931471805599453, 1.3862943611198906, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 0.9808292530117262, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 0.9808292530117262, 0.0, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 0.9808292530117262, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 0.0, 0.0, 2.0794415416798357, 0.9808292530117262, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 1.3862943611198906, 2.0794415416798357, 2.0794415416798357, 2.079441

### Calculo matriz TF-IDF

In [7]:
# Calcular la matriz TF-IDF
def calculate_tfidf_matrix(tf_matrix, IDF):
    tfidf_matrix = []
    for tf_vector in tf_matrix:
        tfidf_vector = [tf * idf for tf, idf in zip(tf_vector, IDF)]
        tfidf_matrix.append(tfidf_vector)
    return tfidf_matrix

# Generar la matriz TF-IDF
tfidf_matrix = calculate_tfidf_matrix(tf_matrix, IDF)
print("Matriz TF-IDF:")
print(len(tfidf_matrix))
for row in tfidf_matrix:
    print(row)

Matriz TF-IDF:
8
[0.0, 0.9808292530117262, 0.0, 0.0, 0.0, 0.9808292530117262, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.0794415416798357, 0.0, 2.0794415416798357, 0.9808292530117262, 0.0, 0.0, 0.0, 0.0, 2.0794415416798357, 2.0794415416798357, 2.0794415416798357, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.0794415416798357, 0.0, 0.0, 0.0, 0.0, 0.0, 2.0794415416798357, 0.0, 0.0, 0.0, 0.0, 0.9808292530117262, 1.3862943611198906, 0.0, 0.0, 0.0, 2.0794415416798357, 2.0794415416798357, 0.9808292530117262, 0.26706278524904514, 0.0, 0.0, 2.0794415416798357, 0.0, 0.0, 0.0, 2.0794415416798357, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.47000362924573563, 0.0, 2.0794415416798357, 0.0, 0.0, 0.0, 2.0794415416798357, 0.0, 0.0, 0.0, 0.0, 2.0794415416798357, 2.0794415416798357, 0.0, 0.13353139262452257, 0.0, 0.13353139262452257, 0.0, 2.0794415416798357, 0.0, 2.0794415416798357, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0

## Preprocesamiento de las consultas


In [13]:
#with open ("/content/sample_data/queries.txt")as archivo:
frases = ["inteligencia artificial en medicina",
"beneficios de la educación a distancia",
"realidad aumentada en videojuegos",
"desarrollo personal y hábitos saludables",
"futuro del comercio electrónico",
"tecnologías en cine moderno",
"competencias de e-sports",
"diagnóstico con dispositivos portátiles",
"literatura de ciencia ficción",
"plataformas de streaming"]
   #for linea in archivo:
        # Remover las comillas y los espacios extra al principio y al final
    #    frase = linea.strip().strip('"')
        # Preprocesar cada frase (por ejemplo, convertirla a minúsculas)
     #   frase_procesada = frase.lower()
       # palabras=frase_procesada.split()
        # Agregar la frase procesada a la lista general
      #  frases.append(frase_procesada)

# Mostrar el resultado
print(frases)
print(len(frases))

['inteligencia artificial en medicina', 'beneficios de la educación a distancia', 'realidad aumentada en videojuegos', 'desarrollo personal y hábitos saludables', 'futuro del comercio electrónico', 'tecnologías en cine moderno', 'competencias de e-sports', 'diagnóstico con dispositivos portátiles', 'literatura de ciencia ficción', 'plataformas de streaming']
10


In [14]:

tf_matrix_queries = calculate_tf(frases, vocab)

tfidf_matrix_queries = calculate_tfidf_matrix(tf_matrix_queries, IDF)

print("TF-IDF Matrix de Queries:")
for row in tfidf_matrix_queries:
    print(row)

TF-IDF Matrix de Queries:
[0.0, 0.9808292530117262, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9808292530117262, 0.0, 0.0, 0.0, 2.0794415416798357, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0

## Calculo de similitudes

In [16]:
import numpy as np

def cosine_similarity(vector1, vector2):
    dot_product = np.dot(vector1, vector2)
    magnitude1 = np.linalg.norm(vector1)
    magnitude2 = np.linalg.norm(vector2)

    if magnitude1 == 0 or magnitude2 == 0:  #vectores con magnitud cero
        return 0
    else:
        return dot_product / (magnitude1 * magnitude2)

In [17]:
similarities = []
for query_vector in tfidf_matrix_queries:
    document_similarities = []
    for document_vector in tfidf_matrix:
        similarity = cosine_similarity(query_vector, document_vector)
        document_similarities.append(similarity)
    similarities.append(document_similarities)

In [18]:
print("Similitudes:")
for similarities_row in similarities:
    print(similarities_row)

Similitudes:
[0.0696737973303592, 0.07283821798329806, 0.0, 0.0, 0.0, 0.07756732892355873, 0.0, 0.3424883920232836]
[0.0, 0.0, 0.0, 0.3372824184695828, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.3076481425760959, 0.0, 0.0, 0.04977196549189596, 0.0, 0.0, 0.0]
[0.0009498100345235506, 0.054007188067457294, 0.0, 0.0, 0.0008835268826327977, 0.0010574165638404587, 0.3259548334362706, 0.001038739191424329]
[0.0, 0.0, 0.26138705102313253, 0.0, 0.0, 0.05956774124313762, 0.0, 0.05851558363067791]
[0.0, 0.0727664641233049, 0.0, 0.0, 0.2104300782019074, 0.0, 0.0, 0.0]
[0.0, 0.27827821537491065, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0005731592280632152, 0.0005951894663718903, 0.0005672103584057666, 0.0005099979994973433, 0.0, 0.0, 0.2914113028874916]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.2518454781566824, 0.0, 0.0]
[0.0, 0.0, 0.07556335278360446, 0.0, 0.2104300782019074, 0.0, 0.0, 0.0]


In [19]:
import numpy as np
# Ranking de documentos para cada consulta
for i, query_similarities in enumerate(similarities):
    # Obtener los índices de los documentos ordenados por similitud (de mayor a menor)
    sorted_indices = np.argsort(query_similarities)[::-1]

    print(f"Consulta {i + 1}:")
    # Mostrar los documentos más relevantes (por ejemplo, los 5 primeros)
    for j in sorted_indices[:5]:
        print(f"  Documento {j + 1}: Similitud = {query_similarities[j]}")

Consulta 1:
  Documento 8: Similitud = 0.3424883920232836
  Documento 6: Similitud = 0.07756732892355873
  Documento 2: Similitud = 0.07283821798329806
  Documento 1: Similitud = 0.0696737973303592
  Documento 7: Similitud = 0.0
Consulta 2:
  Documento 4: Similitud = 0.3372824184695828
  Documento 8: Similitud = 0.0
  Documento 7: Similitud = 0.0
  Documento 6: Similitud = 0.0
  Documento 5: Similitud = 0.0
Consulta 3:
  Documento 2: Similitud = 0.3076481425760959
  Documento 5: Similitud = 0.04977196549189596
  Documento 8: Similitud = 0.0
  Documento 7: Similitud = 0.0
  Documento 6: Similitud = 0.0
Consulta 4:
  Documento 7: Similitud = 0.3259548334362706
  Documento 2: Similitud = 0.054007188067457294
  Documento 6: Similitud = 0.0010574165638404587
  Documento 8: Similitud = 0.001038739191424329
  Documento 1: Similitud = 0.0009498100345235506
Consulta 5:
  Documento 3: Similitud = 0.26138705102313253
  Documento 6: Similitud = 0.05956774124313762
  Documento 8: Similitud = 0.0585