<a href="https://colab.research.google.com/github/HdSanch/RI_2024B/blob/main/02tfidfmatrix.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 02: Cálculo de la Matriz TF-IDF y Búsqueda de Consultas en un Corpus

##### Integrantes: Dilan Andrade, Hernán Sánchez y Galo Tarapués

### 1. Preprocesamiento del texto:

- Lectura del corpus desde el archivo TXT.

In [27]:
import re
import math
datos = []
with open('/content/02tfidfmatrix_corpus.txt', mode='r', encoding='utf-8') as file:
    datos = file.readlines()

datos = [line.strip() for line in datos]


- Normalización del texto (conversión a minúsculas, eliminación de signos de puntuación).

In [28]:
vocab = []
for line in datos:
    line = re.sub(r'^Documento \d+: ', '', line)

    vocab.extend(line.lower().replace(',', '').replace('.', '').split())

vocab = set(vocab)
print("Número de palabras únicas en el vocabulario:", len(vocab))
print("Vocabulario:", vocab)



Número de palabras únicas en el vocabulario: 230
Vocabulario: {'realidad', 'recomendaciones', 'las', 'contexto', 'importar', 'creciente', 'distancia', 'humanidad', 'una', 'competencias', 'cómo', 'diagnostican', 'mercado', 'mejores', 'populares', 'alcanzado', 'interactuar', 'sin', 'comercio', 'avances', 'público', 'donde', 'acceder', 'realistas', 'sectores', 'aquellos', 'sino', 'ética', 'trabajos', 'videojuegos', 'e-sports', 'automático', 'escenas', 'digitales', 'películas', 'principal', 'solo', 'ofrecer', 'cuándo', 'bienestar', 'ficción', 'facilitando', 'a', 'hábitos', 'flexibilidad', 'medicina', 'género', 'aprendizaje', 'para', 'algoritmos', 'futuro', 'diarias', 'cursos', 'se', 'sean', 'vida', 'datos', 'que', 'dispositivos', 'tecnologías', 'forma', 'compras', 'promueven', 'eficaces', 'artificial', 'continúa', 'cuidados', 'transacciones', 'vez', 'mundo', 'en', 'atraen', 'desafío', 'evolucionado', 'siguen', 'estudiantes', 'crear', 'avanzadas', 'su', 'cada', 'cambiando', 'además', 'ha', 

# 2. Construcción de la matriz TF-IDF:

- Cálculo de la frecuencia de término (TF) para cada término en cada documento.

In [29]:
def tf(term, document):
    # return document.count(term)
    words = document.lower().split()
    # Contar cuántas veces aparece el término en la lista de palabras
    return words.count(term.lower())

- Cálculo de la frecuencia inversa de documento (IDF) para cada término en el corpus.

In [30]:
def idf(term, corpus):
    num_documents_with_term = sum(1 for doc in corpus if term in doc)
    if num_documents_with_term == 0:
        return 0

    return math.log10(len(corpus) / num_documents_with_term)



- Cálculo del peso TF-IDF para cada término en cada documento.

In [31]:
def tfidf(term, document, corpus):
    return tf(term, document) * idf(term, corpus)

tfidf_matrix = {}
for doc_index, document in enumerate(datos):
    tfidf_matrix[doc_index] = {}
    for term in vocab:
        tfidf_matrix[doc_index][term] = tfidf(term, document, datos)

In [32]:
for doc_index, doc_tfidf in tfidf_matrix.items():
    print(f"Documento {doc_index+1}:")
    for term, weight in doc_tfidf.items():
        tf_value = tf(term, datos[doc_index])
        idf_value = idf(term, datos)
        print(f"  {term}: TF={tf_value:.4f}, IDF={idf_value:.4f}, TF-IDF={weight:.4f}")

Documento 1:
  realidad: TF=0.0000, IDF=0.6021, TF-IDF=0.0000
  recomendaciones: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  las: TF=3.0000, IDF=0.0580, TF-IDF=0.1740
  contexto: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  importar: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  creciente: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  distancia: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  humanidad: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  una: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  competencias: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  cómo: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  diagnostican: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  mercado: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  mejores: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  populares: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  alcanzado: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  interactuar: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  sin: TF=1.0000, IDF=0.6021, TF-IDF=0.6021
  comercio: TF=0.0000, IDF=0.9031, TF-IDF=0.0000
  avances: TF=0.0000, IDF=0.4260, TF-IDF=0.0000
  públ

# 3. Procesamiento de las consultas:



- Preprocesamiento de las consultas de manera similar a los documentos.

In [33]:
consultas = [
    "inteligencia artificial en medicina",
    "beneficios de la educación a distancia",
    "realidad aumentada en videojuegos",
    "desarrollo personal y hábitos saludables",
    "futuro del comercio electrónico",
    "tecnologías en cine moderno",
    "competencias de e-sports",
    "diagnóstico con dispositivos portátiles",
    "literatura de ciencia ficción",
    "plataformas de streaming"
]

def process_query(query):
    query_cleaned = re.sub(r'[,.]', '', query.lower()).split()
    return query_cleaned

- Representación de las consultas en el espacio vectorial TF-IDF.

In [34]:
def represent_query_in_tfidf(query, corpus):
    query_vector = {}
    processed_query = process_query(query)

    for term in vocab:
        query_vector[term] = tfidf(term, ' '.join(processed_query), corpus)

    return query_vector

for i, consulta in enumerate(consultas):
    consulta_tfidf = represent_query_in_tfidf(consulta, datos)
    print(f"\nConsulta {i + 1}: '{consulta}'")
    for term, tfidf_value in consulta_tfidf.items():
        if tfidf_value > 0:
            print(f"    {term}: {tfidf_value:.4f}")



Consulta 1: 'inteligencia artificial en medicina'
    medicina: 0.9031
    artificial: 0.4260
    inteligencia: 0.4260

Consulta 2: 'beneficios de la educación a distancia'
    distancia: 0.9031
    educación: 0.9031
    beneficios: 0.9031

Consulta 3: 'realidad aumentada en videojuegos'
    realidad: 0.6021
    videojuegos: 0.9031
    aumentada: 0.9031

Consulta 4: 'desarrollo personal y hábitos saludables'
    hábitos: 0.9031
    saludables: 0.9031
    personal: 0.4260
    desarrollo: 0.6021
    y: 0.0580

Consulta 5: 'futuro del comercio electrónico'
    comercio: 0.9031
    futuro: 0.6021
    electrónico: 0.9031

Consulta 6: 'tecnologías en cine moderno'
    tecnologías: 0.6021
    cine: 0.9031

Consulta 7: 'competencias de e-sports'
    competencias: 0.9031
    e-sports: 0.9031

Consulta 8: 'diagnóstico con dispositivos portátiles'
    dispositivos: 0.9031
    portátiles: 0.9031
    con: 0.0580

Consulta 9: 'literatura de ciencia ficción'
    ficción: 0.9031
    ciencia: 0.6021



# 4. Cálculo de similitudes:

- Cálculo de la similitud entre cada consulta y los documentos del corpus utilizando la similitud del coseno.

In [35]:
def cosine_similarity(vec1, vec2):
    dot_product = sum(vec1[term] * vec2.get(term, 0) for term in vec1)
    norm_vec1 = math.sqrt(sum(value ** 2 for value in vec1.values()))
    norm_vec2 = math.sqrt(sum(value ** 2 for value in vec2.values()))
    if norm_vec1 == 0 or norm_vec2 == 0:
        return 0
    return dot_product / (norm_vec1 * norm_vec2)

for i, consulta in enumerate(consultas):
    consulta_tfidf = represent_query_in_tfidf(consulta, datos)
    print(f"\nSimilitudes para la consulta '{consulta}':")
    for doc_index, document_tfidf in tfidf_matrix.items():
        similitud = cosine_similarity(consulta_tfidf, document_tfidf)
        print(f"    Similitud con Documento {doc_index + 1}: {similitud:.4f}")


Similitudes para la consulta 'inteligencia artificial en medicina':
    Similitud con Documento 1: 0.0768
    Similitud con Documento 2: 0.0383
    Similitud con Documento 3: 0.0000
    Similitud con Documento 4: 0.0000
    Similitud con Documento 5: 0.0000
    Similitud con Documento 6: 0.0842
    Similitud con Documento 7: 0.0000
    Similitud con Documento 8: 0.3802

Similitudes para la consulta 'beneficios de la educación a distancia':
    Similitud con Documento 1: 0.0000
    Similitud con Documento 2: 0.0000
    Similitud con Documento 3: 0.0000
    Similitud con Documento 4: 0.2545
    Similitud con Documento 5: 0.0000
    Similitud con Documento 6: 0.0000
    Similitud con Documento 7: 0.0000
    Similitud con Documento 8: 0.0000

Similitudes para la consulta 'realidad aumentada en videojuegos':
    Similitud con Documento 1: 0.0000
    Similitud con Documento 2: 0.3233
    Similitud con Documento 3: 0.0000
    Similitud con Documento 4: 0.0000
    Similitud con Documento 5: 0

# 5. Ranking de documentos:

- Ordenar los documentos de mayor a menor similitud para cada consulta.

In [36]:
for i, consulta in enumerate(consultas):
    consulta_tfidf = represent_query_in_tfidf(consulta, datos)
    similitudes = []

    for doc_index, document_tfidf in tfidf_matrix.items():
        similitud = cosine_similarity(consulta_tfidf, document_tfidf)
        similitudes.append((doc_index + 1, similitud))

    similitudes.sort(key=lambda x: x[1], reverse=True)

    print(f"\nRanking de documentos para la consulta '{consulta}':")
    for doc_id, sim in similitudes:
        print(f"    Documento {doc_id}: Similitud = {sim:.4f}")



Ranking de documentos para la consulta 'inteligencia artificial en medicina':
    Documento 8: Similitud = 0.3802
    Documento 6: Similitud = 0.0842
    Documento 1: Similitud = 0.0768
    Documento 2: Similitud = 0.0383
    Documento 3: Similitud = 0.0000
    Documento 4: Similitud = 0.0000
    Documento 5: Similitud = 0.0000
    Documento 7: Similitud = 0.0000

Ranking de documentos para la consulta 'beneficios de la educación a distancia':
    Documento 4: Similitud = 0.2545
    Documento 1: Similitud = 0.0000
    Documento 2: Similitud = 0.0000
    Documento 3: Similitud = 0.0000
    Documento 5: Similitud = 0.0000
    Documento 6: Similitud = 0.0000
    Documento 7: Similitud = 0.0000
    Documento 8: Similitud = 0.0000

Ranking de documentos para la consulta 'realidad aumentada en videojuegos':
    Documento 2: Similitud = 0.3233
    Documento 1: Similitud = 0.0000
    Documento 3: Similitud = 0.0000
    Documento 4: Similitud = 0.0000
    Documento 5: Similitud = 0.0000
    Do

- Mostrar los documentos más relevantes para cada consulta.


In [37]:
top_n = 1

for i, consulta in enumerate(consultas):
    consulta_tfidf = represent_query_in_tfidf(consulta, datos)
    similitudes = []

    for doc_index, document_tfidf in tfidf_matrix.items():
        similitud = cosine_similarity(consulta_tfidf, document_tfidf)
        similitudes.append((doc_index + 1, similitud))

    similitudes.sort(key=lambda x: x[1], reverse=True)
    top_similitudes = similitudes[:top_n]

    print(f"\nDocumentos más relevantes para la consulta '{consulta}':")
    for doc_id, sim in top_similitudes:
        print(f"    Documento {doc_id}: Similitud = {sim:.4f}")


Documentos más relevantes para la consulta 'inteligencia artificial en medicina':
    Documento 8: Similitud = 0.3802

Documentos más relevantes para la consulta 'beneficios de la educación a distancia':
    Documento 4: Similitud = 0.2545

Documentos más relevantes para la consulta 'realidad aumentada en videojuegos':
    Documento 2: Similitud = 0.3233

Documentos más relevantes para la consulta 'desarrollo personal y hábitos saludables':
    Documento 7: Similitud = 0.3527

Documentos más relevantes para la consulta 'futuro del comercio electrónico':
    Documento 3: Similitud = 0.2956

Documentos más relevantes para la consulta 'tecnologías en cine moderno':
    Documento 5: Similitud = 0.2305

Documentos más relevantes para la consulta 'competencias de e-sports':
    Documento 2: Similitud = 0.1462

Documentos más relevantes para la consulta 'diagnóstico con dispositivos portátiles':
    Documento 8: Similitud = 0.3235

Documentos más relevantes para la consulta 'literatura de ci