# Prepocesamiento
1. Cargar data

In [14]:
import os

In [15]:
#Path de los datos 
data_path = r'D:\U\7. Septimo\RI\ProyectoRI\data\test_txt' 

In [16]:
#Crear un vector de documentos
#Abrimos cada archivo y lo leemos
documents = []
for filename in os.listdir(data_path):
    if filename.endswith('.txt'):
        path = os.path.join(data_path, filename)
        with open(path, 'r', encoding='utf-8') as file:
            content = file.read()
            documents.append((filename, content))
len(documents)

3019

 2. StopWords y Stemming

In [17]:
from nltk.stem import SnowballStemmer 

In [18]:
#Stemmer se usa para reducir las palabras a su raíz
stemmer = SnowballStemmer('english')

In [21]:
#Path de las stopwords
stopwords_path = r"D:\U\7. Septimo\RI\ProyectoRI\data\stopwords.txt"

In [22]:
#Abrimos el archivo y leemos las stopwords
with open(stopwords_path, 'r', encoding='utf-8') as file:
    stop_words = set(file.read().splitlines())

3. Tokenización

In [23]:
#Función para tokenizar y stemmizar
#tokenizar: dividir el texto en palabras
import nltk
import string

In [24]:
#Definimos una función que normaliza el texto con todos los requisitos necesarios:
#conviertimos en minúsculas
#eliminamos los signos de puntuación
#tokenizamos
#aplicamos stemming
def preprocess_text(text):
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))
    tokens = nltk.word_tokenize(text)
    processed_tokens = [stemmer.stem(word) for word in tokens if word not in stop_words]
    return ' '.join(processed_tokens)


4. Aplicación a todos los documentos

In [25]:
#Preprocesamos los documentos
preprocessed_documents = [(filename, preprocess_text(content)) for filename, content in documents]

In [26]:
len(preprocessed_documents)

3019

Transformacion de tupla a lista
tupla = ()
lista = []

In [31]:
folder_path = 'D:\\U\\7. Septimo\\RI\\ProyectoRI\\data\\cats.txt'

In [32]:
lines = []
with open(folder_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()

In [33]:
def build_inverted_index(lines):
    index = {}
    for line in lines:
        # Separar la ruta del documento y los términos
        parts = line.strip().split()
        document = parts[0]
        terms = parts[1:]
        
        for term in terms:
            if term in index:
                index[term].append(document)
            else:
                index[term] = [document]
    return index

# Construir el índice invertido
inverted_index = build_inverted_index(lines)

In [34]:
preprocessed_documents_list = [doc[0] if isinstance(doc, tuple) else doc for doc in preprocessed_documents]

In [36]:

import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity


//

In [37]:
# Extraer los textos preprocesados
texts = [content for _, content in preprocessed_documents]

In [38]:
# Vectorización con Bag of Words (BoW)
bow_vectorizer = CountVectorizer()
bow_matrix = bow_vectorizer.fit_transform(texts)

In [39]:
# Vectorización con TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(texts)

In [40]:
# Verificar la forma de las matrices
print("BoW matrix shape:", bow_matrix.shape)
print("TF-IDF matrix shape:", tfidf_matrix.shape)

BoW matrix shape: (3019, 19667)
TF-IDF matrix shape: (3019, 19667)


# 2.5 Motor de Busqueda

In [43]:
def find_similar_documents(matrix, index, top_n=10):
    cosine_similarities = cosine_similarity(matrix[index:index+1], matrix).flatten()
    related_docs_indices = cosine_similarities.argsort()[:-top_n-1:-1]
    return related_docs_indices

# Índice del documento para el cual deseas encontrar documentos relevantes
doc_index = 0  # Puedes cambiar este valor

# Encontrar documentos similares usando BoW
similar_docs_bow = find_similar_documents(bow_matrix, doc_index)

# Encontrar documentos similares usando TF-IDF
similar_docs_tfidf = find_similar_documents(tfidf_matrix, doc_index)

print(f"Documentos similares al documento {doc_index} usando BoW: {similar_docs_bow}")
print(f"Documentos similares al documento {doc_index} usando TF-IDF: {similar_docs_tfidf}")


Documentos similares al documento 0 usando BoW: [   0  169 1118 1190   14 1452  761  803 1830 1101]
Documentos similares al documento 0 usando TF-IDF: [   0  169 1118   14  698  761 1190 1516 1160 1452]


//

In [None]:
# Construir relevant_documents_bow a partir del índice invertido y las consultas
relevant_documents_bow = {}
for query, relevant_terms in inverted_index.items():
    relevant_documents = set()
    for term in relevant_terms:
        if term in inverted_index:  # Verificar si el término está presente en el índice invertido
            relevant_documents.update(inverted_index[term])
    relevant_documents_bow[query] = list(relevant_documents)


In [None]:
# Calcular la precisión y el recall de los primeros 10 documentos recuperados
def calculate_precision_recall(inverted_index, relevant_documents_bow, documents_list, top_n=10):
    precision_sum = 0
    recall_sum = 0
    num_queries = 0
    
    for query, relevant_documents in relevant_documents_bow.items():
        retrieved_documents = set()
        
        for term in query.split():
            if term in inverted_index:
                retrieved_documents.update(inverted_index[term])
        
        # Calcular la intersección de los documentos relevantes y los recuperados
        intersection = set(retrieved_documents).intersection(relevant_documents)
        
        # Calcular la precisión y el recall
        precision = len(intersection) / top_n
        if len(relevant_documents) == 0:
            recall = 0
        else: 
            recall = len(intersection) / len(relevant_documents)
        
        precision_sum += precision
        recall_sum += recall
        num_queries += 1
    
    # Calcular el promedio de precisión y recall
    precision_avg = precision_sum / num_queries
    recall_avg = recall_sum / num_queries
    
    return precision_avg, recall_avg

# Calcular la precisión y el recall para los primeros 10 documentos recuperados
precision, recall = calculate_precision_recall(inverted_index, relevant_documents_bow, preprocessed_documents_list)

print("Precisión de los primeros 10 documentos recuperados:", precision)
print("Recall de los primeros 10 documentos recuperados:", recall)


Precisión de los primeros 10 documentos recuperados: 0.0
Recall de los primeros 10 documentos recuperados: 0.0
