# Preprocesamiento de datos

#### 1. Funcion para cargar Documentos y Stop Words

In [2]:
import os

# Función para cargar documentos desde una ruta y devolver nombres de archivos y contenido
def load_documents(folder_path):
    documents = [] # Contruimos los documentos originales
    filenames = [] # Contruimos los nombres de los archivos (Id)
    for filename in os.listdir(folder_path):
        if filename.endswith('.txt'):
            with open(os.path.join(folder_path, filename), 'r') as file:
                documents.append(file.read())
                filenames.append(filename)
    return filenames, documents

#### Funcion para cargar StopWords

In [3]:
# función para cargar dlas stop Words
def load_stop_words(file_path):
    with open(file_path, 'r') as file:
        stop_words = set(file.read().split())
    return stop_words

#### Función para preprocesar texto

In [4]:
import re
import string
import nltk
from nltk.stem import SnowballStemmer

#Stemmer se usa para reducir las palabras a su raíz
#Ingles ya que en ese idioma estan los documentos
stemmer = SnowballStemmer('english')

def preprocess_text(text, stop_words):
    text = text.lower() #conviertimos en minúsculas
    text = re.sub(r'\d+', '', text)  
    text = text.translate(str.maketrans('', '', string.punctuation))#eliminamos los signos de puntuación
    tokens = nltk.word_tokenize(text)#tokenizamos
    processed_tokens = [stemmer.stem(word) for word in tokens if word not in stop_words] #aplicamos stemming
    return ' '.join(processed_tokens)

#### Aplicamos las funciones

In [5]:
# Paths de los documents y de las stopWords
documents_path = r'C:\Users\usuario\Fer-Pc\Escritorio\EPN\2024-A\SEPTIMO_SEMESTRE\RECUPERACION_DE_INFORMACION\ir24a\proyecto1Bimestre\data\training_txt'
stop_words_path = r'C:\Users\usuario\Fer-Pc\Escritorio\EPN\2024-A\SEPTIMO_SEMESTRE\RECUPERACION_DE_INFORMACION\ir24a\proyecto1Bimestre\data\stopwords.txt'

In [6]:
filenames, documents = load_documents(documents_path)
stop_words = load_stop_words(stop_words_path)

In [7]:
processed_docs = [preprocess_text(doc, stop_words) for doc in documents]

#### Vectorizacion Datos

In [10]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# Función para vectorizar documentos
def vectorize_documents(documents):
    bow_vectorizer = CountVectorizer(binary=True)
    bow_vectors = bow_vectorizer.fit_transform(documents)
    tfidf_vectorizer = TfidfVectorizer()
    tfidf_vectors = tfidf_vectorizer.fit_transform(documents)
    return bow_vectorizer, tfidf_vectorizer, bow_vectors, tfidf_vectors

#### Aplicamos la funcion
    1. Obtenemos Bow Vectors (con su funcion de vectorizer)
    2. Obtenemos TF IDF Vectors (con su funcion de vectorizer)

In [11]:
bow_vectorizer, tfidf_vectorizer, bow_vectors, tfidf_vectors = vectorize_documents(processed_docs)

#### Guardamos archivo pkl

In [12]:
import pickle

In [21]:
# Guardar los datos precomputados
precomputed_data = {
    'filenames': filenames,
    'documents': documents,  # Incluimos los documentos originales
    'processed_docs': processed_docs,
    'bow_vectors': bow_vectors,
    'tfidf_vectors': tfidf_vectors,
    'bow_vectorizer': bow_vectorizer,
    'tfidf_vectorizer': tfidf_vectorizer
}

In [14]:
#Guardar los datos precomputados
def save_precomputed_data(file_path, data):
    with open(file_path, 'wb') as file:
        pickle.dump(data, file)

In [15]:
save_path = r'C:\Users\usuario\Fer-Pc\Escritorio\EPN\2024-A\SEPTIMO_SEMESTRE\RECUPERACION_DE_INFORMACION\ir24a\proyecto1Bimestre\preprocessd_data.pkl'

In [16]:
save_precomputed_data(save_path, precomputed_data)