In [None]:
# Carga de datos
import glob  # Importa el módulo glob para buscar archivos por patrones


def load_data(input_directory):
    # Inicializa una lista vacía para almacenar las secuencias
    sequence = []
    # Obtiene la lista de archivos en el directorio de entrada
    files = glob.glob(f"{input_directory}/*")
    for file in files:
        # Abre cada archivo en modo lectura de texto y codificación utf-8
        with open(file, "rt", encoding="utf-8") as f:
            raw_text = f.read()  # Lee el contenido del archivo
            sequence.append((file, raw_text))  # Agrega una tupla (archivo, texto) a la secuencia
    return sequence  # Devuelve la lista de secuencias

# Llama a la función para cargar los datos desde el directorio de entrada
sequence = load_data(input_directory="../files/input")
# Imprime el nombre del archivo y los primeros 70 caracteres del texto
for file, text in sequence:
    print(f"{file}  {text[:70]}")

../files/input\file1.txt  It is essential to develop non-precious metal-based alternatives used 
../files/input\file2.txt  Electric vehicles are gaining global popularity lately, and along with
../files/input\file3.txt  Global solar irradiation is an important variable that can be used to 


In [None]:
# Clean text
import re  # Importa el módulo de expresiones regulares


def clean_text(sequence):
    cleaned_sequence = []  # Lista para almacenar los textos limpios
    for file, text in sequence:
        cleaned_text = re.sub(r"\n", " ", text)  # Reemplaza saltos de línea por espacios
        cleaned_text = re.sub(r"\s+", " ", cleaned_text)  # Reemplaza múltiples espacios por uno solo
        cleaned_text = cleaned_text.strip()  # Elimina espacios al inicio y final
        cleaned_text = cleaned_text.lower()  # Convierte el texto a minúsculas
        cleaned_sequence.append((file, cleaned_text))  # Agrega la tupla (archivo, texto limpio)
    return cleaned_sequence  # Devuelve la lista de textos limpios


# Carga los datos
sequence = load_data(input_directory="../files/input")
# Limpia los textos
cleaned_sequence = clean_text(sequence)
# Imprime el nombre del archivo y los primeros 70 caracteres del texto limpio
for file, text in cleaned_sequence:
    print(f"{file}  {text[:70]}")


../files/input\file1.txt  it is essential to develop non-precious metal-based alternatives used 
../files/input\file2.txt  electric vehicles are gaining global popularity lately, and along with
../files/input\file3.txt  global solar irradiation is an important variable that can be used to 


In [None]:
# Tokenization
import nltk  # Importa la librería nltk
from nltk.tokenize import word_tokenize  # Importa el tokenizador de palabras

nltk.download("punkt_tab")  # Descarga el recurso 'punkt_tab' para tokenización


def tokenize(sequence):
    tokenized_sequence = []  # Lista para almacenar los textos tokenizados
    for file, text in sequence:
        tokens = word_tokenize(text)  # Tokeniza el texto en palabras
        tokenized_sequence.append((file, tokens))  # Agrega la tupla (archivo, tokens)
    return tokenized_sequence  # Devuelve la lista de textos tokenizados


# Carga, limpia y tokeniza los datos
sequence = load_data(input_directory="../files/input")
cleaned_sequence = clean_text(sequence)
tokenized_sequence = tokenize(cleaned_sequence)
# Imprime el nombre del archivo y los primeros 70 caracteres de los tokens unidos
for file, text in tokenized_sequence:
    print(f"{file}  {' '.join(text)[:70]}")

../files/input\file1.txt  it is essential to develop non-precious metal-based alternatives used 
../files/input\file2.txt  electric vehicles are gaining global popularity lately , and along wit
../files/input\file3.txt  global solar irradiation is an important variable that can be used to 


[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\USUARIO\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [None]:
# Remoción de datos ruidosos (Opcion A)
def filter_tokens_a(sequence):
    """Esta solucion puede perder tokens que contienen caracteres no alfabeticos"""
    filtered_sequence = []  # Lista para almacenar los tokens filtrados
    for file, tokens in sequence:
        filtered_tokens = [token for token in tokens if token.isalpha()]  # Solo deja tokens alfabéticos
        filtered_sequence.append((file, filtered_tokens))  # Agrega la tupla (archivo, tokens filtrados)
    return filtered_sequence  # Devuelve la lista filtrada


# Carga, limpia, tokeniza y filtra los datos
sequence = load_data(input_directory="../files/input")
cleaned_sequence = clean_text(sequence)
tokenized_sequence = tokenize(cleaned_sequence)
filtered_sequence = filter_tokens_a(tokenized_sequence)
# Imprime el nombre del archivo y los primeros 70 caracteres de los tokens filtrados
for file, text in filtered_sequence:
    print(f"{file}  {' '.join(text)[:70]}")


../files/input\file1.txt  it is essential to develop alternatives used in hydrogen evolution rea
../files/input\file2.txt  electric vehicles are gaining global popularity lately and along with 
../files/input\file3.txt  global solar irradiation is an important variable that can be used to 


In [None]:
# Remoción de datos ruidosos (Opcion B)
def filter_tokens_b(sequence):
    """Esta solucion puede perder tokens que contienen caracteres no alfabeticos"""
    filtered_sequence = []  # Lista para almacenar los tokens filtrados
    for file, tokens in sequence:
        filtered_tokens = [re.sub(r"[^a-zA-Z\s]", " ", token) for token in tokens]  # Reemplaza caracteres no alfabéticos por espacio
        filtered_tokens = [re.sub(r"\s+", " ", token) for token in filtered_tokens]  # Reemplaza múltiples espacios por uno
        filtered_tokens = [token.strip() for token in filtered_tokens]  # Elimina espacios al inicio y final
        filtered_tokens = [token for token in filtered_tokens if token != ""]  # Elimina tokens vacíos
        filtered_sequence.append((file, filtered_tokens))  # Agrega la tupla (archivo, tokens filtrados)
    return filtered_sequence  # Devuelve la lista filtrada

# Carga, limpia, tokeniza y filtra los datos
sequence = load_data(input_directory="../files/input")
cleaned_sequence = clean_text(sequence)
tokenized_sequence = tokenize(cleaned_sequence)
filtered_sequence = filter_tokens_b(tokenized_sequence)
# Imprime el nombre del archivo y los primeros 70 caracteres de los tokens filtrados
for file, text in filtered_sequence:
    print(f"{file}  {' '.join(text)[:70]}")

../files/input\file1.txt  it is essential to develop non precious metal based alternatives used 
../files/input\file2.txt  electric vehicles are gaining global popularity lately and along with 
../files/input\file3.txt  global solar irradiation is an important variable that can be used to 


In [None]:
# Remove the stopwords
nltk.download("stopwords")  # Descarga la lista de stopwords


def remove_stopwords(sequence):
    stop_words = set(nltk.corpus.stopwords.words("english"))  # Obtiene el conjunto de stopwords en inglés
    filtered_sequence = []  # Lista para almacenar los tokens filtrados
    for file, tokens in sequence:
        filtered_tokens = [token for token in tokens if token not in stop_words]  # Elimina las stopwords
        filtered_sequence.append((file, filtered_tokens))  # Agrega la tupla (archivo, tokens filtrados)
    return filtered_sequence  # Devuelve la lista filtrada


# Carga, limpia, tokeniza, filtra y elimina stopwords
sequence = load_data(input_directory="../files/input")
cleaned_sequence = clean_text(sequence)
tokenized_sequence = tokenize(cleaned_sequence)
filtered_sequence = filter_tokens_b(tokenized_sequence)
filtered_sequence = remove_stopwords(filtered_sequence)
# Imprime el nombre del archivo y los primeros 70 caracteres de los tokens filtrados
for file, text in filtered_sequence:
    print(f"{file}  {' '.join(text)[:70]}")


../files/input\file1.txt  essential develop non precious metal based alternatives used hydrogen 
../files/input\file2.txt  electric vehicles gaining global popularity lately along efficient bat
../files/input\file3.txt  global solar irradiation important variable used determine suitability


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USUARIO\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
# Save to disk
import os  # Importa el módulo os para operaciones del sistema operativo
import textwrap  # Importa textwrap para formatear el texto


def save_data(output_directory, sequence):
    # Verifica si el directorio de salida existe, si no, lo crea
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)

    # Itera sobre cada archivo y sus tokens en la secuencia
    for file, tokens in sequence:
        file = file.replace("\\", "/")  # Reemplaza las barras invertidas por barras normales en la ruta del archivo
        with open(
            f"{output_directory}/{file.split('/')[-1]}",  # Abre el archivo de salida con el mismo nombre que el archivo original
            "wt",  # Modo escritura de texto
            encoding="utf-8",  # Codificación utf-8
        ) as f:
            f.write(textwrap.fill(" ".join(tokens), width=70))  # Escribe los tokens unidos por espacios y formateados a 70 caracteres por línea

# Carga los datos desde el directorio de entrada
sequence = load_data(input_directory="../files/input")
# Limpia el texto de los datos cargados
cleaned_sequence = clean_text(sequence)
# Tokeniza el texto limpio
tokenized_sequence = tokenize(cleaned_sequence)
# Filtra los tokens usando la opción B
filtered_sequence = filter_tokens_b(tokenized_sequence)
# Elimina las stopwords de los tokens filtrados
filtered_sequence = remove_stopwords(filtered_sequence)
# Guarda los datos procesados en el directorio de salida
save_data(output_directory="../files/output", sequence=filtered_sequence)