In [11]:
# Configuración inicial
import os

# Obtener la ruta base del proyecto
current_dir = os.path.dirname(os.path.abspath("__file__"))
base_dir = os.path.dirname(current_dir)

# Definir rutas absolutas para input y output
input_dir = os.path.join(base_dir, "files", "input")
output_dir = os.path.join(base_dir, "files", "output")

# Crear directorios si no existen
os.makedirs(input_dir, exist_ok=True)
os.makedirs(output_dir, exist_ok=True)

print(f"Input directory: {input_dir}")
print(f"Output directory: {output_dir}")

# Crear archivos de ejemplo
example_texts = [
    "Este es el contenido de ejemplo del archivo 1",
    "Este es el contenido de ejemplo del archivo 2",
    "Este es el contenido de ejemplo del archivo 3"
]

for i, text in enumerate(example_texts, 1):
    file_path = os.path.join(input_dir, f"file{i}.txt")
    with open(file_path, "w", encoding="utf-8") as f:
        f.write(text)
    print(f"Created: {file_path}")

Input directory: c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input
Output directory: c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\output
Created: c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file1.txt
Created: c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file2.txt
Created: c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file3.txt


In [12]:
# Carga de datos
import glob


def load_data(input_directory):

    sequence = []
    files = glob.glob(f"{input_directory}/*")
    for file in files:
        with open(file, "rt", encoding="utf-8") as f:
            raw_text = f.read()
            sequence.append((file, raw_text))
    return sequence


sequence = load_data(input_directory=input_dir)  # Usar la variable input_dir
for file, text in sequence:
    print(f"{file}  {text[:75]}")

c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file1.txt  Este es el contenido de ejemplo del archivo 1
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file2.txt  Este es el contenido de ejemplo del archivo 2
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file3.txt  Este es el contenido de ejemplo del archivo 3


In [13]:
# Clean text
import re


def clean_text(sequence):
    cleaned_sequence = []
    for file, text in sequence:
        cleaned_text = re.sub(r"\n", " ", text)
        cleaned_text = re.sub(r"\s+", " ", cleaned_text)
        cleaned_text = cleaned_text.strip()
        cleaned_text = cleaned_text.lower()
        cleaned_sequence.append((file, cleaned_text))
    return cleaned_sequence


sequence = load_data(input_directory=input_dir)  # Usar la variable input_dir
cleaned_sequence = clean_text(sequence)
for file, text in cleaned_sequence:
    print(f"{file}  {text[:70]}")

c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file1.txt  este es el contenido de ejemplo del archivo 1
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file2.txt  este es el contenido de ejemplo del archivo 2
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file3.txt  este es el contenido de ejemplo del archivo 3


In [14]:

# %%
# Tokenization
# Tokenization
import nltk
from nltk.tokenize import word_tokenize

# nltk.download("punkt_tab")


def tokenize(sequence):
    tokenized_sequence = []
    for file, text in sequence:
        tokens = word_tokenize(text)
        tokenized_sequence.append((file, tokens))
    return tokenized_sequence


sequence = load_data(input_directory=input_dir)  # Usar la variable input_dir
cleaned_sequence = clean_text(sequence)
tokenized_sequence = tokenize(cleaned_sequence)
for file, text in tokenized_sequence:
    print(f"{file}  {' '.join(text)[:70]}")
    
    

c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file1.txt  este es el contenido de ejemplo del archivo 1
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file2.txt  este es el contenido de ejemplo del archivo 2
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file3.txt  este es el contenido de ejemplo del archivo 3


In [15]:

# %%
# Remoción de datos ruidosos (Opcion A)
def filter_tokens_a(sequence):
    """Esta solucion puede perder tokens que contienen caracteres no alfabeticos"""
    filtered_sequence = []
    for file, tokens in sequence:
        filtered_tokens = [token for token in tokens if token.isalpha()]
        filtered_sequence.append((file, filtered_tokens))
    return filtered_sequence


sequence = load_data(input_directory=input_dir)  # Usar la variable input_dir
cleaned_sequence = clean_text(sequence)
tokenized_sequence = tokenize(cleaned_sequence)
filtered_sequence = filter_tokens_a(tokenized_sequence)
for file, text in filtered_sequence:
    print(f"{file}  {' '.join(text)[:70]}")
    
    
    
    
# %%
# Remoción de datos ruidosos (Opcion B)
def filter_tokens_b(sequence):
    """Esta solucion puede perder tokens que contienen caracteres no alfabeticos"""
    filtered_sequence = []
    for file, tokens in sequence:
        filtered_tokens = [re.sub(r"[^a-zA-Z\s]", " ", token) for token in tokens]
        filtered_tokens = [re.sub(r"\s+", " ", token) for token in filtered_tokens]
        filtered_tokens = [token.strip() for token in filtered_tokens]
        filtered_tokens = [token for token in filtered_tokens if token != ""]
        filtered_sequence.append((file, filtered_tokens))
    return filtered_sequence


sequence = load_data(input_directory=input_dir)  # Usar la variable input_dir
cleaned_sequence = clean_text(sequence)
tokenized_sequence = tokenize(cleaned_sequence)
filtered_sequence = filter_tokens_b(tokenized_sequence)
for file, text in filtered_sequence:
    print(f"{file}  {' '.join(text)[:70]}")



    # %%

c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file1.txt  este es el contenido de ejemplo del archivo
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file2.txt  este es el contenido de ejemplo del archivo
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file3.txt  este es el contenido de ejemplo del archivo
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file1.txt  este es el contenido de ejemplo del archivo
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file2.txt  este es el contenido de ejemplo del archivo
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file3.txt  este es el contenido de ejemplo del archivo


In [16]:

# Remove the stopwords
nltk.download("stopwords")


def remove_stopwords(sequence):
    stop_words = set(nltk.corpus.stopwords.words("english"))
    filtered_sequence = []
    for file, tokens in sequence:
        filtered_tokens = [token for token in tokens if token not in stop_words]
        filtered_sequence.append((file, filtered_tokens))
    return filtered_sequence


sequence = load_data(input_directory=input_dir)  # Usar la variable input_dir
cleaned_sequence = clean_text(sequence)
tokenized_sequence = tokenize(cleaned_sequence)
filtered_sequence = filter_tokens_b(tokenized_sequence)
filtered_sequence = remove_stopwords(filtered_sequence)
for file, text in filtered_sequence:
    print(f"{file}  {' '.join(text)[:70]}")
    nltk.download("stopwords")


c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file1.txt  este es el contenido de ejemplo del archivo
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file2.txt  este es el contenido de ejemplo del archivo
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file3.txt  este es el contenido de ejemplo del archivo

c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file2.txt  este es el contenido de ejemplo del archivo
c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\input\file3.txt  este es el contenido de ejemplo del archivo


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\juanf\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\juanf\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\juanf\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\juanf\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [17]:
# Save to disk
import os
import textwrap


def save_data(output_directory, sequence):
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)

    for file, tokens in sequence:
        # Extraer solo el nombre del archivo
        filename = os.path.basename(file)
        output_path = os.path.join(output_directory, filename)
        
        with open(output_path, "wt", encoding="utf-8") as f:
            f.write(textwrap.fill(" ".join(tokens), width=50))


sequence = load_data(input_directory=input_dir)
cleaned_sequence = clean_text(sequence)
tokenized_sequence = tokenize(cleaned_sequence)
filtered_sequence = filter_tokens_b(tokenized_sequence)
filtered_sequence = remove_stopwords(filtered_sequence)
save_data(output_directory=output_dir, sequence=filtered_sequence)

# Verificar la creación de archivos
for i in range(1, 4):
    filename = f"file{i}.txt"
    filepath = os.path.join(output_dir, filename)
    if os.path.exists(filepath):
        print(f"Archivo {filename} creado correctamente en {filepath}")
    else:
        print(f"Error: No se pudo crear {filename}")

Archivo file1.txt creado correctamente en c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\output\file1.txt
Archivo file2.txt creado correctamente en c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\output\file2.txt
Archivo file3.txt creado correctamente en c:\Users\juanf\Desktop\Fund. Analitica\PRE-10-tokenizacion-de-texto-juquinterope\files\output\file3.txt
