# Función que hace stemming de las palabras del corpus

Realizaremos stemming de las sinopsis limpiadas para quedarnos con la raíz de las palabras ya que es la única parte de la palabra que contiene la información útil. Para este procedimiento utilizaremos la clase SnowballStemmer de la librería NLTK debido a que es el algoritmo de Stemmer más eficaz para un corpus en español.

In [2]:
import nltk
from nltk.stem import SnowballStemmer
nltk.download('snowball_data')

[nltk_data] Downloading package snowball_data to
[nltk_data]     /home/moffinguer/nltk_data...
[nltk_data]   Package snowball_data is already up-to-date!


True

In [3]:
def apply_stemming(input_file, output_file):
    
    # Crear el stemmer en español
    stemmer = SnowballStemmer('spanish')

    # Abrir el archivo de entrada y el archivo de salida
    with open(input_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()

    with open(output_file, 'w', encoding='utf-8') as file:
        file.write("sinopsis\tgenero\n")  # Escribir la cabecera en el archivo de salida

        for line in lines[1:]:
            synopsis, genre = line.strip().split('\t')

            # Tokenizar la sinopsis en palabras
            tokens = nltk.word_tokenize(synopsis)

            # Aplicar stemming a cada palabra de la sinopsis
            stemmed_tokens = [stemmer.stem(token) for token in tokens]

            # Unir los tokens procesados en una sola cadena
            processed_text = ' '.join(stemmed_tokens)

            # Escribir la sinopsis procesada y el género en el archivo de salida
            file.write(f"{processed_text}\t{genre}\n")

    print("Stemming aplicado. El archivo procesado se guardó en:", output_file)

In [4]:
input_file = '../data/tokenize_data.txt'
output_file = '../data/stemming_data.txt'
apply_stemming(input_file, output_file)

Stemming aplicado. El archivo procesado se guardó en: ../data/stemming_data.txt
