In [None]:
import spacy
from transformers import AutoTokenizer
import string

In [2]:
nlp = spacy.load("es_core_news_sm")
tokenizer = AutoTokenizer.from_pretrained("dccuchile/bert-base-spanish-wwm-cased")

In [3]:
def normalize_text(text):
    """ Removes special characters, punctuation and converts text to lowercase.
    Args:
        text (str): Text to normalize.
    Returns:
        str: Normalized text.
    """
    text = ''.join([char for char in text if char not in string.punctuation])
    text = text.lower()
    return text

In [4]:
input_text = "Cada vez me gusta más este tema. Los Transformers son geniales!"

In [5]:
normalized_text = normalize_text(input_text)
tokens_transformers = tokenizer.tokenize(normalized_text)
texto_tokens = " ".join(tokens_transformers)
doc = nlp(texto_tokens)
lemmas = [token.lemma_ for token in doc]
lemmas_sin_stop_words = [lemma for lemma in lemmas if lemma not in nlp.Defaults.stop_words]

In [6]:
print(f"Texto: {input_text}\n")
print(f"Texto normalizado: {normalized_text}\n")
print(f"Tokens with Transformers Library: {tokens_transformers}\n")
print(f"Lematización: {lemmas}\n")
print(f"Eliminación stop words: {lemmas_sin_stop_words}")

Texto: Cada vez me gusta más este tema. Los Transformers son geniales!

Texto normalizado: cada vez me gusta más este tema los transformers son geniales

Tokens with Transformers Library: ['cada', 'vez', 'me', 'gusta', 'más', 'este', 'tema', 'los', 'transform', '##ers', 'son', 'geniales']

Lematización: ['cada', 'vez', 'yo', 'gustar', 'más', 'este', 'tema', 'el', 'transform', '#', '#', 'ers', 'ser', 'genial']

Eliminación stop words: ['gustar', 'tema', 'transform', '#', '#', 'ers', 'genial']
