# Tokenización

In [None]:
# @title Tokenización por palabras

import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')

texto = "Hola, esto es una prueba de tokenización por palabras."

tokens = word_tokenize(texto)
print("Tokens de palabras:", tokens)

In [None]:
# @title Tokenización por subpalabras

from transformers import LlamaTokenizerFast

tokenizer = LlamaTokenizerFast.from_pretrained("hf-internal-testing/llama-tokenizer")
texto = "Hola, esto es una prueba de tokenización por subpalabras."

# Tokenizar con BPE
tokens = tokenizer.tokenize(texto)
print("Tokens de subpalabras (BPE)", tokens)

In [None]:
# @title Tokenización por frase

from nltk.tokenize import sent_tokenize

texto = "Hola, esto es una prueba de tokenización por frase. ¿Cómo estás?."

frases = sent_tokenize(texto, language='spanish')
print("Tokens de frases:", frases)

# Vectorización

In [None]:
# @title Vectorización por Bag of words

from sklearn.feature_extraction.text import CountVectorizer

textos = ["Hola, hola. Esto es una prueba, es la prueba definitiva.", "Vaya prueba, repetiste hola."]
vectorizador = CountVectorizer()
X = vectorizador.fit_transform(textos)
print(vectorizador.get_feature_names_out())
print(X.toarray())

In [None]:
# @title Vectorización por TF-IDF

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizador = TfidfVectorizer()
X = vectorizador.fit_transform(textos)
print(vectorizador.get_feature_names_out())
print(X.toarray())

In [None]:
# @title Vectorización por word embeddings

from gensim.models import Word2Vec

tokens = [word_tokenize(texto) for texto in textos]
modelo = Word2Vec(tokens, vector_size=100, window=5, min_count=1, workers=4)

print(modelo.wv['prueba'])

In [None]:
from transformers import LlamaTokenizerFast

tokenizer = LlamaTokenizerFast.from_pretrained("hf-internal-testing/llama-tokenizer")
embeddings = tokenizer.encode("Hola, hola. Esto es una prueba, es la prueba definitiva.")
print(embeddings)