In [2]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer

In [3]:
# Descargar recursos de NLTK si no están descargados
nltk.download('punkt')
nltk.download('stopwords')


[nltk_data] Downloading package punkt to /Users/dfloresr/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/dfloresr/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [4]:
# Cargar el stemmer de Snowball para español
stemmer = SnowballStemmer("spanish")


In [5]:
# Corpus de 150 palabras sobre la inteligencia artificial en español
corpus = 'Los gatos, esos enigmáticos y elegantes felinos, han sido compañeros humanos durante milenios. Su gracia y misterio han fascinado a las personas de todas las culturas y edades. Con su pelaje suave y ojos penetrantes, los gatos tienen la capacidad de cautivar a cualquiera que se cruce en su camino. Los gatos son animales independientes por naturaleza. A menudo se dice que los gatos eligen a sus dueños en lugar de lo contrario. Esta actitud distante puede confundirse con desinterés, pero en realidad es una manifestación de su personalidad única. Los gatos valoran su espacio y tiempo a solas, lo que los hace perfectos para personas que buscan una compañía más tranquila. Además de su actitud independiente, los gatos también son conocidos por su capacidad de caza. Aunque muchos gatos domésticos no necesitan cazar para sobrevivir, aún conservan este instinto. Los juguetes y juegos que imitan la caza son esenciales para mantener a los gatos estimulados mental y físicamente. Una de las características más fascinantes de los gatos es su capacidad de comunicación. Sus ronroneos suaves, maullidos variados y movimientos corporales sutiles pueden revelar mucho sobre su estado de ánimo y necesidades. Cada gato tiene su propia forma única de comunicarse con su dueño y el mundo que lo rodea. No podemos dejar de mencionar la adoración que los gatos tienen por su higiene personal. Pasan una gran parte de su tiempo acicalándose, asegurándose de que su pelaje esté limpio y brillante. Esto no solo es una muestra de su orgullo y cuidado personal, sino también un ritual que fortalece los lazos sociales entre gatos. En resumen, los gatos son criaturas asombrosas que encantan a las personas con su personalidad única y comportamientos intrigantes. Ya sea ronroneando en tu regazo, acechando un juguete o simplemente observando el mundo desde una repisa, los gatos continúan siendo una fuente de asombro y cariño en nuestras vidas.'
corpus

'Los gatos, esos enigmáticos y elegantes felinos, han sido compañeros humanos durante milenios. Su gracia y misterio han fascinado a las personas de todas las culturas y edades. Con su pelaje suave y ojos penetrantes, los gatos tienen la capacidad de cautivar a cualquiera que se cruce en su camino. Los gatos son animales independientes por naturaleza. A menudo se dice que los gatos eligen a sus dueños en lugar de lo contrario. Esta actitud distante puede confundirse con desinterés, pero en realidad es una manifestación de su personalidad única. Los gatos valoran su espacio y tiempo a solas, lo que los hace perfectos para personas que buscan una compañía más tranquila. Además de su actitud independiente, los gatos también son conocidos por su capacidad de caza. Aunque muchos gatos domésticos no necesitan cazar para sobrevivir, aún conservan este instinto. Los juguetes y juegos que imitan la caza son esenciales para mantener a los gatos estimulados mental y físicamente. Una de las caract

In [6]:
# Tokenización usando NLTK
tokens = word_tokenize(corpus)
tokens

['Los',
 'gatos',
 ',',
 'esos',
 'enigmáticos',
 'y',
 'elegantes',
 'felinos',
 ',',
 'han',
 'sido',
 'compañeros',
 'humanos',
 'durante',
 'milenios',
 '.',
 'Su',
 'gracia',
 'y',
 'misterio',
 'han',
 'fascinado',
 'a',
 'las',
 'personas',
 'de',
 'todas',
 'las',
 'culturas',
 'y',
 'edades',
 '.',
 'Con',
 'su',
 'pelaje',
 'suave',
 'y',
 'ojos',
 'penetrantes',
 ',',
 'los',
 'gatos',
 'tienen',
 'la',
 'capacidad',
 'de',
 'cautivar',
 'a',
 'cualquiera',
 'que',
 'se',
 'cruce',
 'en',
 'su',
 'camino',
 '.',
 'Los',
 'gatos',
 'son',
 'animales',
 'independientes',
 'por',
 'naturaleza',
 '.',
 'A',
 'menudo',
 'se',
 'dice',
 'que',
 'los',
 'gatos',
 'eligen',
 'a',
 'sus',
 'dueños',
 'en',
 'lugar',
 'de',
 'lo',
 'contrario',
 '.',
 'Esta',
 'actitud',
 'distante',
 'puede',
 'confundirse',
 'con',
 'desinterés',
 ',',
 'pero',
 'en',
 'realidad',
 'es',
 'una',
 'manifestación',
 'de',
 'su',
 'personalidad',
 'única',
 '.',
 'Los',
 'gatos',
 'valoran',
 'su',
 'e

In [7]:
# Eliminar stopwords y signos de puntuación
filtered_tokens = [token for token in tokens if token.isalnum() and token.lower() not in stopwords.words("spanish")]
filtered_tokens

['gatos',
 'enigmáticos',
 'elegantes',
 'felinos',
 'sido',
 'compañeros',
 'humanos',
 'milenios',
 'gracia',
 'misterio',
 'fascinado',
 'personas',
 'todas',
 'culturas',
 'edades',
 'pelaje',
 'suave',
 'ojos',
 'penetrantes',
 'gatos',
 'capacidad',
 'cautivar',
 'cualquiera',
 'cruce',
 'camino',
 'gatos',
 'animales',
 'independientes',
 'naturaleza',
 'menudo',
 'dice',
 'gatos',
 'eligen',
 'dueños',
 'lugar',
 'contrario',
 'actitud',
 'distante',
 'puede',
 'confundirse',
 'desinterés',
 'realidad',
 'manifestación',
 'personalidad',
 'única',
 'gatos',
 'valoran',
 'espacio',
 'tiempo',
 'solas',
 'hace',
 'perfectos',
 'personas',
 'buscan',
 'compañía',
 'tranquila',
 'Además',
 'actitud',
 'independiente',
 'gatos',
 'conocidos',
 'capacidad',
 'caza',
 'Aunque',
 'gatos',
 'domésticos',
 'necesitan',
 'cazar',
 'sobrevivir',
 'aún',
 'conservan',
 'instinto',
 'juguetes',
 'juegos',
 'imitan',
 'caza',
 'esenciales',
 'mantener',
 'gatos',
 'estimulados',
 'mental',
 '

In [8]:
# Realizar stemming usando Snowball Stemmer
stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens]
stemmed_tokens

['gat',
 'enigmat',
 'eleg',
 'felin',
 'sid',
 'compañer',
 'human',
 'mileni',
 'graci',
 'misteri',
 'fascin',
 'person',
 'tod',
 'cultur',
 'edad',
 'pelaj',
 'suav',
 'ojos',
 'penetr',
 'gat',
 'capac',
 'cautiv',
 'cualqu',
 'cruc',
 'camin',
 'gat',
 'animal',
 'independient',
 'naturalez',
 'menud',
 'dic',
 'gat',
 'elig',
 'dueñ',
 'lug',
 'contrari',
 'actitud',
 'distant',
 'pued',
 'confund',
 'desinteres',
 'realid',
 'manifest',
 'personal',
 'unic',
 'gat',
 'valor',
 'espaci',
 'tiemp',
 'sol',
 'hac',
 'perfect',
 'person',
 'busc',
 'compañ',
 'tranquil',
 'ademas',
 'actitud',
 'independient',
 'gat',
 'conoc',
 'capac',
 'caz',
 'aunqu',
 'gat',
 'domest',
 'necesit',
 'caz',
 'sobreviv',
 'aun',
 'conserv',
 'instint',
 'juguet',
 'jueg',
 'imit',
 'caz',
 'esencial',
 'manten',
 'gat',
 'estimul',
 'mental',
 'fisic',
 'caracterist',
 'fascin',
 'gat',
 'capac',
 'comun',
 'ronrone',
 'suav',
 'maull',
 'vari',
 'movimient',
 'corporal',
 'sutil',
 'pued',
 're

In [9]:
# Vectorización usando TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform([" ".join(stemmed_tokens)])

In [10]:
# Mostrar la matriz de TF-IDF con los valores TF-IDF para cada token
print("Matriz de TF-IDF:")
print("Tokens:", vectorizer.get_feature_names_out())
print("Valores TF-IDF:", tfidf_matrix.toarray())

Matriz de TF-IDF:
Tokens: ['acech' 'acical' 'actitud' 'ademas' 'ador' 'anim' 'animal' 'asegur'
 'asombr' 'aun' 'aunqu' 'brillant' 'busc' 'cad' 'camin' 'capac'
 'caracterist' 'cariñ' 'cautiv' 'caz' 'compañ' 'compañer' 'comport'
 'comun' 'comunic' 'confund' 'conoc' 'conserv' 'continu' 'contrari'
 'corporal' 'criatur' 'cruc' 'cualqu' 'cuid' 'cultur' 'dej' 'desinteres'
 'dic' 'distant' 'domest' 'dueñ' 'edad' 'eleg' 'elig' 'encant' 'enigmat'
 'esencial' 'espaci' 'estimul' 'fascin' 'felin' 'fisic' 'form' 'fortalec'
 'fuent' 'gat' 'graci' 'gran' 'hac' 'higien' 'human' 'imit' 'independient'
 'instint' 'intrig' 'jueg' 'juguet' 'laz' 'limpi' 'lug' 'manifest'
 'manten' 'maull' 'mencion' 'mental' 'menud' 'mileni' 'misteri'
 'movimient' 'muestr' 'mund' 'naturalez' 'neces' 'necesit' 'observ' 'ojos'
 'orgull' 'part' 'pas' 'pelaj' 'penetr' 'perfect' 'person' 'personal'
 'pod' 'propi' 'pued' 'realid' 'regaz' 'repis' 'resum' 'revel' 'ritual'
 'rode' 'ronron' 'ronrone' 'sid' 'siend' 'simplement' 'sin' 's