<a href="https://colab.research.google.com/github/davidriveraarbelaez/IA_Explorador/blob/main/Tema_1_Notebook_PreProcesamientoNLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer, PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# Descargar recursos de NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
# Si sale un error
# nltk.download('punkt_tab')  # Descomentar esta línea

# Ejemplo de texto
text = "Los gatos son animales muy interesantes. Me encanta ver cómo juegan y exploran el mundo."

# 1. Tokenización
tokens = word_tokenize(text)
print("Tokens:", tokens)

# 2. Normalización (conversión a minúsculas)
tokens_normalized = [token.lower() for token in tokens]
print("Tokens Normalizados:", tokens_normalized)

# 3. Eliminación de Stopwords
stop_words = set(stopwords.words('spanish'))
tokens_no_stopwords = [token for token in tokens_normalized if token not in stop_words]
print("Tokens sin Stopwords:", tokens_no_stopwords)

# 4. Lematización
lemmatizer = WordNetLemmatizer()
tokens_lemmatized = [lemmatizer.lemmatize(token) for token in tokens_no_stopwords]
print("Tokens Lematizados:", tokens_lemmatized)

# 5. Stemming
stemmer = PorterStemmer()
tokens_stemmed = [stemmer.stem(token) for token in tokens_no_stopwords]
print("Tokens Stemmed:", tokens_stemmed)

# Representación de Texto

# 6. Bolsa de Palabras
vectorizer_bow = CountVectorizer()
X_bow = vectorizer_bow.fit_transform([' '.join(tokens_no_stopwords)])
print("\nBolsa de Palabras:")
print(X_bow.toarray())
print("Características (BOW):", vectorizer_bow.get_feature_names_out())

# 7. TF-IDF
vectorizer_tfidf = TfidfVectorizer()
X_tfidf = vectorizer_tfidf.fit_transform([' '.join(tokens_no_stopwords)])
print("\nTF-IDF:")
print(X_tfidf.toarray())
print("Características (TF-IDF):", vectorizer_tfidf.get_feature_names_out())


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Tokens: ['Los', 'gatos', 'son', 'animales', 'muy', 'interesantes', '.', 'Me', 'encanta', 'ver', 'cómo', 'juegan', 'y', 'exploran', 'el', 'mundo', '.']
Tokens Normalizados: ['los', 'gatos', 'son', 'animales', 'muy', 'interesantes', '.', 'me', 'encanta', 'ver', 'cómo', 'juegan', 'y', 'exploran', 'el', 'mundo', '.']
Tokens sin Stopwords: ['gatos', 'animales', 'interesantes', '.', 'encanta', 'ver', 'cómo', 'juegan', 'exploran', 'mundo', '.']
Tokens Lematizados: ['gatos', 'animales', 'interesantes', '.', 'encanta', 'ver', 'cómo', 'juegan', 'exploran', 'mundo', '.']
Tokens Stemmed: ['gato', 'animal', 'interesant', '.', 'encanta', 'ver', 'cómo', 'juegan', 'exploran', 'mundo', '.']

Bolsa de Palabras:
[[1 1 1 1 1 1 1 1 1]]
Características (BOW): ['animales' 'cómo' 'encanta' 'exploran' 'gatos' 'interesantes' 'juegan'
 'mundo' 'ver']

TF-IDF:
[[0.33333333 0.33333333 0.33333333 0.33333333 0.33333333 0.33333333
  0.33333333 0.33333333 0.33333333]]
Características (TF-IDF): ['animales' 'cómo' 'enca