<a href="https://colab.research.google.com/github/davidriveraarbelaez/IA_Explorador/blob/main/Tema_1_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
pip install nltk



La **tokenización** es el proceso de dividir un texto en unidades más pequeñas, llamados tokens. Estos pueden ser palabras, frases o caracteres.

In [None]:
import nltk
from nltk.tokenize import word_tokenize

# Descargar recursos necesarios de nltk (solo la primera vez)
nltk.download('punkt')
nltk.download('punkt_tab')

# Texto del usuario
texto = "Quiero hacer un reclamo sobre mi última compra"

# Tokenización
tokens = word_tokenize(texto)

# Contar la cantidad de tokens
cantidad_tokens = len(tokens)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


In [None]:
# Mostrar los tokens
print("Tokens:", tokens)

Tokens: ['Quiero', 'hacer', 'un', 'reclamo', 'sobre', 'mi', 'última', 'compra']


In [None]:
# Contar la cantidad de tokens
print("Cantidad de tokens:", cantidad_tokens)

Cantidad de tokens: 8


La **normalización** transforma las palabras a una forma estándar, como convertir todo el texto a minúsculas, eliminar puntuación o normalizar caracteres.

In [None]:
import string

# Texto del usuario
texto = "QUIERO HACER UN RECLAMO!!!"

# Normalización del texto
def normalizar_texto(texto):
    # Convertir a minúsculas
    texto = texto.lower()
    # Eliminar signos de puntuación
    texto = texto.translate(str.maketrans('', '', string.punctuation))
    return texto

# Aplicar la normalización
texto_normalizado = normalizar_texto(texto)

# Mostrar el texto original y el normalizado
print("Texto original:", texto)
print("Texto normalizado:", texto_normalizado)


Texto original: QUIERO HACER UN RECLAMO!!!
Texto normalizado: quiero hacer un reclamo


In [None]:
import string
import unicodedata

# Texto del usuario
texto = "QUIERO HACER UN RECLAMO!!!"

# Convertir a minúsculas
texto_normalizado = texto.lower()

# Eliminar signos de puntuación
texto_normalizado = texto_normalizado.translate(str.maketrans('', '', string.punctuation))

# Normalizar caracteres especiales (eliminar acentos y tildes)
texto_normalizado = unicodedata.normalize('NFKD', texto_normalizado)
texto_normalizado = texto_normalizado.encode('ASCII', 'ignore').decode('utf-8')

# Mostrar el texto normalizado
print("Texto normalizado:", texto_normalizado)


Texto normalizado: quiero hacer un reclamo


**Eliminación de Stopwords**

El proceso de eliminación de stopwords consiste en remover palabras comunes que no añaden valor significativo al análisis, como "el", "y", "de".

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Descargar los recursos necesarios de nltk (solo la primera vez)
nltk.download('punkt')
nltk.download('stopwords')

# Texto de ejemplo
texto = "Quiero hacer un reclamo sobre el servicio"

# Tokenizar el texto
tokens = word_tokenize(texto)

# Definir las stopwords en español, obtiene una lista de palabras vacías en español, como "el", "de", "y".
stop_words = set(stopwords.words('spanish'))

# Eliminar las stopwords
tokens_filtrados = [palabra for palabra in tokens if palabra.lower() not in stop_words]

# Unir las palabras filtradas para obtener la frase procesada
texto_filtrado = ' '.join(tokens_filtrados)

# Mostrar el resultado
print("Texto original:", texto)
print("Texto sin stopwords:", texto_filtrado)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...


Texto original: Quiero hacer un reclamo sobre el servicio
Texto sin stopwords: Quiero hacer reclamo servicio


[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
# Ver listado de stop words en Español
import nltk
from nltk.corpus import stopwords

# Descargar stopwords (si no lo has hecho ya)
nltk.download('stopwords')

# Listar stopwords en español
stop_words_espanol = stopwords.words('spanish')

# Mostrar todas las stopwords
print("Stopwords en español:", stop_words_espanol)
print("\nCantidad de stopwords en español:", len(stop_words_espanol))



Stopwords en español: ['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos', 'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos', 'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'míos', 'mías', 'tuyo', 'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra', 'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras', 'esos', 'esas', 'estoy', 'estás', 'está', 'estamos',

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


La lematización reduce las palabras a su forma base o lema, teniendo en cuenta el contexto y la gramática.

In [None]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m54.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

# Cargar el modelo de lenguaje español de spaCy
nlp = spacy.load("es_core_news_sm")

# Texto de ejemplo
texto = "Estoy enviando una petición"

# Procesar el texto con spaCy
doc = nlp(texto)

# Aplicar lematización
tokens_lematizados = [(token.text, token.lemma_) for token in doc]

# Mostrar los resultados
print("Texto original:", texto)
print("Lematización:")
for palabra, lema in tokens_lematizados:
    print(f"{palabra} -> {lema}")


Texto original: Estoy enviando una petición
Lematización:
Estoy -> estar
enviando -> enviar
una -> uno
petición -> petición


El **stemming** reduce las palabras a su raíz eliminando prefijos y sufijos, sin considerar el contexto gramatical.


**Ejemplo:**

En la frase "Estoy solicitando información", el stemming podría convertir "solicitando" en "solicit", ayudando al chatbot a reconocer la intención principal del usuario, que es "solicitar".

In [None]:
from nltk.stem.snowball import SnowballStemmer
from nltk.tokenize import word_tokenize
import nltk

# Descargar recursos necesarios de nltk (si no lo has hecho ya)
nltk.download('punkt')

# Crear un objeto SnowballStemmer para español
stemmer = SnowballStemmer("spanish")

# Texto de ejemplo
texto = "Estoy solicitando información"

# Tokenizar el texto
tokens = word_tokenize(texto)

# Aplicar stemming a cada token
stems = [(palabra, stemmer.stem(palabra)) for palabra in tokens]

# Mostrar resultados
print("Texto original:", texto)
print("Stemming:")
for palabra, raiz in stems:
    print(f"{palabra} -> {raiz}")


Texto original: Estoy solicitando información
Stemming:
Estoy -> estoy
solicitando -> solicit
información -> inform


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
