# Técnicas Básicas de NLP en Jupyter Notebook


Este notebook introduce algunas técnicas fundamentales del Procesamiento del Lenguaje Natural (NLP), una rama de la Inteligencia Artificial que permite a las computadoras comprender y manipular texto en lenguaje humano.

Exploraremos diversas técnicas esenciales de NLP con ejemplos en español.








In [15]:
# Importación de librerías necesarias

import re
import nltk
import spacy
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from difflib import SequenceMatcher

In [16]:
# Descargar recursos necesarios de NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Cargar modelo de SpaCy
nlp = spacy.load("es_core_news_sm")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\sil46\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\sil46\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\sil46\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


# 1. Tokenización y Normalización

La tokenización es el proceso de dividir un texto en unidades más pequeñas (tokens), como palabras o frases.
Esto es útil para el análisis de texto, ya que permite tratar cada palabra como una entidad independiente.



In [17]:
texto = "genera un parrofo que hable son riogran tieena del fueg
ío Grande es una de las ciudades más importantes de la provincia de Tierra del Fuego, Antártida e Islas del Atlántico Sur, en Argentina. Ubicada en la costa noreste de la isla grande, se destaca por su actividad industrial, especialmente en el sector electrónico y textil, así como por su historia vinculada a la ganadería ovina. Además, es conocida como la "Capital Nacional de la Trucha" debido a la abundancia de estos peces en sus ríos, lo que atrae a pescadores de todo el mundo. Su clima frío y ventoso, junto con sus paisajes naturales, la convierten en un lugar único en el extremo sur del país."
palabras_tokenizadas = word_tokenize(texto, language="spanish")
oraciones_tokenizadas = sent_tokenize(texto, language="spanish")
print("Tokenización en palabras:", palabras_tokenizadas)
print("Tokenización en oraciones:", oraciones_tokenizadas)



Tokenización en palabras: ['El', 'procesamiento', 'del', 'lenguaje', 'natural', 'permite', 'a', 'las', 'máquinas', 'entender', 'el', 'lenguaje', 'humano', '.', 'Es', 'una', 'de', 'las', 'áreas', 'más', 'fascinantes', 'de', 'la', 'inteligencia', 'artificial', '.']
Tokenización en oraciones: ['El procesamiento del lenguaje natural permite a las máquinas entender el lenguaje humano.', 'Es una de las áreas más fascinantes de la inteligencia artificial.']


# 2. Expresiones Regulares

Las expresiones regulares permiten encontrar patrones en textos.
Aquí buscamos la palabra 'procesamiento' dentro del texto.





In [18]:
patron = r"\b[Pp]rocesamiento\b"
coincidencias = re.findall(patron, texto)
print("Coincidencias de 'procesamiento':", coincidencias)

Coincidencias de 'procesamiento': ['procesamiento']


# 3. Uso de NLTK - Stop Words
"""
Las 'stop words' son palabras comunes que suelen eliminarse en el análisis de texto,
ya que no aportan demasiado significado (ejemplo: 'el', 'es', 'de').
"""
stop_words = set(stopwords.words('spanish'))
palabras_filtradas = [palabra for palabra in palabras_tokenizadas if palabra.lower() not in stop_words]
print("Texto sin stop words:", palabras_filtradas)



# 4. Distancias entre strings
"""
Las distancias entre cadenas permiten comparar similitud entre palabras,
lo que es útil para la corrección ortográfica y el análisis de variantes.
"""
def similaridad_cadena(cadena1, cadena2):
    return SequenceMatcher(None, cadena1, cadena2).ratio()
print("Similitud entre 'lenguaje' y 'lengua':", similaridad_cadena("lenguaje", "lengua"))





# 5. Vectorización
"""
La vectorización convierte el texto en una representación numérica.
Aquí usamos la técnica de Bolsa de Palabras (BoW), que cuenta la frecuencia de cada palabra.
"""
corpus = [
    "El procesamiento del lenguaje natural es una rama de la IA.",
    "Las redes neuronales profundas han mejorado las aplicaciones de NLP.",
    "Los modelos de lenguaje actuales utilizan grandes volúmenes de datos."
]
vectorizador = CountVectorizer()
X = vectorizador.fit_transform(corpus)
print("Representación BoW:", X.toarray())
print("Palabras en el vocabulario:", vectorizador.get_feature_names_out())



# 6. N-gramas
"""
Los N-gramas permiten analizar secuencias de palabras en lugar de palabras individuales.
Aquí extraemos bigramas (pares de palabras).
"""
vectorizador_ngrams = CountVectorizer(ngram_range=(2,2))
X_ngrams = vectorizador_ngrams.fit_transform(corpus)
print("Bigramas:", vectorizador_ngrams.get_feature_names_out())



# 7. Stemming
"""
El stemming reduce las palabras a su raíz, eliminando sufijos.
Puede ayudar a agrupar palabras con significados similares.
"""
stemmer = PorterStemmer()
palabras_stemmed = [stemmer.stem(palabra) for palabra in palabras_filtradas]
print("Stemming:", palabras_stemmed)



# 8. Lematización
"""
La lematización transforma las palabras a su forma base respetando su gramática,
lo que mejora el análisis en comparación con el stemming.
"""
lemmatizer = WordNetLemmatizer()
palabras_lemmatized = [lemmatizer.lemmatize(palabra) for palabra in palabras_filtradas]
print("Lematización:", palabras_lemmatized)



# 9. Uso de SpaCy - Análisis Morfológico
"""
SpaCy permite realizar análisis morfológico, extrayendo información gramatical de las palabras.
Aquí mostramos la lematización con SpaCy.
"""
doc = nlp(texto)
print("Lematización con SpaCy:", [token.lemma_ for token in doc])



# 10. Limitaciones de Bolsa de Palabras
"""
TF-IDF (Term Frequency - Inverse Document Frequency) mejora la representación del texto
dando más importancia a palabras clave en un conjunto de documentos.
"""
vectorizador_tfidf = TfidfVectorizer()
X_tfidf = vectorizador_tfidf.fit_transform(corpus)
print("TF-IDF:", X_tfidf.toarray())



# 11. Análisis de Sentimiento con SpaCy
"""
Los modelos de análisis de sentimiento pueden evaluar si un texto tiene una connotación positiva, negativa o neutra.
Aquí analizamos una reseña sobre NLP.
"""
doc = nlp("Me fascina el procesamiento del lenguaje natural, pero a veces puede ser desafiante.")
print("Tokens y sus sentimientos:", [(token.text, token.sentiment) for token in doc])

### Actividad para los estudiantes:
"""
1. Prueba la tokenización con un texto de tu elección.
2. Modifica el patrón de expresiones regulares para encontrar la palabra 'inteligencia'.
3. Agrega más frases a la vectorización y analiza los resultados.
4. Prueba con otras frases en el análisis de sentimiento.
"""