<a href="https://colab.research.google.com/github/RAFS20/Natural-Language-Processing/blob/main/NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NLTK

Por: Ricardo Alonzo Fernández Salguero

La biblioteca Natural Language Toolkit (NLTK) es una de las bibliotecas más populares y ampliamente utilizadas en el campo del procesamiento de lenguaje natural (NLP). NLTK es una herramienta esencial para los investigadores, científicos de datos, ingenieros de software y lingüistas que trabajan con datos de texto y desean realizar tareas de procesamiento y análisis del lenguaje natural en Python.

**1. Historia y Contexto**

NLTK fue creado por Steven Bird y Edward Loper en la Universidad de Pensilvania en la década de 2000. Fue desarrollado como una herramienta de código abierto para la comunidad de investigación en lingüística computacional y procesamiento de lenguaje natural. Desde entonces, NLTK ha evolucionado y se ha convertido en una herramienta esencial en el campo del NLP, utilizada en la academia, la industria y proyectos de código abierto en todo el mundo.

**2. Instalación**

Para comenzar a usar NLTK, primero debes instalarlo en tu entorno de Python. Puedes instalarlo utilizando pip, el gestor de paquetes de Python, de la siguiente manera:

```bash
pip install nltk
```

Después de la instalación, puedes comenzar a utilizar NLTK en tus proyectos de procesamiento de lenguaje natural.

**3. Características Principales**

NLTK ofrece una amplia gama de características y herramientas para el procesamiento de lenguaje natural. Aquí hay una descripción general de algunas de sus características más destacadas:

**3.1. Tokenización**

NLTK proporciona herramientas para dividir el texto en unidades más pequeñas, como oraciones o palabras. La tokenización es un paso fundamental en el procesamiento de texto y es esencial para tareas como el análisis de sentimientos, la extracción de características y la construcción de modelos de lenguaje.


**3.2. Stopwords**

NLTK incluye una lista de palabras de detención (stopwords) en varios idiomas. Estas son palabras comunes que a menudo se eliminan durante el procesamiento de texto porque no aportan mucho significado.

**3.3. Stemming y Lemmatización**

NLTK proporciona algoritmos para reducir palabras a sus formas base o raíces (stemming) y para llevar palabras a su forma canónica (lemmatización). Estos procesos ayudan a reducir la variación en las palabras y simplifican el análisis de texto.

**3.4. Análisis de Sentimientos**

NLTK se puede utilizar para realizar análisis de sentimientos en textos. Puedes evaluar si un texto es positivo, negativo o neutral, lo que es útil en aplicaciones como el monitoreo de redes sociales y la retroalimentación del usuario.

**3.5. Procesamiento de Lenguaje Natural en Idiomas Múltiples**

NLTK admite una amplia variedad de idiomas y proporciona recursos y modelos pre-entrenados para trabajar con texto en diferentes lenguajes.

**3.6. Clasificación de Texto**

NLTK es útil para tareas de clasificación de texto, como la categorización de correos electrónicos como spam o no spam, la detección de opiniones en reseñas de productos y la clasificación de noticias en categorías.

**3.7. Recursos Lingüísticos**

NLTK ofrece acceso a una amplia gama de recursos lingüísticos, como corpus de texto etiquetado y diccionarios. Estos recursos son valiosos para entrenar modelos y realizar análisis de texto.

**4. Aplicaciones de NLTK**

NLTK se utiliza en una amplia variedad de aplicaciones del procesamiento de lenguaje natural. Algunas de las áreas en las que NLTK se aplica con éxito son:

- **Análisis de Sentimientos:** Determinar la actitud emocional en textos, como reseñas de productos, comentarios en redes sociales y comentarios de usuarios.

- **Clasificación de Texto:** Categorizar automáticamente textos en grupos o categorías, como detección de spam, clasificación de noticias y análisis de opiniones.

- **Procesamiento de Lenguaje Natural en Idiomas Múltiples:** NLTK es versátil y se adapta a diversos idiomas, lo que lo hace valioso para aplicaciones globales.

- **Extracción de Información:** Identificar y extraer información específica de textos, como nombres de personas, fechas, ubicaciones y eventos.

- **Generación de Lenguaje Natural:** Generar texto automáticamente, útil en chatbots, resúmenes automáticos y más.

**5. Comunidad y Contribuciones**

NLTK es una biblioteca de código abierto y cuenta con una comunidad activa de desarrolladores y usuarios. La comunidad ha contribuido con una amplia gama de recursos y extensiones, incluidos modelos de lenguaje pre-entrenados, herramientas de procesamiento específicas de dominio y tutoriales.

Además, NLTK fomenta la educación en procesamiento de lenguaje natural al proporcionar una amplia gama de materiales de aprendizaje, incluidos libros, tutoriales y ejemplos de código. Esto ha ayudado a que NLTK sea ampliamente adoptado en entornos académicos.

**6. Limitaciones de NLTK**

A pesar de sus muchas fortalezas, NLTK tiene algunas limitaciones:

- **Rendimiento:** NLTK puede no ser la opción más rápida para tareas de procesamiento de lenguaje natural a gran escala. Para aplicaciones de producción que requieren un rendimiento excepcional, otras bibliotecas y herramientas como spaCy pueden ser más adecuadas.

- **Aprendizaje automático avanzado:** Aunque NLTK ofrece funcionalidades básicas de aprendizaje automático, no se especializa en modelos avanzados de NLP, como transformers. Para aplicaciones que requieren modelos de última generación, se pueden considerar otras bibliotecas como Hugging Face Transformers.

**7. Conclusión**

Natural Language Toolkit (NLTK) es una biblioteca poderosa y versátil para el procesamiento de lenguaje natural en Python. Ofrece una amplia gama de herramientas y recursos que son esenciales para tareas de NLP, desde la tokenización hasta el análisis de sentimientos y la clasificación de texto. NLTK ha tenido un impacto significativo en la investigación y la aplicación del procesamiento de lenguaje natural y continúa siendo una herramienta valiosa para profesionales y entusiastas del NLP en todo el mundo.

NLTK es una biblioteca esencial que ha allanado el camino para el procesamiento de lenguaje natural en Python, brindando a los usuarios las herramientas necesarias para comprender y analizar el texto en una amplia variedad de aplicaciones. Su rica historia, comunidad activa y recursos extensos hacen que NLTK sea una opción sólida para cualquier proyecto relacionado con el lenguaje natural.

In [1]:
pip install nltk




In [7]:
import nltk

# Descargar el tokenizador 'punkt'
nltk.download('punkt')

# Descargar la lista de palabras de detención (stopwords) en español
nltk.download('stopwords')

# Descargar el recurso WordNet, que se utiliza en lematización y otras tareas
nltk.download('wordnet')

# Descargar recursos adicionales, como etiquetas POS (part-of-speech) y análisis de sentimientos
nltk.download('averaged_perceptron_tagger')
nltk.download('vader_lexicon')

# Descargar corpus de textos en diferentes idiomas
nltk.download('gutenberg')  # Corpus de libros en inglés
nltk.download('cess_esp')   # Corpus de español

nltk.download('movie_reviews')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package vader_lexicon to /root/nltk_data...
[nltk_data] Downloading package gutenberg to /root/nltk_data...
[nltk_data]   Unzipping corpora/gutenberg.zip.
[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Unzipping corpora/cess_esp.zip.


True

# NLTK Python

### Importación de Bibliotecas

El código comienza con la importación de las bibliotecas necesarias:

```python
import nltk
```

- `nltk` es el acrónimo de Natural Language Toolkit, una biblioteca de Python ampliamente utilizada para el procesamiento de lenguaje natural.

### Función `ensure_nltk_resources()`

La primera función que se define en el código es `ensure_nltk_resources()`. Esta función se encarga de verificar si ciertos recursos de NLTK están descargados en tu sistema y, en caso contrario, los descarga. Los recursos que se verifican son: 'punkt', 'stopwords', 'wordnet', 'movie_reviews', 'gutenberg' y 'udhr'.

```python
def ensure_nltk_resources():
    resources = ['punkt', 'stopwords', 'wordnet', 'movie_reviews', 'gutenberg', 'udhr']
    for resource in resources:
        try:
            nltk.data.find(resource)
        except LookupError:
            nltk.download(resource)
```

- `resources` es una lista de nombres de recursos que se desean verificar o descargar.
- Se utiliza un bucle `for` para iterar sobre los nombres de los recursos.
- En cada iteración, se intenta encontrar el recurso utilizando `nltk.data.find(resource)`. Si el recurso no está disponible, se lanza una excepción `LookupError`.
- En caso de que se lance una excepción, se utiliza `nltk.download(resource)` para descargar el recurso.

### Función `tokenize_text(text)`

La segunda función se llama `tokenize_text(text)`, y se encarga de dividir un texto en oraciones y palabras tokenizadas.

```python
def tokenize_text(text):
    sentences = nltk.sent_tokenize(text)
    words = nltk.word_tokenize(text)
    return sentences, words
```

- La función toma un argumento `text`, que es el texto que se desea tokenizar.
- `nltk.sent_tokenize(text)` se utiliza para dividir el texto en oraciones. Esto significa que separamos el texto en partes que representan oraciones completas.
- `nltk.word_tokenize(text)` se utiliza para dividir el texto en palabras individuales.

La función devuelve dos listas: `sentences` (oraciones) y `words` (palabras).

### Función `remove_stopwords(text, lang="english")`

La tercera función se llama `remove_stopwords(text, lang="english")`, y se encarga de eliminar las palabras vacías (stopwords) de un texto.

```python
def remove_stopwords(text, lang="english"):
    stop_words = set(nltk.corpus.stopwords.words(lang))
    words = nltk.word_tokenize(text)
    filtered_words = [word for word in words if word.lower() not in stop_words]
    return filtered_words
```

- La función toma dos argumentos: `text`, que es el texto del cual se eliminarán las palabras vacías, y `lang` (idioma) que se utiliza para determinar las palabras vacías específicas del idioma. Por defecto, se establece en "english" (inglés).
- Se obtiene una lista de palabras vacías específicas del idioma utilizando `nltk.corpus.stopwords.words(lang)`.
- Luego, el texto se tokeniza en palabras usando `nltk.word_tokenize(text)`.
- Se crea una nueva lista llamada `filtered_words` que contiene solo las palabras que no están en la lista de palabras vacías.

La función devuelve la lista de palabras filtradas.

### Función `stem_and_lemmatize(word)`

La cuarta función se llama `stem_and_lemmatize(word)`, y se encarga de realizar tanto el stemming como la lematización de una palabra.

```python
def stem_and_lemmatize(word):
    stemmer = nltk.stem.PorterStemmer()
    lemmatizer = nltk.stem.WordNetLemmatizer()
    stemmed_word = stemmer.stem(word)
    lemmatized_word = lemmatizer.lemmatize(word, pos="v")
    return stemmed_word, lemmatized_word
```

- La función toma un argumento `word`, que es la palabra que se va a procesar.
- Se crea un objeto `stemmer` que utiliza el algoritmo de Porter para el stemming. El stemming es el proceso de reducir una palabra a su forma base (o raíz).
- Se crea un objeto `lemmatizer` que utiliza el lematizador de WordNet para la lematización. La lematización es el proceso de encontrar la forma base de una palabra, que puede ser una palabra real en el diccionario.
- Se aplica el stemming a la palabra utilizando `stemmer.stem(word)` y se almacena en `stemmed_word`.
- Se aplica la lematización a la palabra utilizando `lemmatizer.lemmatize(word, pos="v")` con la especificación de que la palabra es un verbo (pos="v"), y se almacena en `lemmatized_word`.

La función devuelve dos palabras procesadas: la palabra reducida mediante stemming y la palabra lematizada.

### Función `sentiment_analysis(text)`

La quinta función se llama `sentiment_analysis(text)`, y se encarga de analizar el sentimiento en un texto utilizando TextBlob, una biblioteca que simplifica el análisis de sentimientos.

```python
def sentiment_analysis(text):
    from textblob import TextBlob
    blob = TextBlob(text)
    return blob.sentiment.polarity, blob.sentiment.subjectivity
```

- La función toma un argumento `text`, que es el texto para el cual se desea realizar el análisis de sentimientos.
- Se importa la clase `TextBlob` desde la biblioteca TextBlob.
- Se crea un objeto `blob` a partir del texto utilizando `TextBlob(text)`.
- Se utiliza `blob.sentiment.polarity` para obtener la polaridad del sentimiento, que indica si el texto es positivo (valor positivo), negativo (valor negativo) o neutral (valor cercano a cero).
- Se utiliza `blob.sentiment.subjectivity` para obtener la subjetividad del sentimiento, que indica si el texto es objetivo (valor cercano a cero) o subjetivo (valor cercano a uno).

La función devuelve dos valores: la polaridad y la subjetividad del sentimiento en el texto.

### Función `classify_text()`

La sexta función se llama `classify_text()`, y se encarga de realizar la clasificación de texto utilizando un clasificador Naive Bayes. Esta

 función realiza varias tareas:

```python
def classify_text():
    documents = [(list(nltk.corpus.movie_reviews.words(fileid)), category)
                 for category in nltk.corpus.movie_reviews.categories()
                 for fileid in nltk.corpus.movie_reviews.fileids(category)]
    random.shuffle(documents)
    all_words = nltk.FreqDist(w.lower() for w in nltk.corpus.movie_reviews.words())
    word_features = list(all_words)[:2000]

    def document_features(document):
        document_words = set(document)
        features = {}
        for word in word_features:
            features[f'contains({word})'] = (word in document_words)
        return features

    featuresets = [(document_features(d), c) for (d, c) in documents]
    train_set, test_set = featuresets[100:], featuresets[:100]
    classifier = nltk.classify.NaiveBayesClassifier.train(train_set)
    return nltk.classify.accuracy(classifier, test_set)
```

- La función comienza creando una lista llamada `documents`. Esta lista contiene tuplas de la forma `(documento, categoría)`, donde `documento` es una lista de palabras tokenizadas pertenecientes a una revisión de película y `categoría` es la categoría de la revisión (positiva o negativa).
- Se utiliza una comprensión de lista anidada para generar estas tuplas. Se recorren todas las categorías disponibles en las revisiones de películas y se recorren todos los archivos en cada categoría.
- Luego, se mezclan aleatoriamente las tuplas en `documents` utilizando `random.shuffle(documents)`.
- Se crea un objeto `all_words` que contiene todas las palabras en las revisiones de películas en minúsculas, junto con su frecuencia de aparición.
- Se seleccionan las 2000 palabras más comunes y se almacenan en la lista `word_features`.

A continuación, se define una función interna llamada `document_features(document)` que toma un documento (lista de palabras tokenizadas) y crea un diccionario de características. Cada característica representa si una palabra de `word_features` está presente en el documento. El nombre de cada característica se construye como `contains(word)`.

```python
    def document_features(document):
        document_words = set(document)
        features = {}
        for word in word_features:
            features[f'contains({word})'] = (word in document_words)
        return features
```

- `document_words` es un conjunto que contiene todas las palabras únicas en el documento.
- Se crea un diccionario vacío llamado `features` que almacenará las características.
- Se itera a través de las palabras en `word_features` y se verifica si cada palabra está presente en el conjunto `document_words`. El resultado (True o False) se almacena como el valor de la característica correspondiente en el diccionario `features`.

Después de definir la función `document_features`, se crea una lista de pares `(características, categoría)` llamada `featuresets` que contiene todas las características y sus categorías correspondientes.

```python
    featuresets = [(document_features(d), c) for (d, c) in documents]
```

- `document_features(d)` se llama para cada documento `d` en `documents`.
- Luego, se divide el conjunto de datos en conjuntos de entrenamiento (`train_set`) y prueba (`test_set`) utilizando slicing.
- Se entrena un clasificador Naive Bayes utilizando el conjunto de entrenamiento con `nltk.classify.NaiveBayesClassifier.train(train_set)`.
- Finalmente, se calcula la precisión del clasificador en el conjunto de prueba utilizando `nltk.classify.accuracy(classifier, test_set)`.

La función devuelve la precisión del clasificador en el conjunto de prueba.

### Función Principal: `ensure_nltk_resources()`

Después de definir todas las funciones anteriores, el código entra en la parte principal de la ejecución:

```python
# MAIN EXECUTION
ensure_nltk_resources()
```

- En esta sección, se llama a la función `ensure_nltk_resources()` para asegurarse de que los recursos necesarios de NLTK estén descargados en el sistema antes de proceder con cualquier otra tarea.

Este es el flujo principal del código. Después de ejecutar `ensure_nltk_resources()`, se pueden utilizar las otras funciones definidas para realizar diversas tareas de procesamiento de texto, incluyendo tokenización, eliminación de palabras vacías, análisis de sentimientos y clasificación de texto.

Este código se puede integrar en una aplicación más grande para realizar tareas específicas de procesamiento de texto, como análisis de sentimientos de reseñas de películas o clasificación de texto en categorías específicas.

In [22]:
import nltk

# Verifica si los recursos ya están descargados, en caso contrario, los descarga.
def ensure_nltk_resources():
    resources = ['punkt', 'stopwords', 'wordnet', 'movie_reviews', 'gutenberg', 'udhr']
    for resource in resources:
        try:
            nltk.data.find(resource)
        except LookupError:
            nltk.download(resource)

def tokenize_text(text):
    sentences = nltk.sent_tokenize(text)
    words = nltk.word_tokenize(text)
    return sentences, words

def remove_stopwords(text, lang="english"):
    stop_words = set(nltk.corpus.stopwords.words(lang))
    words = nltk.word_tokenize(text)
    filtered_words = [word for word in words if word.lower() not in stop_words]
    return filtered_words

def stem_and_lemmatize(word):
    stemmer = nltk.stem.PorterStemmer()
    lemmatizer = nltk.stem.WordNetLemmatizer()

    stemmed_word = stemmer.stem(word)
    lemmatized_word = lemmatizer.lemmatize(word, pos="v")
    return stemmed_word, lemmatized_word

def sentiment_analysis(text):
    from textblob import TextBlob
    blob = TextBlob(text)
    return blob.sentiment.polarity, blob.sentiment.subjectivity

def classify_text():
    documents = [(list(nltk.corpus.movie_reviews.words(fileid)), category)
                 for category in nltk.corpus.movie_reviews.categories()
                 for fileid in nltk.corpus.movie_reviews.fileids(category)]

    random.shuffle(documents)

    all_words = nltk.FreqDist(w.lower() for w in nltk.corpus.movie_reviews.words())
    word_features = list(all_words)[:2000]

    def document_features(document):
        document_words = set(document)
        features = {}
        for word in word_features:
            features[f'contains({word})'] = (word in document_words)
        return features

    featuresets = [(document_features(d), c) for (d,c) in documents]
    train_set, test_set = featuresets[100:], featuresets[:100]
    classifier = nltk.classify.NaiveBayesClassifier.train(train_set)

    return nltk.classify.accuracy(classifier, test_set)

# MAIN EXECUTION
ensure_nltk_resources()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
[nltk_data] Downloading package gutenberg to /root/nltk_data...
[nltk_data]   Package gutenberg is already up-to-date!
[nltk_data] Downloading package udhr to /root/nltk_data...
[nltk_data]   Package udhr is already up-to-date!


In [17]:
# 1. Tokenization
text = "NLTK es una biblioteca muy útil para el procesamiento de lenguaje natural. ¡Es ampliamente utilizada en la comunidad de NLP!"
sentences, words = tokenize_text(text)
print("\n=== Tokenización ===")
print("Frases:", sentences)
print("Palabras:", words)


=== Tokenización ===
Frases: ['NLTK es una biblioteca muy útil para el procesamiento de lenguaje natural.', '¡Es ampliamente utilizada en la comunidad de NLP!']
Palabras: ['NLTK', 'es', 'una', 'biblioteca', 'muy', 'útil', 'para', 'el', 'procesamiento', 'de', 'lenguaje', 'natural', '.', '¡Es', 'ampliamente', 'utilizada', 'en', 'la', 'comunidad', 'de', 'NLP', '!']


In [18]:
# 2. Remove Stopwords
text = "El procesamiento de lenguaje natural es una disciplina emocionante."
filtered_words = remove_stopwords(text, lang="spanish")
print("\n=== Stopwords ===")
print("Palabras filtradas:", filtered_words)


=== Stopwords ===
Palabras filtradas: ['procesamiento', 'lenguaje', 'natural', 'disciplina', 'emocionante', '.']


In [20]:
# 4. Sentiment Analysis
# Texto de ejemplo en inglés:
text = """
The beauty of nature is beyond words. A serene, tranquil morning by the beach, watching the sun rise,
can fill our heart with awe and wonder. On the other hand, the chaos and hardships of life often bring sorrow
and pain. However, it's through the combination of highs and lows that life gets its true meaning.
It's up to us to find positivity even in the most difficult situations.
"""

# Creando un objeto TextBlob:
blob = TextBlob(text)

# Extrayendo el análisis de sentimiento:
sentiment = blob.sentiment

print("=== Análisis de Sentimientos ===")
print("Polaridad:", sentiment.polarity)
print("Subjetividad:", sentiment.subjectivity)

# Analizar cada oración individualmente:
print("\nSentiment Analysis for Each Sentence:")
for sentence in blob.sentences:
    print("\nFrase:", sentence)
    print("Polaridad:", sentence.sentiment.polarity)
    print("Subjetividad:", sentence.sentiment.subjectivity)

=== Análisis de Sentimientos ===
Polaridad: 0.056249999999999994
Subjetividad: 0.63125

Sentiment Analysis for Each Sentence:

Frase: 
The beauty of nature is beyond words.
Polaridad: 0.0
Subjetividad: 0.0

Frase: A serene, tranquil morning by the beach, watching the sun rise,
can fill our heart with awe and wonder.
Polaridad: 0.0
Subjetividad: 0.0

Frase: On the other hand, the chaos and hardships of life often bring sorrow
and pain.
Polaridad: -0.125
Subjetividad: 0.375

Frase: However, it's through the combination of highs and lows that life gets its true meaning.
Polaridad: 0.35
Subjetividad: 0.65

Frase: It's up to us to find positivity even in the most difficult situations.
Polaridad: 0.0
Subjetividad: 0.75


In [19]:
# 3. Stemming and Lemmatization
word = "running"
stemmed_word, lemmatized_word = stem_and_lemmatize(word)
print("\n=== Stemming y Lemmatización ===")
print("Palabra original:", word)
print("Stemmed Word:", stemmed_word)
print("Lemmatized Word:", lemmatized_word)


=== Stemming y Lemmatización ===
Palabra original: running
Stemmed Word: run
Lemmatized Word: run


In [21]:
# 5. Text Classification
accuracy = classify_text()
print("\n=== Clasificación de Texto ===")
print("Precisión del Clasificador:", accuracy)


=== Clasificación de Texto ===
Precisión del Clasificador: 0.83


In [23]:
# 6. Linguistic Resources
emma = nltk.corpus.gutenberg.raw("austen-emma.txt")
print("\n=== Recursos Lingüísticos ===")
print("Ejemplo de Texto de Emma de Jane Austen:")
print(emma[:300])


=== Recursos Lingüísticos ===
Ejemplo de Texto de Emma de Jane Austen:
[Emma by Jane Austen 1816]

VOLUME I

CHAPTER I


Emma Woodhouse, handsome, clever, and rich, with a comfortable home
and happy disposition, seemed to unite some of the best blessings
of existence; and had lived nearly twenty-one years in the world
with very little to distress or vex her.

She was t
