# 🧠 Introducción a NLTK en Python

NLTK es una biblioteca poderosa para trabajar con texto humano. Permite realizar tareas como tokenización, eliminación de palabras vacías, análisis gramatical, lematización, y más.

1. 📦 Instalación

pip install nltk

Escrito con Python, NLTK presenta una variedad de funcionalidades de manipulación de cadenas. Es una biblioteca de lenguaje natural versátil con un vasto repositorio de modelos para varias aplicaciones de lenguaje natural.

2. Configurar NLTK

NLTK, sin embargo, presenta una variedad de conjuntos de datos que sirven como base para nuevos modelos de lenguaje natural. Para acceder a ellos, debe activar el descargador de datos integrado de NLTK.

Entonces, una vez que haya instalado NLTK con éxito, abra su archivo Python usando cualquier editor de código.

Luego importe el módulo nltk y cree una instancia del descargador de datos con el siguiente código:

In [1]:
import nltk

nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

Al ejecutar el código anterior a través del terminal, aparece una interfaz gráfica de usuario para seleccionar y descargar paquetes de datos. Aquí, deberá elegir un paquete y hacer clic en el botón Descargar para obtenerlo.

Cualquier paquete de datos que descargue va al directorio especificado escrito en el campo Directorio de descarga . Puede cambiar esto si lo desea. Pero intente mantener la ubicación predeterminada en este nivel.

Nota: Los paquetes de datos se adjuntan a las variables del sistema de forma predeterminada. Por lo tanto, puede seguir usándolos para proyectos posteriores independientemente del entorno de Python que esté usando.

4. Cómo utilizar tokenizadores NLTK

En última instancia, NLTK ofrece modelos de tokenización entrenados para palabras y oraciones. Con estas herramientas, puede generar una lista de palabras a partir de una oración. O transforma un párrafo en una matriz de oraciones sensata.

A continuación, se muestra un ejemplo de cómo utilizar el tokenizador de palabras NLTK :

In [3]:
import nltk
from nltk.tokenize import word_tokenize

word = "This is an example text"
tokenWord = word_tokenize(word)
print(tokenWord)

['This', 'is', 'an', 'example', 'text']


NLTK también usa un tokenizador de oraciones previamente entrenado llamado PunktSentenceTokenizer . Funciona dividiendo un párrafo en una lista de oraciones.

Veamos cómo funciona esto con un párrafo de dos oraciones:

In [4]:
import nltk
from nltk.tokenize import word_tokenize, PunktSentenceTokenizer

sentence = "This is an example text. This is a tutorial for NLTK"
token = PunktSentenceTokenizer()
tokenized_sentence = token.tokenize(sentence)
print(tokenized_sentence)

['This is an example text.', 'This is a tutorial for NLTK']


# Ejemplos de cómo utilizar NLTK

Entonces, si bien no podemos demostrar todos los casos de uso posibles de NLTK, aquí hay algunos ejemplos de cómo puede comenzar a usarlo para resolver problemas de la vida real.

# Obtenga definiciones de palabras y sus partes del discurso

NLTK presenta modelos para determinar las partes del discurso, obtener semántica detallada y el posible uso contextual de varias palabras.

Puede utilizar el modelo de wordnet para generar variables para un texto. Luego determine su significado y parte del discurso.

Por ejemplo, revisemos las posibles variables de "Monkey:"

In [5]:
import nltk
from nltk.corpus import wordnet as wn
print(wn.synsets('monkey'))

[Synset('monkey.n.01'), Synset('imp.n.02'), Synset('tamper.v.01'), Synset('putter.v.02')]


El código anterior genera posibles alternativas de palabras o sintaxis y partes de la oración para "Monkey".

Ahora verifique el significado de "Mono" usando el método de definición :

In [9]:
Monkey = wn.synset('monkey.n.01').definition()
print(Monkey)

any of various long-tailed primates (excluding the prosimians)
