# 📗 Tokenizar

**Tokenizar** en el procesamiento del lenguaje natural (NLP) se refiere al proceso de dividir un texto en unidades más pequeñas llamadas "tokens". Estos tokens pueden ser palabras individuales, frases o incluso caracteres, dependiendo del nivel de granularidad que se desee. La tokenización es un paso fundamental en el preprocesamiento de texto en NLP.

> "Tokenizar oraciones es pasar de un único string de texto a una lista de strings de oraciones"

En el caso de la biblioteca NLTK (Natural Language Toolkit) de Python, puedes utilizar la función word_tokenize para tokenizar un texto en palabras. Aquí tienes un ejemplo:

Primero, asegúrate de tener instalada la biblioteca NLTK. Puedes instalarla con el siguiente comando:

```bash
pip install nltk
```

Tenemos dos maneras de tokenizar:
1. Por palabra (word_tokenize)
2. Por oración (sent_tokenize)

In [1]:
import nltk
nltk.download('punkt')  # Descargar el modelo de tokenización

from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize

# Texto de ejemplo
texto = "La tokenización es importante en NLP. NLTK facilita este proceso. ¿Estamos listos para esto?"

# Tokenizar el texto en palabras
palabras = word_tokenize(texto)

# Tokenizar el texto en oraciones
oraciones = sent_tokenize(texto)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USURIO\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Este código importa la función word_tokenize de NLTK, descarga el modelo de tokenización necesario y luego tokeniza el texto de ejemplo en palabras. La salida sería una lista de palabras:

Cada palabra en el texto se convierte en un elemento de la lista. Este paso de tokenización es esencial antes de realizar análisis de texto más avanzados en NLP.

In [2]:
print(texto)

La tokenización es importante en NLP. NLTK facilita este proceso. ¿Estamos listos para esto?


In [3]:
print(palabras)

['La', 'tokenización', 'es', 'importante', 'en', 'NLP', '.', 'NLTK', 'facilita', 'este', 'proceso', '.', '¿Estamos', 'listos', 'para', 'esto', '?']


In [4]:
# Imprimir las oraciones resultantes
for i, oracion in enumerate(oraciones, 1):
    print(f"Oración {i}: {oracion}")

Oración 1: La tokenización es importante en NLP.
Oración 2: NLTK facilita este proceso.
Oración 3: ¿Estamos listos para esto?
