# Demostración: NLTK Para el Procesamiento del Lenguaje Natural

Muchas gracias por asistir al taller de Procesamiento del Lenguaje Natural.

A continuación, veremos algunos de los distintos métodos que tiene la librería NLTK de Python para procesar y transformar cadenas de texto. Esto aplica para oraciones simples y para cuerpos complejos de texto. 

## 1. Word Tokenize: Tokenizar palabras dentro de un texto

Este método se encarga de separar el texto por palabras, incluyendo los signos de puntuación

In [9]:
import nltk
from nltk.tokenize import word_tokenize

texto1 = "Hi, how are you?"
word_tokenize(texto1)

['Hi', ',', 'how', 'are', 'you', '?']

In [3]:
texto2 = "Hola, ¿qué tal?"
word_tokenize(texto2)

['Hola', ',', '¿qué', 'tal', '?']

### 1.1. Utilizando otro tokenizador para las palabras en español

In [10]:
from nltk.tokenize.toktok import ToktokTokenizer

tokenizador = ToktokTokenizer()
tokenizador.tokenize(texto2)

['Hola', ',', '¿', 'qué', 'tal', '?']

### 1.2. Sentence Tokenize: Tokenizar oraciones dentro de un texto

In [50]:
from nltk.tokenize import sent_tokenize

texto3 = "Hola, este texto es una prueba para tokenizar oraciones. Hoy está nublado, el clima está agradable. ¿No les gusta este clima a ustedes?"

sent_tokenize(texto3)

['Hola, este texto es una prueba para tokenizar oraciones.',
 'Hoy está nublado, el clima está agradable.',
 '¿No les gusta este clima a ustedes?']

### 1.3. RegExp Tokenize: Tokenizar oraciones utilizando expresiones regulares 

In [52]:
from nltk.tokenize import RegexpTokenizer

tokenizador_regex = RegexpTokenizer('[a-zA-ZñÑ]+')

tokenizador_regex.tokenize(texto3)

['Hola',
 'este',
 'texto',
 'es',
 'una',
 'prueba',
 'para',
 'tokenizar',
 'oraciones',
 'Hoy',
 'est',
 'nublado',
 'el',
 'clima',
 'est',
 'agradable',
 'No',
 'les',
 'gusta',
 'este',
 'clima',
 'a',
 'ustedes']

## 2. Palabras vacías

Estas son palabras que no aportan información significativa a las oraciones, por lo general son artículos, pronombres, preposiciones, entre otros.

In [45]:
from nltk.corpus import stopwords

stopwords.words('spanish')

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

In [49]:
palabras = []

for palabra in tokenizador.tokenize(texto3):
    if palabra not in stopwords.words():
        palabras.append(palabra)

palabras

['Hola',
 ',',
 'texto',
 'prueba',
 'tokenizar',
 'oraciones.',
 'Hoy',
 'nublado',
 ',',
 'clima',
 'agradable.',
 '¿',
 'No',
 'gusta',
 'clima',
 'ustedes',
 '?']