<a href="https://colab.research.google.com/github/LuisPerdomo123/NLP-Procesamiento-de-Lenguaje-Natural/blob/main/1_limpiar_Texto_manual_y_uso_de_la_libreria_NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Deep Learning para Procesamiento del Lenguaje Natural

# 1. Limpiar Texto manial y uso de la librería NLTK

## Índice



*   0. Contexto
*   1. Metamorfosis de Franz Kafka
*   2. La limpieza de texto es una tarea específica
    *  2.1. Definición de entrada
    *  2.2. Capas de conexión
    *  2.3. Creación del modelo
*   3. Tokenización manual
    *  3.1. Cargar datos
    *  3.2. Dividir por espacios en blanco
    *  3.3. Seleccionar palabras
    *  3.4. Dividir por espacios en blanco y quitar puntuación
    *  3.5. Caso de normalización
*   4. Tokenización y limpieza con NLTK
    *  4.1. Instalación NLTK
    *  4.2. Dividir en oraciones
    *  4.3. Dividir en palabras
    *  4.4. Filtrar la puntuación
    *  4.5. Filtrar palabras vacías (y pipeline)
    *  4.6. Palabras raíz


# 0. Contexto

Cuando trabajmos cualquier proyecto de Machine o Deep Learning primero nos toca elaborar la fase de procesamiento de datos; en NLP igual.

Primero debemos limpiar el texto, lo que significa dividirlo en palabras y manejar la puntuación y el caso. En este tutorial, descubrirá cómo puede limpiar y preparar su texto para modelarlo con aprendizaje automático. Después de completar este tutorial, sabrás:

*   Cómo desarrollar nuestras propias herramientas de limpieza de texto.
*   Cómo utilizar los métodos más sofisticados de la librería NLTK.
*   Consideraciones al preparar texto para modelos de NLP.

Este tutorial se divide en las siguientes partes:

1. Libro de metamorfosis de Franz Kafka.
2. La limpieza de texto en el libro.
3. Tokenización manual.
4. Tokenización y limpieza con NLTK.
5. Consideraciones adicionales en la limpieza de texto.

# 1. Metamorfosis de Franz Kafka

Utilizaremos el texto del libro *Metamorphosis* de Franz Kafka ya que es un libro corto, muy famoso y está disponible de forma gratuita en Project Gutenberg.

El proyecto Gutenberg agrega un encabezado y un pie de página estándar a cada libro que no es parte del texto original debemos eliminarlo.

El encabezado termina con el texto:

******* start of this project gutenberg ebook metamorphosis *******

El pie de página es todo el texto después de la línea de texto que dice:

******* END OF THIS PROJECT GUTENBERG EBOOK MEAMORPHOSIS *******


https://www.gutenberg.org/browse/languages/es


https://www.gutenberg.org/cache/epub/5200/pg5200.txt

# 2. La limpieza de texto es una tarea específica

Si echamos un vistazo al libro, ¿qué notamos? Un rápido vistazo podemos ver:

*   Es texto sin formato, por lo que no hay marcado para analizar.
*   No hay errores tipográficos o de ortografía evidentes.
*   Hay puntuación como comas, apótofresm conillas, signos de interogación y más.
*   Hay descripciones con guión como *armour-like*.
*   Se usa mucho el guión (-) para continuar oraciones (¿tal vez reemplazarlo con comas?)
*   Hay nombres (por ejemplo, Sr. Samsa)
*   No parece haber números que requieran manipulación (por ejemplo, 1999)
*   Hay marcadores de sección (por ejemplo, II, III).

# 3. Tokenización manual

Las herramientas como las expresiones regulares y la división de cadenas son las principales ala hora de trabajar manualmente el texto.

## 3.1. Cargar datos

Carguemos los datos de texto para qu epodamos trabajar con ellos.

In [4]:
filename = '/content/pg5200.txt'
file = open(filename, mode='rt')
text = file.read()
file.close()

## 3.2. Dividir por espacios en blanco

Dividir el documento por espacios en blanco, incluidos " "(espacio), nuevas líneas, tabulaciones y más lo realizamos muy facilmente con la función slit() en la cadena cargada.

Ejecutar el ejemplo divide el documento en una larga lista de palabras e imprime las primeras 100 para que las revisemos.

In [5]:
words = text.split()
print(words[:100])

['\ufeffOne', 'morning,', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams,', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin.', 'He', 'lay', 'on', 'his', 'armour-like', 'back,', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly,', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections.', 'The', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment.', 'His', 'many', 'legs,', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him,', 'waved', 'about', 'helplessly', 'as', 'he', 'looked.', '“What’s', 'happened', 'to', 'me?”', 'he', 'thought.', 'It', 'wasn’t', 'a', 'dream.', 'His', 'room,', 'a', 'proper', 'human']


## 3.3. Seleccionar palabras

Otro enfoque podría ser usar el modelo regex de expresiones regulares (re) y dividir el documento en palabras seleccionando cadenas de caracteres alfanuméricos (az, AZ, 0-9 y '').

In [7]:
import re
words = re.split(r'\W+', text)
print(words[:100])

['', 'One', 'morning', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin', 'He', 'lay', 'on', 'his', 'armour', 'like', 'back', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections', 'The', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment', 'His', 'many', 'legs', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him', 'waved', 'about', 'helplessly', 'as', 'he', 'looked', 'What', 's', 'happened', 'to', 'me', 'he', 'thought', 'It', 'wasn', 't', 'a', 'dream', 'His']


## 3.4. Dividir por espacios en blanco y quitar puntuación

Es posible que queramos las palabras, pero sin la puntuación como las comas y las comillas. También queremos mantener las contracciones juntas.

Python proporciona una constante lamada String.punctuation que proporciona una excelente lista de caracteres de puntuación. Por ejemplo:

In [8]:
import string
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


Podemos usar expresiones regulares para seleccionar los caracteres de puntuación y usar la función sub() para reemplazarlos con nada.

In [10]:
import string

words = text.split()
re_punc = re.compile('[%s]' % re.escape(string.punctuation)) # Identifica los signos de puntucación

stripped = [re_punc.sub('', w) for w in words] # Elimina cada palabra los signos de puntuación definido en re_punc

print(words[:100])
print(stripped[:100])

['\ufeffOne', 'morning,', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams,', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin.', 'He', 'lay', 'on', 'his', 'armour-like', 'back,', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly,', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections.', 'The', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment.', 'His', 'many', 'legs,', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him,', 'waved', 'about', 'helplessly', 'as', 'he', 'looked.', '“What’s', 'happened', 'to', 'me?”', 'he', 'thought.', 'It', 'wasn’t', 'a', 'dream.', 'His', 'room,', 'a', 'proper', 'human']
['\ufeffOne', 'morning', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams', 'he', 'found', 'himself', 'transformed', 'in', 'his',

A veces, los datos de texto prueden contener caracteres no imprimibles, Pormos usar un enfoque similar para filtrar todos los caracteres no imprimibles seleccionando el inverso de la constante String.printable. Por ejemplo:

In [13]:
words = text.split()
re_print = re.compile('[%s]' % re.escape(string.printable)) # Identifica los caracteres imprimibles

results = [re_print.sub('', w) for w in words]
print(results[:100])

['\ufeff', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '“’', '', '', '”', '', '', '', '’', '', '', '', '', '', '', '']


## 3.5. Caso de normalización

Es común convertir todas las palabras a un caso.

Podemos convertir todas las palabras a minúsculas llamando a la función lower() en cada palabra.

In [11]:
words = text.split()
words = [word.lower() for word in words]
print(words[:100])

['\ufeffone', 'morning,', 'when', 'gregor', 'samsa', 'woke', 'from', 'troubled', 'dreams,', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin.', 'he', 'lay', 'on', 'his', 'armour-like', 'back,', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly,', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections.', 'the', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment.', 'his', 'many', 'legs,', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him,', 'waved', 'about', 'helplessly', 'as', 'he', 'looked.', '“what’s', 'happened', 'to', 'me?”', 'he', 'thought.', 'it', 'wasn’t', 'a', 'dream.', 'his', 'room,', 'a', 'proper', 'human']
