<h1><font color="#113D68" size=5>Deep Learning para Procesamiento del Lenguaje Natural</font></h1>



<h1><font color="#113D68" size=6>Cómo Limpiar Texto Manualmente y con NLTK</font></h1>

<br><br>
<div style="text-align: right">
<font color="#113D68" size=3>Manuel Castillo Cara</font><br>

</div>

---

<a id="indice"></a>
<h2><font color="#004D7F" size=5>Índice</font></h2>

* [0. Contexto](#section0)
* [1. Tokenización y limpieza con NLTK](#section1)
    * [1.1. Metamorfosis de Franz Kafka](#section11)
    * [1.2. Instalación NLTK](#section12)
    * [1.3. Dividir en oraciones](#section13)
    * [1.4. Dividir en palabras](#section14)
    * [1.5. Filtrar la puntuación](#section15)
    * [1.6. Filtrar palabras vacías (y pipeline)](#section16)
    * [1.7. Palabras raíz](#section17)
* [2. Análisis de datos](#section2)
    * [2.1. Conteo de palabras con CountVectorizer](#section21)
    * [2.2. Frecuencias de palabras con TfidfVectorizer](#section22)
    * [2.3. Hashing con HashingVectorizer](#section23)
* [3. Preparación de texto](#section3)
    * [3.1. Dividir palabras con text_to_word_sequence](#section31)
    * [3.2. Codificación con one_hot](#section32)
    * [3.3. Codificación hash con hashing_trick](#section33)
    * [3.4. API de Tokenizador](#section34)

---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section1"></a>
# <font color="#004D7F" size=6>1. Tokenización y limpieza con NLTK</font>

El kit de herramientas de lenguaje natural (NLTK), es una biblioteca de Python escrita para trabajar y modelar texto. Proporciona buenas herramientas para cargar y limpiar texto que podemos usar para preparar nuestros datos para trabajar con algoritmos de aprendizaje automático y aprendizaje profundo.

<a id="section11"></a>
# <font color="#004D7F" size=5>1.1. Metamorfosis de Franz Kafka</font>

Comencemos seleccionando un conjunto de datos. En este tutorial, utilizaremos el texto del libro _Metamorphosis_ de Franz Kafka. No hay razón específica, aparte de que es corto, me gusta, y puede que también te guste. Espero que sea uno de esos clásicos que la mayoría de los estudiantes tienen que leer en la escuela. El texto completo de _Metamorphosis_ está disponible de forma gratuita en Project Gutenberg.

El Proyecto Gutenberg agrega un encabezado y un pie de página estándar a cada libro y esto no es parte del texto original. Abra el archivo en un editor de texto y elimine el encabezado y el pie de página. El encabezado es obvio y termina con el texto:
```
        *** START OF THIS PROJECT GUTENBERG EBOOK METAMORPHOSIS ***
```

El pie de página es todo el texto después de la línea de texto que dice:
```
        *** END OF THIS PROJECT GUTENBERG EBOOK METAMORPHOSIS ***
```


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Más información sobre el [Proyecto Gutenberg](https://www.gutenberg.org/)

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Descargar el libro [Metamorphosis de Franz Kafka Plain Text UTF-8](http://www.gutenberg.org/cache/epub/5200/pg5200.txt)

1. Descargue el archivo y colóquelo en su directorio de trabajo actual con el nombre de archivo `metamorphosis.txt`. 
2. El archivo contiene información de encabezado y pie de página que no nos interesa, específicamente información de derechos de autor y licencia. 
3. Abra el archivo y elimine la información del encabezado y pie de página y guarde el archivo como `metamorphosis_clean.txt`. 
4. El inicio del archivo limpio debería verse así:
    - _One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin._
5. El archivo debe terminar con:
    - _And, as if in confirmation of their new dreams and good intentions, as soon as they reached their destination Grete was the first to get up and stretch out her young body._

<a id="section12"></a>
# <font color="#004D7F" size=5>1.2. Instalación NLTK</font>

Puede instalar NLTK usando su administrador de paquetes favorito, como `pip`.

In [17]:
#!pip install -U nltk

Después de la instalación, deberá instalar los datos utilizados con la biblioteca, incluido un gran conjunto de documentos que puede usar más tarde para probar otras herramientas en NLTK. Hay algunas formas de hacer esto, como desde dentro de un script:

In [18]:
import nltk
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> l
Packages:
  [ ] abc................. Australian Broadcasting Commission 2006
  [ ] alpino.............. Alpino Dutch Treebank
  [ ] averaged_perceptron_tagger Averaged Perceptron Tagger
  [ ] averaged_perceptron_tagger_ru Averaged Perceptron Tagger (Russian)
  [ ] basque_grammars..... Grammars for Basque
  [ ] biocreative_ppi..... BioCreAtIvE (Critical Assessment of Information
                           Extraction Systems in Biology)
  [ ] bllip_wsj_no_aux.... BLLIP Parser: WSJ Model
  [ ] book_grammars....... Grammars from NLTK Book
  [ ] brown............... Brown Corpus
  [ ] brown_tei........... Brown Corpus (TEI XML Version)
  [ ] cess_cat............ CESS-CAT Treebank
  [

Downloader> q


True

O desde la línea de comando que es más cómodo
```python
python -m nltk.downloader all
```


<a id="section13"></a>
# <font color="#004D7F" size=5>1.3. Dividir en oraciones</font>

Un buen primer paso útil es dividir el texto en oraciones. Algunas tareas de modelado prefieren que la entrada sea en forma de párrafos u oraciones, como `Word2Vec`. 
1. Primero puede dividir el texto en oraciones, 
2. dividir cada oración en palabras y 
3. luego guardar cada oración en un archivo, una por línea.

NLTK proporciona la función `tokenize()` enviada para dividir el texto en oraciones. El siguiente ejemplo carga el archivo `metamorphosis_clean.txt` en la memoria, lo divide en oraciones e imprime la primera oración.

Poder utilizar la función `sent_tokenize` debe de estar previametne descargado

In [21]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/manwest/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [22]:
from nltk import sent_tokenize
# load data
filename = 'data/metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()
# split into sentences
sentences = sent_tokenize(text)
print(sentences[0])

One morning, when Gregor Samsa woke from troubled dreams, he found
himself transformed in his bed into a horrible vermin.


Al ejecutar el ejemplo, podemos ver que aunque el documento se divide en oraciones, cada oración aún conserva la nueva línea del envoltorio artificial de las líneas en el documento original.

<a id="section14"></a>
# <font color="#004D7F" size=5>1.4. Dividir en palabras</font>

NLTK proporciona una función llamada `word_tokenize()` para dividir cadenas en tokens (nominalmente palabras). Divide tokens en función de los espacios en blanco y la puntuación. Por ejemplo, las comas y los puntos se toman como tokens separados. Las contracciones se separan (por ejemplo, _What's_ se convierte en _What_ y _'s_).
Las puntuaciones, comas y - se mantienen, y así sucesivamente. Por ejemplo:

In [24]:
from nltk.tokenize import word_tokenize
# load data
filename = 'data/metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()
# split into words
tokens = word_tokenize(text)
print(tokens[:100])

['One', 'morning', ',', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams', ',', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin', '.', 'He', 'lay', 'on', 'his', 'armour-like', 'back', ',', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly', ',', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections', '.', 'The', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment', '.', 'His', 'many', 'legs', ',', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him', ',', 'waved', 'about', 'helplessly', 'as', 'he', 'looked', '.', '``', 'What', "'s", 'happened', 'to']


Al ejecutar el código, podemos ver que la puntuación ahora son tokens que luego podríamos decidir filtrar específicamente.

<a id="section15"></a>
# <font color="#004D7F" size=5>1.5. Filtrar la puntuación</font>

Podemos filtrar todos los tokens que no nos interesen, como todos los signos de puntuación independientes. Esto se puede hacer iterando sobre todos los tokens y manteniendo solo aquellos tokens que son todos alfabéticos. Python tiene la función `isalpha()` que se puede usar. Por ejemplo:

In [25]:
from nltk.tokenize import word_tokenize
# load data
filename = 'data/metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()
# split into words
tokens = word_tokenize(text)
# remove all tokens that are not alphabetic
words = [word for word in tokens if word.isalpha()]
print(words[:100])

['One', 'morning', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin', 'He', 'lay', 'on', 'his', 'back', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections', 'The', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment', 'His', 'many', 'legs', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him', 'waved', 'about', 'helplessly', 'as', 'he', 'looked', 'What', 'happened', 'to', 'me', 'he', 'thought', 'It', 'was', 'a', 'dream', 'His', 'room', 'a', 'proper', 'human', 'room']


Al ejecutar el ejemplo, puede ver que no solo los tokens de puntuación, sino también ejemplos como _armour-like_ y _'s_ se filtraron.

<a id="section16"></a>
# <font color="#004D7F" size=5>1.6. Filtrar palabras vacías (y pipeline)</font>

Las palabras vacías son aquellas palabras que no contribuyen al significado más profundo de la frase. Son las palabras más comunes como: _the_, _a_, and _is_. Para algunas aplicaciones, como la clasificación de documentación, puede tener sentido eliminar las palabras vacías. NLTK proporciona una lista de palabras vacías comúnmente acordadas para una variedad de idiomas, como el inglés. Se pueden cargar de la siguiente manera:

In [26]:
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
print(stop_words)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

Puede ver que están todos en minúsculas y se les ha quitado la puntuación. Puede comparar sus tokens con las palabras vacías y filtrarlas, pero debe asegurarse de que su texto esté preparado de la misma manera. Demostremos esto con una pequeña línea de preparación de texto que incluye:
- Cargue el texto sin procesar.
- Dividir en fichas.
- Convertir a minúsculas.
- Elimina la puntuación de cada ficha.
- Filtre los tokens restantes que no sean alfabéticos.
- Filtre los tokens que son palabras vacías.

In [28]:
import string
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
# load data
filename = 'data/metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()
# split into words
tokens = word_tokenize(text)
# convert to lower case
tokens = [w.lower() for w in tokens]
# prepare regex for char filtering
re_punc = re.compile('[%s]' % re.escape(string.punctuation))
# remove punctuation from each word
stripped = [re_punc.sub('', w) for w in tokens]
# remove remaining tokens that are not alphabetic
words = [word for word in stripped if word.isalpha()]
# filter out stop words
stop_words = set(stopwords.words('english'))
words = [w for w in words if not w in stop_words]
print(words[:100])

['one', 'morning', 'gregor', 'samsa', 'woke', 'troubled', 'dreams', 'found', 'transformed', 'bed', 'horrible', 'vermin', 'lay', 'armourlike', 'back', 'lifted', 'head', 'little', 'could', 'see', 'brown', 'belly', 'slightly', 'domed', 'divided', 'arches', 'stiff', 'sections', 'bedding', 'hardly', 'able', 'cover', 'seemed', 'ready', 'slide', 'moment', 'many', 'legs', 'pitifully', 'thin', 'compared', 'size', 'rest', 'waved', 'helplessly', 'looked', 'happened', 'thought', 'nt', 'dream', 'room', 'proper', 'human', 'room', 'although', 'little', 'small', 'lay', 'peacefully', 'four', 'familiar', 'walls', 'collection', 'textile', 'samples', 'lay', 'spread', 'table', 'samsa', 'travelling', 'salesman', 'hung', 'picture', 'recently', 'cut', 'illustrated', 'magazine', 'housed', 'nice', 'gilded', 'frame', 'showed', 'lady', 'fitted', 'fur', 'hat', 'fur', 'boa', 'sat', 'upright', 'raising', 'heavy', 'fur', 'muff', 'covered', 'whole', 'lower', 'arm', 'towards', 'viewer']


Al ejecutar este ejemplo, podemos ver que, además de todas las demás transformaciones, palabras de parada como _a_ y _to_ han sido eliminadas. Observo que todavía nos quedan tokens como _nt_. 

Por desgracia, como vemos, siempre hay que seguir puliendo.

<a id="section17"></a>
# <font color="#004D7F" size=5>1.7. Palabras raíz</font>

Stemming se refiere al proceso de reducir cada palabra a su raíz o base. Por ejemplo, _fishing, fished, fisher_ todo se reduce a _fish_.

Algunas aplicaciones, como la clasificación de documentos, pueden beneficiarse de la derivación para reducir el vocabulario y centrarse en el sentido o sentimiento de un documento en lugar de un significado más profundo. Hay muchos algoritmos de derivación, aunque un método popular y antiguo es el algoritmo de derivación de Porter. Este método está disponible en NLTK a través de la clase `PorterStemmer`. Por ejemplo:

In [30]:
from nltk.tokenize import word_tokenize
from nltk.stem.porter import PorterStemmer
# load data
filename = 'data/metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()
# split into words
tokens = word_tokenize(text)
# stemming of words
porter = PorterStemmer()
stemmed = [porter.stem(word) for word in tokens]
print(stemmed[:100])

['one', 'morn', ',', 'when', 'gregor', 'samsa', 'woke', 'from', 'troubl', 'dream', ',', 'he', 'found', 'himself', 'transform', 'in', 'hi', 'bed', 'into', 'a', 'horribl', 'vermin', '.', 'he', 'lay', 'on', 'hi', 'armour-lik', 'back', ',', 'and', 'if', 'he', 'lift', 'hi', 'head', 'a', 'littl', 'he', 'could', 'see', 'hi', 'brown', 'belli', ',', 'slightli', 'dome', 'and', 'divid', 'by', 'arch', 'into', 'stiff', 'section', '.', 'the', 'bed', 'wa', 'hardli', 'abl', 'to', 'cover', 'it', 'and', 'seem', 'readi', 'to', 'slide', 'off', 'ani', 'moment', '.', 'hi', 'mani', 'leg', ',', 'piti', 'thin', 'compar', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him', ',', 'wave', 'about', 'helplessli', 'as', 'he', 'look', '.', '``', 'what', "'s", 'happen', 'to']


Al ejecutar el ejemplo, puede ver que las palabras se han reducido a sus raíces, como problema se ha convertido
en problema. También puede ver que la implementación de lematización también ha reducido los tokens a minúsculas,
probablemente para búsquedas internas en tablas de palabras.

Hay un buen conjunto de algoritmos de derivación y lematización para elegir en NLTK, si reducir las palabras a su raíz es algo que necesitas para tu proyecto.

---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section2"></a>
# <font color="#004D7F" size=6>2. Análisis de datos</font>

<a id="section21"></a>
# <font color="#004D7F" size=5>2.1. Conteo de palabras con `CountVectorizer`</font>

`CountVectorizer` proporciona una forma sencilla de tokenizar una colección de documentos de texto y crear un vocabulario de palabras conocidas, pero también de codificar nuevos documentos utilizando ese vocabulario. Puedes usarlo de la siguiente manera:
1. Cree una instancia de la clase `CountVectorizer`.
2. Llame a la función `fit()` para aprender un vocabulario de uno o más documentos.
3. Llame a la función `transform()` en uno o más documentos según sea necesario para codificar cada uno como un vector.

Se devuelve un vector codificado con la longitud de todo el vocabulario y un número entero para el número de veces que apareció cada palabra en el documento. Debido a que estos vectores contendrán muchos ceros, los llamamos dispersos. Python proporciona una manera eficiente de manejar vectores dispersos en el paquete `scipy.sparse`. 

Los vectores devueltos por una llamada a `transform()` serán vectores dispersos, y puede volver a transformarlos en matrices NumPy para ver y comprender mejor lo que sucede llamando a la función `toarray()`. A continuación se muestra un ejemplo del uso de `CountVectorizer` para tokenizar, crear un vocabulario y luego codificar un documento.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Más información sobre la clase [`CountVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
# list of text documents
text = ["The quick brown fox jumped over the lazy dog."]
# create the transform
vectorizer = CountVectorizer()
# tokenize and build vocab
vectorizer.fit(text)
# summarize
print(vectorizer.vocabulary_)
# encode document
vector = vectorizer.transform(text)
# summarize encoded vector
print(vector.shape)
print(type(vector))
print(vector.toarray())

Arriba, puede ver que accedemos al vocabulario para ver qué se tokenizó exactamente al llamar:

In [None]:
print(vectorizer.vocabulary_)

Podemos ver que todas las palabras se escribieron en minúsculas de forma predeterminada y que se ignoró la puntuación. Estos y otros aspectos de la tokenización se pueden configurar y lo animo a revisar todas las opciones en la documentación de la API. Ejecutar el ejemplo primero imprime el vocabulario, luego la forma del documento codificado.

Podemos ver que hay 8 palabras en el vocabulario y, por lo tanto, los vectores codificados tienen una longitud de 8. Entonces podemos ver que el vector codificado es una matriz dispersa. Finalmente, podemos ver una versión de matriz del vector codificado que muestra un recuento de 1 ocurrencia para cada palabra excepto (_index_ e _id_ 7) que tiene una ocurrencia de 2.

Es importante destacar que el mismo vectorizador se puede utilizar en documentos que contienen palabras no incluidas en el vocabulario. Estas palabras se ignoran y no se da ninguna cuenta en el vector resultante. Por ejemplo, a continuación se muestra un ejemplo del uso del vectorizador anterior para codificar un documento con una palabra en el vocabulario y una palabra que no lo es.

In [None]:
# encode another document
text2 = ["the puppy"]
vector = vectorizer.transform(text2)
print(vector.toarray())

Al ejecutar este ejemplo, se imprime la versión de matriz del vector disperso codificado que muestra una ocurrencia de una palabra en el vocabulario y la otra palabra que no está en el vocabulario se ignora por completo.

Los vectores codificados luego se pueden usar directamente con un algoritmo de aprendizaje automático.

<a id="section22"></a>
# <font color="#004D7F" size=5>2.2. Frecuencias de palabras con `TfidfVectorizer`</font>

Los recuentos de palabras son un buen punto de partida, pero son muy básicos. Un problema con los recuentos simples es que algunas palabras como the aparecerán muchas veces y sus recuentos grandes no serán muy significativos en los vectores codificados. Una alternativa es calcular frecuencias de palabras y, con mucho, el método más popular se llama TF-IDF. Este es un acrónimo que significa _Term Frequency - Inverse Document Frequency_, que son los componentes de las puntuaciones resultantes asignadas a cada palabra.
- __Frecuencia de términos__: Esto resume con qué frecuencia aparece una palabra dada dentro de un documento.
- __Frecuencia de documento inversa__: esto reduce las palabras que aparecen mucho en los documentos.

Sin entrar en matemáticas, TF-IDF son puntajes de frecuencia de palabras que intentan resaltar las palabras que son más interesantes, por ejemplo, frecuentes en un documento pero no entre documentos. El `TfidfVectorizer` tokenizará documentos, aprenderá el vocabulario y el documento inverso sobre ponderaciones de frecuencia y permitirle codificar nuevos documentos. Alternativamente, si ya tiene un `CountVectorizer` aprendido, puede usarlo con un `TfidfTransformer` para calcular las frecuencias inversas de los documentos y comenzar a codificar los documentos. 

Se utiliza el mismo proceso de creación, ajuste y transformación que con `CountVectorizer`. A continuación se muestra un ejemplo del uso de `TfidfVectorizer` para aprender vocabulario y frecuencias de documentos inversas en 3 documentos pequeños y luego codificar uno de esos documentos.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Más información sobre la clase [`TfidfVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
# list of text documents
text = ["The quick brown fox jumped over the lazy dog.",
		"The dog.",
		"The fox"]
# create the transform
vectorizer = TfidfVectorizer()
# tokenize and build vocab
vectorizer.fit(text)
# summarize
print(vectorizer.vocabulary_)
print(vectorizer.idf_)
# encode document
vector = vectorizer.transform([text[0]])
# summarize encoded vector
print(vector.shape)
print(vector.toarray())

Se aprende un vocabulario de 8 palabras de los documentos y a cada palabra se le asigna un índice entero único en el vector de salida. Las frecuencias inversas del documento se calculan para cada palabra del vocabulario, asignando la puntuación más baja de 1,0 a la palabra observada con mayor frecuencia: _the_ en el índice 7. 

Finalmente, el primer documento se codifica como una matriz dispersa de 8 elementos y podemos revisar el puntajes finales de cada palabra con diferentes valores para _the_, _fox_ y _dog_ de las otras palabras en el vocabulario.

Las puntuaciones se normalizan a valores entre 0 y 1 y los vectores de documentos codificados pueden se pueden usar directamente con la mayoría de los algoritmos de aprendizaje automático.

<a id="section23"></a>
# <font color="#004D7F" size=5>2.3. Hashing con `HashingVectorizer`</font>

Los conteos y las frecuencias pueden ser muy útiles, pero una limitación de estos métodos es que el vocabulario puede volverse muy extenso. Esto, a su vez, requerirá grandes vectores para codificar documentos e impondrá grandes requisitos en la memoria y ralentizará los algoritmos. Una solución inteligente es usar un hash de palabras unidireccional para convertirlas en números enteros. La parte inteligente es que no se requiere vocabulario y puede elegir un vector de longitud fija de longitud arbitraria. Un inconveniente es que el hash es una función unidireccional, por lo que no hay forma de volver a convertir la codificación en una palabra (que puede no importar para muchas tareas de aprendizaje supervisado).

La clase `HashingVectorizer` implementa este enfoque que se puede usar para hash palabras, luego tokenice y codifique documentos según sea necesario. El siguiente ejemplo demuestra el `HashingVectorizer` para codificar un solo documento. Un tamaño de vector arbitrario de longitud fija de 20 fue elegido. Esto corresponde al rango de la función hash, donde los valores pequeños (como 20) puede dar lugar a colisiones de hash. Recordando las clases de Informática, creo hay heurísticas que puede usar para elegir la longitud del hash y la probabilidad de colisión según sobre el tamaño estimado del vocabulario (por ejemplo, un factor de carga del 75%). Ver cualquier buen libro de texto sobre el tema.

Tenga en cuenta que este vectorizador no requiere una llamada para encajar en los documentos de datos de entrenamiento. En cambio, después de la creación de instancias, se puede usar directamente para comenzar a codificar documentos.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Más información sobre la clase [`HashingVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html)

In [None]:
from sklearn.feature_extraction.text import HashingVectorizer
# list of text documents
text = ["The quick brown fox jumped over the lazy dog."]
# create the transform
vectorizer = HashingVectorizer(n_features=20)
# encode document
vector = vectorizer.transform(text)
# summarize encoded vector
print(vector.shape)
print(vector.toarray())

La ejecución del ejemplo codifica el documento de muestra como una matriz dispersa de 20 elementos. Los valores del documento codificado corresponden a recuentos de palabras normalizados por defecto en el rango de -1 a 1, pero se pueden hacer recuentos de enteros simples cambiando la configuración predeterminada.

---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section3"></a>
# <font color="#004D7F" size=6>3. Preparación de texto</font>

No puede introducir texto sin procesar directamente en modelos de aprendizaje profundo. Los datos de texto deben codificarse como números para usarse como entrada o salida para el aprendizaje automático y los modelos de aprendizaje profundo, como las incrustaciones de palabras. 

La biblioteca de aprendizaje profundo de Keras proporciona algunas herramientas básicas para ayudarlo a preparar sus datos de texto. 

En este tutorial, descubrirá cómo puede usar Keras para preparar sus datos de texto.

<a id="section31"></a>
# <font color="#004D7F" size=5>3.1. Dividir palabras con `text_to_word_sequence`</font>

Un buen primer paso cuando se trabaja con texto es dividirlo en palabras. Las palabras se llaman __kens__ y el proceso de dividir el texto en tokens se denomina __tokenización__. Keras proporciona la función `text_to_word_sequence()` que puede usar para dividir el texto en una lista de palabras. Por defecto, esta función automáticamente hace 3 cosas:
1. Divide palabras por espacio.
2. Filtra la puntuación.
3. Convierte texto a minúsculas (`lower=True`).

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Más información sobre la clase [`text_to_word_sequence`](https://faroit.com/keras-docs/2.0.5/preprocessing/text/#text_to_word_sequence)

Puede cambiar cualquiera de estos valores predeterminados pasando argumentos a la función. A continuación se muestra un ejemplo del uso de la función `text_to_word_sequence()` para dividir un documento (en este caso, una cadena simple) en una lista de palabra.

In [1]:
from keras.preprocessing.text import text_to_word_sequence
# define the document
text = 'The quick brown fox jumped over the lazy dog.'
# tokenize the document
result = text_to_word_sequence(text)
print(result)

2022-12-05 12:12:34.243660: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2022-12-05 12:12:40.915156: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-11.0/include:/usr/local/cuda-11.0/lib64:
2022-12-05 12:12:40.915569: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer_plugin.so.7'; dlerror: libnvinfer_plugin.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-11.0/include:/usr/local/cuda-11.0/lib64:


['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']


<a id="section32"></a>
# <font color="#004D7F" size=5>3.2. Codificación con `one_hot`</font>

Es popular representar un documento como una secuencia de valores enteros, donde cada palabra del documento se representa como un entero único. Keras proporciona la función `one_hot()` que puede usar para tokenizar y codificar un documento de texto en un solo paso. El nombre sugiere que creará una codificación en caliente del documento, lo cual no es el caso. 

En cambio, la función es un envoltorio para la función `hashing_trick()` descrita en la siguiente sección. La función devuelve una versión codificada en enteros del documento. El uso de una función hash significa que puede haber colisiones y no a todas las palabras se les asignarán valores enteros únicos. Al igual que con la función de `text_to_word_sequence()` en la sección anterior, la función `one_hot()` hará que el texto esté en minúsculas, filtrará la puntuación y dividirá las palabras en función de los espacios en blanco.

Además del texto, se debe especificar el tamaño del vocabulario (palabras totales). Este podría ser el número total de palabras en el documento o más si tiene la intención de codificar documentos adicionales que contengan palabras adicionales. El tamaño del vocabulario define el espacio hash desde el cual se codifican las palabras. De forma predeterminada, se utiliza la función `hash`, aunque, como veremos en la siguiente sección, se pueden especificar funciones hash alternativas al llamar directamente a la función `hashing_trick()`.

Podemos usar la función `text_to_word_sequence()` de la sección anterior para dividir el documento en palabras y luego usar un conjunto para representar solo las palabras únicas en el documento. El tamaño de este conjunto se puede utilizar para estimar el tamaño del vocabulario de un documento. Por ejemplo:

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Más información sobre la clase [`one_hot`](https://faroit.com/keras-docs/2.0.5/preprocessing/text/#one_hot)

In [None]:
from keras.preprocessing.text import text_to_word_sequence
# define the document
text = 'The quick brown fox jumped over the lazy dog.'
# estimate the size of the vocabulary
words = set(text_to_word_sequence(text))
vocab_size = len(words)
print(vocab_size)

Podemos juntar esto con la función `one_hot()` y codificar las palabras en el documento. El ejemplo completo se muestra a continuación. El tamaño del vocabulario se incrementa en un tercio para minimizar las colisiones al mezclar palabras.

In [None]:
from keras.preprocessing.text import one_hot
from keras.preprocessing.text import text_to_word_sequence
# define the document
text = 'The quick brown fox jumped over the lazy dog.'
# estimate the size of the vocabulary
words = set(text_to_word_sequence(text))
vocab_size = len(words)
print(vocab_size)
# integer encode the document
result = one_hot(text, round(vocab_size*1.3))
print(result)

Al ejecutar el ejemplo, primero se imprime el tamaño del vocabulario como 8. Luego, el documento codificado se imprime como una matriz de palabras codificadas con números enteros.

Nota: Dada la naturaleza estocástica de las redes neuronales, sus resultados específicos pueden variar. Considere ejecutar el ejemplo varias veces.

<a id="section33"></a>
# <font color="#004D7F" size=5>3.3. Codificación hash con `hashing_trick`</font>

Una limitación de las codificaciones de números enteros y base de conteo es que deben mantener un vocabulario de palabras y su asignación a números enteros. Una alternativa a este enfoque es utilizar una función hash unidireccional para convertir palabras en números enteros. Esto evita la necesidad de realizar un seguimiento de un vocabulario, que es más rápido y requiere menos memoria.

Keras proporciona la función `hashing_trick()` que tokeniza y luego codifica el documento con enteros, al igual que la función `one_hot()`. Proporciona más flexibilidad, lo que le permite especificar la función hash como `hash` (la predeterminada) u otras funciones hash, como la función `md5` integrada o su propia función. A continuación se muestra un ejemplo de codificación de enteros de un documento utilizando la función hash md5.

In [None]:
from keras.preprocessing.text import hashing_trick
from keras.preprocessing.text import text_to_word_sequence
# define the document
text = 'The quick brown fox jumped over the lazy dog.'
# estimate the size of the vocabulary
words = set(text_to_word_sequence(text))
vocab_size = len(words)
print(vocab_size)
# integer encode the document
result = hashing_trick(text, round(vocab_size*1.3), hash_function='md5')
print(result)

Al ejecutar el ejemplo, se imprime el tamaño del vocabulario y el documento codificado en enteros. Podemos ver que el uso de una función hash diferente da como resultado enteros consistentes pero diferentes para palabras como la función `one_hot()` de la sección anterior.

<a id="section34"></a>
# <font color="#004D7F" size=5>3.4. API de `Tokenizador`</font>

Hasta ahora hemos analizado métodos prácticos únicos para preparar texto con Keras. Keras proporciona una API más sofisticada para preparar texto que se puede ajustar y reutilizar para preparar varios documentos de texto. Este puede ser el enfoque preferido para proyectos grandes. Keras proporciona la clase `Tokenizer` para preparar documentos de texto para el aprendizaje profundo. 

`Tokenizer` debe construirse y luego caber en documentos de texto sin formato o documentos de texto codificados con enteros. Por ejemplo:

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Más información sobre la clase [`Tokenizer`](https://faroit.com/keras-docs/2.0.5/preprocessing/text/#tokenizer)

In [None]:
from keras.preprocessing.text import Tokenizer
# define 5 documents
docs = ['Well done!',
		'Good work',
		'Great effort',
		'nice work',
		'Excellent!']
# create the tokenizer
t = Tokenizer()
# fit the tokenizer on the documents
t.fit_on_texts(docs)
# summarize what was learned

Una vez ajustado, `Tokenizer` proporciona 4 atributos que puede usar para consultar lo que ha sido aprendido acerca de sus documentos:
- __`word_counts`__: un mapeo de diccionario de palabras y sus recuentos de ocurrencia cuando se ajustó `Tokenizer`.
- __`word_docs`__: un diccionario de mapeo de palabras y el número de documentos que aparecen.
- __`word_index`__: un diccionario de palabras y sus números enteros asignados de forma única.
- __`document_count`__: una asignación de diccionario y el número de documentos en los que aparecen calculados durante el ajuste.

Por ejemplo:

In [None]:
print(t.word_counts)
print(t.document_count)
print(t.word_index)
print(t.word_docs)

Una vez que `Tokenizer` se ha ajustado a los datos de entrenamiento, se puede usar para codificar documentos en train o test. La función `texts_to_matrix()` en `Tokenizer` se puede usar para crear un vector por documento provisto por entrada. La longitud de los vectores es el tamaño total del vocabulario. Esta función proporciona un conjunto de esquemas de codificación de texto de modelo de bolsa de palabras estándar que se pueden proporcionar a través de un argumento `mode` para la función. Los modos disponibles incluyen:
- __`binary`__: si cada palabra está presente o no en el documento. Este es el valor predeterminado.
- __`count`__: el conteo de cada palabra en el documento.
- __`tfidf`__: la puntuación de frecuencia de texto-frecuencia inversa del documento (TF-IDF) para cada palabra del documento.
- __`freq`__: La frecuencia de cada palabra como proporción de palabras dentro de cada documento.


In [None]:
# integer encode documents
encoded_docs = t.texts_to_matrix(docs, mode='count')
print(encoded_docs)

Ejecutar el ejemplo 
1. Ajusta `Tokenizer` con 5 documentos pequeños. 
2. Se imprimen los detalles de `Tokenizer` apto. 
3. Luego, los 5 documentos se codifican utilizando un conteo de palabras. 
4. Cada documento se codifica como un vector de 9 elementos con una posición para cada palabra y el valor del esquema de codificación elegido para cada posición de palabra. 

En este caso, se utiliza un modo de recuento de palabras simple.

In [None]:
# integer encode documents
encoded_docs = t.texts_to_matrix(docs, mode='binary')
print(encoded_docs)

In [None]:
# integer encode documents
encoded_docs = t.texts_to_matrix(docs, mode='tfidf')
print(encoded_docs)

In [None]:
# integer encode documents
encoded_docs = t.texts_to_matrix(docs, mode='freq')
print(encoded_docs)

<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<div style="text-align: right"> <font size=6><i class="fa fa-coffee" aria-hidden="true" style="color:#004D7F"></i> </font></div>