# Clasificación de comentarios tóxicos usando CNN 1D con Keras

*Esta notebook plasma los apuntes traducidos al español del Proyecto dicatado por Coursera Project Network, por lo que puede encontrar errores. Todo el contenido principal es el explicado en el proyecto, algunas modificaciones fueron realizadas para personalizar el ejercicio. Todo el mérito es de los instructores. Simplemente espero que los apuntes sirvan como material de estudio complementario.*

Bienvenido a esta introducción práctica y guiada a la clasificación de texto utilizando convoluciones 1D con Keras. Al final de este proyecto, serás capaz de aplicar incrustaciones de palabras para la clasificación de texto, utilizar convoluciones 1D como extractores de características en el procesamiento del lenguaje natural (NLP), y realizar la clasificación de texto binario utilizando el aprendizaje profundo. Como caso de estudio, trabajaremos en la clasificación de un gran número de comentarios de Wikipedia como tóxicos o no (es decir, comentarios que son groseros, irrespetuosos o que de alguna manera pueden hacer que alguien abandone una discusión). Esta cuestión es especialmente importante, dadas las conversaciones que la comunidad mundial y las empresas tecnológicas están manteniendo sobre la moderación de contenidos, el acoso en línea y la inclusividad. El conjunto de datos que utilizaremos procede del Toxic Comment Classification Challenge de Kaggle.

## Tabla de contenidos

- [1 - Introducción e importación de paquetes](#1)
- [2 - Cargar y explorar los datos](#2)
- [3 - Preparación de los datos - Tokenizar y rellenar los datos de texto](#3)
- [4 - Preparar la matriz de incrustación con las incrustaciones GloVe preentrenadas](#4)
- [5 - Crear la capa de incrustación](#5)
- [6 - Construir el modelo](#6)
- [7 - Entrenar el modelo](#7)
- [8 - Evaluación del modelo - Clasificar los comentarios tóxicos](#8)

<a name='1'></a>
## 1 - Introducción e importación de paquetes

Hola a todos. Bienvenidos a este. Proyecto práctico sobre la clasificación de los comentarios tóxicos utilizando 1D convoluciones con Keras Soy Snake Hon, y seré tu instructor para este proyecto guiado. Cuando completen este proyecto hoy, serán capaces de preparar los datos del texto y utilizar las palabras incrustadas (word embedding) para una clasificación y utilizar una CNN de 1D para la para la clasificación de textos. Y por último, serás capaz de clasificar un texto como tóxico o no tóxico. 

Así que el objetivo principal de aprendizaje para este proyecto es conseguir que te sientas cómodo con la clasificación de texto usando convoluciones. Y como caso de estudio hoy, vamos a clasificar un gran número de comentarios de Wikipedia como tóxicos o no. Es decir, si los comentarios que son groseros o irrespetuosos o que puedan hacer que alguien abandone una discusión. 

Y puede que te preguntes por qué la convolución de tus redes neuronales. Originalmente desarrolladas por Young McCune hace décadas, las CNN han tenido mucho éxito en varios campos del aprendizaje automático campos como el procesamiento de imágenes. Sin embargo, las redes neuronales recurrentes son la tecnología de punta para las  tecnológicas de aplicaciones de texto y han sido la mejor opción para las tareas lingüísticas debido a su alta precisión y aunque las recurentes han históricamente superado a las CNN en las pruebas lingüísticas, su diseño tiene una limitación inherente, que puede entenderse si se observa cómo procesan la información. 

La forma en que procesan la información es un ajuste menos natural para el hardware de GPU altamente paralelo que impulsa el aprendizaje automático moderno. Y el cómputo no puede paralizarse completamente porque cada palabra debe esperar hasta que la red haya terminado con una palabra anterior. En comparación, las CNN pueden computar todos los elementos simultáneamente, aprovechando al máximo el paralelismo de la GPU. Por tanto, son computacionalmente más eficientes. Otra ventaja de la convolución de todas las redes cercanas, es que la información se procesa jerárquicamente, lo que hace más fácil capturar relaciones más complejas en los datos. Así que por eso vamos a explorar las CNN para la clasificación de textos hoy. 

Ahora un poco de contexto sobre los comentarios tóxicos. Discutir cosas que te importan en línea puede ser especialmente difícil. La amenaza de abuso y acoso en línea significa que muchas personas dejan de expresarse y renuncian a buscar opiniones diferentes, y las plataformas en línea luchan con esto día tras día para facilitar eficazmente conversaciones, lo que lleva a muchas comunidades a limitar o cerrar completamente los comentarios de los usuarios. Así que las mejoras de estos modelos actuales que las empresas tecnológicas y de medios sociales están empleando ayudarán a que la discusión en línea sea más productiva y respetuosa. 

Así que para entrenar nuestra red neuronal para clasificar los comentarios tóxicos, vamos a utilizaremos un conjunto de datos de los comentarios de la página de de Wikipedia. Y este conjunto de datos fue parte de un concurso de Kagle hace dos años. He marcado el enlace para que puedas acceder fácilmente acceder a él en el escritorio de la nube más tarde también han añadido a la sección de recursos en coursera. Así que por favor no te preocupes que actualmente no eres capaz de acceder al enlace. 

Bueno, eso es en los requisitos previos para este proyecto son que tengas experiencia previa en la teoría del aprendizaje profundo y haber construido modelos de aprendizaje profundo usando TensorFlow o su API de alto nivel Keras. También esperamos que hayas trabajado con convoluciones en el pasado, así que nosotros y no vamos a profundizar en ellos hoy. Pero en su lugar vamos a refrescar brevemente y tocar sobre las convoluciones y cosas como MaxPooling. Y la idea es que apliquen sus conocimientos de las convoluciones en dominios aparentemente no obvios como el procesamiento del lenguaje natural y la clasificación de textos con redes neuronales convolucionales. Y creo que esto es super cool y valioso porque no es obvio para nosotros. Al principio era cómo tomar las convoluciones que hacemos en las imágenes y aplicarlo al texto. Pero de hecho, realmente puedes hacerlo y te mostraré cómo hacerlo muy pronto. Podrás tomar todos los conceptos e intuiciones que has aprendido con el procesamiento de imágenes y aplicarlo a los datos de texto. Operaciones como las stride convolution, MaxPolling, AveragePooling totalmente aplicadas al texto. Y esto no es una idea marginal, ¿verdad? Debido a su practicidad, las convoluciones son utilizadas por un montón de organizaciones en sistemas de producción en el mundo real. Así, empresas como Facebook las utilizan para hacer gran parte de su clasificación de texto. 

Para hacerlo, vamos a aprender sobre algo llamado "embeddings" (incrustaciones) y embeddings son para mí, uno de los temas más fascinantes y de todo el procesamiento del lenguaje natural. Bien, déjame que no me adelante a mí mismo ahora. Voy a minimizar mi pantalla para que, puedas acceder a tu escritorio en la nube. Vamos a estar escribiendo todo nuestro código Keras y Python en cuadernos Júpiter hoy. Y cuando usted abrió este proyecto, usted debe ver una Jupiter Lab ya abierto en tu navegador en tu pantalla. Así que vamos a empezar haciendo doble clic en este archivo naranja aquí llamado "toxic_classification.ipynb". Así que este es un cuaderno de Júpiter plantilla que va a utilizar hoy. Si te desplazas por el cuaderno, verás que la mayor parte del cuaderno contiene espacios en blanco y he dejado intencionadamente en blanco para que sigas con mis instrucciones grabadas y escribas y ejecutes el código en tu propia nube o escritorio. Pero también puedes ver que he rellenado previamente algunas de las partes más tediosas del código, como la creación de gráficos y visualizaciones y también la importación de algunas bibliotecas e importantes librerías que usaremos hoy, y que puedes ver en el primer código. Así que aquí esto contiene las importaciones para todas las funciones de ayuda y clases y cosas como capas y funciones de preprocesamiento que vamos a utilizar en breve. 

Vamos a seguir adelante y la importación de estos paquetes mediante la ejecución de la celda y para ejecutar la celda usted puede simplemente hacer clic en esta ejecución, pero en aquí o haga clic en en cualquier lugar dentro de la celda y presionar shift y enter. Así que después de presionar shift, enter y una vez que haya importado los paquetes únase a mí en la siguiente tarea para cargar el conjunto de datos para este proyecto.

In [None]:
# Si da una advertencia de RequestsDependencyWarning: urllib3 (1.26.9) or chardet (3.0.4) doesn't match a supported version!
#!pip3 install --upgrade requests

In [1]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.preprocessing import text, sequence
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, Activation
from tensorflow.keras.layers import Embedding
from tensorflow.keras.layers import Conv1D, GlobalMaxPooling1D, MaxPooling1D
from sklearn.model_selection import train_test_split
print(tf.__version__)



2.9.1


<a name='2'></a>
## 2 - Cargar y explorar los datos

En esta tarea, vamos a ver los comentarios tóxicos que hemos descargado de Kaggle y que hemos incluido en la carpeta Proyectos del escritorio. Es un archivo bastante grande, de unos 64 megabytes, por lo que preferiría que no lo abras en Excel realmente colgaría el escritorio o la Nube. En su lugar vamos a utilizar la biblioteca **Pandas** para comprobarlo. Así que lo que vamos a hacer es leer en el archivo *train.csv* como un DataFrame de Pandas y vamos a rellenar todos los valores que faltan o NAN's con espacio. Vamos a cargar nuestros datos en este marco de datos utilizando el método `read_csv` y pasamos la ruta del archivo. Y como Júpiter ya está abierto dentro de esta carpeta del Proyecto, podemos pasar el nombre del archivo, y también rellenamos todos los valores que faltan con un espacio. 

In [3]:
train_df = pd.read_csv("train.csv").fillna(" ")

Ahora echemos un vistazo a 10 ejemplos aleatorios de este conjunto de datos. Podemos utilizar la función `sample` en este marco de datos de pandas `train_df` y mirar 10 muestras aleatorias. Y también estoy pasando este argumento llamado `random_state=1` para que ambos veamos los mismos datos cuando ejecutamos. Siempre y cuando, por supuesto, también escriba el número 1. 

In [4]:
train_df.sample(10,random_state=1)

Unnamed: 0,comment_text,toxic
24915,"YOU ARE A FAT, GEEKY PRICK WHO HAS NOTHING TO ...",1
75819,Agent X2: Basically thanks - with a 'little' m...,0
53891,Why are my posts being deleted? \n\nI have tri...,0
154159,"""\n\n Controlled Demolitions and Common Sense ...",0
13040,I do not understand your reply. //Blaxthos ( ...,0
123190,Is this the bizarro world? Removing content is...,0
33626,"Well, WP:RS says that articles should use reli...",0
1150,Oh hear me go someone removes all my pages i g...,0
48633,can't believe this article was deleted\nI'm su...,0
42817,"""\n\n Comments on GamerGate Workshop page \n\n...",0


Puedes ver que tenemos el texto de los comentarios en una columna (comment_text) y una columna de valor binario a la derecha (toxic). Y esta columna de valor binario llamado tóxic tiene un valor de 1 si el comentario correspondiente es tóxico y 0 si el comentario correspondiente es no tóxico y puedes ver claramente que en realidad hay un comentario tóxico, pero este conjunto de datos tiene muchos y no pertenece a una discusión en línea. 

Oh, por cierto, me olvidé de mencionar que he modificado este conjunto de datos un poco de cómo es originalmente en Kaggle. Así que originalmente, este conjunto de datos fue utilizado en un desafío de clasificación donde había columnas para el tipo de tóxico que comentaba era. Aparte de sólo el comentario, siendo tóxico su gravedad de tóxico, si es lenguaje obsceno, tal vez el comentario era una amenaza o era un insulto, o comentarios con contenido racista o xenofobicos se incluyeron en la identidad. Siéntete libre de ir sitio y comprobar la descripción original de los datos, ya sea ahora, pausando mi grabación o más tarde, una vez que hayamos terminado con este proyecto. 

Muy bien, así que ahora que hemos importado los datos, podemos empezar por sacar todo el texto o los comentarios y almacenarlo en un objeto `x` y, podemos eliminar o no, solo estamos asignando todo el texto de los comentarios a `x` y más tarde haremos un proceso similar para asignar todas las etiquetas a un objeto python `y`. 

Entonces, asignamos el texto de los comentarios a `x` y obtenemos los valores de este. Así que es un Numpy array con una lista de todas estas cadenas. Y una vez que hemos almacenado todos los comentarios, vamos a imprimámoslo. 

In [5]:
# Ver algunos pocos comentarios tóxicos
x = train_df["comment_text"].values
print(x)

["Explanation\nWhy the edits made under my username Hardcore Metallica Fan were reverted? They weren't vandalisms, just closure on some GAs after I voted at New York Dolls FAC. And please don't remove the template from the talk page since I'm retired now.89.205.38.27"
 "D'aww! He matches this background colour I'm seemingly stuck with. Thanks.  (talk) 21:51, January 11, 2016 (UTC)"
 "Hey man, I'm really not trying to edit war. It's just that this guy is constantly removing relevant information and talking to me through edits instead of my talk page. He seems to care more about the formatting than the actual info."
 ...
 'Spitzer \n\nUmm, theres no actual article for prostitution ring.  - Crunch Captain.'
 'And it looks like it was actually you who put on the speedy to have the first version deleted now that I look at it.'
 '"\nAnd ... I really don\'t think you understand.  I came here and my idea was bad right away.  What kind of community goes ""you have bad ideas"" go away, instead o

Ya que esta visto que realmente no nos permite ver el texto completo de los comentarios, hagamos algo más interesante. Así que si quieres ver algunos comentarios puramente tóxicos, podemos filtrarlos, buscando los comentarios que tienen una etiqueta tóxica igual a 1. Así que estamos localizando todos los comentarios en el marco de datos original donde la columna Tóxico tenía la etiqueta 1. Ahora tomaremos una muestra aleatoria de 10 ejemplos y los devolveremos a nuestra pantalla para que podamos echar un vistazo de los comentarios tóxicos.

In [6]:
train_df.loc[train_df["toxic"]==1].sample(10,random_state=10)

Unnamed: 0,comment_text,toxic
30575,"""\n Are you asking if we would ever block some...",1
36038,Amen my sock-pupinski brother!! Hack-a-long: p...,1
19730,JUST READ THE FUCKING CENSUS DATA. Do you thin...,1
72261,u no wat ass hole go fuck your self and stop b...,1
77923,Go fuck yourself \n\nEat shit and die. 68.0.11...,1
16382,A big thank you\n\nYou have just blocked me in...,1
41247,A message from Jasonceyre \n\n f uc k you ho...,1
69311,"I'm gonna get the ACLU on you, you racist anti...",1
142032,"Hey Freepsbane, does your mother know that you...",1
5613,You guys suk. You really really suck. Fuck you...,1


Así que a continuación, podemos crear una visualización para ver una nube de palabras de las más frecuentes en el conjunto de datos. E incluso podemos ordenar estas palabras por toxicidad. Todo lo que he hecho aquí es filtrar los datos y pedirle que devuelva todos los comentarios que tienen una etiqueta tóxica de 1. Y he utilizado el paquete de la nube de palabras para eliminar algo llamado palabras de parada (STOPWORDS), que son palabras como, *a*, *in* y *and* y palabras similares, y luego generar una imagen que contiene palabras individuales cuyo tamaño de fuente está dado por su frecuencia en el conjunto de datos. Así que las palabras en un fondo más grande significan que aparecen más frecuencia en los datos. 

Por cierto, es posible que veas las palabras que una disposición diferente disposición en tu pantalla porque no he puesto el estado para este, y también se puede filtrar para las palabras que no son parte de los comentarios tóxicos. Y para hacer eso, sólo tenemos que cambiar este a 1 por 0 y luego presionar shift. Enter una vez más, y cuando lo ejecute, verá inmediatamente un cambio. Y en que esas palabras tóxicas ya no están incluidas. 

In [None]:
#conda install -c conda-forge wordcloud 

In [7]:
# Si no esta instalado wordcloud, en la consola de Anaconda hacer
# conda install -c conda-forge wordcloud  
from wordcloud import WordCloud, STOPWORDS
STOPWORDS.add("n")
import matplotlib.pyplot as plt
#Cambiar a ==0 para ver la nube de palabras no toxicas
comments = train_df['comment_text'].loc[train_df['toxic']==1].values
wordcloud = WordCloud(
    width = 640,
    height = 640,
    background_color = 'white',
    stopwords = STOPWORDS).generate(str(comments))
fig = plt.figure(
    figsize = (12, 8),
    facecolor = 'k',
    edgecolor = 'k')
plt.imshow(wordcloud, interpolation = 'bilinear')
plt.axis('off')
plt.tight_layout(pad=0)
plt.show()

<Figure size 1200x800 with 1 Axes>

Bien, entonces acabamos de extraer y guardar los comentarios por separado en el texto guardandolo en el objeto `x`. Así que vamos a hacer eso para las etiquetas `y`. 

In [8]:
y = train_df['toxic'].values
print(y)

[0 0 0 ... 0 0 0]


Y esta vez, en lugar de texto común estamos viendo las etiquetas, escribimos el nombre de la columna tóxica y obtenemos sus valores. Y ahora vamos a seguir adelante e imprimir `y`. Es sólo una lista de las etiquetas.

Ahora para tener una idea de la distribución de los comentarios tóxicos, vamos a crear un simple hostograma para mostrarnos cuántos comentarios tóxicos ocurren en los datos y cuántos comentarios no tóxicos. Así que desde el `train_df`, estamos mirando la columna tóxica y específicamente, queremos trazar un hostograma. Así que en lugar de pasar por algún proceso laborioso de usar Matplotlib u otra biblioteca, podemos utilizar la función de dentro de los marcos de datos de pandas.

In [9]:
train_df['toxic'].shape

(159571,)

In [10]:
# Plot frequency of toxic commen
train_df['toxic'].plot(kind='hist', title='Distribución de comentarios tóxicos')

TypeError: Cannot interpret '<attribute 'dtype' of 'numpy.generic' objects>' as a data type

Así que esta es la distribución donde hay claramente una abundancia de comentarios no tóxicos en comparación con sus contrapartes tóxicas.

Y si quieres un recuento exacto, podemos hacer esto. 

In [11]:
train_df['toxic'].value_counts()

0    144277
1     15294
Name: toxic, dtype: int64

Esto es un claro problema de desequilibrio donde la clase 0 para los comentarios no tóxicos es claramente dominante sobre la clase 1 para los comentarios tóxicos. Sin embargo, en este proyecto no vamos a abordar el problema de desequilibrio. Hay algunos métodos que se pueden explorar como el submuestreo de la clase mayoritaria o el sobremuestreo la clase minoritaria y un algoritmo llamado smote que intenta equilibrar las clases. Lo que vamos a hacer hoy es algo llamado llamado **muestreo estratificado**, donde dividimos nuestros datos en conjuntos de entrenamiento y validación para que la distribución de los comentarios tóxicos y no tóxicos a través de los conjuntos de entrenamiento y validación sean similares. 

Bien, genial. En esta tarea importamos el conjunto de datos, dividimos el conjunto de datos en comentarios y etiquetas y también visualizamos la distribución de palabras en los comentarios. 

A continuación vamos a hablar de cómo podemos preparar estos datos que actualmente son una lista de cadenas y convertirla o transformarla en una forma numérica para que Keras pueda aceptarla como entrada. 

<a name='3'></a>
## 3 - Preparación de los datos - Tokenizar y rellenar los datos de texto

Vamos a convertir nuestros datos, que están actualmente en formato de cadena, en una representación numérica. Así que ya sabes, el gran problema con el uso de redes neuronales en textos es que es un poco difícil obtener cosas del texto, que es, por supuesto, cadenas de longitud arbitraria en algo con lo que una neurona pueda trabajar, que es básicamente una cadena de longitud fija. 

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_02.jpg"   style="width:400px;height:224px;" >
</figure>

Una de las formas más comunes para hacer frente a esto hace alrededor de 10 años, y de hecho sigue siendo muy popular hoy en día, por cierto, se llama el modelo de **bolsa de palabras (bag of words)**. Recordarán que la bolsa de palabras consiste en tomar cada palabra y contar cuántas veces ocurre en cada documento. Así que básicamente transformas la cadena en un vector donde la longitud es el número de palabras que tienes. Y el problema, por supuesto, con esto es que pierdes completamente el orden de las palabras. El orden de las palabras importa mucho, y es bastante sorprendente que la clasificación pueda funcionar dejando de lado el orden. 

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_01.jpg"   style="width:400px;height:224px;" >
</figure>

Bien, hay otra transformación que usa caracteres individuales. Así que básicamente, en **one-hot encodding** cada carácter en el texto, y eso tiene un sentido intuitivo como una transformación. Y en realidad podemos rellenar estos caracteres para hacer que todo el texto tenga una longitud fija de caracteres. Pero el problema es que en inglés y otros idiomas idiomas, los espacios importan mucho, cierto, y el concepto de una palabra es un concepto bastante útil que podríamos querer pasar a nuestra red neuronal. Así que al pasar cada carácter como una codificación de caracteres codificación, realmente estamos haciendo que la red neuronal aprenda mucho sobre el lenguaje, por lo que podría ser demasiado crudo, demasiado extremo a menos que tengamos realmente masivas cantidades de datos. 

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_03.jpg"   style="width:400px;height:224px;" >
</figure>

Así que para obtener los mejores resultados, realmente queremos algo intermedio, y ahí es donde entra en juego **word embedding**. Aquí tenemos la frase *"I love this movie"* donde la transformación de cada palabra determina un conjunto de números, y en este caso, la transformamos en cuatro números. Así que la palabra *"I"* siempre se transforma en los mismos cuatro números. La palabra *"love"* siempre se transforma en los mismos cuatro números. Y podemos hacer esto con vectores más largos. Así que en esta tabla tenemos cada palabra que podríamos haber visto en nuestro **vocabulario**, junto con la transformación en que cada palabra se convierte. 

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_05.jpg"   style="width:400px;height:224px;" >
</figure>

Así que si no queremos calcular las word embedding en si mismas, podemos usar algunas embeddings precalculadas. Así que **GloVe** uno de los más famosos, generado por un equipo de Stanford. Es en un enorme conjunto de datos, y tiene algunas propiedades increíbles que serían digno de un proyecto entero para explorar más. 

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_06.jpg"   style="width:400px;height:224px;" >
</figure>

Pero, escucha algunas propiedades interesantes. En realidad puedes hacer aritmética vectorial en el espacio vectorial, donde si tomas los números reales que se incrustaron para la palabra *king* y restas el número codificado para la palabra *man* y se añade el número codificado para la palabra *woman*, obtendrías el número o conjunto de números para la palabra *queen*. Así que esto es increíble. Y muestra que estos zares incrustados realmente codifican alguna información semántica y contenido semántico sobre estas palabras. 

Así que la siguiente tarea será usar estos números o embeddings generados por Stanford y los usaremos en nuestro modelo para que funcione mejor que si tuviéramos que aprender estos embeddings nosotros mismos con nuestra red neuronal. Se puede pensar en esto como una especie de aprendizaje de transferencia, pero hacia adelante, si eso tiene sentido. Bueno, esto fue un montón de hablar por mi parte. 

Ahora vamos a seguir adelante y tokenizar el texto. Vamos a establecer el número máximo de palabras para mantener de nuestro documento o conjunto de datos.

In [12]:
# Caracteristicas Máximas
max_features    = 20000 
# Longitud máxima de texto
max_text_lenght = 400 

Las características máximas se establecieron como las 20.000 palabras más frecuentes en el conjunto de datos que serán captadas y las demás no. La longitud máxima de texto es la longitud máxima que una secuencia particular o, en nuestro caso, un comentario puede tener. Los comentarios que tienen menor longitud serán rellenados para que sea igual a esta longitud, en este caso 400. 

Ahora vamos a seguir adelante y tokeneizar nuestro texto. 

In [13]:
x_tokenizer  =  text.Tokenizer(max_features)
# Imprimimos para ver que tipo es x_tokenizer
print(x_tokenizer)
# vemos que es un objeto

<keras.preprocessing.text.Tokenizer object at 0x000002045D4125F8>


Esta clase, llamada `Tokenizer` nos permite vectorizar un corpus de texto convirtiendo cada texto en una secuencia de enteros donde cada entero es el índice de un token en un diccionario y el valor es la palabra misma. Y le decimos que seleccione las 20.000 palabras más más frecuentes en el conjunto de datos y descarte el resto.

Ahora vamos a ajustar este objeto `x_tokenizer`. Para ello podemos llamar al método `fit_on_texts` y pasar una lista de todas nuestras cadenas. 

In [14]:
x_tokenizer.fit_on_texts(x) 
# Imprimimos para ver que tipo es x_tokenizer
print(type(x_tokenizer))
# vemos que es una clase

<class 'keras.preprocessing.text.Tokenizer'>


Y ahora lo que podemos hacer es convertir nuestro texto tokenizado en una lista de listas que contiene números. Así que básicamente una lista de secuencias, no un Numpy array. 

In [15]:
x_tokenized = x_tokenizer.texts_to_sequences(x)
# Imprimimos para ver que tipo es x_tokenized
print(type(x_tokenized))

<class 'list'>


In [16]:
# vemos uno de los elementos de esa lista
print(x_tokenized[2])
print("\nCantidad elementos en la lista: ", len(x_tokenized[2]))

[412, 437, 73, 134, 14, 249, 2, 71, 314, 78, 50, 9, 13, 626, 8, 2284, 492, 502, 102, 4, 611, 2, 35, 325, 126, 363, 3, 29, 38, 27, 52, 208, 2, 434, 57, 36, 1, 2394, 93, 1, 737, 468]

Cantidad elementos en la lista:  42


In [17]:
# Vemos el comentario relacionado con esa lista
print("El texto es:", x[2])
print("\nCantidad de palabras en el comentario: ", len(x[2].split(" ")))

El texto es: Hey man, I'm really not trying to edit war. It's just that this guy is constantly removing relevant information and talking to me through edits instead of my talk page. He seems to care more about the formatting than the actual info.

Cantidad de palabras en el comentario:  42


Ahora vamos a seguir adelante y rellenar cada una de estas secuencias para que cada documento o frase o secuencia tenga la misma longitud usando la `max_text_lenght`. Usamos la función `pad sequences` de la clase `sequence` en Keras y le pasamos nuestro texto de `x_tokenizer_list` y le damos la longitud máxima para que pueda hacer el relleno y todo nuestro texto tenga la misma longitud.

In [18]:
x_train_val  = sequence.pad_sequences(x_tokenized , maxlen = max_text_lenght) 
print(type(x_train_val))

<class 'numpy.ndarray'>


In [19]:
print("La matriz rellena de 0 es:\n", x_train_val[2])
print("\nLa cantidad de elementos son: ", len(x_train_val[2]))
# Se pueden apreciar los mismos valores del embedding que vimos antes para el mismo comentario

La matriz rellena de 0 es:
 [   0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    

Gran trabajo En la siguiente tarea, vamos a pasar a preparar nuestra guante pre-entrenado y los beddings de los que hablé en las diapositivas anteriores. 

<a name='4'></a>
## 4 - Preparar la matriz de incrustación con las incrustaciones GloVe preentrenadas

Ahora tilizaremos el tokenized que creamos en la última tarea y obtendremos los correspondientes embedding del conjunto de preentrenamiento de GloVe de Stanford. Es súper sencillo. El Stanford en realidad creó un archivo ZIP, que es alrededor de 800 megabytes, con los embeddings de varias dimensiones. El archivo contiene vectores codificados en texto, o embeddings de varios tamaños (de 50, de 100, de 200 dimensional y de 300 dimensiones). Hoy utilizaremos los de 100 dimensiones. 

Así que aquí es donde se puede descargar.

In [None]:
#!wget http://nlp.stanford.edu/data/glove.6B.zip
#!unzip -q glove.6B.zip

Muy bien, entonces comencemos haciendo un diccionario o dict en python, mapeando las palabras, que son cadenas, a su representación vectorial. Así que primero vamos a crear un diccionario vacío, `embedding_index`, que analizará este archivo de embeddings y mapeará las palabras a sus embeddings. También vamos a establecer este parámetro `embedding_dim` que usaremos más tarde. Y es sólo para mostrar que vamos a establecer nuestro embedding a 100. 

In [20]:
embedding_dim    = 100 
embedding_index = {} 

Ahora vamos a pasar por cada línea en el archivo *"glove.6B.100d.txt"*.

No te animo a abrir el archivo porque es realmente pesado y puede bloquearse o colgarse incluso en tu propio ordenador, incluso con una gran memoria y una buena CPU. Así que te puedo describir cómo es. Tiene millones de líneas donde el primer valor en cada línea es la representación de la cadena de la palabra, podría ser *hola* o cualquier palabra, y eso es que es el primer valor en una línea particular. Y el resto de la línea contiene los valores numéricos para el embedding. Así que es un vector muy largo. 

Así que lo que vamos a hacer es primero dividir el archivo por las líneas, así que extraemos líneas individuales en cada iteración del bucle, y podemos hacer esto usando `line.split()`. Y ahora vamos a extraer la palabra y la añadiremos a nuestro diccionario en los próximos pasos. Así que de los valores, que actualmente es una línea, extraemos el primer valor, que es la cadena y la palabra, y el resto de los valores son simplemente coeficientes o los propios embeddings. Vamos a convertirlo en `asarray`, y los valores que estamos convirtiendo en array son todos después de la primera entrada. Vamos a ignorar la primer entrada y sólo mirar los coeficientes y vamos a establecer este tipo de datos para ser `float 32`. 

Muy bien, y ahora vamos a poblar nuestro índices del diccionario de embeddings. Así que cada palabra en este archivo de embeddings va a ser mapeada a sus coeficientes, y es muy simple y muy útil para mantenerlo en una estructura de diccionario como esta. 

Antes de que me olvide, todavía no hemos definido lo que es `f`. Así que vamos a hacer eso antes del bucle. Tenemos que abrir nuestro archivo primero. Y ahora, al final del bucle, nos asegurémonos de cerrar los archivos. 

Y sigamos adelante e imprimamos cuántos vectores de palabras pudimos analizar y vamos a mirar la longitud del diccionario para obtener el número de vectores de palabras. Una vez que ha completado la ejecución con éxito, usted debe ser capaz de ver que son 400.000 vectores de palabras.

In [21]:
# Agregué encoding="utf8" porque me daba un error:
# UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 2776: character maps to <undefined>
f = open("glove.6B.100d.txt", encoding="utf8")
for line in f:
    values = line.split()
    word   = values[0]
    coefs  = np.asarray(values[1], dtype="float32")
    embedding_index[word] = coefs
f.close()
print(f"Se encontraron {len(embedding_index)} vectores de palabras")

# Otra forma de hacer lo mismo
# with open("glove.6B.100d.txt","r") as f: 
#     for line in f: 
#         word, *coef = line.split() 
#         embedding_index[word] = np.asarray(coef, dtype="float32") 
 
#     print(f"se encontraron {len(embedding_index)} vectores de palabras") 

Se encontraron 400000 vectores de palabras


Podemos comprobar lo que el índice de palabras de nuestro `x_tokenizer` contiene. Así que no tienes que hacer esto, sólo estoy haciendo esto para proporcionar un poco de claridad. Así que este es nuestro vocabulario donde cada palabra en el vocabulario es que se mapea a un valor entero único de acuerdo.

In [22]:
x_tokenizer.word_index

{'the': 1,
 'to': 2,
 'of': 3,
 'and': 4,
 'a': 5,
 'you': 6,
 'i': 7,
 'is': 8,
 'that': 9,
 'in': 10,
 'it': 11,
 'for': 12,
 'this': 13,
 'not': 14,
 'on': 15,
 'be': 16,
 'as': 17,
 'have': 18,
 'are': 19,
 'your': 20,
 'with': 21,
 'if': 22,
 'article': 23,
 'was': 24,
 'or': 25,
 'but': 26,
 'page': 27,
 'wikipedia': 28,
 'my': 29,
 'an': 30,
 'from': 31,
 'by': 32,
 'do': 33,
 'at': 34,
 'me': 35,
 'about': 36,
 'so': 37,
 'talk': 38,
 'what': 39,
 'can': 40,
 'there': 41,
 'all': 42,
 'has': 43,
 'will': 44,
 'please': 45,
 'no': 46,
 'would': 47,
 'one': 48,
 'like': 49,
 'just': 50,
 'they': 51,
 'he': 52,
 'which': 53,
 'any': 54,
 'been': 55,
 'should': 56,
 'more': 57,
 'we': 58,
 "don't": 59,
 'some': 60,
 'other': 61,
 'who': 62,
 'here': 63,
 'see': 64,
 'also': 65,
 'his': 66,
 'think': 67,
 'because': 68,
 'know': 69,
 'how': 70,
 'edit': 71,
 'am': 72,
 "i'm": 73,
 'people': 74,
 'why': 75,
 'up': 76,
 'only': 77,
 "it's": 78,
 'out': 79,
 'articles': 80,
 'use': 81,

Y ahora va a utilizar este diccionario que hemos creado para seguir adelante y crear una matriz de incrustación correspondiente que podemos utilizar con Keras. Es una matriz numérica simple donde la entrada en el índice *i* es el vector preentrenado para la palabra del índice *i* en nuestro vocabulario de vectores. Así que vamos a hacer eso. 

Nuestra matriz de incrustación debe tener las dimensiones de nuestro número máximo de características, que es de 400, por las dimensiones de nuestra incrustación, que es de 100. Creemos aquí la matriz de incrustación y vamos a inicializarla numérica con ceros. Pero pronto poblaremos esto. 

In [23]:
embedding_matrix = np.zeros((max_features , embedding_dim)) 
# Imprimimos para ver la forma
print(embedding_matrix.shape) 

(20000, 100)


Ahora lo que vamos a hacer es mirar las palabras y los índices en nuestro `x_tokenizer`, que hemos creado antes, que es también un diccionario donde contiene la palabra y también el índice correspondiente a la palabra. Así que vamos a tomar la palabra y el índice de eso y de nuestro embedding, vamos a obtener la palabra. Así que vamos a obtener la palabra y obtener su correspondiente vector de incrustación y llenar este vector de incrustación en nuestra matriz de incrustación.

Así que por palabra e índice en nuestro `x_tokenizer`, obtenemos el índice de la palabra, que es un diccionario. Así que estamos obteniendo las palabras y sus índices, y nos estamos asegurando de que si nuestro índice es mayor que nuestro `max_features`, no vamos a usarlo. Sólo vamos a salir del bucle. El -1 es porque el índice es cero. Vamos a seguir adelante y romper el bucle. Así que sólo estamos asegurando que estamos limitados por nuestro `max_features`. De lo contrario, podemos crear nuestro podemos obtener nuestro `embedding_vector` usando el `embedding_index` que creamos antes. Así que esto nos dará nuestra una representación numérica o un vector para esa palabra en particular usando nuestro `embedding_index`. 

Y ahora lo que vamos a hacer es establecer otra condición. Así que si nuestro vector de incrustación no es ninguno, lo que significa que las palabras que no se encuentran en el `embedding_index` serán todos ceros, vamos a crear nuestra matriz de incrustación. Así que la `embedding_matrix`, es simplemente igual al vector de incrustación. 

In [24]:
for word, index in x_tokenizer.word_index.items(): 
    if index > max_features -1: 
        break 
    else: 
        embedding_vector = embedding_index.get(word) 
        if embedding_vector is not None: 
            embedding_matrix[index] = embedding_vector

Ahora que hemos hecho esto en la siguiente tarea, vamos a cargaremos la matriz de incrustación de palabras preentrenada en un incrustación de palabras en una capa Keras para que no tengamos que aprender estos word embeddings mientras entrenamos nuestra red neuronal. 

<a name='5'></a>
## 5 - Crear la capa de incrustación

En la última tarea, creamos nuestra matriz de incrustación buscando dentro de las palabras que tenemos en nuestro `x_tokenizer` y ajustando los valores de esas palabras a los valores o vectores de embedding de GloVe. En esta tarea, en realidad los valores dentro de nuestra capa de incrustación son para que sean exactamente los embeddings que obtuvimos de GloVe. Y nuestra capa de incrustación va a ser la primera capa dentro de nuestro modelo. 

Vamos a crear nuestro modelo usando la clase secuencial de Keras y por lo tanto ya hemos importado sequential desde arriba. Y ahora lo que podemos hacer es empezar a crear una capa de incrustación eficiente que mapea los `embedding_index` en las `embedding_dim`. Y así vamos a cargar la palabra pre entrenada y embeddings en esta capa Keras. La forma en que agregamos a la capa de incrustación a nuestro modelo es simplemente llamando `model.add`, y nosotros podemos definir nuestra capa de incrustación y queremos asegurarnos que necesitamos pasar nuestras `max_features` aquí junto con las `embedding_dim`. Y si no estuviéramos usando embeddings pre entrenadas, esto constituiría toda nuestra capa de incrustación. Podríamos seguir añadiendo otras capas como quizás una capa densa aquí o capas de convolución o RNN o LSTM. 

Pero ya que estamos utilizando nuestros embeddings GloVe pre-entrenado, vamos a seguir adelante y añadir en esta capa el `embedding_initializer` que inicializará los pesos de los embeddings a nuestros valores en la matriz de incrustación. `embedding_initializer` dijimos que es constante, usando `tf.keras.initializers.Constant` y a esto le pasamos nuestra matriz de incrustación. 

Y por último, también vamos a seguir adelante y establecer `trainable=Falso` porque no queremos aprender más incrustaciones ya que estamos utilizando el pre-entrenado embeddings, por lo que no queremos actualizar estos pesos durante el entrenamiento. 

Y ahora vamos a seguir adelante y también añadir un poco de regularización dropout, de 0.2 que debe estaría estar bien. 

In [25]:
model = Sequential() 
model.add(Embedding(max_features, 
                    embedding_dim, 
                    embeddings_initializer = tf.keras.initializers.Constant(embedding_matrix), 
                    trainable = False)) 
model.add(Dropout(0.2)) 

Muy bien, así que ahora que hemos hecho esto, ¿cómo lo convertimos en un clasificador? ¿Y cómo hacemos una convolución de texto, clasificar? y ¿qué significa eso? Y vamos a explorar estas preguntas en la siguiente tarea.

<a name='6'></a>
## 6 - Construir el modelo

Bienvenidos de nuevo ahora que hemos transformado nuestro texto en vectores de longitud fija y también los hemos rellenado y recuperado sus embeddings de GloVe y finalmente añadimos esos embeddings a nuestra capa de incrustación en nuestro modelo. ¿Cómo hacemos una convolución clasificador de texto? y ¿qué significa eso? Así que creo que es útil volver y revisar lo que quería decir por un clasificador bidimensional en imágenes. 

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_07.jpg"   style="width:400px;height:224px;" >
</figure>

Recuerde que con un clasificador 2D, tomamos una entrada, y luego multiplicaríamos un peso por un bloque de valores, y se pone esos valores en un bloque en una posterior imagen de salida y luego eliminar ese bloque y mover ese bloque por uno o por paso. Y hacemos ese mismo cálculo de los mismos pesos. Y luego rellenamos el siguiente bloque en la siguiente imagen. 

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_08.jpg"   style="width:400px;height:224px;" >
</figure>

Recuerda que podríamos tener múltiples salidas. Y lo que significaría múltiples salidas es que empezamos con la misma imagen, pero usamos diferentes conjuntos de pesos. Y así, a medida que nos deslizamos sobre el bloque, estábamos en realidad en cada caso, multiplicando por diferentes pesos y luego poniendo las múltiples imágenes o a veces lo llaman canales múltiples. Y entonces usted podría tener este concepto de cómo exactamente se puede tomar múltiples entradas. 

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_09.jpg"   style="width:400px;height:224px;" >
</figure>

Así que si tuviéramos tres imágenes de entrada en este caso, en realidad, si tuviéramos una imagen en color, podríamos convertirla en tres canales un canal rojo, un canal verde y un canal azul. Y podemos hacer lo mismo con la convolución. 

Y en este caso, en realidad tenemos tres cajas diferentes de pesos. Y luego sumamos el resultado de la convolución de cada bloque de pesos en cada uno de los canales de entrada. Y tenemos un solo canal de salida por lo que podemos tener múltiples entradas y salidas múltiples de esta manera y ahora en el texto, nosotros en realidad no tenemos una cosa bidimensional, tenemos una cosa unidimensional. 
<figure>
 <img align="left", src="./imagenes/1D-Convolutions-Text_Página_13.jpg"   style="width:320px;height:179px;" >
</figure>
<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_17.jpg"   style="width:320px;height:179px;" >
</figure>

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_18.jpg"   style="width:400px;height:224px;" >
</figure>

Así que aquí se puede pensar en que una dimensión como ir a través de los píxeles a menudo la imagen y se puede pensar en que tengo como un ancho para mencionar aquí que es en realidad el canal diferente. Así que en lugar de tomar un bloque bidimensional, tomamos un un bloque unidimensional a través de los píxeles. 

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_20.jpg"   style="width:400px;height:224px;" >
</figure>

Y así en este caso, digamos que su longitud tres y tomamos una suma ponderada de cada uno de los píxeles. Así que en este caso, tendríamos tres pesos y los multiplicamos por uno de los canales y tomamos eso, esperamos algo y rellenamos una salida, y movemos ese bloque un paso a la derecha y hacemos lo mismo. Esperamos un poco en los nuevos datos de nuestra incrustación, y sentimos en ese resultado en el siguiente canal o en el siguiente píxel, y ejecutamos esa suma ponderada a través de todos los canales y tomamos esperamos algo y rellenamos un valor. 

Ahora podríamos tener la salida de múltiples dimensiones o múltiples canales de salida, y en este caso, sólo tendríamos diferentes pesos para cada uno de los canales que se fuera poniendo y este caso eran realmente va a aprender las esperas para todos estos canales diferentes. Y lo que va a hacer es combinar las palabras en menores y en cierto sentido nos dará información. O, con suerte, va a aprender información sobre pares 
y triples y más palabras. 


Así que puedes recordar que con las imágenes hacemos esta cosa llamada esta operación llamada **Max Polling**, donde tomaríamos un bloque, típicamente un bloque de dos por dos, y encontramos el máximo de los píxeles en una región de dos por dos. Bueno, en realidad hay una analogía muy obvia con esto en la que miramos un canal en particular y tomamos, en este caso, un en un, dos por dos, o simplemente la longitud o podría ser un bloque de longitud diferente. Y encontramos el máximo o el promedio. Con imágenes esto nos dio la oportunidad de encontrar un tipo de rango más largo de dependencias con nuestras convoluciones. Y con esto es exactamente lo mismo. Así que en realidad podemos construir la misma estructura que teníamos para clasificar dígitos con operaciones 2D operaciones que con operaciones 1D en nuestros textos. 

<figure>
 <img align="left", src="./imagenes/1D-Convolutions-Text_Página_24.jpg"   style="width:320px;height:179px;" >
</figure>

<figure>
 <img align="right", src="./imagenes/1D-Convolutions-Text_Página_28.jpg"   style="width:320px;height:179px;" >
</figure>

Así que es típico tener una convolución, seguida de algún tipo de pooling, seguido de una convolución, seguido de algún tipo de pooling. Y esto continúa durante un par de secuencias, seguido por una capa densa o alguna otra arquitectura híbrida, como un LSTM o RNN.

Volvamos a nuestro código y veamos cómo funciona esto realmente. Así que aquí hay una muy buena intuición que se puede tener sobre el uso de las convoluciones de 1D para la clasificación de textos. La CNN es, en cierto sentido, una arquitectura de extracción de características. No constituye una red independiente y útil por sí misma, sino que está pensada para ser integrada en una red red más grande. Como tal vez, después de pasar a través de su CNN para aprender características, podrías pasar una capa densa al final. Así que no es una red útil por sí misma, sino más bien para extraer características y ser integrada en una red más grande y ser entrenada en conjunto para producir el resultado final. Así que la responsabilidad de las capas de la CNN es extraer sub estructuras significativas que sean útiles para la tarea general de predicción, o clasificación en general. 

Muy bien, así que antes de que podamos empezar a definir nuestra CNN y el resto de la arquitectura del modelo, vamos a crear algunos parámetros. Así que el número de filtros (`filters`) que vamos a utilizar es 250, así que todos estos van a ser hiperparámetros que se pueden ajustar individualmente. Y el tamaño del filtro (`kernel_size`) también llamado alternativamente el ancho de filtro o la longitud del filtro va a ser 3. Y después de extraer las características usando la CNN de 1D, vamos a pasarlo a través de una capa oculta (`hidden_dims`), y podemos podemos pre definir cuál es la dimensión de esa capa oculta. Así que vamos a decir 250. 

In [26]:
filters      = 250 
kernel_size  = 3 
hidden_dims  = 250

Y ahora podemos añadir una convolución 1D, que aprenderá los filtros. Vamos a escribir `model.add` y añadir la capa 1D y usando los embeddings, extraemos características con nuestra convolución. Luego pasamos los filtros, y esto gobierna cuántos canales de salida tiene. Especificamos en el ancho del filtro o el `kernel_size` que ya hemos definido en la celda anterior. Y ahora añadimos un relleno llamado *válido*, que sólo significa que en realidad no estamos rellenando datos porque están ya estan rellenos, por lo que es efectivamente encoge la salida.

Ahora vamos a añadir un Max Pooling también 1D en este caso, y ahora podríamos crear una capa de salida con una unidad logística o capa densa con una unidad y pasarla por una función de activación sigmoidea. Pero también se puede añadir más capas de convolución 1D, y esto aprovecharía efectivamente el poder de las CNN para aprender jerarquías de relaciones entre n-gramas en el texto. 

Vamos a añadirlo con diferente tamaño de kernel, esta vez para que aprenda diferentes filtros con diferente longitud de filtro esta vez. Así que en lugar de 3, vamos a ir con 5. Podemos añadir el mismo relleno que es válido y ahora agregar una no linealidad, agregando una función de activación ReLu. 

Y ahora vamos a utilizar Global Max Pooling de modo que una vez que se hace, podemos pasarlo a través de nuestra, capa oculta. Así que el Global Max Pooling simplemente mustrea hacia abajo las representación de entrada tomando el valor máximo sobre el tiempo de mencionar como nos fijamos en los slice. 

Y ahora sólo vamos a añadir, en lugar de una capa 1D, añadiremos una capa oculta densa con las dimensiones ocultas que hemos definido. Así que eso sería 250. Y también vamos a añadir la función de activación ReLu. Y sólo para que evitemos el sobreajuste también vamos a añadir un poco de regularización de dropout. 

Y ahora podemos proyectar la capa de salida y aplastarla con una sigmoide, con una capa densa de una neurona y con la activación a sigmoide. Así que esto nos daría un valor entre 0 y 1. Y si el valor es, digamos, vamos a establecer un umbral de 0,5, podemos decir que el comentario no es tóxico. Si es mayor de 0,5, es tóxico

In [27]:
model.add(Conv1D(filters, 
                kernel_size = kernel_size, 
                padding = "valid"))
model.add(MaxPooling1D())
model.add(Conv1D(filters,
                kernel_size = 5, 
                padding = "valid", 
                activation = "relu")) 
model.add(GlobalMaxPooling1D()) 
model.add(Dense(hidden_dims, 
                activation = "relu")) 
model.add(Dropout(0.2)) 
model.add(Dense(1, activation = "sigmoid")) 

In [28]:
#Para ver la arquitectura
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, None, 100)         2000000   
                                                                 
 dropout (Dropout)           (None, None, 100)         0         
                                                                 
 conv1d (Conv1D)             (None, None, 250)         75250     
                                                                 
 max_pooling1d (MaxPooling1D  (None, None, 250)        0         
 )                                                               
                                                                 
 conv1d_1 (Conv1D)           (None, None, 250)         312750    
                                                                 
 global_max_pooling1d (Globa  (None, 250)              0         
 lMaxPooling1D)                                         

Así que sólo para resumir después de la construcción nuestra capa de embedding y añadir un poco de dropout para que no se sobreajuste demasiado, añadimos una capa conv 1D. Así que esto es como las capas con 2D que se pueden usar en el reconocimiento de vestimenta o cualquier tipo de reconocimiento de imágenes. Y de nuevo, tenemos este parámetro de filtros, que es cuántos canales de salida tiene esta capa de convolución, y también tenemos un parámetro de tamaño de kernel. Pero en lugar de que el tamaño del kernel sean dos número como en las imágenes, es un solo número porque es sólo una convolución unidimensional, y padding es igual a válido, así que en realidad va a reducir nuestra salida un poco. Luego la activación ReLu significa que ejecutamos una función de activación para una no linealidad al final de esta convolución. Luego tenemos una capa de Max Pooling y luego volvemos a otra capa de convolución y otro Max Pooling más tarde. Y finalmente añadimos una capa densa, y algo de regulación dropout. Y, por último, un sólo un valor binario de salida, añadimos esa última capa densa. 

Y ahora lo que podemos hacer es compilar nuestro modelo y establecer la pérdida binaria de entropía cruzada, y vamos a utilizar el optimizador de Adam. También queremos la precisión para saber qué tan bien lo está haciendo nuestro modelo. 

In [29]:
 model.compile(loss      = "binary_crossentropy", 
               optimizer = "adam", 
               metrics   = ["accuracy"]) 

Sigamos adelante y dividamos nuestro conjunto de datos en un conjunto de entrenamiento y el conjunto de validación y luego ajustar nuestros datos de entrenamiento a nuestro modelo y evaluar en los datos de validación.

<a name='7'></a>
## 7 - Entrenar el modelo

Ahora que ha construido y compilado su modelo, vamos a entrenarlo. Pero antes de que podamos hacer eso, tenemos que dividir nuestros datos en conjuntos de entrenamiento y validación. 

Estás usando la función de ayuda `train_test_split` de SciKitLearn. Ahora podemos especificar nuestro tamaño de la prueba, vamos a establecerlo al 15% del total de los datos y así obtenemos para ambos la misma división. Establezcamos el estado aleatorio a uno. Esto es opcional, de acuerdo, así que eso se encarga de crear nuestros conjuntos de entrenamiento y validación. 

In [30]:
 x_train , x_val , y_train, y_val = train_test_split( 
                                        x_train_val,  
                                        y ,  
                                        test_size = 0.15, 
                                        random_state = 1) #opcional

Y lo que podemos hacer ahora, antes de ajustar nuestros datos al modelo, es definir algunos parámetros para el proceso de entrenamiento, como el tamaño del batch que es el número de ejemplos del batch de entrenamiento que el modelo mira a la vez. Vamos a establecer que a 32. Entonces, ¿cuántas veces pasamos sobre los datos de entrenamiento? podemos setearlo en 3.

Y ahora podemos seguir adelante y ajustar nuestro modelo. Así que vamos a llamar a `model.fit` y ajustar a nuestro `x_train` e `y_train` y especificar el tamaño de batch que acabamos de definir nosotros. También vamos a establecer el número de épocas (epoch). Y por último, vamos a especificar los datos de validación 

In [31]:
batch_size = 32
epochs     = 3

model.fit(x_train, y_train, 
          batch_size = batch_size,  
          epochs = epochs, 
          validation_data= (x_val, y_val)) 

Epoch 1/3
Epoch 2/3
Epoch 3/3


<keras.callbacks.History at 0x20473b22f28>

Para cuando termines el entrenamiento, deberías tener una precisión de validación de entre 0,94 y 0,97. Así que en cualquier lugar entre ese rango.

<a name='8'></a>
## 8 - Evaluación del modelo - Clasificar los comentarios tóxicos

Así que mi precisión de entrenamiento es de 0.90 y de validación final, es un 90% y eso es que es bastante bueno. Así que abajo que hemos completado el entrenamiento del modelo podemos realmente clasificar los comentarios tóxicos de los datos de prueba que no hemos mirado. Así que vamos a seguir adelante. 

Así que eso es que tenemos que ir a través del mismo proceso que antes. Pero ahora, como ya hemos escrito las funciones para hacer el trabajo por nosotros, podemos pasar sin problemas por todo el pre procesamiento. Así que primero tenemos que importar los datos. Así que usamos pandas, con método `read_csv` para seguir adelante y cargar el archivo *'test.csv'*. 

In [32]:
test_df = pd.read_csv("test.csv") 
test_df

Unnamed: 0,comment_text
0,Yo bitch Ja Rule is more succesful then you'll...
1,== From RfC == \n\n The title is fine as it is...
2,""" \n\n == Sources == \n\n * Zawe Ashton on Lap..."
3,":If you have a look back at the source, the in..."
4,I don't anonymously edit articles at all.
5,Thank you for understanding. I think very high...
6,Please do not add nonsense to Wikipedia. Such ...
7,:Dear god this site is horrible.
8,""" \n Only a fool can believe in such numbers. ..."
9,== Double Redirects == \n\n When fixing double...


Muy bien, se ha completado la carga, y ahora vamos a extraer los comentarios de la misma. Así que los comentarios recordar se almacenan en esta columna llamada *comment_text* y obtenemos los valores obtenemos todos los comentarios, los almacenamos en `x_test` y ahora lo que tenemos que hacer es simplemente tekenizar el texto y rellenar para que todos los comentarios sean secuencias tengan la misma longitud de 400. Y para hacer esto estamos utilizando el mismo `x_tokenizer` como antes, ya que ha aprendido las estadísticas de nuestros datos. Así que utilizamos la función `texts_to_sequences` y pasar en nuestros comentarios `x_test`. 

Y ahora vamos a obtener el resultado después de padding estas secuencias tokenizadase. Y aquí podemos pasar la longitud máxima que utilizamos antes que se elevó a 400. 

In [33]:
x_test = test_df.comment_text.values 
x_test_token = x_tokenizer.texts_to_sequences(x_test)
x_testing = sequence.pad_sequences(x_test_token, maxlen = max_text_lenght)

Y ahora que está hecho. Podemos utilizar nuestro modelo de entrenamiento para predecir las etiquetas de clase, como en los comentarios, ser tóxico o no, utilizando la función `model.predict` y pasando los datos procesados de los comentarios y vamos a establecer el tamaño de batch a 32 o 128. 

In [34]:
y_testing = model.predict(x_testing, verbose=1, batch_size=32)



In [35]:
y_testing.shape

(153164, 1)

Podemos ver que tenemos ah tienen alrededor de 153.000, los comentarios aquí que son tóxicos y no tóxicos. Y es sólo una columna.

Podemos seguir adelante y mirar el primer valor aquí. Así que esto nos dará una indicación de si la primera entrada o comentario en la prueba es tóxico o no. Así que vamos a establecer nuestro umbral de clasificación en 0,5, lo que significa que si tenemos un valor superior a 0,5 significa que el comentario es tóxico. Si tiene un valor inferior a 0,5 no es tóxico.

In [36]:
y_testing[0]

array([0.05167863], dtype=float32)

Podemos ver que, nuestro modelo es bastante seguro que el primer comentario aquí es tóxico, así que vamos a ver en el primer comentario. Y debido a que esto es fuera de poner las puntuaciones de probabilidad entre 0 y 1, podemos convertir estas dos etiquetas utilizando una condición False. Así que vamos a hacer eso y vamos a añadir las etiquetas del conjunto test. Así que vamos a crear una columna en nuestra `test_df` llamado *'Tóxico'*, y lo que vamos a hacer es mirar en cada valor en nuestras predicciones. Así que, como este. Así que vamos a escribir que para x en y_testing, vamos a ver si el valor de x es menor que 0,5. Y si lo es, diremos que no es tóxico, de lo contrario, nuestra etiqueta va a ser tóxico. 

Y en la siguiente línea, vamos a echar un vistazo a las primeras 10 o 20 entradas de nuestra prueba. Si ahora recordamos que nuestro marco de datos de prueba vino con un Id, así que sólo queremos mirar el texto del comentario en sí y la etiqueta tóxica, y así vamos a filtrar para esas columnas específicas. Así que el comentario, el texto y las etiquetas las etiquetas previstas en este caso, ya sea tóxico o no tóxico. Y vamos a ver la cabeza y los primeros 20 valores en este y nuestro modelo. 

In [37]:
test_df["Toxic"] = ["No toxico" if x < 0.5 else "Toxico" for x in y_testing]
test_df[['comment_text', 'Toxic']].head(20)
#Para ver 20 comentario aleatorios agregar
#.sample(20, random_state=1)

Unnamed: 0,comment_text,Toxic
0,Yo bitch Ja Rule is more succesful then you'll...,No toxico
1,== From RfC == \n\n The title is fine as it is...,No toxico
2,""" \n\n == Sources == \n\n * Zawe Ashton on Lap...",No toxico
3,":If you have a look back at the source, the in...",No toxico
4,I don't anonymously edit articles at all.,No toxico
5,Thank you for understanding. I think very high...,No toxico
6,Please do not add nonsense to Wikipedia. Such ...,No toxico
7,:Dear god this site is horrible.,No toxico
8,""" \n Only a fool can believe in such numbers. ...",No toxico
9,== Double Redirects == \n\n When fixing double...,No toxico


In [None]:
#test_df["Toxico"] = ["toxico" if y > 0.2 else "No Toxico" for y in y_testing]
#test_df[['comment_text', 'Toxic']].head(20)

Así que tenemos tres comentarios tóxicos hasta ahora en las primeras 20 entradas, por lo que puede ver claramente que la regla de trabajo yo bleep es más exitosa de lo que tú nunca serás. 

Y con eso, llegamos al final de este proyecto. Hemos aprendido un par de cosas realmente importantes. En primer lugar, aprendimos cómo podemos preprocesar datos de texto, específicamente para la clasificación de texto de aprendizaje profundo. Y también aprendimos cómo se puede utilizar word embeddings que es realmente práctico en todo el mundo, no sólo en esta aplicación. Y acabamos de aprender sobre un ejemplo de cómo emplear word embeddings para clasificaciones de texto. Y por último, aprendimos cómo tomar convoluciones y pooling y todas estas otras operaciones y conceptos que aplicamos y operamos en imágenes y los aplicamos al texto de una manera realmentepráctica para obtener una alta precisión en la clasificación de los comentarios en línea como tóxicos o no tóxicos. Y espero que hayan aprendido a ver las convoluciones bajo una nueva luz hoy, no sólo con una aplicación en imágenes, donde son sino también en aplicaciones de procesamiento de lenguaje natural.

In [None]:
# Plot frequency of toxic comments


### Task 3: Data Prep — Tokenize and Pad Text Data

In [None]:
x = train_df.comment_text.values
print(type(x))

In [None]:
# descaga de embedings



In [None]:
embeding_matrix

In [None]:
test_df = pd.read_csv("test.csv") 
test_df

In [None]:
test_df.Toxico.value_counts()

In [None]:
test_df