<img src='./images/SpaCy_logo.svg.png'>
<h1><center>Spacy</center><h1>
    
# 1. <a id='Introduction'>Introduccion 🃏 </a>
    
###  1.1 <a id='What_is_it'>Spacy</a> 
spaCy es una biblioteca de software de código abierto para procesamiento avanzado de lenguaje natural, escrita en los lenguajes de programación Python y Cython.
    
> *  Para saber mas ver: [Spacy](https://spacy.io/)
### 1.2 <a id='typical_case'>Caso de uso típico para la clasificación de texto.</a> 
Estoy seguro de que cada uno de nosotros habría enviado un comentario después de comprar un libro en Amazon o pedir comida a rappi. Estas revisiones les ayudan a analizar los problemas y mejorar el servicio. Pero echemos un vistazo a este proceso. Hay millones de reseñas completadas por los clientes, ¿es posible revisar manualmente cada una de ellas y ver si es una apreciación o una reseña negativa?

¡Claro que no! El primer paso sería clasificar todas las reseñas en categorías positivas y negativas. Luego, puede analizar fácilmente cuántas personas no quedaron satisfechas y por qué. Este proceso de categorizar textos en diferentes grupos / etiquetas se denomina Clasificación de texto.

La clasificación de texto se puede realizar de diferentes formas. Aquí, usaremos el paquete spaCy para clasificar textos. spaCy se ha convertido en una biblioteca muy popular para NLP y proporciona componentes de última generación. Para casos prácticos, se prefiere principalmente utilizar un modelo personalizado entrenado para la clasificación. Primero, permítanme presentarles qué es un modelo personalizado y por qué lo necesitamos en la siguiente sección.

## <font size='5' color='blue'>Contenidos</font> 
1. [Introduccion](#Introduction)  
    1.1  [Spacy](#What_is_it)  
    1.2  [Caso de uso típico para la clasificación de texto](#typical_case)  
2. [¿Qué es el modelo de clasificador de texto personalizado?](#What_is_model)  

3. [Introducción a la clasificación de texto personalizada en spaC](#Introduction_classification)
4. [Cómo preparar datos de entrenamiento en el formato deseado](#How_repare) 
  
5. [¿Cómo escribir la función de evaluación?](#how_write)    

6. [Entrenamiento del modelo e impresión de puntajes de evaluación](#training)     
  
7. [Pruebe el modelo con nuevos ejemplos](#test)     


# 2. <a id='What_is_model'>¿Qué es un modelo de clasificador de texto personalizado? 🤔  </a>


Digamos que tiene un montón de reseñas de películas / reseñas de clientes. Desea clasificar cada reseña como positiva o negativa. Si usa el categorizador predeterminado de spaCy, es probable que el resultado no sea excelente. En cambio, ¿qué pasa si recopila un conjunto de datos etiquetados de reseñas de clientes / películas y entrena a su modelo en eso?

¡Los resultados serán mucho mejores y precisos! Puede hacer esto entrenando un clasificador de texto personalizado. Primero lo entrena en conjuntos de datos etiquetados relevantes y lo prepara para nuestro uso en un contexto similar. Es muy útil, especialmente en casos donde la cantidad de datos es enorme.

En las siguientes secciones, lo guiaré paso a paso sobre cómo entrenar su modelo de clasificación de texto en spaCy.

# 3. <a id='Introduction_classification'>Introducción a la clasificación de texto personalizada en spaCy 🤓  </a>

**Instalación**

> ``conda install -c conda-forge spacy``

**Descripción**

spaCy es una biblioteca avanzada para realizar tareas de PNL como clasificación. Una razón importante por la que se prefiere mucho spaCy es que permite construir o ampliar fácilmente un modelo de clasificación de texto. Usaremos esta función.

Ahora, demostraré cómo entrenar el clasificador de texto usando un ejemplo real. Considere que tiene datos de texto que contienen reseñas personalizadas de telas de una empresa. La tarea es utilizar estos datos y entrenar nuestro modelo en ellos. Por último, el modelo debería poder clasificar una nueva revisión invisible como positiva / negativa.

Puede descargar el conjunto de datos que contiene reseñas sobre ropa [aquí](https://raw.githubusercontent.com/hanzhang0420/Women-Clothing-E-commerce/master/Womens%20Clothing%20E-Commerce%20Reviews.csv) . Lea el conjunto de datos en un CSV y vea el contenido. Para nuestra tarea, solo necesitamos 2 columnas. **" Review Text "** columna que contiene reseñas de productos y **" Recommended IND "** columna que almacena etiquetas. Extraigamos estas columnas con pandas-dataframe.

In [7]:
# Import pandas & read csv file
import pandas as pd
reviews=pd.read_csv("https://raw.githubusercontent.com/hanzhang0420/Women-Clothing-E-commerce/master/Womens%20Clothing%20E-Commerce%20Reviews.csv")

# Extract desired columns and view the dataframe 
reviews = reviews[['Review Text','Recommended IND']].dropna()
reviews.head(10)

Unnamed: 0,Review Text,Recommended IND
0,Absolutely wonderful - silky and sexy and comf...,1
1,Love this dress! it's sooo pretty. i happene...,1
2,I had such high hopes for this dress and reall...,0
3,"I love, love, love this jumpsuit. it's fun, fl...",1
4,This shirt is very flattering to all due to th...,1
5,"I love tracy reese dresses, but this one is no...",0
6,I aded this in my basket at hte last mintue to...,1
7,"I ordered this in carbon for store pick up, an...",1
8,I love this dress. i usually get an xs but it ...,1
9,"I'm 5""5' and 125 lbs. i ordered the s petite t...",1


Puede observar que para las revisiones positivas la etiqueta es 1 y para las críticas negativas es 0. Necesitamos entrenar al modelo para que pueda categorizar las nuevas revisiones no vistas.

Estos son los datos sin procesar que tenemos. Como estamos usando **spacy**, para entrenar nuestro modelo, importemos el paquete. Después de importar, puede cargar un modelo previamente entrenado como `"en_core_web_sm"`. Agregaremos / modificaremos el clasificador de texto de este modelo más adelante. Para cualquier modelo **spacy**, puede ver los componentes presentes con el metodo `pipe_names`.

In [10]:
# Import spaCy ,load model
import spacy

nlp=spacy.load("en_core_web_sm")
nlp.pipe_names

['tagger', 'parser', 'ner']

Puede ver que tiene 'tagger', 'parser' y 'ner'. No tiene clasificador de texto. Entonces, agreguemos el componente de canalización **`textcat`** incorporado de spaCy para la clasificación de texto a nuestro modelo. El método **`add_pipe()`** se puede utilizar para esto.

In [12]:
# Adding the built-in textcat component to the pipeline.

textcat=nlp.create_pipe( "textcat", config={"exclusive_classes": True, "architecture": "simple_cnn"})
nlp.add_pipe(textcat, last=True)
nlp.pipe_names

['tagger', 'parser', 'ner', 'textcat']

Ahora, vamos a entrenar al **textcat** con nuestro conjunto de datos de revisiones usando la arquitectura **simple_cnn**.

Primero, debe agregar las etiquetas deseadas al componente de canalización. En este caso, es **POSITIVO** y **NEGATIVO** según las revisiones. Agregue estas etiquetas a **textcat** usando la función **`add_label`**.

In [13]:
# Adding the labels to textcat
textcat.add_label("POSITIVE")
textcat.add_label("NEGATIVE")

1

# 4. <a id='How_repare'>Cómo preparar los datos de entrenamiento en el formato deseado? 🛫 </a>

Su modelo predeterminado con **textcat** está listo, solo necesita preparar los datos en el formato requerido.

Puede escribir una función **`load_data()`** que toma una lista de tuplas como entrada. Cada tupla contiene el texto y el valor de la etiqueta (0 o 1). El siguiente código demuestra cómo convertir nuestro conjunto de datos de revisiones en este formato deseado

In [14]:
# Converting the dataframe into a list of tuples
reviews['tuples'] = reviews.apply(lambda row: (row['Review Text'],row['Recommended IND']), axis=1)
train =reviews['tuples'].tolist()
train[:10]

[('Absolutely wonderful - silky and sexy and comfortable', 1),
 ('Love this dress!  it\'s sooo pretty.  i happened to find it in a store, and i\'m glad i did bc i never would have ordered it online bc it\'s petite.  i bought a petite and am 5\'8".  i love the length on me- hits just a little below the knee.  would definitely be a true midi on someone who is truly petite.',
  1),
 ('I had such high hopes for this dress and really wanted it to work for me. i initially ordered the petite small (my usual size) but i found this to be outrageously small. so small in fact that i could not zip it up! i reordered it in petite medium, which was just ok. overall, the top half was comfortable and fit nicely, but the bottom half had a very tight under layer and several somewhat cheap (net) over layers. imo, a major design flaw was the net over layer sewn directly into the zipper - it c',
  0),
 ("I love, love, love this jumpsuit. it's fun, flirty, and fabulous! every time i wear it, i get nothing b

A continuación, puede pasar los datos del `train` como entrada a la función  **`load_data()`**.

La función **`load_data()`** realiza las siguientes funciones:
- Mezclar los datos usando la función **`random.shuffle()`** Esto evita cualquier entrenamiento basado en el orden de los ejemplos.
- Para cada tupla en los datos de entrada, la categoría se asigna como "POSITIVA" o "NEGATIVA" según el valor de la etiqueta y se almacena en **`cats`** 
- El 80% de los datos de entrada se utilizará para formación, mientras que el 20% para evaluación. Puede cambiar esta proporción utilizando el parámetro **`split`**.

Después de definir la función, pase la lista de tuplas a la función anterior. La función te devolverá los textos y los - Para cada tupla en los datos de entrada, la categoría se asigna como "POSITIVA" o "NEGATIVA" según el valor de la etiqueta y se almacena en **`cats`** tanto para entrenamiento como para evaluación. Puede usarlos para obtener los datos de entrenamiento finales como se muestra en el código a continuación.

In [15]:
import random

def load_data(limit=0, split=0.8):
    train_data=train
    # Shuffle the data
    random.shuffle(train_data)
    texts, labels = zip(*train_data)
    # get the categories for each review
    cats = [{"POSITIVE": bool(y), "NEGATIVE": not bool(y)} for y in labels]

    # Splitting the training and evaluation data
    split = int(len(train_data) * split)
    return (texts[:split], cats[:split]), (texts[split:], cats[split:])

n_texts=23486

# Calling the load_data() function 
(train_texts, train_cats), (dev_texts, dev_cats) = load_data(limit=n_texts)

# Processing the final format of training data
train_data = list(zip(train_texts,[{'cats': cats} for cats in train_cats]))
train_data[:10]

[("This is a super cute, adorable and flattering maxi. it's very comfortable and soft. i stayed tts in this dress... the length hit just right .. ...perfect for summer",
  {'cats': {'POSITIVE': True, 'NEGATIVE': False}}),
 ("What?! i can't believe this got so many mixed reviews! i wasn't sure what to expect and now that i've received it, i think it's absolutely perfect. it's flattering, the length is great, it's tts, and the color is beautiful. i have no issues with the skirt whatsoever either.  i'm really pleased with this purchase and i can't wait to wear it.",
  {'cats': {'POSITIVE': True, 'NEGATIVE': False}}),
 ("I wanted to like this top, especially because of its comfortable material and color, but the asymmetrical shape didn't hang well on me. it also runs big - i got a small, and although the bodice fit okay, the sleeves were long, and the bottom of the top looked mishaped and dumpy. this top will be going back.",
  {'cats': {'POSITIVE': False, 'NEGATIVE': True}}),
 ('I am a sm

La salida anterior le muestra el formato de los datos finales de entrenamiento deseados.

# 5. <a id='how_write'>¿Cómo escribir la función de evaluación? 🤯 </a>

Hasta ahora, hemos preparado los datos de entrenamiento en el formato deseado y los hemos almacenado en la variable **`train_data`**. Además, tenemos el componente clasificador de texto del modelo en **`textcat`**. Entonces, podemos proceder a entrenar el textcat en nuestro train_data. Pero, ¿no hay algo que nos falta?

Para cualquier modelo que vayamos a entrenar, es importante verificar si cumple con nuestras expectativas. A esto se le llama evaluar el modelo. Este es un paso opcional pero muy recomendable para obtener mejores resultados. Si recuerda, la función **`load_data()`** dividió alrededor del 20% de los datos originales para su evaluación. Usaremos esto para probar qué tan bueno fue el entrenamiento.

Entonces, permítame guiarlo sobre cómo escribir una función **`evaluate()`** que pueda realizar este proceso de evaluación. Llamaremos a esta función de **`evaluate()`** más adelante durante el entrenamiento para ver el rendimiento.

Esta función tomará el textcat y los datos de evaluación como entrada. Para cada uno de los textos de los datos de evaluación, lee la puntuación de las predicciones realizadas. Y en base a esto, calcula los valores de Verdadero positivo, Verdadero negativo, Falso positivo y falso negativo.

¿Qué significan los términos anteriores?

   * Verdadero positivo (tp): si la etiqueta real es 1 y la predicción también es 1
   * Verdadero negativo (tn): si la etiqueta real es un 0 y la predicción también es 0
   * Falso positivo (fp): si la etiqueta real es un 0, pero la predicción es 1
   * Falso negativo (fn): si la etiqueta real es 1, pero la predicción es 0

<img src="./images/confusion-matrix-300x213.jpg" />


¿Cómo asignar una puntuación basada en estos términos?

Una vez que obtenga los valores anteriores basados en las predicciones realizadas por el modelo, puede encontrar los puntajes de las métricas de evaluación. Estas puntuaciones métricas son para indicarle qué tan bueno es el modelo.

La precisión consiste en encontrar qué porcentaje de las predicciones positivas (1) del modelo son precisas. Supongamos que tiene un modelo con alta precisión, también quiero saber qué porcentaje de TODOS los 1 se cubrió. Esto se denomina Recall

Un buen modelo debe tener una buena precisión y una alto Recall. Entonces, idealmente, quiero tener una medida que combine ambos aspectos en una sola métrica: la F1 Score.


$F1 Score = (2 * Precision * Recall) / (Precision + Recall)$

Si desea obtener más claridad sobre la métrica de evaluación, consulte [varias métricas de evaluación para la clasificación.](https://www.machinelearningplus.com/machine-learning/evaluation-metrics-classification-models-r/)  


El siguiente código escribe una función **`evaluate()`**  que puede realizar la evaluación discutida anteriormente cuando se llama.

In [17]:
def evaluate(tokenizer, textcat, texts, cats):
    docs = (tokenizer(text) for text in texts)
    tp = 0.0  # True positives
    fp = 1e-8  # False positives
    fn = 1e-8  # False negatives
    tn = 0.0  # True negatives
    for i, doc in enumerate(textcat.pipe(docs)):
        gold = cats[i]
        for label, score in doc.cats.items():
            if label not in gold:
                continue
            if label == "NEGATIVE":
                continue
            if score >= 0.5 and gold[label] >= 0.5:
                tp += 1.0
            elif score >= 0.5 and gold[label] < 0.5:
                fp += 1.0
            elif score < 0.5 and gold[label] < 0.5:
                tn += 1
            elif score < 0.5 and gold[label] >= 0.5:
                fn += 1
    precision = tp / (tp + fp)
    recall = tp / (tp + fn)
    if (precision + recall) == 0:
        f_score = 0.0
    else:
        f_score = 2 * (precision * recall) / (precision + recall)
    return {"textcat_p": precision, "textcat_r": recall, "textcat_f": f_score}

In [18]:
#("Number of training iterations", "n", int))
n_iter=10

¡La función de evaluación también está lista! Es hora de llegar al entrenamiento final.

# 6. <a id='training'>Entrenamiento del modelo e impresión de puntajes de evaluación ⚙️ </a>

Los datos se almacenan en la variable **`train_data()`**  y el componente en **`texcat`** .

Antes de entrenar, debe deshabilitar los otros componentes de la canalización, excepto textcat. Esto es para evitar que los otros componentes se vean afectados durante el entrenamiento. Se puede lograr mediante el método **`disable_pipes()`** . A continuación, use la función **`begin_training()`** que le devolverá un optimizador.

También puede fijar el número de veces que desea iterar el modelo sobre los ejemplos usando el parámetro **`n_iter`**. Debería ser óptimo. En cada iteración, recorremos los ejemplos de entrenamiento y los dividimos en lotes usando el minibatch de spaCy y los asistentes de composición.

La función **`minibatch()`** de spaCy le devolverá los datos de entrenamiento en lotes. Toma el parámetro de tamaño para indicar el tamaño del lote. Puede hacer uso de la función de utilidad **`compounding()`** para generar una serie infinita de valores compuestos.

1. La función de **`compounding()`** toma tres entradas que son start  (el primer valor entero), stop  (el valor máximo que se puede generar) yfinally compound. Este valor almacenado en compuesto es el factor de capitalización de la serie. Si no lo tiene claro, consulte este [enlace](https://spacy.io/api/top-level#util) para comprenderlo.

Para cada iteración, el modelo se actualiza mediante el comando **`nlp.update()`**. Los parámetros de **`nlp.update()`** son:

1. **`docs`**: esto espera un lote de textos como entrada. Puede pasar cada lote al método zip, que le devolverá lotes de texto y anotaciones.

2. **`golds`**: puede pasar las anotaciones que obtuvimos a través del método zip aquí

3. **`drop`**: Esto representa la tasa de abandono.

4. **`losses`**: un diccionario para mantener las pérdidas de cada componente de la tubería. Crea un diccionario vacío y pásalo aquí.

El entrenamiento está completo ahora. Puede evaluar las predicciones hechas por el modelo llamando a la función  **`evaluate()`**  que definimos en la sección anterior.

In [19]:
from spacy.util import minibatch, compounding

# Disabling other components
other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'textcat']
with nlp.disable_pipes(*other_pipes):  # only train textcat
    optimizer = nlp.begin_training()

    print("Training the model...")
    print('{:^5}\t{:^5}\t{:^5}\t{:^5}'.format('LOSS', 'P', 'R', 'F'))

    # Performing training
    for i in range(n_iter):
        losses = {}
        batches = minibatch(train_data, size=compounding(4., 32., 1.001))
        for batch in batches:
            texts, annotations = zip(*batch)
            nlp.update(texts, annotations, sgd=optimizer, drop=0.2,
                       losses=losses)

      # Calling the evaluate() function and printing the scores
        with textcat.model.use_params(optimizer.averages):
            scores = evaluate(nlp.tokenizer, textcat, dev_texts, dev_cats)
        print('{0:.3f}\t{1:.3f}\t{2:.3f}\t{3:.3f}'  
              .format(losses['textcat'], scores['textcat_p'],
                      scores['textcat_r'], scores['textcat_f']))

Training the model...
LOSS 	  P  	  R  	  F  
8.697	0.904	0.962	0.932
5.903	0.910	0.962	0.935
4.255	0.916	0.960	0.938
3.289	0.921	0.955	0.938
2.694	0.923	0.955	0.939
2.266	0.922	0.953	0.937
1.892	0.922	0.951	0.936
1.476	0.924	0.950	0.937
1.343	0.923	0.948	0.935
1.134	0.924	0.947	0.935


Puede observar las puntuaciones de la evaluación. ¡Tanto la formación como la evaluación están completas!

# 7. <a id='test'>Pruebe el modelo con nuevos ejemplos 🧪</a>

¡Finalmente, aquí estamos! El modelo está listo para usar ahora.

Puede crear un documento espacial de cualquier revisión de ropa nueva que no se haya visto. La clasificación o predicción del mismo se almacenará en el atributo doc.cats. El atributo Docs.cats almacena un diccionario que asigna una etiqueta a una puntuación para las categorías aplicadas al documento.

In [21]:
# Testing the model
test_text="I hate this dress"
doc=nlp(test_text)
doc.cats 

{'POSITIVE': 2.7312538009027776e-07, 'NEGATIVE': 0.9999997615814209}

Puede ver que la puntuación 'NEGATIVA' es alta, lo que lo clasifica como una revisión negativa. Esta salida está de acuerdo con nuestras expectativas. ¡Hurra!

#  <a>Conclusión</a>

Espero que haya entendido cómo entrenar un modelo de clasificación de texto personalizado con spaCy. Esto tiene amplias aplicaciones en todos los campos.