# Sprint 16 - Procesamiento de Lenguaje Natural (Sesiones)
**Versión para estudiantes**

Si bien la comunicación en los ámbitos del análisis y ciencia de datos se fundamenta generalmente en datos numéricos tabulares, la humanidad lo hace en base al lenguaje escrito, hablado o señalado. Esto genera una problemática en diversas circunstancias puesto que información relevante se transmite de forma poco estructurada y, en principio, incomprensible para nuestros propósitos analíticos. Lo anterior se dificulta aún más si se toma en cuenta que la debida comprensión de la comunicación humana requiere de una capacidad mental única en la naturaleza conocida, y que corresponde a la capacidad de conceptualizar y generar ideas para transmitirlas por medio del lenguaje.

Para intentar solucionar en cierta medida esta problemática se ha desarrollado el campo de estudio del **procesamiento de lenguaje natural**, y en este caso vamos a aprender algunos aspectos relevantes sobre el mismo y cómo utilizarlo en nuestra etapa de ingeniería de atributos para incorporar variables extraídas de la comunicación humana en modelos predictivos. En concreto vamos a enfocarnos en tres métodos de procesamiento que se aplican actualmente:

* Codificación por frecuencia.
* Codificación por relevancia implícita.
* Codificación por interpretación semántica.

Complementario a lo anterior, en este caso buscamos aprender también técnicas que ayuden a procesar textos de forma efectiva, permitiéndonos simplificar su complejidad sin pérdida relevante de información.

Finalmente, presentaremos un nuevo algoritmo a implementar en nuestro modelo predictivo, llamado **máquinas de vectores de soporte** o **SVM** por sus siglas en inglés.

## Entendimiento del contexto

Google ha percibido tus habilidades y potencial como científico de datos y te ha contratado para que trabajes en la unidad de negocio de Youtube. El primer proyecto que se te encarga consiste en crear un modelo capaz de identificar satisfactoriamente cuándo un comentario en videos virales es o no SPAM.

Debes saber que la detección de SPAM es de suma importancia puesto que por un lado permite detectar cuentas maliciosas, fraudulentas o "no-humanas", lo cual mejora la experiencia de usuarios reales con la plataforma de videos más grande del mundo. Por otro, mejorar el posicionamiento de contenido popular en motores de búsqueda, permitiendo así una mejor interacción y una recomendación más asertiva.

## Entendimiento de los datos

Para iniciar con tu proyecto, carga las librerías que vas a utilizar. Empieza por las librerías básicas con las que siempre trabajas para manipular y visualizar información.

Carga además de **Scikit_Learn** lo siguiente:

* Las funciones `train_test_split` y `clasiffication_report`.
* La función `SVC` (Support Vector Classifier) del módulo `svm`.
* Las funciones `CountVectorizer` y `TfidfVectorizer` del módulo `feature_extraction.text`, y que usaremos para codificar textos.  

Carga finalmente las siguientes librerías, funciones y módulos que nos ayudarán a trabajar con textos:

* `spacy` que nos permite cargar diccionarios de términos estandarizados (lemas) en distintos idiomas.
* `re` que nos permite utilizar expresiones regulares para gestionar más fácilmente textos.
* `torch` que nos permite trabajar con estructuras similares a matrices llamadas *tensores*.
* `transformers` que nos permite implementar algoritmos de codificación avanzados.
* `nltk` que permite identificar términos o palabras "poco relevantes".
* La función `get_english_words_set` de la librería `english_words` que contiene diccionarios de palabras comúnmente aceptadas del idioma inglés.  

Debido a las políticas de protección de datos personales que deben ser cumplidas cabalmente por empresas de este tipo, la variedad de información con la que puedes contar para cumplir con tu propósito está límitada solamente a todo aquello que sea por definición "público". Es decir, te será imposible emplear datos que permitan individualizar a los usuarios. Por esta razón, tienes a tu disposición el dataset **video_comments** que contiene la siguiente información de 1,711 comentarios realizados en cinco videos musicales que han sido virales en los últimos años:

* comment_id: Número identificador único de cada comentario.
* artist: Nombre del artista musical al que pertenece el video en el que se hizo el comentario.
* song: Nombre de la canción expuesta en el video en el que se hizo el comentario.
* date: Fecha en la que el comentario se publicó.
* author: Nombre público del usuario que escribió el comentario.
* content: Texto contenido en el comentario.
* class: Tipo de mensaje de acuerdo a la clasificación realizada por Youtube (0: Comentario normal, 1: Spam)

Explora el dataset a fin de establecer un objetivo técnico, el algoritmo y métricas a utilizar, y un plan de acción para preparación e ingeniería de datos.

**OBJETIVO TÉCNICO**

< Aquí tu respuesta >

**ALGORITMO Y MÉTRICAS DE RENDIMIENTO**

< Aquí tu respuesta >

**PLAN DE ACCIÓN PARA PREPARACIÓN E INGENIERÍA DE DATOS**

< Aquí tu respuesta >

## Preparación de datos

Lleva a cabo tu plan de acción para limpiar los textos de los comentarios. Al respecto, puntualicemos en algunas cosas evidentes que se observan en ellos y que deberían ser tratadas:
* Caracteres y letras en mayúsuclas y minúsculas.
* Códigos y entidades *html*.
* Símbolos que que no son letras o caracteres, y que por tanto no que forman términos o frases conceptualmente comprensibles (emojis, caracteres especiales, etc.)

Como punto de partida, extrae todos los textos y guárdalos en un nuevo dataset llamado `corpus`.

Crea una nueva columna llamada `content_clean` donde cambies todos los textos de la muestra para que estén en minúscula.

Sustituye en esta nueva columna los textos tipo código html de las formas `<\w*\s/>` y `<\w*>` por un espacio. Utiliza estas expresiones regulares dentro de la función `re.sub`.

Cambia la entidad html dada por `\&#39;` por la comilla simple '. Lo anterior debido a que en el idioma inglés esta comilla se utiliza como un método de abreviación propio del lenguaje.

Cambia las demás entidades html de la forma `\&#*\w*[0-9]*;*` por un espacio.

Sustituye ahora todos los caracteres que no sean de tipo letra, espacios o la comilla de abreviación por un espacio. Esto es, cambia aquellos caracteres que sean de la forma `[^\w\s\']`.

Dado que hemos quitado diversos caracteres a cambio de espacios, conviene además:

* Eliminar los espacios sobrantes al inicio y al final de texto.
* Eliminar los espacios entre palabras excesivos.

Has estos ajustes en el orden indicado.

En estos textos además existen palabras mal escritas, códigos extraños, jergas particulares o los muy conocidos "errores de tipeo". No nos interesan estos casos por lo que vamos a mantener solamente aquellos términos reconocidos usualmente en el idioma inglés. Utiliza el diccionario `web2` de la función **get_english_words_set** para limpiar los textos, y únelo con el diccionario `en_core_web_sm` que provee **spacy**. Este último debe instalarse previamente por la terminal con el comando siguiente:

```ps
python -m spacy download en_core_web_sm
```

En una nueva columna llamada `content_lemma` estandariza finalmente los textos a través de una lematización. Este proceso consiste en eliminar conjugaciones de verbos, y flexiones o declinamentos de sustantivos, a fin de facilitar su procesamiento posterior. Puedes ayudarte para esto nuevamente con el diccionario `en_core_web_sm` de la librería **spacy**.

## Ingeniería de datos

Ya tenemos nuestros textos suficientemente limpios como para proceder a codificarlos. Es importante recordar que más allá de la limpieza y lematización de un texto, se debe realizar un proceso de codificación sobre los mismos que permita a la computadora comprender lo que se encuentra allí escrito. Lo anterior ya que una máquina en principio no maneja conceptos de forma equivalente al cerebro humano, teniendo mayor facilidad para comprender y trabajar con números.

### Codificación por frecuencia

Esta codificación parte de una lógica simple (pero no por eso menos conveniente) tal que cada texto de un corpus se divide en n-gramas o frases de una o más palabras. A partir de allí se hace un simple conteo de veces en que dichos términos se presentan. Tómese por ejemplo la frase 

*"mi nombre es juan cual es tu nombre"*

La codificiación por frecuencia la transformaría en lo siguiente: 

```
"mi":       1
"nombre":   2
"es":       2
"juan":     1
"cual":     1
"tu":       1
```

De esta forma, se da una suerte de ponderación numérica a aquellos términos más comúnmente utilizados en el contexto; y este número puede servir como atributo para ser considerado por un algoritmo en un modelo predictivo.

Vale señalar que resulta conveniente excluir de esta codificación a las llamadas "palabras de para", puesto que las mismas no aportan ninguna información más allá de ser nexos o puentes entre ideas relevantes. Volviendo a nuestro ejemplo, si quitamos las "palabras de para", la transformación quedaría así:

```
"nombre":   2
"juan":     1
"cual":     1
```

Notemos cómo la exclusión de estas palabras da mayor enfoque al contenido relevante del texto. 

Ahora bien, dado que en nuestro caso estamos trabajando con textos en idioma inglés, conviene descargar un diccionario que nos asista para esto. Haslo ejecutando el siguiente código:

```py
nltk.download("stopwords")
stopwords_en = nltk.corpus.stopwords.words("english")
```

Aplica entonces esta codificación en los textos lematizados. Utiliza la función `CountVectorizer` e incluye el argumento `stop_words` con las "palabras de para" extraídas.

Visualiza los términos que presentan una mayor frecuencia en los textos estudiados.

### Codificación por relevancia implícita

También llamada codificación TF-IDF, este procedimiento va un paso más allá respecto al mostrado anteriormente, ya que adicional a calcular la frecuencia de un término específico (*TF: Text Frecuency*), se incorpora un factor adicional que "castiga" el continuo surgimiento de cada término en el conjunto de textos estudiados (*IDF: Inverse of Document Frecuency*). En este sentido, una palabra que aparece siempre en distintos textos tiene menor relevancia a nivel de cada caso específico, puesto que la información nueva que aporta es menor en el contexto de todo el documento.

La forma de calcular esta relevancia $R_{n,t}$ para un término $t$, que se repite $f_{t,d}$ veces dentro de un texto $d$ que a su vez es parte de un conjunto o corpus $D$, se define a partir de la siguiente fórmula:

$$ R_{t,d} = TF_{t,d} \times IDF_{t,d} = \frac{f_{t,d}}{\sum_{i\in d} f_{i,d}} \times \log \left( \frac{|D|}{|{d\in D: t\in d}|} \right) $$

Para entender mejor lo que aquí se busca, volvamos a nuestro ejemplo de la frase "mi nombre es juan cual es tu nombre", con su codificación por frecuencia dada por:

```
"nombre":   2   (0.50)
"juan":     1   (0.25)
"cual":     1   (0.25)
```

Entre paréntesis se ha incorporado frecuencia relativa (TF) de cada término. Consideremos ahora una respuesta dada por 

*"hola mi nombre es ana"* 

Esta frase tendría su propia codificación por frecuencia:

```
"hola":     1   (0.33)
"nombre":   1   (0.33)
"ana":      1   (0.33)
```

Es claro que ambos textos buscan comunicar los nombres de los emisores; pero además de esto, quisiéramos saber que características adicionales destacan en ambas frases. Calculemos por tanto el IDF de los términos del cada texto:

```
"nombre":   2   (0.50)  (0.00)
"juan":     1   (0.25)  (0.30)
"cual":     1   (0.25)  (0.30)
```

```
"hola":     1   (0.33)  (0.30)
"nombre":   1   (0.33)  (0.00)
"ana":      1   (0.33)  (0.30)
```

Entonces, se tiene que la relevancia implícita de términos sería:

```
"nombre":   2   (0.50)  (0.00)  = 0.00
"juan":     1   (0.25)  (0.30)  = 0.08
"cual":     1   (0.25)  (0.30)  = 0.08
```

```
"hola":     1   (0.33)  (0.30)  = 0.10
"nombre":   1   (0.33)  (0.00)  = 0.00
"ana":      1   (0.33)  (0.30)  = 0.10
```

Notemos que este indicador evidencia justamente estas características informativas adicionales que deseábamos conocer:

* Aparte de que "Juan" dé su nombre, está preguntando "cual" es el nombre de la otra persona.
* Aparte de responder con su nombre, "Ana" saluda a Juan con un "hola".

Entendida su utilidad, codifica los textos lematizados de comentarios con la función `TfidfVectorizer`. 

Visualiza los términos que presenten una mayor relevancia implícita en los textos estudiados.

### Codificación por interpretación semántica

El desarrollo tecnológico de los últimos años ha permitido contar con diversos modelos capaces de procesar grandes volúmenes de datos a fin de traducir textos con una suerte de comprensión semántica del contenido de información. Estos modelos LLM (*Large Language Models*) han dado cabida al surgimiento de herramientas muy conocidas actualmente como Gemini (Google), ChatGPT/Copilot (OpenAI - Microsoft), Perplexity, DeepSeek, entre muchas otras; las cuales son capaces de interpretar el sentido y contenido de palabras, frases o documentos, prediciendo respuestas coherentes al contexto de las mismas.   

De forma resumida, a continuación puedes visualizar el proceso que utilizan estos modelos:

1. Reciben como entrada una palabra, frase o documento.
2. Transforman esta entrada en términos conocidos como *tokens*. Para esto, el modelo cuenta con un diccionario propio predefinido que relaciona cada componente de la entrada con un identificador numérico único.
3. Utilizan estos tokens como atributos de un algoritmo pre-entrenado. Por lo general este algoritmo es una red neuronal compleja llamada *transformador* que es capaz de vincular a través de pesos numéricos cada uno de los tokens recibidos. 
4. Este algoritmo genera como predicción un vector que contiene *marcadores semánticos* o *incrustaciones*. Estos resultados **codificados** actúan como una suerte de representación interna del significado percibido por el modelo respecto a esos tokens y al contexto general de la entrada.
5. Las incrustaciones se utilizan como entradas para otro algoritmo pre-entrando que intenta decodificar estas señales en base a criterios probabilísticos que seleccionan nuevos tokens que mejor complementen la palabra, frase o documento recibido inicialmente.
6. Cuando ya se tienen estos tokens de salida, se los transforma en términos humanos utilizando nuevamente el diccionario predefinido.

Como puedes evidenciar, un modelo LLM cuenta básicamente con tres estructuras ya establecidas que se usan secuencialmente a lo largo del proceso:

* Diccionario de tokens
* Algoritmo codificador (transformador 1)
* Algoritmo decodificador (transformador 2)

Por lo que si te interesa adentrarte en el funcionamiento en detalle los transformadores, te recomiendo mirar el siguiente grupo de videos de Youtube: 

https://www.youtube.com/playlist?list=PLcCe-ymWq77ow42k4-ZrLzlM3F7Ha7smT

Volviendo a nuestro caso en el que únicamente debemos llegar al punto 4 del proceso antes mencionado, el modelo que vamos a utilizar es el desarrollado por Google y que lleva el nombre de **BERT** (*Bidirectional Encoder Representations from Tranformers*). El transformador asociado a este modelo fue puesto en marcha en su primera versión el año 2018 y consiste en una red neuronal de 12 capas y más de 100 millones de hiperparámetros, que devuelven 768 marcadores semánticos para cualquier entrada que reciban.

Para conocer su funcionamiento de mejor manera, empieza cargando el diccionario de tokens con el siguiente código:

```py
tokenizer = transformers.BertTokenizer.from_pretrained('bert-base-uncased')

df_diccbert = pd.DataFrame(dict(
    termino = list(tokenizer.vocab.keys()),
    token = list(tokenizer.vocab.values())
))

df_diccbert.sample(15)
```


Crea una nueva columna en el corpus llamada `content_tokens`, en la cual se guarden a modo de vectores los tokens de cada uno de los textos limpios. Utiliza con este propósito el siguente código:

```py
def fun_bert(x):
    n = 512
    tokens = tokenizer.encode(x, add_special_tokens = True, max_length = n, truncation = True)
    tokens = np.array(tokens[:n] + [0]*(n - len(tokens)))
    return tokens

corpus["content_tokens"] = corpus["content_clean"].apply(fun_bert)
corpus.sample(15, random_state = 123)
```

Algunas puntualizaciones relevantes asociadas a los resultados obtenidos:

* El modelo BERT tradicional que utilizamos solamente es capaz de evaluar 512 tokens en cada texto y he allí la rezón detrás del valor impuesto en el argumento `max_length` dentro del código.
* Como puedes evidenciar, todos los vectores de tokens comienzan con el identificador 101 (tambien llamado "CLS - Classification"). Este token es sin duda el más relevante pues es aquel que utilizará el transformador como agregador de la información contenida en cada uno de los textos.
* Todos los vectores de tokens finalizan con 102 (tambien llamado "SEP - Separator"). Este token le especifica al trasformador donde concluye la información de cada texto. En efecto, luego de este identificador se colocan 0, los cuales representan que no existen datos adicionales a tener en cuenta.

Respecto a este último punto, en este tipo de modelos conviene además crear una matriz buleana que le especifique al transformador qué parte de los textos son relevantes. Crea entonces lo que se conoce como **matriz de atención** aplicando el siguiente código:

```py
attn_mat = []
for tokens in corpus["content_tokens"]:
    attn_mat.append(np.where(tokens != 0,1,0))

attn_mat = np.array(attn_mat)
print(attn_mat[:20,:15])
```

Carga el modelo BERT pre-entrenado de la librería **transformers** con el siguiente código:

```py
config = transformers.BertConfig.from_pretrained("bert-base-uncased")
mod_bert = transformers.BertModel.from_pretrained("bert-base-uncased", config = config)
```

Generemos ahora la codificación semántica deseada, aunque vamos con algo sencillo para empezar y comprender mejor los resultados. Extrae dos textos cualquiera entre todos los que tienes disponible, junto con las filas correspondientes de la matriz de atención.

Los transformadores requieren que los atributos a recibir sean de tipo **tensores**. Un tensor se puede entender como una generalización de las matrices que ya conoces, solamente ten en cuenta que mientras en una matriz no pueden darse más de dos dimensiones (filas y columnas), en un tensor pueden haber infinitas.

![](mat_ten.png)

Convierte los vectores de tokens de los dos textos seleccionados en **tensores** con la función `torch.tensor`. Has lo mismo con las atenciones extraídas. 

Codifica los vectores de tokens con el modelo BERT aplicando el siguiente código:

```py
with torch.no_grad():
    pred_bert_nn = mod_bert(
        toks_tensor, 
        attention_mask = attn_tensor
    )

pred_bert = pred_bert_nn["pooler_output"]
pred_bert.shape
```

Vale aclarar qué representan estas dos dimensiones obtenidas:

* El valor de 2 representa el total de textos codificados.
* El valor 768 corresponde a todas las incrustaciones o marcadores semánticos generados por este modelo.

Visualiza estos resultados alcanzados a fin de que percibas la complejidad asociada a esta codificación.

Resulta complejo interpretar estos valores. Pero para simplificar en cierta medida, podemos afirmar que si existen diferencias más marcadas entre las codificaciones de los textos, entonces su intepretación por parte del modelo será disinta a la hora de decodificar. En concreto, textos de comentarios que representan ideas similares tendrán codificaciones más parecidas frente a aquellas vistas entre textos conceptualmente distintos.

Ahora bien, dado que ya sabemos cómo opera este codificador, aplícalo a todos los textos mediante el siguiente código que utiliza la librería **tqdm** para optimizar la velocidad de procesamiento (sí, los modelos LLM consumen muchos recursos computacionales por lo que la codificación podría tardar algunos minutos):

```py
# Cargar libreria tqdm para optimización de tiempo de codificación 
from tqdm.auto import tqdm

tam_batch = 100
incrustaciones = []

for i in tqdm(range(len(corpus["content_tokens"]) // tam_batch + 1)):

    # Generar tensores de entrada
    toks_tensor = torch.LongTensor(
        corpus["content_tokens"].iloc[tam_batch * i : tam_batch * (i + 1)].reset_index(drop = True)
    )
    attn_tensor = torch.LongTensor(
        attn_mat[tam_batch * i : tam_batch * (i + 1)]
    )

    # Codificar textos
    with torch.no_grad():
        batch_inc_nn = mod_bert(
            toks_tensor, 
            attention_mask = attn_tensor
        )
    
    # Guardar resultados
    incrustaciones.append(batch_inc_nn["pooler_output"].numpy())

# Consolidar resultados en dataframe
X_codbert = pd.DataFrame(
    np.concatenate(incrustaciones)
)

X_codbert.columns = ["Inc_" + str(x + 1) for x in range(X_codbert.shape[1])]
X_codbert.sample(15, random_state = 123)
```

### Particionamiento de datos

Solamente faltan los últimos procesos de ingeniería. Define tu variable objetivo.

Separa tus datos en conjuntos de entrenamiento y prueba. Recuarda que cuentas con 3 grupos de atributos a partir de las codificaciones realizadas.

## Creación de modelo base

El algoritmo **SVM** es un método de clasificación bastante popular debido principalmente a su eficiencia computacional y a su lógica consistente y robusta. La idea detrás de los mismos es que si un conjunto de datos es en principio "separable" en grupos o categorías, entonces es posible construir un hiperplano que los distinga, tal que la distancia de este con la observación más cercana de cada grupo (conocida como margen) se maximice. En las siguiente visualización se aclara de mejor manera este criterio para el caso de dos atributos.

![](svm.png)

Para efectos de su aplicación, el mencionado algoritmo tiene los siguienes hiperparámetros relevantes:

* Gamma ($\gamma$): nivel de sensibilidad del modelo. En otras palabras, que tan granular se desea que el hiperplano sea con los datos existentes. Se suele emplear de base $\gamma = 1/k$, donde $k$ corresponde a la cantidad de atributos existentes.
* C: factor de regularización. Es decir, grado de ajuste deseado en el proceso de maximización del margen al aplicar métodos de gradiente. Se suele emplear de base $C = 1$.

Visto lo anterior, vale ejecutar el modelo con los distintos conjuntos creados y evaluar su rendimiento.

### Modelo SVM con codificación por frecuencia

Crea, entrena y evalúa un modelo SVM usando como atributos los conteos obtenidos de la codificación por frecuencia. Utiliza la función `SVC` con los argumentos base para `gamma` y `C`.

### Modelo SVM con codificación por relevancia

Crea, entrena y evalúa un modelo SVM usando como atributos las relevancias obtenidas de la codificación TF-IDF.

### Modelo SVM con codificación BERT

Crea, entrena y evalúa un modelo SVM usando como atributos las relevancias obtenidas de la codificación semántica (BERT).

El modelo con atributos codificados con BERT se muestra significativamente mejor. Visualiza su asertividad con la matriz de confusión correspondiente.

Has concluído satifactoriamente con tu primer proyecto en Youtube. Gracias a tu trabajo, la empresa cuenta con un modelo bastante asertivo para detectar si un comentario en videos es o no SPAM. Como parte del mejoramiento continuo de este modelo, podrías optimizar los hiperparámetros.