# Aspectos generales del PLN (Unidad 1)

___

**1. Aspectos generales del PLN:** durante el desarrollo del curso
 iremos trabajando con modelos y herramientas que no se enfocan
 en el lenguaje completo sino en sus distintos niveles. **Mencione los
 6 niveles del lenguaje que introdujimos en la teoría y describa
 brevemente el nivel morfológico.**

Los 6 niveles del lenguaje que se introducen en la teoría son:

**1. Fonética/Fonología:** Es el conocimiento sobre los sonidos lingüísticos y se dedica a la exploración de las características del sonido, empleando métodos principalmente físicos.

**2. Morfología:** Es el conocimiento de los componentes significativos de las palabras.

**3. Sintaxis** Es el conocimiento de las relaciones estructurales entre palabras.

**4. Semántica:** Es el conocimiento del significado.

**5. Pragmática:** Es el conocimiento de la relación entre el significado y los objetivos e intenciones del hablante.

**6. Discurso:** Es el conocimiento sobre las unidades lingüísticas más largas que una oración simple.

La morfología se dedica al estudio de la estructura interna de las palabras, incluyendo elementos como sufijos, prefijos, raíces y flexiones. También abarca el sistema de categorías gramaticales de los idiomas, como el género y el número. Este nivel se relaciona con funciones fundamentales del pre-procesamiento de textos, tales como la lematización y el etiquetado POS (Part of Speech). La salida típica de un módulo morfológico suele ser una tabla que contiene los lemas y las propiedades de cada palabra del texto; por ejemplo, para la palabra "fuera" podría indicar que proviene del verbo "SER", en modo subjuntivo, tercera persona, singular

___

**2. El proceso de KDD con textos:** el desarrollo del curso involucrará varias etapas del análisis de los textos que son coincidentes
 con las etapas del proceso de KDD a partir de textos. **Mencione
 las 4 actividades que usualmente se realizan en la Fase de prepa
ración de los textos y explique, muy brevemente (no más de dos
 párrafos), cual es el rol de la limpieza y preprocesamiento de los
 textos. Tome de referencia el material provisto en la teoría.**

Las 4 actividades que usualmente se realizan en la Fase de preparación de los textos son:

**1- Recopilación de los textos**

**2- Limpieza y pre-procesamiento de los textos**

**3- Representación de los textos**

**4- Reducción de dimensionalidad**

El rol de la limpieza y pre-procesamiento de los textos es fundamental porque el texto "crudo" recopilado de fuentes como sitios web o medios sociales rara vez está en un estado óptimo para el análisis.

La limpieza de textos implica la aplicación de una serie de tareas de filtrado para remover o corregir información con "ruido" (caracteres o símbolos extraños) o datos que podrían afectar el análisis correcto del texto de interés. Esto incluye, por ejemplo, suprimir caracteres de nueva línea o tabulaciones, convertir todo a minúsculas, remover puntuación, emojis, URLs, o sustituir números y fechas por símbolos comunes. Estas tareas se asocian principalmente a las particularidades y formato del documento de origen.


El pre-procesamiento de textos, por su parte, se enfoca en preparar los textos para su representación más adecuada según la tarea de análisis que se vaya a abordar. Algunas técnicas comunes de pre-procesamiento incluyen la partición del texto, el filtrado (eliminación de "stop-words" o palabras de baja frecuencia), la normalización (mayúsculas, variaciones de uso, errores tipográficos), el truncado ("stemming") y la lematización ("lemmatization"), así como el etiquetado de palabras, como el etiquetado de partes de la oración (POS Tagging), la desambiguación del significado de las palabras (WSD) y el reconocimiento de entidades nombradas (NER

___
**3. Aplicaciones**

**Aplicaciones:**  en la teoría de Aplicaciones, vimos diversas aplicaciones recientes de los métodos de PLN en las más diversas áreas. Como práctica inicial con aplicaciones del PLN, la notebook Notebook2_Transformers_Apps.ipynb disponible junto con esta guía, permite utilizar la arquitectura Transformers en distintas tareas del Lenguaje Natural como la clasificación de textos, el re conocimiento de entidades nombradas, la respuesta (automática) a preguntas, la elaboración de resúmenes y la traducción entre distintos lenguajes, entre otras.

Ejecútela en su totalidad y responda los dos ejercicios
 (Ejercicios 1 y 2) cuyos enunciados están disponibles en la Parte B) de esa notebook

#### ➡️ ✏️ Ejercicio 1
Seleccione dos aplicaciones de  las vistas en esta notebook para realizar cambios. Algunas opciones pueden ser cambiar el modelo usado en la instrucción `pipeline` o agregar/cambiar parámetros. También puede proponer otros cambios. Analice los resultados obtenidos.

### Clasificación de Textos

En lugar de solo clasificar el sentimiento general, propongo usar un modelo de clasificación de texto que se especialice en el análisis de emociones. El texto del cliente, con frases como "to my horror" y "dilemma," expresa emociones muy específicas más allá de la simple negatividad.

Al aplicar este nuevo modelo, los resultados serían más matizados y precisos. En lugar de una simple etiqueta NEGATIVE, el modelo probablemente devolvería una o más etiquetas emocionales como anger (ira) o disappointment (decepción). Este resultado va un paso más allá en la comprensión del sentimiento del cliente, ya que permite a la empresa no solo saber que la queja es negativa, sino también la emoción subyacente.



In [None]:
text = """Dear Amazon, last week I ordered an Optimus Prime action figure \
from your online store in Germany. Unfortunately, when I opened the package, \
I discovered to my horror that I had been sent an action figure of Megatron \
instead! As a lifelong enemy of the Decepticons, I hope you can understand my \
dilemma. To resolve the issue, I demand an exchange of Megatron for the \
Optimus Prime figure I ordered. Enclosed are copies of my records concerning \
this purchase. I expect to hear from you soon. Sincerely, Bumblebee."""

In [None]:
#Do Not show warnings
import sys

if not sys.warnoptions:
    import warnings
    warnings.simplefilter("ignore")

from transformers import logging
logging.set_verbosity_error()

In [None]:
from transformers import pipeline
import pandas as pd

classifier = pipeline("text-classification", model="j-hartmann/emotion-english-distilroberta-base",  return_all_scores=True)
outputs = classifier(text)
pd.DataFrame(outputs)



Unnamed: 0,0,1,2,3,4,5,6
0,"{'label': 'anger', 'score': 0.012127049267292023}","{'label': 'disgust', 'score': 0.00711216824129...","{'label': 'fear', 'score': 0.7062793374061584}","{'label': 'joy', 'score': 0.005034951958805323}","{'label': 'neutral', 'score': 0.01997500658035...","{'label': 'sadness', 'score': 0.06699719280004...","{'label': 'surprise', 'score': 0.1824742555618..."


La salida devuelve una lista de etiquetas para cada emoción con su puntuación de confianza asociada. La emoción con mayor puntaje es 'fear' con 0,70 seguida de 'surprise' con 0,18.

### Reconocimiento de Entidades Nombradas

In [None]:
ner_tagger = pipeline("ner", aggregation_strategy="average", model="dbmdz/bert-large-cased-finetuned-conll03-english")
outputs = ner_tagger(text)
pd.DataFrame(outputs)

model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

Unnamed: 0,entity_group,score,word,start,end
0,ORG,0.87901,Amazon,5,11
1,MISC,0.990036,Optimus Prime,36,49
2,LOC,0.999755,Germany,90,97
3,PER,0.499392,Megatron,208,216
4,ORG,0.501248,Decepticons,253,264
5,MISC,0.775362,Megatron,350,358
6,MISC,0.986643,Optimus Prime,367,380
7,PER,0.812096,Bumblebee,502,511


Al modificar el párametro de estrategia de agregación a 'average', cambia la forma en que se calcula la puntuación de confianza. Este párametro agrupa y promedia las puntuaciones.  
Como principal diferencia se encuentra que la primer etiqueta para Megatron cambia a PER (Persona) y en este caso no se fragmentan las palabras.

#### ➡️ ✏️ Ejercicio 2
Explore diferentes aplicaciones de PLN (además de las aquí mencionadas) y seleccione una para analizar: utilidad, complejidad, desafíos, dificultad para realizar el proceso KDD con ella y disponibilidad de datos. Redacte su análisis incluyendo referencias.

Además de las mencionadas:


*   Clasificación de texto
*   Reconocimiento de entidades nombradas
*   Respuestas a Preguntas (Question Answering)
*   Elaboración de Resumenes (Summarization)
*   Traducción
*   Generación de Texto


Las fuentes se exploran varias aplicaciones, entre ellas:

*  Detección de spam y filtrado de noticias
*  Detección de plagio
*  Determinación del perfil del autor
*  Análisis de tendencias
*  Búsqueda semántica
*  Reconocimiento de paráfrasis
*  Reconocimiento del humor y el sarcasmo
*  Detección de trolls y discursos de odio
*  Implicación lógica y reconocimiento de falacias
*  Simplificación de oraciones y parafraseo de oraciones
*  IA conversacional (Chatbots) y soporte de atención al cliente
*  Sistemas recomendadores (para datos textuales)
*  Detección anticipada de riesgos
*  Detección de pedófilos en la Web
*  Filtrado de "memes" y noticias falsas (fake news)
*  Análisis de la calidad de la información en la Web


Los **chatbots** representan una de las áreas más destacadas y de mayor impacto en la actualidad. Los chatbots se definen como sistemas interactivos que permiten a los usuarios interactuar en lenguaje natural. Aunque generalmente interactúan a través de texto, también pueden emplear interfaces de voz. Los avances en el PLN han sido cruciales para el desarrollo de "agentes conversacionales avanzados".

**1. Utilidad La utilidad de los chatbots es considerable y se manifiesta en diversas áreas:**

  * Soporte de atención al cliente: Es una aplicación directa y muy extendida, facilitando la interacción automatizada con los usuarios.

  * Asistentes virtuales: fueron parte de la "primera ola de chatbots (2016)" en plataformas como Facebook Messenger, Google Assistant, Amazon Alexa y Siri de Apple.

  * Herramientas personalizadas: Actualmente, existen herramientas que permiten crear chatbots personalizados para una marca o servicio específico, como Amazon Lex, Google Dialogflow, Rasa y DeepPavlov.

  * Acceso a la información: Contribuyen a la gestión de la "inundación de información textual" proveniente de la Web, haciendo el conocimiento más accesible a través de interacciones conversacionales.

  * IA conversacional: Los chatbots son un ejemplo de la "IA conversacional", una tarea típica de la Generación de Lenguaje Natural (GLN), que también incluye aplicaciones terapéuticas.

**2. Complejidad:**

  * Resolución de ambigüedades: La principal dificultad del PLN es la resolución de ambigüedades, las cuales pueden ocurrir a nivel de palabra (ej. "fuera") o de oración (ej. "veo al gato con el telescopio"). Para un chatbot, interpretar correctamente la intención del usuario es fundamental y requiere resolver estas ambigüedades, lo cual a menudo exige "conocimiento lingüístico" y "conocimiento extra-lingüístico".

  * Niveles del lenguaje: Implica el entendimiento de todos los niveles del lenguaje, desde el análisis morfo-sintáctico hasta el semántico y el pragmático.

      * Morfología: Conocimiento de la estructura interna de las palabras (sufijos, prefijos, raíces, flexiones) y categorías gramaticales, relacionado con tareas como la lematización y el etiquetado POS.

      * Sintaxis: Análisis de las relaciones estructurales entre palabras para formar oraciones coherentes.

      * Semántica: Entender el significado de las palabras y cómo se relacionan sintácticamente, utilizando "embeddings" o vectores numéricos densos para representar el sentido.

      *  Pragmática: Comprender la relación entre el significado y los objetivos e intenciones del hablante. Esto es importante  para que un chatbot interprete el propósito real detrás de la entrada de un usuario, incluyendo la resolución de coreferencias.

  *  Contexto: Las ambigüedades se originan al considerar unidades de lenguaje fuera del contexto local y global. Un chatbot debe mantener la coherencia a lo largo de una conversación para responder de manera relevante.

  *  Diversidad y evolución del lenguaje: El lenguaje es diverso en estilos, formalidad, dependencias geográficas y temporales, y está en constante evolución. Los chatbots deben ser capaces de adaptarse a estas variaciones.

  * Modelos avanzados: La actividad en el desarrollo de chatbots se inclina hacia modelos basados en Transformers. Estos modelos superan las limitaciones de las redes neuronales recurrentes (RNNs) en el manejo de secuencias largas y la computación paralela. Los Transformers han conducido al desarrollo de "modelos de lenguaje pre-entrenados (MLP)" y "grandes modelos de lenguaje (LLM)" con billones de parámetros, entrenados en vastas colecciones de texto no etiquetado.

**3. Los desafíos en el desarrollo de chatbots:**

  * Comprensión de intenciones complejas: Interpretar con precisión la intención subyacente del usuario, especialmente en frases ambiguas, sarcásticas o con múltiples propósitos. La "pragmática analiza las intenciones del autor", y su modelado es un reto constante.

  * Mantenimiento de la coherencia conversacional: Asegurar que las respuestas del chatbot sean coherentes y relevantes a lo largo de un diálogo extendido, lo que implica recordar el contexto de turnos anteriores.

  * Generación de respuestas naturales y humanas: Producir texto que no suene robótico, sea gramaticalmente correcto, fluído y apropiado para el contexto, un desafío de la Generación de Lenguaje Natural (GLN).

  * Manejo de entradas inesperadas o ambiguas: Los usuarios no siempre formulan sus preguntas de manera clara o predecible, y el chatbot debe manejar estos casos sin fallar o dar respuestas sin sentido.

  * Adaptación a diferentes estilos y dominios: Un chatbot debe poder interactuar con una amplia gama de usuarios y, si es personalizado, entender el lenguaje específico de un dominio (ej. soporte técnico frente a un asistente social).

  * Conciencia del contexto comunicacional: Entender las sutilezas de la comunicación humana, como el estado de ánimo o las implicaciones no literales, sigue siendo un gran desafío.

**4. Dificultad para realizar el proceso KDD: **

  * Recopilación de los textos: Requiere recolectar grandes volúmenes de datos conversacionales. La creación de datos de diálogo etiquetados (pares pregunta-respuesta, intenciones, etc.) es laboriosa.

  * Limpieza y pre-procesamiento de los textos: Los textos "crudos" recopilados suelen contener "ruido" que debe ser filtrado. Esto incluye tareas como suprimir caracteres especiales, URLs, emojis, convertir a minúsculas, y remover puntuación. También se aplican técnicas de pre-procesamiento como lematización y etiquetado de partes de la oración (POS Tagging), que son cruciales para que el chatbot entienda las estructuras y significados.

  * Representación de los textos: La fase de representación es fundamental para los chatbots modernos. Implica transformar el texto en representaciones vectoriales densas (embeddings) que capturan el significado y el contexto. Los Transformers y los LLMs juegan un papel central aquí, ya que sus arquitecturas están diseñadas para crear estas representaciones ricas.

  * Minería de Textos: En esta fase, se entrenan los modelos del chatbot. Esto puede implicar:

      ▪ Categorización de textos: Para clasificar la intención del usuario (ej. una pregunta sobre un producto, una solicitud de soporte).

      ▪ Extracción de Información (EI): Para identificar entidades, relaciones o eventos clave dentro de la pregunta del usuario (ej. nombre del producto, tipo de problema).

      ▪ Generación Automática de Textos (autoregresiva): Es el corazón de la respuesta del chatbot, donde el modelo genera una secuencia de texto coherente basada en la entrada del usuario y el contexto de la conversación.

  * Evaluación, Interpretación y Visualización: La evaluación de un chatbot es particularmente difícil. Más allá de las métricas clásicas de evaluación supervisada, se requiere una evaluación cualitativa para juzgar la naturalidad, la relevancia, la coherencia y la utilidad de las respuestas del chatbot en un contexto de diálogo continuo. La subjetividad en la interpretación del lenguaje y las intenciones del hablante hace que la evaluación humana sea a menudo indispensable pero costosa.

**5. Disponibilidad de datos:**

  * Datos de pre-entrenamiento: Los Grandes Modelos de Lenguaje (LLM), que son la base de muchos chatbots avanzados, se entrenan sobre "grandes colecciones no etiquetadas con billones de tokens" como Wikipedia, BookCorpus y Common Crawl.

  * Datos conversacionales generales: Existe una cantidad creciente de datos conversacionales (diálogos, preguntas y respuestas) disponibles públicamente para el entrenamiento de chatbots genéricos, especialmente en idiomas de altos recursos.

  * Datos específicos de dominio: Para chatbots personalizados la disponibilidad de datos de diálogo etiquetados y específicos del dominio es más limitada. Crear estos conjuntos de datos requiere un esfuerzo considerable de recopilación y anotación, aunque las herramientas actuales facilitan esta tarea.

  * Idiomas de bajos recursos: La principal dificultad con estos idiomas es la falta de datos. La mayoría de los modelos de PLN, especialmente los modelos avanzados como los Transformers, requieren enormes volúmenes de texto para aprender patrones lingüísticos y semánticos.
