# Proyecto 2 - Procesamiento de lenguaje natural
## CommonLit - Evaluate Student Summaries

**Francis Aguilar - 22243**<br>
**Diego García - 22404**<br>
**César López - 22535**<br>
**Ángela García - 22869**


Link del github:<br>
https://github.com/DiegoGarV/Proyecto2-DS

## Planteamiento inicial

1. Situación problemática:<br> 
En el ámbito educativo, la evaluación de resúmenes escritos por estudiantes suele ser un proceso manual, demandante y sujeto a la subjetividad del evaluador. Esto genera dificultades para proporcionar retroalimentación oportuna y consistente, especialmente en contextos con gran número de alumnos. El reto de CommonLit plantea la necesidad de desarrollar métodos automáticos de procesamiento de lenguaje natural (PLN) que apoyen la evaluación objetiva de los resúmenes en cuanto a contenido y calidad de redacción.

2. Problema científico:<br>
¿Es posible construir un modelo de PLN que, a partir del texto de un resumen y su prompt asociado, prediga con precisión las calificaciones de contenido y redacción, utilizando métricas cuantitativas como el MCRMSE para validar su desempeño?

3. Objetivo general:<br>
Desarrollar y evaluar un modelo de procesamiento de lenguaje natural capaz de predecir automáticamente las calificaciones de contenido y redacción en resúmenes estudiantiles, con el fin de apoyar la evaluación educativa de manera objetiva y eficiente.

4. Objetivos específicos:<br>
    i. Analizar el dataset de CommonLit para explorar las características lingüísticas y distribuciones de las calificaciones asociadas a los resúmenes.<br>
    ii. Implementar un sistema de representación textual y entrenar modelos de regresión basados en TF-IDF y algoritmos de aprendizaje supervisado.<br>
    iii. Validar el desempeño de los modelos utilizando validación cruzada y MCRMSE, comparando los resultados obtenidos con diferentes enfoques de modelado.

## Investigación preliminar

Las técnicas más comunes para la detección de patrones en procesamiento de lenguaje natural incluyen métodos estadísticos, representaciones vectoriales y modelos de aprendizaje automático. Entre las que más pueden aportar al proyecto son:

1. Análisis de frecuencia y n-gramas: permiten identificar qué palabras o combinaciones de palabras aparecen con mayor regularidad en los textos, revelando estructuras recurrentes y patrones de estilo.

2. Vectorización de texto (TF-IDF, embeddings): transforman el lenguaje en representaciones numéricas que capturan la importancia relativa de los términos o sus relaciones semánticas.

3. Modelos de clasificación o regresión supervisada: como regresión lineal, máquinas de soporte vectorial o redes neuronales, que aprenden patrones complejos para predecir etiquetas o puntajes a partir de los textos.

Estas técnicas pueden ayudar a extraer características del lenguaje en los resumenes estudiantiles y relacionarlos con las calificaciones de contenido y redacción. Los primeros dos ayudarán a facilitar la captura del vocabulario más característico de los resumenes y el último ayudará a asociar los patrones con el puntaje. De esta manera, se obtiene un sistema capaz de generalizar y evaluar automáticamente nuevos textos de manera objetiva y consistente.

## Análisis inicial del problema y los datos disponibles.



#### Descripción de la data

**summaries_train:**
- student_id: muestra el identificador único del estudiante.
- prompt_id: muestra el identificador único de la instrucción que se le dió al estudiante para hacer su resumen.
- text: el resumen hecho por el estudiante
- content: valor númerico continuo que representa la evaluación del resumen en que tan bien logra simplificar el texto el estudiante. Se toma en cuenta la coherencia, neutralidad, lógica y objetividad en el resumen.
- wording: valor numérico continuo que representa la evaluación del resumen en cuanto a la presentación de las ideas. Se enfoca en la redacción y el uso del lenguaje, más allá del contenido.

**prompts_train:**
- prompt_id: muestra el identificador único de la instrucción que se le dió al estudiante para hacer su resumen.
- prompt_title: título de la instrucción utilizada.
- prompt_question: la pregunta o instrucción específica que se le hizo al estudiante para poder generar su resumen.
- prompt_text: el texto completo que se debía resumir.

#### Consideraciones

La data muestra tanto textos como resumenes en inglés. Existen más de 7200 resumenes diferentes, pero están divididos en 4 textos(prompts). Es importante tener en cuenta, la vairación de longitud y el estilo en los resumenes. Además, en ellos puede existir faltas ortográficas que se tomarán como el ruido del dataset.

La escala original de content y wording debe ser preservada. Esto permitirá que el MCRMSE (promedio de RMSE) sea interpretable. Por lo tanto, no se normalizarán estos valores o los resultados de las metricas no darán la información que se busca.

Es importante destacar que la momento de entrenar al modelo, se debe de tomar en cuenta el prompt id tanto para separar los casos por pregunta, como para entender como diferentes preguntas pueden llevar a diferentes resultados de resumen. La diferencia en tamaño y complejidad entre prompts puede llegar a confundir al modelo si se llega a ignorar. 

#### Justificación de las técnicas de detección de patrones

**1. Análisis de frecuencia y n-gramas:**
 - Otorga una representación numérica, dispersa y eficiente que pondera términos discriminativos.
 - Ayudará a detectar marcadores de calidad como conectores, variedad léxica, etc. Además, permite tener una mayor idea de que palabras pueden asociarse a un mayor contenido o estilo.
 - Se debe de tener cuidado con el sobreajuste de los n-gramas, pues esto puede causar que solo se enfoque en un solo prompt. Para ello se harán validaciones por grupos y se limitaran las features.

**2. Vectorización con TF-IDF:**
 - Captura patrones léxicos básicos y compuestos.
 - Sus mayores beneficios serán el fuerte baseline en tareas de evaluación de texto con poco costo computacional. Además, permite integrar los n-gramas para capturar micro patrones de estilo y contenido.
 - Se debe tomar en cuenta que esta técnica no capta semántica profunda ni relaciones de largo alcance.

**3. Modelos supervisados:**
 - Permite mapear la representación TF-IDF a predicciones continuas con un sesgo y varianza controlados. 
 - Cuenta con un entrenamiento rápido y reproducible. Sus coeficientes permiten entender los resultados facilmente. Funciona bien con datos dispersos.
 - Se debe de tomar en cuenta los resultados del baseline para evitar errores si la relación entre el estilo y el contenido es no lineal.