# Predicción de puntuaciones de profesores a partir de opiniones de los estudiantes

Freddy Alejandro Cuellar facuellarg@unal.edu.co

Sergio Alejandro Vargas  savargasqu@unal.edu.co


## Introducción

Actualmente, es común combinar texto con datos numéricos para análisis
de regresión (Foster et al., 2013). En el estado del arte es se usan
técnicas para agrupar palabras subjetivas en categorías definidas
(bueno, malo, bonito etc.), además de técnicas de análisis morfológico
para reducir el conjunto de palabras dentro de un texto, por ejemplo,
convirtiendo adjetivos y adverbios en sustantivos. Sin embargo, estas
técnicas de *análisis de sentimientos* requieren un conjunto de datos (a
saber, listas de palabras) ya clasificados.

Para simplificar estos modelos es posible convertir el texto en
regresores usando un modelo de *bag-of-words*, que no considera
construcciones gramáticas ni semánticas del texto, solamente la
frecuencia de apariciones de una palabra en el texto.

Así, nuestro problemas es el siguiente: dada una entrada en lenguaje
natural, que expresa la opinión de un estudiante sobre un profesor,
predecir el puntaje numérico con el que el estudiante calificaría al
profesor.

## Adquisición de datos

Para la adquisición de datos usamos una técnica de *web-scraping*,
usando las librerías de Python: *requests* y *BeautifulSoup4*. Primero
extrajimos una lista de urls, correspondientes a la pagina de cada
profesor. Luego, iteramos sobre dicha lista, haciendo un
/textsc{get request} para cada elemento. Una vez adquirido el contenido
de una pagina, podemos hacer una búsqueda de las etiquetas que
correspondan a una reseña y de ahí extraer el texto. Finalmente, como
método de persistencia, guardamos cada reseña con su puntaje
correspondiente como una entrada en un archivo \textsc{json}.

## Diseño experimental

Una vez adquiridos los datos, podemos entrenar el modelo de
*bag-of-words*. Primero, creamos un diccionario de las palabras
presentes en todas las reseñas, luego, hacemos la vectorización de cada
reseña creamos un vector que señala cuales de las palabras están
presentes y cuales no. Como los modelos

Con esta matriz y el vector de puntajes realizamos una regresión para
establecer las características de cada categoría/puntaje.


## Resultados

El desempeño del algoritmo de regresión fue de alrededor de $n\%$. Para
algunas pruebas era frecuente ver que el modelo sobrestimaba la nota
asignada al profesor. Esto puede ser a causa de que los puntajes más
frecuentes sean 5.0, 4.0 y 4.5, y eran muy pocos los puntajes bajos
asignados a los profesores. Esto claramente inducia un sesgo en el
modelo. Efectivamente, con tantos datos optimistas el modelo resulta
igualmente optimista. Entrenar el modelo con proporciones similares de
opiniones positivas y negativas resulta en una disminución considerable
del volumen de datos y en un modelo igualmente deficiente.


## Conclusiones

Primero, vale la pena resaltar que estos modelos, todavía simples, no
capturan las **razones** por las cuales un profesor es bueno o no. Para
esto, sería necesario un análisis del modelo más cuidadoso, que indique
a posteriori cuales palabras reflejan un mejor puntaje.

De otra parte, los sesgos presentados en el modelo podrían igualmente
darnos información valiosa respecto a la población estudiantil.
Podríamos formular una hipótesis trivial: la alta frecuencia de buenos
puntajes se da porque los profesores son muy buenos. Sin embargo, esto
no nos dice nada respecto a los estudiantes que realizan las reseñas.
Más allá de esto, podríamos decir que los estudiantes con profesores
buenos tienen una inclinación mayor a opinar en linea. O de forma
reciproca, los estudiantes que inscriben con profesores malos tienen
poco interés en evaluarlos. Para poder determinar la validez de
cualquiera de estas hipótesis se tendría que trabajar con un modelo que,
además de considerar la opinión del estudiante y el puntaje del
profesor, incluya la nota que obtuvo el estudiante (también presente
dentro de cada post/reseña).

## Referencias

-   Foster, D. P. (2013). Featurizing Text: Converting Text into
    Predictors for Regression Analysis. 37.

-   Topic-4-linear-models-part-4\_good\_bad\_logit\_movie\_reviews\_XOR.
    (n.d.). Retrieved January 29, 2020, from
    <https://mlcourse.ai/articles/topic4-part4-applications/>