# Proyecto Análisis de Opiniones - Proyecto 3

**Presentador por:**
---

---

- **Juan Esteban Cepeda Baena.**
- Estudiante de Ciencias de la Computación y Administración de Empresas de la Universidad Nacional de Colombia.
- Email: jecepedab@unal.edu.co / juancepeda.gestion@gmail.com
- Google Site: https://sites.google.com/view/juancepeda/

---

### 1. Introducción.

---
El procesamiento de lenguaje natural (*natural language processing* en inglés) es un campo de la inteligencia artificial y la linguística que estudia las interacciones entre los computadores y el lenguaje humano. Ésta área del conocimiento se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas y máquinas por medio del lenguaje natural. Los inicios del "Procesamiento del Lenguaje Natural" se remontan a finales de los años 40, donde una gran cantidad de investigadores comenzaron a explorar el área conocida como "Machine Translation (MT)", la cual exploraba el desarrollo de algoritmos para traducir frases entre el inglés al ruso principalemente. Pocos años más tarde, en 1954, la Universidad de Georgetown en colaboración con IBM, realizaron la primera demostración de traducción automática de más de sesenta frases del ruso al inglés, lo que causó gran conmoción en la opinión pública, e impulsó al desarrollo de esta rama del conocimiento. Así, el procesamiento del lenguaje natural se ha convertido en una de las ramas del conocimiento más importantes para la traducción automática, la categorización de textos, el reconocimiento de spam, el desarrollo de sistemas de diálogos, entre otros (Paroubeck et al., 2019).

Una de las aplicaciones más populares del procesamiento del lenguaje natural corresponde al análisis de sentimiento, el cual consiste en identificar y extraer información a partir del análisis de textos u opiniones con el objetivo de clasificarlos de acuerdo con un "sentimiento" y/o asignarle una puntuación (para lo cual se emplean métodos de regresión). Así, el presente trabajo aborda la recopilación, procesamiento y análisis de más de 2.000 opiniones extraídas del portal <a href = "https://losestudiantes.co/">Los Estudiantes</a>, las cuales corresponden a opiniones publicadas por estudiantes acerca de sus profesores. Cada opinión consiste en un texto y una calificación, además, es importante señalar que este portal almacena información de más de 5.000 docentes que trabajan o han trabajado en la Universidad Nacional de Colombia o en la Universidad de los Andes. En el presente proyecto, se emplean varios modelos de aprendizaje de máquina para clasificación binaria (opinión buena o mala), y para predecir la calificación de una nueva opinión (*Imagen 1*).

<img src="./Imagenes/problema1.png"
 width="500" height = "400">
<center><i>Imagen 1. Problema planteado para el proyecto. Elaboración propia.

### 2. Estado del Arte.

---
Tras años de investigación y desarrollo en materia del "Procesamiento del Lenguaje Natural", Khurana, Koli, Khatter y Signh (2017) enuncian un recuento de una gran cantidad de aplicaciones como: traducción automática, categorización de textos, reconocimiento de spam, extracción de información, resumenes, sistemas de diálogo, medicina, entre otros. A continuación, se aborda el estado del arte de cada una de estas aplicaciones:

**1. Traducción automática:** Como parte del rápido y gran avance de la globalización a nivel mundial, las necesidades de hacer la información más accesible y disponible han incentivado y exiguido el desarrollo de mecanismos para eliminar los obstáculos de la barrera del idioma. La traducción automática permite traducir frases de un lenguaje a otro con la ayuda de modelos estadísticos como Google Translate. El reto de las tecnologías de traducción automática consiste en preservar el significado de las frases, mientras que traduce palabras y tiempos. Así, en 2016, Google anunció su primera máquina de traducción basada en redes neuronales artificiales y aprendizaje profundo.

**2. Categorización de Textos:** Una de las aplicaciones más importantes del procesamiento del lenguaje natural, consiste en clasificar grandes cantidades de informacion como documentos oficiales, reportes de mercado, noticias en distintas categorías. Lo anterior, es altamente utilizado en problemas de detección de spam en correos electrónicos, así como en detección de fraude, permitiendo desarrollar filtros más acertados y eficientes en los tópicos anteriores.

**3. Extracción de Información y Análisis de Sentimiento:** Consiste en identificar frases o palabras de interés en información textual. Extraer entidades como nombres, lugares, eventos, fechas, tiempos, precios, entre otros, es un mecanismo útil para resumir informacion, y sobretodo, de gran relevancia en herramientas como los motores de búsquedas, permitiendo realizar búsquedas más específicas y eficientes. Esta habilidad de resumir información a partir del análisis de textos no sólo permite tener la habilidad de reconocer la importancia de la informacion de grandes bases de datos, sino tambien es utilizada para entender de una manera más profunda su significado en términos sentimentales (análisis de sentimiento). Lo anterior, es altamente utilizado en áreas de marketing, psicología de precios, percepción de marcas, servicios y productos, inversiones en la bolsa, entre otros. 

**4. Sistema de Diálogos:** Los sistemas de diálogo se enfocan en aplicaciones que utilizan niveles fonéticos y léxicos del lenguaje, con la finalidad de producotr sistemas que permiten la interactacion entre máquinas y humanos en lenguajes naturales. Entre los sistemas de diálogo más relevantes se encuentran: Cortana (asistente de Google), Siri (asistente de Apple), Alexa (asistente de Amazon), entre otros.

**5. Medicina:** El procesamiento de lenguaje natural en el campo de la medicina busca extraer y resumir información de síntomas, efectos, y respuesta a fármacos por parte de pacientes, con la finalidad de identficiar posible efectos secundarios de cualquier medicina. De esta manera, se busca implementar sistemas multilenguaje robustos, capaces de analizar y comprender las sentencias médicas y preservar el conocimiento de textos en lenguajes independientes.

<img src="https://www.thinkpalm.com/wp-content/uploads/2019/04/BLOG_NLP-FOR-ARTIFICIAL-INTELLIGENCE_72-1.jpg"
 width="350" height = "230">
<center><i>Imagen 2. Procesamiento de Lenguaje Natural. Recuperado de: <a href = "https://thinkpalm.com/blogs/natural-language-processing-nlp-artificial-intelligence/">NLP for Artificial Intelligence</a></i></center>

### 3. Métodos y Materiales.

---


### 3.1 Métodos.

---

A continuación se presentan las distintas etapas del desarrollo del proyecto, comenzando por la recolección de datos, su procesamiento, y para finalizar, su análisis. En cada sección se plantea un problema y se explican los métodos que se emplearon para solucionarlo.

**A. Recolección de Datos**: Esta etapa del proyecto consiste es desarrollar un algorítmo de *webscraping (Imagen 3)* que permita descargar la información de las opiniones publicadas por los estudiantes, contenidas en la base de datos del portal <a href = "https://losestudiantes.co/">Los Estudiantes</a>. Para lograr el objetivo anterior, se emplearon una serie de peticiones al servidor del portal web por medio de la librería *requests*. Después de una breve revisión de la API de la aplicación, se encontró que el link para cargar el perfil de un docente tenía la siguiente estructura: "https://losestudiantes.co/nombre-universidad/carrera/profesores/nombre-profesor", por lo que era necesario primero descargar los nombres de los profesores de cada carrera de cada universidad, y esto a su vez requería conocer la lista de carreras ofertadas por cada institución (esto, se podía obtener fácilmente por medio de la siguiente petición al servidor: https://api.losestudiantes.co/universidades/nombre-universidad/programas). 

Una vez conocida la lista de carreras ofertadas por cada institución, se pasaba a obtener la lista de profesores vinculados con cada carrera, para ello se utilizó la petición "https://api.losestudiantes.co/universidades/nombre-universidad/programa/nombre-carrera/sample", la cual retornaba una muestra aleatoria con información de 14 docentes vinculados con la carrera solicitada. Dado que se quería extraer toda la lista docente de cada programa, la misma petición se ejecutó 30 veces con la finalidad de tener la lista completa de profesores. Así, una vez se tenía el código (e.g juan-carlos-quijano-ramirez) de todos los profesores de cada carrera de cada universidad y el código de cada carrera de cada universidad, se extrajo la información de las opiniones publicadas por los estudiantes de cada profesor por medio de la petición al servidor "https://losestudiantes.co/nombre-universidad/carrera/profesores/nombre-profesor". Finalmente, se guardó el texto de las opiniones y las calificaciones en un $dataframe$ generado por la librerías Pandas. En la sección 4 del documento (Resultados) se presentan los algoritmos utilizados.

<img src="https://miro.medium.com/max/658/1*kfOsUxggG5wDbDcxgC0Uwg.png" width="400" height = "230">
<center><i>Imagen 3. WebScraping. Recuperado de: <a href = "https://medium.com/@Emmitta/web-scraping-7f87930face4">WEB SCRAPING</a></i></center>

**B. Procesamiento de Datos**: El objetivo de esta etapa es desarrollar un algorítmo para formatear, limpiar y estandarizar el texto de las opiniones obtenidas en la sección anterior. Para ello, se utilizó la librería <a href = "https://spacy.io/">Spacy</a> *(Imagen 5)*, la cual es una API de Procesamiento de Lenguaje Natural para Python que incluye modelos estadísticos pre-entrenados, vectores de palabras y soporte de tokenización para más de 50 lenguajes. Adicionalmente, cuenta con modelos de redes neuronales convolucionales de alta velocidad para etiquetado, análisis y reconocimiento de entidades y fácil integración con modelos de aprendizaje profundo. Es un software comercial de código abierto, publicado bajo la licencia MIT (Spacy.io, s.f). De acuerdo con lo anterior, el procesamiento de los textos de las opiniones se realizó en seis partes: 

1. Inicialización de objeto **nlp** de Spacy con la sentencia a procesar.
2. Tokenización de la sentencia: segmentación de la sentencia en palabras y signos de puntuación.
3. Eliminación de signos de puntuación y pasar cada palabra a minúscula.
4. Lematización: asignación de la forma base de las palabras. Por ejemplo, el lema de "fue" es "es", y el lema de "ratas" es "rata".
5. Eliminación de palabras que no le aportan información al modelo (Stopwords).
6. Eliminación de números.

En la imagen 4, se presenta un ejemplo comparativo entre una sentencia sin procesar, y la salida del algoritmo previamente descrito: 

<img src="./Imagenes/comparacion_sentencias.png">
<center><i>Imagen 4. Ejemplo de Procesamiento de Opinión</i></center>

Así, siguiendo el procedemiento anterior, se procesaron todos los textos de las opiniones, para más tarde, en la sección de análisis de datos, construir la matriz dispersa (*sparse matrix* en inglés).

<img src="https://miro.medium.com/max/1200/1*qH3Rrck6BGb8vrkNJCS0AQ.png" width="250" height = "150">
<center><i>Imagen 5. Librería spaCy para procesamiento de lenguaje natural. Recuperado de: <a href = "https://medium.com/analytics-vidhya/learn-how-to-use-spacy-for-natural-language-processing-661805d3abae">Learn how to use spaCy for Natural Language Processing</a></i></center>

**C. Análisis de Datos**: El objetivo de esta etapa es entrenar y utilizar una serie de algoritmos de aprendizaje de máquina para predecir la clase de las opiniones (buena o mala, 1/0 respectivamente) y predecir la calificación asignada por el estudiante, como se presentó en la Imagen 1. Para lograr lo anterior, primero se plantea y examina el problema del imbalanceo de datos, para más tarde ejecutar los algoritmos de clasificación y regresión empleados, sobre los cuales se llevan a cabo una serie de mejoras relacionadas con las palabras que mejor predicen la categoría de una opinión. A continuación, se presenta lo anterior detalladamente:

**C.1 Imbalanceo de Datos**: El problema de imbalanceo de datos se refiere a una situación en donde el número de observaciones no es el mismo para todas las clases de un conjunto de datos. Lo anterior, puede sesgar la predicción de las clases, favoreciendo a aquellas que son mayoritarias. Para solucionar este problema, se utilizan distintas técnicas de muestreo, a saber: submuestreo (se eliminan observaciones de la clase mayoritaria), generación de datos sintéticos y sobremuestreo (se aumentan las observaciones de la clase minoritaria), y métodos de ponderación de acuerdo al número de observaciones de cada clase (Amsantac.co, 2016). Para solucionar el problema de imbalanceo de datos en este proyecto, se utilizó el método de ponderación, asignándole un mayor peso a la clase minoritaria, con la finalidad de compensar la cantidad de opiniones malas con el número de opiniones buenas extraídas del portal web. 

**C.2 Entrenamiento de Clasificadores**: Para resolver el problema de clasificación de opiniones entre buenas o malas (Imagen 6), se emplearon dos algoritmos de aprendizaje supervisado: *RandomForestClassifier* y *LinearSVC*. Dado que el conjunto de datos extraídos del portal web Los Estudiantes contenía una calificación de 1 a 5, se determinó que una opinión buena era aquella con una calificación mayor a 3.5, y una opinión mala era aquella con una calificación menor o igual a 3.5. De acuerdo con lo anterior, los datos se etiquetaron con 1 y 0 respectivamente. Ahora bien: para medir el desempeño de los modelos de aprendizaje supervisado empleados, se utilizaron las funciones de métricas incorporadas a la librería *sklearn*. En particular, se computaron tres indicadores, a saber: *precisión*($P$), sensitividad ($S_{t}$) y sensibilidad ($S_{b}$) (para más información, consultar <a href="https://en.wikipedia.org/wiki/Sensitivity_and_specificity">aquí</a>). 

El modelo de *Random Decision Forests* es un método de aprendizaje de ensamble para clasificación, regresión y otras tareas que operan sobre la construcción de múltiples árboles de decisión que son entrenados simultáneamente y su output corresponde al promedio de las predicción o promedio de las clases (clasificación) de cada uno de los árboles individuales (Para más información, consultar el siguiente <a href = "https://en.wikipedia.org/wiki/Random_forest">link</a>) (Tin Kam, 1995). Por otro lado, el modelo de *Support Vector Machine* o en español, Máquinas de vectores de soporte, corresponde a un conjunto de algorítmos de aprendizaje supervisado para clasificación y regresión que computan el mejor hiperplano que separa de forma óptima las observaciones de un *dataset* de acuerdo a su clase. Para más información, consultar <a href = "https://es.wikipedia.org/wiki/M%C3%A1quinas_de_vectores_de_soporte#Idea_b%C3%A1sica">aquí</a> (Campbell & Colin, 2000).

<img src="https://homepages.inf.ed.ac.uk/rbf/HIPR2/classb.gif" width="250" height = "150">
<center><i>Imagen 6. Ejemplo de Clasificación Binaria. Recuperado de: <a href = "https://homepages.inf.ed.ac.uk/rbf/HIPR2/classify.htm">Ejemplo de Clasificación de Observacaciones</a></i></center>

**C.3 Entrenamiento de Regresores**: Para resolver el problema de predecir la calificación asignada por un estudiante -dada su opinión acerca del docente- se emplearon dos algoritmos de regresión (Imagen 7), a saber: *RandomForestRegressor* y *Gradient Boosting Regressor*. Para medir el desempeño de ambos modelos de aprendizaje de máquina se utilizó la estadística del coeficiente de determinación ($R^2$), la cual determina la calidad del modelo para replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el modelo (para más información, consultar <a href="https://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n">aquí</a>). Ahora bien: el modelo *Gradient Boosting Regressor* construye un modelo aditivo de manera progresiva por etapas; Permite la optimización de funciones arbitrarias de pérdida diferenciable. En cada etapa se ajusta un árbol de regresión en el gradiente negativo de la función de pérdida dada (para más información, consultar <a href = "https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html">aquí</a>) (scikit-learn.org, s.f).


<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/350px-Linear_regression.svg.png" width="350" height = "230">
<center><i>Figura 7. Ejemplo de Regresión Lineal. Recuperado de: <a href = "https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal">Wikipedia: Regresión lineal</a></i></center>

Por último, cabe señalar que el análisis y discusión de los resultados obtenidos por los clasificadores y los regresores se presenta en la sección 4 del reporte.

### 3.2 Materiales.

---

Las herramientas computacionales o librerías utilizadas para el desarrollo del proyecto fueron: 1) Numpy, 2) Pandas, 3) Requests, 4) Matplotlib, 5) Time, 6) Spacy y 7) Sklearn, entre otras. A continuación se explica qué son y cómo fueron utilizadas:

1. **Numpy**: es una de las librerías más importante de Python, encargada de incorporar funcionalidades de carácter matemático y vectorial. Esta librería se utilizó para el tratamiento de listas.

2. **Pandas**: es una extensión de Numpy desarrollada para la manipulación y análisis de datos en Python. Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales. Esta librería se utilizó para almacenar la información extraída del portal Los Estudiantes, esto es, el texto de las opiniones con su respectiva calificación.

3. **Requests**: corresponde a una librería HTTP licenciada por Apache2 y escrita en Python, que permite a los usuarios realizar solicitudes HTTP sin tener que interactuar directamente con URL's o solicitudes POST. Esta librería se utilizó para extraer la base de datos de profesores y opininiones del portal Los Estudiantes, por medio de peticiones al servidor de dicho portal

4. **Matplotlib**: es una librería gráfica que permite generar figuras y gráficas de alta calidad, con una gran variedad de formatos y ambientes interactivos.

5. **Time**: es una librería instalada por defecto en Python que provee varias funciones para la solución de tareas relacionadas con el tiempo. Para efectos de este proyecto, se utilizó para "dormir" el algoritmo de *webscraping*, con la finalidad de no colapsar el servidor de Los Estudiantes con una cantidad indiscriminada de peticiones.

6. **Spacy**: es una librería de Procesamiento de Lenguaje Natural para Python que incluye modelos estadísticos pre-entrenados, vectores de palabras y soporte de tokenización para más de 50 lenguajes. Adicionalmente, cuenta con modelos de redes neuronales convolucionales de alta velocidad para etiquetado, análisis y reconocimiento de entidades y fácil integración con modelos de aprendizaje profundo. Como se mencionó en la sección anterior, esta librería se utilizó para el procesamiento del texto de las opiniones.

7. **Sklearn**: es una biblioteca de software libre de Python especializada en modelos de aprendizaje de máquina. Esta librería incluye varios algoritmos de clasificación, regresión y análisis de grupos. Esta biblioteca se utilizó para entrenar varios algoritmos de clasificación y regresión para predecir la categoría de las opiniones (buena o mala) y la calificación asignada por el estudiante, respectivamente.

### 4. Resultados.

---

A continuación, se presenta el código del programa distribuído en las tres secciones presentadas en la sección Materiales y Métodos, a saber: recolección de datos, procesamiento de datos y análisis de datos.

In [1]:
# Import libraries.
from bs4 import BeautifulSoup
import requests
import pandas as pd
import time
import numpy as np

#from selenium import webdriver

**4.1 Recolección de Datos.**

---

A continuación, se presentan y explican los algoritmos descritos en apartado de recolección de datos en la sección 2.

4.1.1. $getCareers(url)$: Esta función recibe por parámetro la dirección de la petición que se le realiza al servidor del portal web para cargar la lista de códigos de las carreras ofertadas por una universidad. Esta petición se realiza por medio de las funciones de la librería requests. La información que retorna el servidor se procesa, y la función retorna la lista de los códigos de carreras de la universidad solicitada.

4.1.2. $getTeachers(url)$: Esta función recibe por parámetro la dirección de la petición que se le realiza al servidor del portal web para cargar la lista de profesores de una facultad (e.g medicina), de una universidad (e.g Universidad de los Andes). Esta petición se realiza por medio de las funciones de la librería requests. La información que retorna el servidor (muestra de información de 12 profesores aleatoriamente) se procesa y se incluye en la lista de profesores. Este procedimiento se repite 30 veces para extraer la mayor cantidad posible de códigos de profesores. Finalmente, la función retorna una lista que contiene el código de todos los profesores de la Univerisdad Nacional de Colombia y la Universidad de los Andes.

In [2]:
# Get careers.
def getCareers(url):
    r = requests.get(url)
    data = r.text
    carreras = list()

    while(data.find("slug") > 0):
        ini_pos = data.find("slug") + 7
        contador = ini_pos
        name = ""
        while(data[contador] != ','):
            name += data[contador]
            contador += 1
        name = name[0: len(name) - 1]
        if name not in carreras:
            carreras.append(name)
        data = data[ini_pos + len(name):]
    return carreras

# Get teacher's careers
def getTeachers(url, num_request = 1):
    nombres_profesores = list()
    for i in range(0, num_request):
        r = requests.get(url)
        data = r.text

        while(data.find("slug") > 0):
            ini_pos = data.find("slug") + 7
            contador = ini_pos
            name = ""
            while(data[contador] != ','):
                name += data[contador]
                contador += 1
            name = name[0: len(name) - 1]
            if name not in nombres_profesores:
                nombres_profesores.append(name)
            data = data[ini_pos + len(name): ]
        time.sleep(0.5)
    return nombres_profesores

In [None]:
# Get teacher's code from all departments of UNAL & UniAndes.
profesores_departamento = list()
profesores_universidad = list()

for university in ["universidad-nacional", "universidad-de-los-andes"]:
    university_url = "https://api.losestudiantes.co/universidades/" + university + "/programas/"

    for career in getCareers(university_url):
        
        #print(get_careers(university_url))
        
        career_url = university_url + career + "/sample"
        career_url = career_url.replace("programas", "programa")
        
        #print(career)
        print(career_url)
        
        profesores_departamento.append(getTeachers(career_url, num_request = 30))
        print(career, " processed...")
        
    profesores_universidad.append(profesores_departamento)
    print(university, " processed...")

In [None]:
# Show teacher's code from all departments of UNAL & UniAndes.
for university in ["universidad-nacional", "universidad-de-los-andes"]:
    university_url = "https://api.losestudiantes.co/universidades/" + university + "/programas/"

    print("Universidad: ", university)
    print("")
    careers = getCareers(university_url)
    
    for career in careers:
        lista_docente = profesores_universidad[dict[university]][careers.index(career)]
        print("Carrera: ", career)
        print(lista_docente)
        print("")

In [None]:
# Get reviews and califications of all departments of UNAL & UniAndes.
dict = { "universidad-nacional": 0, "universidad-de-los-andes": 1 }

for university in ["universidad-nacional", "universidad-de-los-andes"]:
    
    university_url = "https://api.losestudiantes.co/universidades/" + university + "/programas/"
    careers = getCareers(university_url)
    
    for career in careers:
        lista_docente = profesores_universidad[dict[university]][careers.index(career)]
        
        for profesor in lista_docente:
            
            if career == "administracion-de-empresas": 
                career = "administracion-y-contaduria-publica"
            
            link_profesor = "https://losestudiantes.co/" + university + "/" + career + "/profesores/" + profesor    
            r = requests.get(link_profesor)
            data = r.text
            
            if(data == "El profesor o el link que buscas no existe"):
                print("Enlace roto: ", link_profesor)
            
            soup = BeautifulSoup(data, "lxml")
            posts = soup.find_all("li", class_="jsx-1682178024 post")

            for p in posts:
                opinion = p.find("div", class_ = "jsx-1682178024 lineBreak").getText()
                if opinion != "":
                    opinion = opinion.replace("Pros", "").replace("Cons", "")    
                    opiniones.append(opinion)
                    calificacion_docente = float(p.find("span", class_ = "jsx-1682178024 numeroStats").getText()) 
                    calificaciones.append(calificacion_docente)

            # Sleep the robot.
            time.sleep(0.1)
            
            # Print message.
            print("Procesando... ", profesor)

print("Finalizado.")

In [None]:
# Save dataframe with reviews and califications.
d = {"Review": opiniones, "Calification": calificaciones}
df = pd.DataFrame(data = d)
df.to_csv("./opiniones6.csv")

**4.2 Procesamiento de Datos.**

---
A continuación, se presentan y explican los algoritmos descritos en apartado de procesamiento de datos en la sección 2.

4.2.1. $spacy_{tokenizer}(sentence)$: Esta función recibe por parámetro una sentencia e inicializa el objeto "nlp" de Spacy. Paso seguido, segmenta la sentencia en palabras y signos de puntuación, elimina los signos de puntuación; a cada palabra le asigna su forma base, filtra las *stopwords* y elimina los números de la sentencia. Finalmente retorna una lista con las palabras clave.

In [3]:
def spacy_tokenizer(sentence):
    
    # Initialize nlp objetct.
    sentence = nlp(sentence)
    
    # Generate list.
    mytokens = [token.lemma_.lower().strip() for token in sentence]
    mytokens = [token for token in mytokens if token not in stopwords and token not in punctuations]
    
    # Eliminate numbers.
    for word in range(0, len(mytokens)): 
        try: 
            if(int(mytokens[word]) > 0):
                mytokens[word] = 0
        except: 
            pass  
    mytokens = list(dict.fromkeys(mytokens))
    try:
        mytokens.remove(0)
    except:
        pass 
    
    # Return array clean message.
    return mytokens 

In [4]:
# Load data.
df = pd.read_csv("./opiniones5.csv")
df.drop("Unnamed: 0", axis = 1, inplace = True)

# Eliminate duplicated rows.
df.drop_duplicates(subset = "Review", keep = False, inplace = True)
df.reset_index(inplace = True)
df.drop(["index"], axis = 1, inplace = True)

# Show df head.
for i in range(0, 10):
    print(df["Review"][i])
    print("")

Excelente profesora, se aprende un montón y la clase es muy entretenida y usa muchos ejemplos parahacer mas comprensibles los temas.: Entretenido: Parciales un poco complejos

Excelente docente, muy recomendada para ver derecho laboral.: Explica los temas con paciencia y con muchos ejemplos.
Los parciales son sencillos y corresponden a lo visto en clase.
Se abarcan todos los temas del programa.
Es muy atenta respondiendo dudas

En el area de mercados es la mejor profesora que tiene la facultad.
Se entiende todo lo que explica, las clases son entretenidas e interactivas, usa muchos ejemplos y los temas se interiorizan. 
Su metodología es sencilla.

: Facil
Entretenido
Temas interesantes: Hermético 
A veces la unica respuesta correcta, es la que el quiere.

Es un muy buen profesor, muy didáctico, y hace a los estudiantes muy participes en sus clases

Excelente profesor, muy buena dinámica en clases, muy dinámico, propone actividades extracurriculares y explica muy bien todos los temas y 

In [5]:
# Load libraries.
import spacy
from spacy.lang.es.stop_words import STOP_WORDS
from spacy.lang.es import Spanish
import string

# Initialize objects.
punctuations = string.punctuation
parser = Spanish()
stopwords = list(STOP_WORDS)
nlp = spacy.load("es_core_news_sm")

# Add additional stopwords.
additional_stopwords = "y a e i o u ...".split()
for s in additional_stopwords:
    stopwords.append(s)
stopwords.remove("no")

In [6]:
# Generate Corpus.
corpus = list()
for i in range(0, len(df)):
    review = " ".join(spacy_tokenizer(df["Review"][i]))
    corpus.append(review)

In [7]:
# Print some reviews proccesed.
for j in range(0, 10):
    print(corpus[j])

excelente profesor aprender montón clase entretenido parahacer comprensible temer parciales complejo
excelente docente recomendar parir derecho laboral explica temer paciencia parcial sencillo corresponder vestir clase abarcar programar atento responder dudar
area mercar profesor facultar entender explicar clase entretenido interactivo temer interiorizan metodología sencillo
facil entretenido temas interesante hermético unica respuesta correcto querer
profesor didáctico estudiante participar clase
excelente profesor dinámico clase proponer actividad extracurricular explicar temer concepto exonera examen
execelente profesor clases evaluación dinamicas divertir creativo motivacion incentivo comer lider no significar facil comentario chiste machista
materia consistir presentación taller individual grupal clase ameno tratar explicar claridad temer extremadamente fácil aprobar llegar minuto tardar desconocer retroalimentación semestre asir noto volátil falta programar cursar no terminar aus

**4.3 Análisis de Datos.**

---
En esta etapa se entrenan y utilizan una serie de algoritmos de aprendizaje de máquina para predecir la clase de las opiniones (buena o mala, 1/0 respectivamente) y predecir la calificación asignada por el estudiante. A continuación, se presentan los modelos de clasificación y regresión empleados.

In [8]:
# Import libraries.

# Feature extraction and model selection.
from sklearn.model_selection import train_test_split
import sklearn.metrics as metrics 
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.metrics import accuracy_score 

# Pipeline and transformer.
from sklearn.base import TransformerMixin 
from sklearn.pipeline import Pipeline

In [9]:
# Custom transformer using spaCy.
class predictors(TransformerMixin):
    def transform(self, X, **transform_params):
        return [clean_text(text) for text in X]
    def fit(self, X, y=None, **fit_params):
        return self
    def get_params(self, deep=True):
        return {}

# Basic function to clean the text 
def clean_text(text):     
    return text.strip().lower()

class DenseTransformer(TransformerMixin):
    def transform(self, X, y=None, **fit_params):
        return X.todense()

    def fit_transform(self, X, y=None, **fit_params):
        self.fit(X, y, **fit_params)
        return self.transform(X)

    def fit(self, X, y=None, **fit_params):
        return self

**4.3.1 Entrenamiento de Clasificadores.**

---


In [10]:
# Machine learning Classification models.
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier

In [11]:
class ClassificatorPredictor():
    
    # Initialize object.
    def __init__(self, model_predictor):
        
        # Set machine learning model.
        self.model_predictor = model_predictor
        
        # Generate sparse matrix.spar
        self.vectorizer = CountVectorizer(tokenizer = spacy_tokenizer, ngram_range=(1, 1), max_features = 1500) 
        
    # Fit the pipe.
    def fit(self, X_train, y_train):
        
        # Create the  pipeline to clean, tokenize, vectorize, and classify 
        self.pipe = Pipeline([("cleaner", predictors()),
                         ('vectorizer', self.vectorizer),
                         ("to_dense", DenseTransformer()),
                         ('classifier', self.model_predictor)])
        
        # Fit our data.
        self.pipe.fit(X_train, y_train)
        
    # Predicting with a test dataset
    def predict(self, X_test):
        self.y_pred = self.pipe.predict(X_test)
        
    # Show results.
    def showResults(self, X_test):
        
        counter = 0
        
        for (sample,pred) in zip(X_test, self.y_pred):
            print("--")
            print(sample, "Predicción => ", pred)
            
            print("")
            counter += 1
            
            if counter >= 5:
                break

    # Get stats.
    def getStats(self, y_test):
        cm = metrics.confusion_matrix(y_test, self.y_pred)
        
        accuracy = (cm[0][0] + cm[1][1]) / (cm[0][0] + cm[0][1] + cm[1][0] + cm[1][1])
        sensitivity = cm[0][0] / (cm[0][0] + cm[1][0])
        specificity = cm[1][1] / (cm[1][1] + cm[0][1])
        report = [accuracy, sensitivity, specificity]
        
        return [cm, report]

In [12]:
# Get reviews & reviews labels.
X = df['Review'].copy()
print(X.head(5))
print(len(X))

y = df.iloc[:, 1].values.copy()
for i in range(0, len(y)):
    if y[i] > 3.5: y[i] = 1
    else: y[i] = 0
y

0    Excelente profesora, se aprende un montón y la...
1    Excelente docente, muy recomendada para ver de...
2    En el area de mercados es la mejor profesora q...
3    : Facil\nEntretenido\nTemas interesantes: Herm...
4    Es un muy buen profesor, muy didáctico, y hace...
Name: Review, dtype: object
2419


array([1., 1., 1., ..., 0., 0., 1.])

In [13]:
# Number of positive review vs negative.
positive = 0
for i in range(0, len(y)):
    if y[i] == 1: positive += 1
print("Positive reviews: ", positive)
print("Negative reviews: ", len(y) - positive)

Positive reviews:  1628
Negative reviews:  791


In [14]:
# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 1)

In [15]:
X_train

607     Clase muy discursiva y dictada casi de memoria...
303     La clase se basa en los textos y en la partici...
521     En su clase aprendí que el vive en Subachoque,...
1070    El es buen profesor, en la magistral hace dorm...
816     Excelente docente. Dedica tiempo a calificar, ...
                              ...                        
960     El profesor maneja y explica muy bien los tema...
905     Es muy mala como profesora, no explica, es inc...
1096    Es un profesor muy bueno en la parte intuitiva...
235     Las clases son super buenas, algunos temas son...
1061    Karen es una profesora tesa, Sabe demasiado, s...
Name: Review, Length: 1935, dtype: object

In [16]:
# Classify function.
def classify(model):
    predictor = ClassificatorPredictor(model)
    predictor.fit(X_train, y_train)
    predictor.predict(X_test)
    
    print("Model Performance: ")
    print(" ")
    
    res = predictor.getStats(y_test)
    
    print("Confusion Matrix: ")
    print(res[0])
    print("----------")
    
    print("Model Stats: ")
    print("Accuracy: ", res[1][0])
    print("Sensitivity: ", res[1][1])
    print("Specificity: ", res[1][2])
    print("----------")
    
    print("Results: ")
    predictor.showResults(X_test)

**Máquina de vectores de soporte (*Support Vector Machine*).**

---

In [17]:
# Support Vector Machine.
classify(LinearSVC(penalty = "l2", loss = "squared_hinge", dual = True, class_weight = {0: 0.6, 1: 0.4}, random_state = 0))

Model Performance: 
 
Confusion Matrix: 
[[ 97  59]
 [ 53 275]]
----------
Model Stats: 
Accuracy:  0.768595041322314
Sensitivity:  0.6466666666666666
Specificity:  0.8233532934131736
----------
Results: 
--
: Incentiva la escritura de textos
Fomenta el trabajo en equipo: Es bastante arbitraria con las notas. 
No se aprende nada
No se apropia de sus responsabilidades con respeto a trabajos.
El trato con sus estudiantes es muy preferencial.
Pone sus situaciones particulares sobre la responsabilidad laboral.
Es dispersa con respecto a la asignación de trabajos y a las explicaciones teóricas.   Predicción =>  0.0

--
Muy buen profesor, se esmera bastante por hacer que los estudiantes entendamos, si tiene que devolverse, se devuelve. En el curso de Sobrevivencia hizo únicamente el primer parcial y los otros fueron exposiciones. Excelente profesor y excelente materia Predicción =>  1.0

--
no se aprende : no se aprende  Predicción =>  0.0

--
Excelente profesor y persona. Es gran conocedor 

**Bosques aleatorios de clasificación (*Random Forest Classification*).**

---

In [18]:
# Random Forest Classifier Model.
classify(RandomForestClassifier(n_estimators = 100, criterion = "entropy", max_depth = 30, class_weight = {0: 0.6, 1: 0.4}, random_state = 0))

Model Performance: 
 
Confusion Matrix: 
[[ 87  69]
 [ 19 309]]
----------
Model Stats: 
Accuracy:  0.8181818181818182
Sensitivity:  0.8207547169811321
Specificity:  0.8174603174603174
----------
Results: 
--
: Incentiva la escritura de textos
Fomenta el trabajo en equipo: Es bastante arbitraria con las notas. 
No se aprende nada
No se apropia de sus responsabilidades con respeto a trabajos.
El trato con sus estudiantes es muy preferencial.
Pone sus situaciones particulares sobre la responsabilidad laboral.
Es dispersa con respecto a la asignación de trabajos y a las explicaciones teóricas.   Predicción =>  0.0

--
Muy buen profesor, se esmera bastante por hacer que los estudiantes entendamos, si tiene que devolverse, se devuelve. En el curso de Sobrevivencia hizo únicamente el primer parcial y los otros fueron exposiciones. Excelente profesor y excelente materia Predicción =>  1.0

--
no se aprende : no se aprende  Predicción =>  0.0

--
Excelente profesor y persona. Es gran conocedor

**4.3 Entrenamiento de Regresores.**

---
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas eleifend gravida neque, nec vulputate turpis imperdiet vel. Suspendisse sagittis vulputate ex sit amet facilisis. Curabitur porttitor dictum urna eget elementum. Mauris et cursus leo, ut aliquet ligula. In hac habitasse platea dictumst. Vestibulum ante ipsum primis in faucibus orci luctus et ultrices posuere cubilia Curae; Nulla rutrum urna at interdum interdum.

In [19]:
# Machine learning Regression Models.
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.tree import DecisionTreeRegressor

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import RandomForestRegressor

In [20]:
class RegressorPredictor():
    
    # Initialize object.
    def __init__(self, model_predictor):
        
        # Set machine learning model.
        self.model_predictor = model_predictor
        
        # Generate sparse matrix.spar
        self.vectorizer = CountVectorizer(tokenizer = spacy_tokenizer, ngram_range=(1, 1), max_features = 1500)
        
    # Fit the pipe.
    def fit(self, X_train, y_train):
        
        # Create the  pipeline to clean, tokenize, vectorize, and classify 
        self.pipe = Pipeline([("cleaner", predictors()),
                         ('vectorizer', self.vectorizer),
                         ("to_dense", DenseTransformer()),
                         ('classifier', self.model_predictor)])
        
        # Fit our data.
        self.pipe.fit(X_train, y_train)
        
    # Predicting with a test dataset
    def predict(self, X_test):
        self.y_pred = self.pipe.predict(X_test)
        self.y_pred = np.around(self.y_pred, 1)
        
    # Show results.
    def showResults(self, X_test, y_test):
        
        counter = 0
        for (sample, pred, real) in zip(X_test, self.y_pred, y_test):
            
            print("--")
            
            if(pred > 5): pred = 5
            elif(pred < 0): pred = 0
            else: pass
            
            print(sample, "Predicción => ", pred, " Real => ", real)
            
            print("")
            
            counter += 1
            if counter >= 5:
                break

    # Get stats.
    def getStats(self, y_test):
        
        print("Max error: ", metrics.max_error(y_test, self.y_pred))
        print("Mean absolute error: ", metrics.mean_absolute_error(y_test, self.y_pred))
        print("Mean squared error: ", metrics.mean_squared_error(y_test, self.y_pred))
        #print("Mean squared log error: ", metrics.mean_squared_log_error(y_test, self.y_pred))
        print("Median absolute error: ", metrics.median_absolute_error(y_test, self.y_pred))
        print("r2 score: ", metrics.r2_score(y_test, self.y_pred))

In [21]:
# Get reviews & reviews labels.
X = df['Review'].copy()
print(X.head(5))
print(len(X))

y = df.iloc[:, 1].values.copy()
print(y)

0    Excelente profesora, se aprende un montón y la...
1    Excelente docente, muy recomendada para ver de...
2    En el area de mercados es la mejor profesora q...
3    : Facil\nEntretenido\nTemas interesantes: Herm...
4    Es un muy buen profesor, muy didáctico, y hace...
Name: Review, dtype: object
2419
[5.  5.  5.  ... 1.  2.3 4.2]


In [22]:
# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 1)

In [23]:
X_train

607     Clase muy discursiva y dictada casi de memoria...
303     La clase se basa en los textos y en la partici...
521     En su clase aprendí que el vive en Subachoque,...
1070    El es buen profesor, en la magistral hace dorm...
816     Excelente docente. Dedica tiempo a calificar, ...
                              ...                        
960     El profesor maneja y explica muy bien los tema...
905     Es muy mala como profesora, no explica, es inc...
1096    Es un profesor muy bueno en la parte intuitiva...
235     Las clases son super buenas, algunos temas son...
1061    Karen es una profesora tesa, Sabe demasiado, s...
Name: Review, Length: 1935, dtype: object

In [24]:
# Classify function.
def predict(model):
    
    predictor = RegressorPredictor(model)
    predictor.fit(X_train, y_train)
    predictor.predict(X_test)
    
    print("Model Performance: ")
    print("----")
    predictor.getStats(y_test)
    print("----")
    print(" ")
    
    print("Results: ")
    predictor.showResults(X_test, y_test)

**Regresor de Gradiente Ascendente (*Gradient Boosting Regressor*).**

---

In [25]:
# Gradient Boosting Regressor.
predict(GradientBoostingRegressor(loss = "ls", learning_rate = 0.1, criterion = "friedman_mse", random_state= 1, n_estimators = 100))

Model Performance: 
----
Max error:  2.8
Mean absolute error:  0.7231404958677686
Mean squared error:  0.8660330578512396
Median absolute error:  0.5999999999999996
r2 score:  0.3959570929876235
----
 
Results: 
--
: Incentiva la escritura de textos
Fomenta el trabajo en equipo: Es bastante arbitraria con las notas. 
No se aprende nada
No se apropia de sus responsabilidades con respeto a trabajos.
El trato con sus estudiantes es muy preferencial.
Pone sus situaciones particulares sobre la responsabilidad laboral.
Es dispersa con respecto a la asignación de trabajos y a las explicaciones teóricas.   Predicción =>  2.4  Real =>  1.5

--
Muy buen profesor, se esmera bastante por hacer que los estudiantes entendamos, si tiene que devolverse, se devuelve. En el curso de Sobrevivencia hizo únicamente el primer parcial y los otros fueron exposiciones. Excelente profesor y excelente materia Predicción =>  4.8  Real =>  5.0

--
no se aprende : no se aprende  Predicción =>  3.5  Real =>  1.5

--

**Bosques aleatorios de regresión (*Random Forest Regression*).**

---

In [26]:
# RandomForest Regression.
predict(RandomForestRegressor(n_estimators = 100, criterion = "mse", max_depth = 30, random_state = 0))

Model Performance: 
----
Max error:  3.2
Mean absolute error:  0.6925619834710744
Mean squared error:  0.8802479338842977
Median absolute error:  0.5
r2 score:  0.38604246563710054
----
 
Results: 
--
: Incentiva la escritura de textos
Fomenta el trabajo en equipo: Es bastante arbitraria con las notas. 
No se aprende nada
No se apropia de sus responsabilidades con respeto a trabajos.
El trato con sus estudiantes es muy preferencial.
Pone sus situaciones particulares sobre la responsabilidad laboral.
Es dispersa con respecto a la asignación de trabajos y a las explicaciones teóricas.   Predicción =>  2.4  Real =>  1.5

--
Muy buen profesor, se esmera bastante por hacer que los estudiantes entendamos, si tiene que devolverse, se devuelve. En el curso de Sobrevivencia hizo únicamente el primer parcial y los otros fueron exposiciones. Excelente profesor y excelente materia Predicción =>  4.7  Real =>  5.0

--
no se aprende : no se aprende  Predicción =>  3.6  Real =>  1.5

--
Excelente pro

### 5. Discusión.

---

Como se mencionó en la sección 2 del proyecto, la ponderación de clases como mecanismo para solventar el imbalanceo de datos entre la clase mayoritaria (opiniones "buenas") vs la clase minoritaria (opiniones "malas") permitió obtener un incremento significativo tanto en la sensitividad como la sensibilidad de los modelos de clasificación utilizados (tras realizar varios intentos, se determinó que una ponderación del 60% para la clase minoritaria y un 40% para la clase mayoritaria permitía maximizar estos ratios). En el caso de los resultados obtenidos por la máquina de vectores de soporte, a pesar del ajuste de distintos hiperparámetros, no fue posible obtener una sensitividad mayor al 70% (lo anterior, puede deberse a la poca linearidad que caracteriza al problema). En contraste, el modelo de bosques de árboles de decisión para la clasificación de observaciones obtuvo excelentes resultados, logrando una precisión, sensitividad y sensibildidad mayores al 80% (dos de las características fundamentales para lograr este desempeño fueron la selección del peso de las clases y la máxima profundidad [30] que se permitió para los árboles). Adicionalmente, como criterio de clasificación se utilizó la *entropía*. 

Por otro lado, para los modelos de regresión resultó crítico el reducido tamaño del conjunto de datos (un poco más de 2.000 observaciones) y la poca exploración de vari, lo que se reflejó en las medidas de desempeño de los dos modelos de aprendizaje de máquina empleados para esta tarea, cuyos $R^2$ no lograron pasar de 0.4. Lo anterior, impedía que los regresores se entrenaran lo suficiente, resultando en predicciones muy alejadas de las califaciones reales. Adicionalmente, otro factor que influyó en la pobre capacidad predictiva de los modelos, fue el hecho de no reconocer qué variables

### 6. Conclusiones.

---

**I)** Como parte de futuros trabajos de investigación en esta materia, se debe trabajar en mejorar el procesamiento de los textos de las opiniones, esto es, desarrollar mejores algorítmos para los procesos de lematización y tokenización de las sentencias. Asímismo, es importante incluir un componente que analice la similaridad de las palabras y el contexto de las sentencias. Lo anterior, permitirá desarrollar algoritmos de clasificación y regresión más eficaces y acertados.

**II)** Para futuros avances de este proyecto, se debe desarrollar un mecanismo para medir de manera precisa el nivel de relevancia de cada palabra dentro del modelo. Lo anterior, con la finalidad de eliminar las palabras que poco le aportan al mismo al momento de clasificar la categoría de nuevas opiniones o predecir la calificación asignada por un estudiante. Adicionalmente, se deben explorar nuevos métodos de aprendizaje de máquina de regresión y clasificación, enfatizando en métodos de ensamble (para incrementar la probabilidad de tener predicciones y clasificaciones correctas), así como el ajuste óptimo de sus parámetros para aumentar el nivel de acertividad de los modelos.

**III)** La base de datos utilizada para este proyecto, tan sólo incluía un poco más de 2.000 opiniones, lo que resultó en una cantidad insuficiente de observaciones para entrenar a los algoritmos de clasificación y regresión. Por esta razón, y como parte de futuros avances de este proyecto, se podría desarrollar un módulo que le permita a los modelos de aprendizaje de máquina extraer nuevas opiniones del portal y entrenarse en tiempo real. Esto, con la finalidad de obtener mejores regresores y clasificadores.

### 7. Bibliografía.

---

1. Amsantac.co. (20 de septiembre del 2016). ¿Por qué es importante trabajar con datos balanceados para clasificación? Recuperado de: http://amsantac.co/blog/es/2016/09/20/balanced-image-classification-r-es.html

2. Campbell & Colin (2000). Support Vector Machines: Hype or Hallelujah? SIGKDD Explorations. 2 (2): 1–13. Recuperado de: https://dl.acm.org/citation.cfm?doid=380995.380999

3. Ho, Tin Kam (1995). Random Decision Forests. Proceedings of the 3rd international Conference on Document Analysis and Recognition, Montreal, QC, 14-16 Agosto 1995. pp. 278-282. Recuperado de: https://web.archive.org/web/20160417030218/http://ect.bell-labs.com/who/tkh/publications/papers/odt.pdf

4. Mariani J, Francopoulo G & Paroubek P. (7 de febrero del 2019) The NLP4NLP Corpus (I): 50 Years of Publication, Collaboration and Citation in Speech and Language Processing. Recuperado de https://www.frontiersin.org/articles/10.3389/frma.2018.00036/full

5. Khurana. D, Koli. A, Khatter. K, Singh S. (2017). Natural Language Processing: State of The Art, Current Trends and Challenges. Recuperado de: https://www.researchgate.net/publication/319164243_Natural_Language_Processing_State_of_The_Art_Current_Trends_and_Challenges.

6. Scikit-learn.org (s.f). Gradient Tree Boosting. Recuperado de: https://scikit-learn.org/stable/modules/ensemble.html#gradient-tree-boosting