<img src="https://drive.google.com/uc?export=view&id=1AQr9H9bXDeNPchTRufU78g8z0yxHvrmC" width="100%">

# **Entendimiento del Negocio y Carga de Textos**
---

Desarrollado por:
```
* Manuel Huertas    manuelhuertasfl@gmail.com
* Jose Lugo         jlugon@unal.edu.co
* Sebastian Valdes  js.valdes@uniandes.edu.co

```

## **1. Marco de Proyecto**
---

Normalmente, se suele construir un marco de proyecto para mostrar los resultados del entendimiento del negocio, es decir, debemos dar respuesta a los siguientes elementos:

### **1.1. Trasfondo del Negocio**
---

En la actualidad, gracias a Internet, se han desarrollado diversas formas de conectarse y comunicarse con personas de todo el mundo, desde las redes sociales hasta los videojuegos en línea, donde es posible interactuar tanto para obtener información y conocimiento como para disfrutar de momentos de entretenimiento. 
Por esta razón, en los últimos años, cada vez más empresas han estado dispuestas a ingresar al mundo digital debido a la gran cantidad de usuarios que utilizan estas plataformas. 
Esto, a su vez, ha incrementado las comunidades virtuales y fortalecido los lazos resultantes.

Sin embargo, también se ha observado un aumento en la violencia o toxicidad, como se refleja en diversas encuestas. 
Según una encuesta realizada por el centro de investigación Pew Research Center, el 40% de los encuestados manifestó haber sido víctima de violencia o toxicidad en las redes, siendo con frecuencia objeto de violencia sexual o acoso. 
Además, los encuestados informan con mayor frecuencia sobre este tipo de comportamientos, como se ha registrado entre 2014 y 2020.[[1]](https://www.pewresearch.org/internet/2021/01/13/the-state-of-online-harassment/).

Por esta razón las empresas dueñas de estos espacios de interacción tienen la necesidad de usar filtros que permitan a sus usuarios compartir en el mundo digital sin estar expuestos a acoso por parte de otros, lo que afecta negativamente la experiencia que proveen. Empresas como Jigsaw y Google, ambas subsidiarias de Alphabet, han realizado esfuerzos para mitigar esta problemática. 
Por lo cual se han desarrollado filtros que permiten distinguir mensajes de odio que se reproducen en las redes con el fin de sancionar o limitar el acceso de usuarios que recurren a estas prácticas, no obstante los filtros a menudo fallan y enmarcan como discursos de odio mensajes que en su fondo no lo son, llevando a falsos positivos y posibles sanciones a usuarios que no están infringiendo las reglas de la comunidad, y así afectando la experiencia en general de todos modos.

Es por esto que el presente trabajo busca identificar los mensajes violentos o de acoso que afectan estas comunidades, a la vez que se mantiene la calidad de la experiencia para los usuarios de forma que se permita tener comunidades y espacios seguros que no se vean afectados por filtros sesgados, con altos niveles de falsos positivos.

### **1.2. Alcance**
---

Para aliviar los problemas de toxicidad en las redes, este proyecto tiene como objetivo desarrollar un modelo capaz de clasificar los comentarios tóxicos, de interacciones en línea, que permita a las empresas, como Jigsaw y Google que tienen aplicaciones con interacción de usuarios, reconocer de una manera efectiva los niveles de violencia en redes, y que controle los falsos positivos que generan los filtros tradicionales. 
Por lo tanto el modelo debe ser sensible a diferentes contextos y debe poder distinguir los discursos de odio de los mensajes donde solo se mencionan palabras que sin serlo están asociadas a discursos de odio, como la palabra gay en inglés, o retrazo en español.

### **1.3. Plan**
---

Puede agregar una lista de actividades con tiempos estimados, un diagrama de Gantt o integrar alguna herramienta de gestión de proyectos para mostrar la planeación del proyecto.

| Fechas                         | Actividades                                                                                      |
|--------------------------------|--------------------------------------------------------------------------------------------------|
| 14 de Febrero - 21 de Febrero   | Entendimiento de negocio y carga de los datos.                                                    |
| 22 de Febrero - 29 de Febrero   | Recopilación y limpieza de un conjunto de datos diverso y representativo.                         |
| 1 de Marzo - 7 de Marzo         | Desarrollo de modelos de NLP que puedan reconocer diferentes formas y subtipos de toxicidad en los comentarios. |
| 8 de Marzo - 14 de Marzo         | Implementación de mecanismos para detectar y reducir el sesgo en los modelos, asegurando que el reconocimiento de toxicidad no se vea influenciado negativamente por sesgos preexistentes en los datos. |
| 15 de Marzo - 18 de Marzo        | Evaluación y optimización continua del modelo utilizando métricas específicas para medir el sesgo no intencionado y la precisión en la detección de toxicidad. |


## **2. Definición del Corpus**
---

El corpus a usar para el desarrollo del proyecto proviene de Kaggle y se encuentra con el nombre de *“Jigsaw Unintended Bias in Toxicity Classification”* ([link a Kaggle](https://www.kaggle.com/competitions/jigsaw-unintended-bias-in-toxicity-classification/)).

Este es un dataset con aproximadamente 1.97 millones comentarios de la plataforma *Civil Comments* ([más información](https://medium.com/@aja_15265/saying-goodbye-to-civil-comments-41859d3a2b1d)), creados entre 2015 y 2017 por usuarios angloparlantes.

La columna principal del corpus es *comment_text*, que incluye el texto de cada comentario. 
Cada comentario está acompañado por una etiqueta principal de toxicidad (*target*), un número de 0 a 1, que indica la proporción de evaluadores que consideraron el comentario como tóxico. 
Además, el conjunto de datos incluye etiquetas para subtipos de toxicidad como *severe_toxicity*, *obscene*, *threat*, *insult*, *identity_attack* y *sexual_explicit*.

El conjunto de datos también incluye atributos de identidad, según sean mencionadas en el comentario correspondiente. 
Estos atributos abarcan categorías como **género** (*male*, *female*, *transgender*, *other_gender*), **orientación sexual** (*heterosexual*, *homosexual_gay_or_lesbian*, *bisexual*, *other_sexual_orientation*), **religión** (*christian*, *jewish*, *muslim*, *hindu*, *buddhist*, *atheist*, *other_religion*), **raza** o **etnicidad** (*black*, *white*, *asian*, *latino*, *other_race_or_ethnicity*), y **discapacidad** (*physical_disability*, *intellectual_or_learning_disability*, *psychiatric_or_mental_illness*, *other_disability*).

Además el corpus se encuentra particionado en los conjuntos de entrenamiento y prueba. 
El primero cuenta con 1'804.874 entradas, mientras que la partición de prueba tiene un total de 97.320 filas (Aunque no se hará uso de todas ya que el corpus es de tamaño considerable).

Algunos ejemplos del dataset:
* Ejemplo 1
```
Comentario: i'm a white woman in my late 60's and believe me, they are not too crazy about me either!!

Etiquetas de toxicidad: All 0.0
Etiquetas de mención de identidades: female: 1.0, white: 1.0 (all others 0.0)
```
* Ejemplo 2
```
Comentario: Continue to stand strong LGBT community. Yes, indeed, you'll overcome and you have.

Etiqueta de toxicidad: All 0.0
Etiquetas de mención de identidades: homosexual_gay_or_lesbian: 0.8, bisexual: 0.6, transgender: 0.3 (all others 0.0)
```

El dataset se encuentra disponible en la plataforma de Kaggle, bajo el título mencionado anteriormente, y también fué subido a Google Drive como un archivo público.


### **2.2. Carga o Adquisición de Textos**
---

In [None]:
%pip install gdown

In [5]:
import gdown  # libreria para descargar archivos grandes desde Google Drive
import pandas as pd

In [4]:
file_id = '1D31Z6sUCVUynRyimxs2n8rrULnlwhP9l'
url = f'https://drive.google.com/uc?id={file_id}'
output = 'data/jigsaw_data.zip'
gdown.download(url, output)

Downloading...
From (original): https://drive.google.com/uc?id=1D31Z6sUCVUynRyimxs2n8rrULnlwhP9l
From (redirected): https://drive.google.com/uc?id=1D31Z6sUCVUynRyimxs2n8rrULnlwhP9l&confirm=t&uuid=8933c1bc-b9a9-4473-a3a9-a87b685c9840
To: c:\Users\LENOVO\Documents\Programming\unalNLP_proj\data\jigsaw_data.zip
100%|██████████| 325M/325M [00:07<00:00, 46.1MB/s] 


'data/jigsaw_data.zip'

In [9]:
comments = pd.read_csv(output, dtype=str)
print(f"El dataset tiene {comments.shape[0]} filas y {comments.shape[1]} columnas.")
comments.head()

El dataset tiene 1999516 filas y 46 columnas.


Unnamed: 0,id,comment_text,split,created_date,publication_id,parent_id,article_id,rating,funny,wow,...,white,asian,latino,other_race_or_ethnicity,physical_disability,intellectual_or_learning_disability,psychiatric_or_mental_illness,other_disability,identity_annotator_count,toxicity_annotator_count
0,1083994,He got his money... now he lies in wait till a...,train,2017-03-06 15:21:53.675241+00,21,,317120,approved,0,0,...,,,,,,,,,0,67
1,650904,Mad dog will surely put the liberals in mental...,train,2016-12-02 16:44:21.329535+00,21,,154086,approved,0,0,...,,,,,,,,,0,76
2,5902188,And Trump continues his lifelong cowardice by ...,train,2017-09-05 19:05:32.341360+00,55,,374342,approved,1,0,...,,,,,,,,,0,63
3,7084460,"""while arresting a man for resisting arrest"".\...",test,2016-11-01 16:53:33.561631+00,13,,149218,approved,0,0,...,,,,,,,,,0,76
4,5410943,Tucker and Paul are both total bad ass mofo's.,train,2017-06-14 05:08:21.997315+00,21,,344096,approved,0,0,...,,,,,,,,,0,80


## **Créditos**

* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
    - [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
    - [Rosa Alejandra Superlano Esquibel](mailto:rsuperlano@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*