**Minería de Datos**

*CC5205-1 - Otoño 2022*

Integrantes:
- Felipe Urrutia
- Camilo Carvajal
- Gianluca Musso
- Jose Ignacio Saffie
- Matias Lopez Roman

## Introducción

Durante los últimos años hemos vivido un aumento considerable tanto en la cantidad y acceso a grandes cantidades de datos, como también a un poder de cálculo que ha proliferado las posibilidades para procesar estos.
En este contexto, el procesamiento de lenguaje natural ha adquirido un rol protagónico. A los métodos estadísticos y probabilísticos se le ha agregado modelos de lenguaje con impresionantes capacidades para procesar, clasificar en incluso generar texto. 

Una de sus tareas más populares ha sido el análisis de sentimiento, que trata de predecir el valor emocional de algún documento. Esta es una tarea difícil incluso para seres humanos, pero muy útil puesto a que sus aplicaciones son variadas. Por ejemplo, es de interés para  una empresa saber el sentimiento de los clientes hacia sus productos. Esto se puede lograr procesando grandes cantidades de tweets o de reseñas. 
En su versión más explorada, el análisis de sentimiento trata de predecir cuan positivo o negativo es un mensaje, sin embargo este proceso puede ser refinado aún más. La complejidad del lenguaje humano nos sugiere que podemos considerar modelar el valor sentimental de un mensaje en un muchas más dimensiones.

El dataset **Multilingual Emoji Prediction** (Barbieri et al. 2010, descargable [con este link](https://github.com/fvancesco/Semeval2018-Task2-Emoji-Detection/blob/master/dataset/Semeval2018-Task2-EmojiPrediction.zip?raw=true)) contiene alrededor de 500k tweets, todos conteniendo un emoji, de un conjunto de 20 comúnmente usados. El desafío de base es predecir el emoji en cuestión desde el texto del tweet. Esta tarea puede ser interpretada como una de análisis de sentimiento multimodal puesto a que el emoji comúnmente denota información no verbal del mensaje o contexto, muchas veces emocional.

Barbieri, F., Camacho-Collados, J., Ronzano, F., Espinosa Anke, L., Ballesteros, M., Basile, V., ... & Saggion, H. (2018). Semeval 2018 task 2: Multilingual emoji prediction. In 12th International Workshop on Semantic Evaluation (SemEval 2018) (pp. 24-33). Association for Computational Linguistics. [http://dx.doi.org/10.18653/v1/S18-1003](http://dx.doi.org/10.18653/v1/S18-1003)

Librerias

In [1]:
import pandas as pd
import numpy as np
# pd.set_option("max_rows", None)
import pickle
from string import punctuation
import re

from sklearn.metrics import cohen_kappa_score
import matplotlib.pyplot as plt
import seaborn as sns
# from astropy.visualization import hist
sns.set_theme(style="whitegrid")
plt.rc('axes', titlesize=14)
plt.rc('legend', fontsize=14)
plt.rc('xtick', labelsize=12)
plt.rc('ytick', labelsize=12)
plt.rcParams.update({'font.size': 16})
plt.rcParams['axes.titlesize'] = 16
plt.rcParams["figure.figsize"] = (10, 6)
plt.rcParams.update({'lines.markeredgewidth': 1})
plt.rcParams.update({'errorbar.capsize': 2})
import random
import plotly.express as px

### Rutas

```
Data
|-mapping
|--df_es_mapping.pickle
|--df_us_mapping.pickle
|--es_mapping.txt
|--us_mapping.txt
|-test
|--df_es_test.pickle
|--df_us_test.pickle
|--es_test.labels
|--es_test.text
|--us_test.labels
|--us_test.text
|-trial
|--df_es_trial.pickle
|--df_us_trial.pickle
|--es_trial.labels
|--es_trial.text
|--us_trial.labels
|--us_trial.text
|--[train]
|--df_es_train.pickle
|--df_us_train.pickle
```

In [14]:
file_names = {
    "df_es_mapping": "../../Data/mapping/df_es_mapping.pickle",
    "df_us_mapping": "../../Data/mapping/df_us_mapping.pickle",
    
    "df_es_test": "../../Data/test/df_es_test.pickle",
    "df_us_test": "../../Data/test/df_us_test.pickle",
    
    "df_es_train": "../../Data/train/df_es_train.pickle",
    "df_us_train": "../../Data/train/df_us_train.pickle",
    
    "df_es_trial": "../../Data/trial/df_es_trial.pickle",
    "df_us_trial": "../../Data/trial/df_us_trial.pickle",
}

## Leer mapping

### ES

In [11]:
df_es_mapping = pickle.load(open(file_names["df_es_mapping"], "rb"))
df_es_mapping

Unnamed: 0,label,emoji,name
0,0,❤,_red_heart_
1,1,😍,_smiling_face_with_hearteyes_
2,2,😂,_face_with_tears_of_joy_
3,3,💕,_two_hearts_
4,4,😊,_smiling_face_with_smiling_eyes_
5,5,😘,_face_blowing_a_kiss_
6,6,💪,_flexed_biceps_
7,7,😉,_winking_face_
8,8,👌,_OK_hand_
9,9,🇪🇸,_Spain_


### US

In [12]:
df_us_mapping = pickle.load(open(file_names["df_us_mapping"], "rb"))
df_us_mapping

Unnamed: 0,label,emoji,name
0,0,❤,_red_heart_
1,1,😍,_smiling_face_with_hearteyes_
2,2,😂,_face_with_tears_of_joy_
3,3,💕,_two_hearts_
4,4,🔥,_fire_
5,5,😊,_smiling_face_with_smiling_eyes_
6,6,😎,_smiling_face_with_sunglasses_
7,7,✨,_sparkles_
8,8,💙,_blue_heart_
9,9,😘,_face_blowing_a_kiss_


## Leer train

### ES

In [19]:
df_es_train = pickle.load(open(file_names["df_es_train"], "rb"))
df_es_train

Unnamed: 0,id,text,label
0,793417168469757952,Es imposible quererte más @ Plaza Del Callao -...,0
1,718539939063926790,Disfrutando de buena comida con buena compañía...,4
2,670562346067193856,Muchísimas Felicidades M!!! Nos vemos pronto! ...,11
3,783680728538214400,Y pensar que a esta persona la conozco de hace...,11
4,711210617043075073,¡Que buenas son las noches así y que buena com...,17
...,...,...,...
81321,693547861850656768,Cena en Madrid. Plan perfecto para descansar d...,1
81322,784491802363621382,Cuando este triste miraré esta batalla de gall...,2
81323,676127438141714432,@user cooooomoooo me hueeeeeleeeee a olviiiido...,5
81324,701682622695657472,Mi amor @ Bar Concha Velasco Almendralejo,0


Analizar frecuencia de emojis para el dataset/train

In [20]:
df_es_train.merge(df_es_mapping, how="right", on="label")["emoji"].value_counts()

❤     16102
😍     11429
😂      7725
😊      5448
💕      5348
😘      3660
💪      3124
😉      3117
👌      2884
🇪🇸     2757
😎      2610
💙      2357
😜      2289
💜      2211
😁      2203
🎶      2112
💞      2041
✨      2006
💘      1903
Name: emoji, dtype: int64

### US

In [17]:
# analogo

## Leer test

In [16]:
# analogo

## Leer trial

In [16]:
# analogo

### Ideas exploración

- medidas de tendencia central para la frecuencia de los emoji (con dispersión)
- medidas de tendencia central para tweet length
- cuantiles para lo anterior
- graficar la frecuencia de emojis en los 3 sets
- graficar cuantiles de longitud
- frecuencia de palabras, con cuantiles. pre y post stemming
- covarianza y/o tablas de contingencia, entre palabras y emojis

Buena reu!