## Exploratory Analysis



In [75]:
%load_ext autoreload
%autoreload 2
import os

from glob import glob
import pandas as pd

def get_lang(file):
    return os.path.splitext(os.path.basename(file))[0]

def load_df(file):
    dialect = get_lang(file)
    
    df = pd.read_table(file, names=["id", "text", "polarity"], index_col=0)
    df["dialect"] = dialect
    
    return df

train_files = glob("../data/tass2020/train/*.tsv")
dev_files = glob("../data/tass2020/dev/*.tsv")
test_files = glob("../data/tass2020/test1.1/*.tsv")

train_dfs = {get_lang(file):load_df(file) for file in train_files}
dev_dfs = {get_lang(file):load_df(file) for file in dev_files}
test_dfs = {get_lang(file):load_df(file) for file in test_files}

train_df = pd.concat(train_dfs.values())
dev_df = pd.concat(dev_dfs.values())
test_df = pd.concat(test_dfs.values())

print(len(train_df), len(dev_df), len(test_df))

train_df.columns, dev_df.columns, test_df.columns

4802 2443 7264


(Index(['text', 'polarity', 'dialect'], dtype='object'),
 Index(['text', 'polarity', 'dialect'], dtype='object'),
 Index(['text', 'polarity', 'dialect'], dtype='object'))

Veamos primero las longitudes (a ver si no hay nada mal cargado)

In [3]:
df = train_df

df["polarity"].value_counts()

N      1885
NEU    1523
P      1394
Name: polarity, dtype: int64

## Ejemplos

In [4]:
pd.options.display.max_colwidth = 200
pd.options.display.max_rows = 100

df[df["polarity"] == "NEU"]

Unnamed: 0_level_0,text,polarity,dialect
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
768529956162924544,@Adriansoler espero y deseo que el interior te cause lo mismo,NEU,es
768557093955698688,"comprendo que te molen mis tattoos, pero no te los hagas 'iguales'",NEU,es
770787189319925760,A mí nunca me podrán hacer una broma porque no cojo llamadas y menos cuando son ocultas,NEU,es
768588061496209408,"@BrujadelTuiters . Estas palabras, del Poema, INSTANTES, son de Nadine Stair. Escritora norteamericana, a la q le gustan los helados.",NEU,es
768506208051494912,@Iluminaughty_ @Spiegel_Spike_ pues me da igual yo escribo lo que pienso ^^ y cuando lo pienso ajajaj si es que lo pienso,NEU,es
...,...,...,...
770138191689093122,Me dijo que no le había gustado no se cuantas cosas pero me estuvo hablando todo el tiempo de eso JAJAJAJJA no entiendo loco,NEU,uy
781329324389597184,Anto te extraño veni a cuidarme,NEU,uy
782750587398000641,Jajajaja mejor que no me la robes Igual vos empezaste!!,NEU,uy
790289281029898241,@JulianeroSoy no te amargues ojala que aparezca y si no bueno,NEU,uy


In [5]:
pd.options.display.max_colwidth = 200

df[df["polarity"] == "P"]

Unnamed: 0_level_0,text,polarity,dialect
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
770616744192929792,"Mi última partida jugada, con Sona support. La grandes razones para jugar Sona https://t.co/2rgmMeAFIs",P,es
769959690092642304,Tranquilos que con el.dinero de Camacho seguro mañana empiezan las escabadoras en el Arraijanal,P,es
770590136828559360,"@daniacal aún no, pero si estará jugable en el TGS no creo que tarde demasiado.",P,es
771339035445002240,#feliz septiembre..es bonito retarse..es increible lo mucho que puedes aprender.. medirse con el obstáculo..eres la joyita de la corona,P,es
768577963885522944,Este año el Madrid hará triplete y si lo hace me rapo al cero grabad el mensaje jejej #ChiringuitoPiqué,P,es
...,...,...,...
780770298270474240,@vivianagarcia73 @anitafb Muchas gracias Sandra por tu ayuda y esperamos que los tips sean útiles para Anita. Seguimos en contacto!,P,uy
761932038349946880,@AlmaHistorica doy fe son espectaculares!!,P,uy
795458175348641792,@grisel_ok si hermoso y esta muy agradecido,P,uy
785432238783619072,Que bueno ver a personas que te alegran Aunque sean sólo 2 minutos,P,uy


In [6]:
pd.options.display.max_colwidth = 200

df[df["polarity"] == "N"]

Unnamed: 0_level_0,text,polarity,dialect
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
768512386269638656,@morbosaborealis jajajaja... eso es verdad... aquí no hay uno cuerdo,N,es
770434744748236800,@ragnomuelle Yo a veces hecho de menos mi pelo largo por eso mismo entre otras cosas,N,es
768596566378774528,Es conveniente tener un Gobierno democrático que cumpla su función politica. NO lo es tener un Gobierno que representa la #corrupciónPP,N,es
768071942096166912,"@Jordicanal64 Pues si no fichan ""lo que sea"" además de un ridículo espantoso igual QSF nos deja plantados...esperemos que no",N,es
772121014436302848,glowen sigue a cuentas inactivas y es en plan oh seguro que esas cuentas te dan mucho más apoyo que a las que le diste unf JAJAJA,N,es
...,...,...,...
782586808651636738,No tuviste infancia si no mezclaste todas las plastilinas con la esperanza de que quedara multicolor y te quedó una cosa marrón asquerosa,N,uy
761356473477820416,#Fiebre #dolorentodoelcuerpo... con #hijobello de enfermero e #hijospeludos,N,uy
799384176994775040,días de frío = agua extremadamente fría para tomar,N,uy
795705345050025984,@gabouy pero antes si era asi es parte de nuestro barranca abajo haber perdido eso,N,uy


## Dataset ya mergeado

In [7]:
test_df

Unnamed: 0_level_0,text,polarity,dialect
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
806714101086978048,Y lo peor fue que perdí la belfie,,CR
806720027038728192,"@Arnaldocaa Ya bebí, pero soy más arrechera que persona",,CR
803478166853615616,"Felicidades, @czulaura . Le debo un cóctel, junto a @Sailorinthesky",,CR
785473239199850496,Aunque pensándolo bien mejor no xq sigo padeciendo d pánico escénico.,,CR
792817362546208768,la mujer que nunca crei que me fuera a escribir me escribio,,CR
...,...,...,...
756565904037670912,Un saludo para don Resentidillo muñoz.! Que sigue esperando que alguien le escriba y le ruegue.!! Jajaja Espero su sillón este cómodo.,,PE
757602234041524224,"Sí, es que se nota que te importa... - Buen intento, a la otra trata de no dar a notar tu desinterés.",,PE
786072417307328512,"@Isoor_ , @iChibolo , @FloroPeruano , @latiachuchi , estoy pasando x un momento muy difícil, un saludito suyo me arrancaría una sonrisa",,PE
794135682876919808,"@bcrpoficial Cash Miguel @canalN_ Manu Ramirez en SJL . Hace un momento · Chorrillos, Departamento de Áncash · La Ley Reseña SJL",,PE


## Emotion detection

In [76]:
import csv
import pandas as pd

train_df = pd.read_table("../data/tass2020/task2/train.tsv", index_col=0, names=["id", "text", "label"], quoting=csv.QUOTE_NONE)

dev_df = pd.read_table(
    "../data/tass2020/task2/dev.tsv", index_col=0,names=["id", "text", "label"],
    quoting=csv.QUOTE_NONE)

test_df = pd.read_table("../data/tass2020/task2/test_task2.tsv", index_col=0,names=["id", "text", "label"], quoting=csv.QUOTE_NONE)
 

train_df.sample(10)

Unnamed: 0_level_0,text,label
id,Unnamed: 1_level_1,Unnamed: 2_level_1
810,"""Así se desplomaron, abrazadas por las llamas, las agujas en la Catedral de HASHTAG en HASHTAG USER 😥😥😥😫😫😫 https://t.co/wF8rv8Qt48 https://t.co/Fz3hkuUTNg""",sadness
480,"Si hoy es el HASHTAG, para cuando será el día del libro perdido, por aquello de que lo prestaste y jamás te lo devolvieron.",others
5877,"""Soy totalmente USER Mis mejores compras van dentro de una bolsa amarilla con morado 😉 HASHTAG 💖#Libros https://t.co/onHqhCkPda""",joy
1208,Duro el episodio Arya lo hizo HASHTAG HASHTAG,others
3309,No he estado más nervioso en la vida. Muérome. HASHTAG,sadness
3682,"""Hoy en el HASHTAG hago homenaje a uno de los libros que más me gustó en el mundo HASHTAG de HASHTAG 📚 . Vos tenes un libro favorito. Cuál me… https://t.co/8vZ6dIMjGD""",joy
4495,USER USER Obviamente sabiduría no tiene edad... HASHTAG HASHTAG HASHTAG HASHTAG HASHTAG HASHTAG HASHTAG,others
4977,"HASHTAG tienes a HASHTAG y a HASHTAG, ellas te reconstruiran. https://t.co/3040L45MEZ",others
3656,Quien gana la ida de la segunda semifinal de la HASHTAG,others
5535,Sus tweets de que es bien triste lo de HASHTAG 🙄 https://t.co/Hz5vtCLUSw,sadness


One label per tweet

In [78]:
full_df = pd.read_table("../data/tass2020/task2/dataset_emotions_SP.csv",names=["id", "text", "label", "offensive"], index_col=0)

print(full_df.shape)

full_df["slice"] = None

full_df.sample(3)

(8410, 3)


Unnamed: 0_level_0,text,label,offensive,slice
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3160,EL REY DE HASHTAG! ¡10 títulos para Leo Messi en 15 campeonatos españoles disputados defendiendo la camiseta del Barcelona! URL,joy,0,
5431,"HASHTAG HASHTAG joven heroína del clima, da lección en HASHTAG Aquí los detalles ⬇️ URL URL",others,0,
4322,"Como se perdieron el 4-0, NO ME LA CRE O HASHTAG HASHTAG",surprise,0,


In [79]:
not_found = []

text2id = {}
for idx, row in full_df.iterrows():
    text2id[row.text] = idx

def set_slice(df, slice):
    not_found = []
    for idx, row in train_df.iterrows():
        if row.text in text2id:
            idx = text2id[row.text]
            full_df.loc[idx, "slice"] = slice
        else:
            not_found.append(idx)
    return not_found 


In [82]:
import re 
from tqdm.auto import tqdm
from fuzzywuzzy import fuzz

url_regex = re.compile(
    r"((?<=[^a-zA-Z0-9])(?:https?\:\/\/|[a-zA-Z0-9]{1,}\.{1}|\b)(?:\w{1,}\.{1}){1,5}(?:com|co|org|edu|gov|uk|net|ca|de|jp|fr|au|us|ru|ch|it|nl|se|no|es|mil|iq|io|ac|ly|sm){1}(?:\/[a-zA-Z0-9]{1,})*)"
)


hashtag_regex = re.compile(r'\B#(\w*[a-zA-Z]+\w*)')

for idx, row in tqdm(test_df.iterrows()):
    text = url_regex.sub("URL", row.text)
    text = hashtag_regex.sub("HASHTAG", row.text)
    found = []
    for other in text2id:
        if (ratio := fuzz.ratio(text, other)) >= 92:
            found.append((other, ratio))
            
    if len(found) != 1:
        print("="*80)
        print(text)
        print(found)

HBox(children=(FloatProgress(value=1.0, bar_style='info', layout=Layout(width='20px'), max=1.0), HTML(value=''…

AHORA | Comunicado Grupo de Lima sobre la situación en HASHTAG. "Conminan a Maduro a cesar la usurpación", se declaran en sesión permanente, y deciden reunirse de manera presencial el próximo viernes 3 de mayo, en la ciudad de Lima, Perú.  URL
[('AHORA | Comunicado Grupo de Lima sobre la situación en HASHTAG. "Conminan a Maduro a cesar la usurpación", se declaran en sesión permanente, y deciden reunirse de manera presencial el próximo viernes 3 de mayo, en la ciudad de Lima, Perú.  URL', 100), ('AHORA | Aquí el Comunicado del Grupo de Lima sobre la situación en HASHTAG. "Conminan a Maduro a cesar la usurpación", se declaran en sesión permanente, y deciden reunirse de manera presencial el próximo viernes 3 de mayo, en la ciudad de Lima, Perú.  URL', 98)]
ATENCIÓN CONTENIDO VIOLENTO-Un vehículo de la Guardia Nacional arrolla a manifestantes que le tiraban piedras en HASHTAG, HASHTAG. USER USER  URL
[('ATENCIÓN CONTENIDO VIOLENTO-Un vehículo de la Guardia Nacional arrolla a manifestantes 

In [81]:
found = full_df[full_df["text"].apply(lambda x: "llegó ésta vaina" in x)].iloc[0].text

found

'Y bueno, llegó ésta vaina...😖 HASHTAG  HASHTAG HASHTAG Que sea lo que los dioses quieran...  URL'

In [70]:
list(zip(text, found))

[('I', 'I'),
 ('n', 'n'),
 ('v', 'v'),
 ('i', 'i'),
 ('t', 't'),
 ('a', 'a'),
 ('m', 'm'),
 ('o', 'o'),
 ('s', 's'),
 (' ', ' '),
 ('a', 'a'),
 (' ', ' '),
 ('t', 't'),
 ('o', 'o'),
 ('d', 'd'),
 ('o', 'o'),
 ('s', 's'),
 (' ', ' '),
 ('l', 'l'),
 ('o', 'o'),
 ('s', 's'),
 (' ', ' '),
 ('e', 'e'),
 ('s', 's'),
 ('t', 't'),
 ('u', 'u'),
 ('d', 'd'),
 ('i', 'i'),
 ('a', 'a'),
 ('n', 'n'),
 ('t', 't'),
 ('e', 'e'),
 ('s', 's'),
 (' ', ' '),
 ('e', 'e'),
 ('n', 'n'),
 (' ', ' '),
 ('B', 'B'),
 ('o', 'o'),
 ('g', 'g'),
 ('o', 'o'),
 ('t', 't'),
 ('á', 'á'),
 (' ', ' '),
 ('h', 'h'),
 ('o', 'o'),
 ('y', 'y'),
 (' ', ' '),
 ('a', 'a'),
 (' ', ' '),
 ('u', 'u'),
 ('n', 'n'),
 ('i', 'i'),
 ('r', 'r'),
 ('s', 's'),
 ('e', 'e'),
 (' ', ' '),
 ('a', 'a'),
 ('l', 'l'),
 (' ', ' '),
 ('p', 'p'),
 ('a', 'a'),
 ('r', 'r'),
 ('o', 'o'),
 (' ', ' '),
 ('e', 'e'),
 ('s', 's'),
 ('t', 't'),
 ('u', 'u'),
 ('d', 'd'),
 ('i', 'i'),
 ('a', 'a'),
 ('n', 'n'),
 ('t', 't'),
 ('i', 'i'),
 ('l', 'l'),
 (' ', ' '),