## Exploratory Analysis



In [2]:
import os
from glob import glob
import pandas as pd

def get_lang(file):
    return os.path.splitext(os.path.basename(file))[0]

def load_df(file):
    dialect = get_lang(file)
    
    df = pd.read_table(file, names=["id", "text", "polarity"], index_col=0)
    df["dialect"] = dialect
    
    return df

train_files = glob("../data/tass2020/train/*.tsv")
dev_files = glob("../data/tass2020/dev/*.tsv")
test_files = glob("../data/tass2020/test1.1/*.tsv")

train_dfs = {get_lang(file):load_df(file) for file in train_files}
dev_dfs = {get_lang(file):load_df(file) for file in dev_files}
test_dfs = {get_lang(file):load_df(file) for file in test_files}

train_df = pd.concat(train_dfs.values())
dev_df = pd.concat(dev_dfs.values())
test_df = pd.concat(test_dfs.values())

print(len(train_df), len(dev_df), len(test_df))

train_df.columns, dev_df.columns, test_df.columns

4802 2443 7264


(Index(['text', 'polarity', 'dialect'], dtype='object'),
 Index(['text', 'polarity', 'dialect'], dtype='object'),
 Index(['text', 'polarity', 'dialect'], dtype='object'))

Veamos primero las longitudes (a ver si no hay nada mal cargado)

In [3]:
df = train_df

df["polarity"].value_counts()

N      1885
NEU    1523
P      1394
Name: polarity, dtype: int64

## Ejemplos

In [4]:
pd.options.display.max_colwidth = 200
pd.options.display.max_rows = 100

df[df["polarity"] == "NEU"]

Unnamed: 0_level_0,text,polarity,dialect
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
768529956162924544,@Adriansoler espero y deseo que el interior te cause lo mismo,NEU,es
768557093955698688,"comprendo que te molen mis tattoos, pero no te los hagas 'iguales'",NEU,es
770787189319925760,A mí nunca me podrán hacer una broma porque no cojo llamadas y menos cuando son ocultas,NEU,es
768588061496209408,"@BrujadelTuiters . Estas palabras, del Poema, INSTANTES, son de Nadine Stair. Escritora norteamericana, a la q le gustan los helados.",NEU,es
768506208051494912,@Iluminaughty_ @Spiegel_Spike_ pues me da igual yo escribo lo que pienso ^^ y cuando lo pienso ajajaj si es que lo pienso,NEU,es
...,...,...,...
770138191689093122,Me dijo que no le había gustado no se cuantas cosas pero me estuvo hablando todo el tiempo de eso JAJAJAJJA no entiendo loco,NEU,uy
781329324389597184,Anto te extraño veni a cuidarme,NEU,uy
782750587398000641,Jajajaja mejor que no me la robes Igual vos empezaste!!,NEU,uy
790289281029898241,@JulianeroSoy no te amargues ojala que aparezca y si no bueno,NEU,uy


In [5]:
pd.options.display.max_colwidth = 200

df[df["polarity"] == "P"]

Unnamed: 0_level_0,text,polarity,dialect
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
770616744192929792,"Mi última partida jugada, con Sona support. La grandes razones para jugar Sona https://t.co/2rgmMeAFIs",P,es
769959690092642304,Tranquilos que con el.dinero de Camacho seguro mañana empiezan las escabadoras en el Arraijanal,P,es
770590136828559360,"@daniacal aún no, pero si estará jugable en el TGS no creo que tarde demasiado.",P,es
771339035445002240,#feliz septiembre..es bonito retarse..es increible lo mucho que puedes aprender.. medirse con el obstáculo..eres la joyita de la corona,P,es
768577963885522944,Este año el Madrid hará triplete y si lo hace me rapo al cero grabad el mensaje jejej #ChiringuitoPiqué,P,es
...,...,...,...
780770298270474240,@vivianagarcia73 @anitafb Muchas gracias Sandra por tu ayuda y esperamos que los tips sean útiles para Anita. Seguimos en contacto!,P,uy
761932038349946880,@AlmaHistorica doy fe son espectaculares!!,P,uy
795458175348641792,@grisel_ok si hermoso y esta muy agradecido,P,uy
785432238783619072,Que bueno ver a personas que te alegran Aunque sean sólo 2 minutos,P,uy


In [6]:
pd.options.display.max_colwidth = 200

df[df["polarity"] == "N"]

Unnamed: 0_level_0,text,polarity,dialect
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
768512386269638656,@morbosaborealis jajajaja... eso es verdad... aquí no hay uno cuerdo,N,es
770434744748236800,@ragnomuelle Yo a veces hecho de menos mi pelo largo por eso mismo entre otras cosas,N,es
768596566378774528,Es conveniente tener un Gobierno democrático que cumpla su función politica. NO lo es tener un Gobierno que representa la #corrupciónPP,N,es
768071942096166912,"@Jordicanal64 Pues si no fichan ""lo que sea"" además de un ridículo espantoso igual QSF nos deja plantados...esperemos que no",N,es
772121014436302848,glowen sigue a cuentas inactivas y es en plan oh seguro que esas cuentas te dan mucho más apoyo que a las que le diste unf JAJAJA,N,es
...,...,...,...
782586808651636738,No tuviste infancia si no mezclaste todas las plastilinas con la esperanza de que quedara multicolor y te quedó una cosa marrón asquerosa,N,uy
761356473477820416,#Fiebre #dolorentodoelcuerpo... con #hijobello de enfermero e #hijospeludos,N,uy
799384176994775040,días de frío = agua extremadamente fría para tomar,N,uy
795705345050025984,@gabouy pero antes si era asi es parte de nuestro barranca abajo haber perdido eso,N,uy


## Dataset ya mergeado

In [7]:
test_df

Unnamed: 0_level_0,text,polarity,dialect
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
806714101086978048,Y lo peor fue que perdí la belfie,,CR
806720027038728192,"@Arnaldocaa Ya bebí, pero soy más arrechera que persona",,CR
803478166853615616,"Felicidades, @czulaura . Le debo un cóctel, junto a @Sailorinthesky",,CR
785473239199850496,Aunque pensándolo bien mejor no xq sigo padeciendo d pánico escénico.,,CR
792817362546208768,la mujer que nunca crei que me fuera a escribir me escribio,,CR
...,...,...,...
756565904037670912,Un saludo para don Resentidillo muñoz.! Que sigue esperando que alguien le escriba y le ruegue.!! Jajaja Espero su sillón este cómodo.,,PE
757602234041524224,"Sí, es que se nota que te importa... - Buen intento, a la otra trata de no dar a notar tu desinterés.",,PE
786072417307328512,"@Isoor_ , @iChibolo , @FloroPeruano , @latiachuchi , estoy pasando x un momento muy difícil, un saludito suyo me arrancaría una sonrisa",,PE
794135682876919808,"@bcrpoficial Cash Miguel @canalN_ Manu Ramirez en SJL . Hace un momento · Chorrillos, Departamento de Áncash · La Ley Reseña SJL",,PE


## Emotion detection

In [10]:

train_df = pd.read_table("../data/tass2020/task2/train.tsv", index_col=0, names=["id", "text", "label"])

dev_df = pd.read_table("../data/tass2020/task2/dev.tsv", index_col=0,names=["id", "text", "label"])

train_df.sample(10)

Unnamed: 0_level_0,text,label
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1315,"Maduro no será lo que sea, es un DICTADOR. Y no es un golpe de estado cuando no hay una autoridades legítimamente instituidas. Maduro robo elecciones y usurpó el poder en HASHTAG https://t.co/GuAH...",disgust
196,"Hoy en nuestro blog os recomendamos 10 libros para todos los gustos, todas las edades y todos los bolsillos. ¡Feliz HASHTAG! https://t.co/qkLKUglCXM https://t.co/njQHaPktXf",joy
1905,HASHTAG🇲🇽 expresó preocupación por posible escalada de violencia y derramamiento de sangre en HASHTAG🇻🇪 https://t.co/8ha1En5tls,others
756,"Solo conozco la Universidad de HASHTAG en HASHTAG, cuenta? https://t.co/2m7GKPuek1",others
2993,"El quinto mejor jugador del mundo, recordad. HASHTAG HASHTAG HASHTAG",others
1818,HASHTAG más triste que la pérdida de la catedral es la pérdida de almas en HASHTAG,sadness
2659,Ya denle HASHTAG a HASHTAG por favor HASHTAG HASHTAG,others
4146,"Con el 23% escrutado... 🌹 128 escaños 💧 67 escaños 🍊 50 escaños 🍆 31 escaños 🥦 23 escaños Como esto siga así, se avecina una noche muuuy larga en Génova 13. Rivera le pisa los talones a Casado....",others
3187,Podría estar más satisfecha pero lo auguraba peor 👏🏻#ElecccionesGenerales28A,surprise
5572,Tantos años pidiendo el mismo deseo de cumpleaños y no se porqué pero creo que este año el regalito al fin llegará y adelantado. HASHTAG HASHTAG,joy


One label per tweet

In [None]:
pd.read_table("../data/tass2020/task2")