# Elmo + Embeddings

Probemos si usando también los embeddings de fastText obtenemos algo razonable...



In [1]:
import pandas as pd
import csv
import numpy as np
import tensorflow as tf
import random
import torch

torch.manual_seed(2019)
np.random.seed(2019)
tf.random.set_random_seed(2019)
random.seed(2019)

torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

df_dev = pd.read_table("../../../data/es/dev_es.tsv", index_col="id", quoting=csv.QUOTE_NONE)
df_train = pd.read_table("../../../data/es/train_es.tsv", index_col="id", quoting=csv.QUOTE_NONE)
df_test = pd.read_table("../../../data/es/reference_es.tsv", header=None, 
                        names=["text", "HS", "TR", "AG"], quoting=csv.QUOTE_NONE)


text_train, y_train = df_train["text"], df_train["HS"]
text_dev, y_dev = df_dev["text"], df_dev["HS"]
text_test, y_test = df_test["text"], df_test["HS"]

print("Instancias de entrenamiento: {}".format(len(df_train)))
print("Instancias de desarrollo: {}".format(len(df_dev)))
print("Instancias de test: {}".format(len(df_test)))


Instancias de entrenamiento: 4500
Instancias de desarrollo: 500
Instancias de test: 1600


In [6]:
df_dev = pd.read_csv("dev_with_annotations.es.csv", index_col="id")


In [7]:
import fastText
import os


model = fastText.load_model(os.path.expanduser("../../../WordVectors/UBA_w3_300.bin"))

Tengo que hacer dos cosas:

- Primero, convertir los tweets a secuencias de texto
- Luego, paddear las secuencias a cierta longitud (Keras necesita esto para poder paralelizar cálculo)

In [214]:
from hate.nn import Tokenizer
from keras.preprocessing.sequence import pad_sequences


max_length = 40

tokenizer = TweetTokenizer(preserve_case=False, reduce_len=True, strip_handles=True)

def preprocess_tweet(tweet):
    tokens = tokenizer.tokenize(tweet)
    
    if len(tokens) >= max_length:
        tokens = tokens[:max_length]
    else:
        tokens = tokens + [''] * (max_length - len(tokens))
    return tokens


tokens_train = [preprocess_tweet(tweet) for tweet in df_train["text"].values]
tokens_dev = [preprocess_tweet(tweet) for tweet in df_dev["text"].values]
tokens_test = [preprocess_tweet(tweet) for tweet in df_test["text"].values]

ImportError: cannot import name 'TweetTokenizer'

In [5]:
%%capture
from elmoformanylangs import Embedder

e = Embedder("../../../models/elmo/es/")

Carguemos embeddings

In [6]:
import numpy as np


X_train = np.array(e.sents2elmo(tokens_train))
X_dev = np.array(e.sents2elmo(tokens_dev))
X_test = np.array(e.sents2elmo(tokens_test))

In [7]:
def get_embeddings(toks):
    ret = []
    
    for tok in toks:
        vec = model.get_word_vector(tok)
        ret.append(vec)
    return ret

X_emb_train = np.array([get_embeddings(toks) for toks in tokens_train])
X_emb_dev = np.array([get_embeddings(toks) for toks in tokens_dev])
X_emb_test = np.array([get_embeddings(toks) for toks in tokens_test])

X_emb_train.shape, X_emb_dev.shape, X_emb_test.shape

((4500, 40, 300), (500, 40, 300), (1600, 40, 300))

## GRU + Global Max Pooling

In [14]:
from keras.models import Model
from keras.layers import Dense, Embedding, Dropout, CuDNNLSTM, CuDNNGRU, Input, Concatenate, Bidirectional, GlobalMaxPooling1D
from keras.optimizers import Adam
from keras.preprocessing import sequence

embedding_dim = 1024

optimizer_args = {
    "lr": 0.00075,
    "decay": 0.01,
}

elmo_input = Input(shape=X_train[0].shape)
emb_input = Input(shape=X_emb_train[0].shape)

x = Concatenate()([elmo_input, emb_input])
x = Bidirectional(CuDNNGRU(256, return_sequences=True))(x)
x = Dropout(0.60)(x)
x = GlobalMaxPooling1D()(x)
output = Dense(1, activation='sigmoid')(x)

model = Model(inputs=[elmo_input, emb_input], outputs=[output])

model.compile(loss='binary_crossentropy', 
              optimizer=Adam(**optimizer_args), 
              metrics=['accuracy'])
print(model.summary())



__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_5 (InputLayer)            (None, 40, 1024)     0                                            
__________________________________________________________________________________________________
input_6 (InputLayer)            (None, 40, 300)      0                                            
__________________________________________________________________________________________________
concatenate_3 (Concatenate)     (None, 40, 1324)     0           input_5[0][0]                    
                                                                 input_6[0][0]                    
__________________________________________________________________________________________________
bidirectional_3 (Bidirectional) (None, 40, 512)      2429952     concatenate_3[0][0]              
__________

In [15]:
from keras.callbacks import ModelCheckpoint, EarlyStopping

checkpointer = ModelCheckpoint('/tmp/lstm_model.h5', save_best_only=True, monitor='val_acc', verbose=1)
early_stopper = EarlyStopping(monitor='val_loss', patience=30)


model.fit([X_train, X_emb_train], y_train, 
          callbacks=[checkpointer, early_stopper],
          validation_data=([X_dev, X_emb_dev], y_dev), epochs=100, batch_size=32)


Train on 4500 samples, validate on 500 samples
Epoch 1/100

Epoch 00001: val_acc improved from -inf to 0.75800, saving model to /tmp/lstm_model.h5
Epoch 2/100

Epoch 00002: val_acc improved from 0.75800 to 0.78600, saving model to /tmp/lstm_model.h5
Epoch 3/100

Epoch 00003: val_acc improved from 0.78600 to 0.79000, saving model to /tmp/lstm_model.h5
Epoch 4/100

Epoch 00004: val_acc improved from 0.79000 to 0.80200, saving model to /tmp/lstm_model.h5
Epoch 5/100

Epoch 00005: val_acc did not improve from 0.80200
Epoch 6/100

Epoch 00006: val_acc did not improve from 0.80200
Epoch 7/100

Epoch 00007: val_acc improved from 0.80200 to 0.80400, saving model to /tmp/lstm_model.h5
Epoch 8/100

Epoch 00008: val_acc improved from 0.80400 to 0.80600, saving model to /tmp/lstm_model.h5
Epoch 9/100

Epoch 00009: val_acc did not improve from 0.80600
Epoch 10/100

Epoch 00010: val_acc improved from 0.80600 to 0.81400, saving model to /tmp/lstm_model.h5
Epoch 11/100

Epoch 00011: val_acc improved f

<keras.callbacks.History at 0x7f7e684fbd30>

In [16]:
from hate.utils import print_evaluation
print("biGRU + MaxPool1D - Elmo+Embeddings -- \n\n")
print("Evaluación sobre dev")

model.load_weights(checkpointer.filepath)

print_evaluation(model, [X_dev, X_emb_dev], y_dev)
print("\nEvaluación sobre test")

print_evaluation(model, [X_test, X_emb_test], y_test)

biGRU + MaxPool1D - Elmo+Embeddings -- 


Evaluación sobre dev
Loss           : 0.4126
Accuracy       : 0.8280
Precision(1)   : 0.8238
Precision(1)   : 0.8310
Precision(avg) : 0.8274

Recall(1)      : 0.7793
Recall(0)      : 0.8669
Recall(avg)    : 0.8231

F1(1)          : 0.8009
F1(0)          : 0.8486
F1(avg)        : 0.8248

Evaluación sobre test
Loss           : 0.5544
Accuracy       : 0.7388
Precision(1)   : 0.6609
Precision(1)   : 0.8078
Precision(avg) : 0.7343

Recall(1)      : 0.7530
Recall(0)      : 0.7287
Recall(avg)    : 0.7409

F1(1)          : 0.7040
F1(0)          : 0.7662
F1(avg)        : 0.7351


## Error Analysis

Vamos a ver los tweets con mayores errores

In [24]:
df_dev["proba"] = model.predict([X_dev, X_emb_dev])
df_dev["PROFANITY"] = 0


true_positives = df_dev[(df_dev["HS"] == 1) & (df_dev["proba"] >= 0.5)].copy()
true_negatives = df_dev[(df_dev["HS"] == 0) & (df_dev["proba"] < 0.5)].copy()

false_positives = df_dev[(df_dev["HS"] == 0) & (df_dev["proba"] > 0.5)].copy()
false_positives.sort_values("proba", ascending=False, inplace=True)


false_negatives = df_dev[(df_dev["HS"] == 1) & (df_dev["proba"] < 0.5)].copy()
false_negatives.sort_values("proba", ascending=True, inplace=True)

conf_matrix = pd.DataFrame([
    {"real":"hs=1", "pred_true": len(true_positives), "pred_false": len(false_negatives)},
    {"real":"hs=0", "pred_true": len(false_positives), "pred_false": len(true_negatives)}
])



conf_matrix.set_index("real", inplace=True)

print("Falsos negativos: {}".format(len(false_negatives)))
print("Falsos positivos: {}".format(len(false_positives)))

conf_matrix[["pred_true", "pred_false"]]

Falsos negativos: 49
Falsos positivos: 37


Unnamed: 0_level_0,pred_true,pred_false
real,Unnamed: 1_level_1,Unnamed: 2_level_1
hs=1,173,49
hs=0,37,241


In [242]:
cols = df_dev.columns
cols = cols.difference(["proba"])

df_dev[cols].to_csv("dev_with_annotations.es.csv")

## Proporción de Agresivos

In [25]:
print("Proporción de agresivos :", sum(df_dev["AG"] == 0) / len(df_dev))

hs = df_dev[df_dev["HS"] == 1]

print("Correlación AG - TR:", hs["AG"].corr(hs["TR"]))

Proporción de agresivos : 0.648
Correlación AG - TR: 0.42040512740887925


## Falsos negativos

Vamos a etiquetar la profanidad. Considero profanidad todo aquellas palabras de uso vulgar (puta, perra, zorra, coño, negratas, musulmonos) pero no así aquellas que sean marcadoras de discurso racista pero no vulgar (negro, subsahariano)

In [222]:
profane_words = [
    "sudaca",
    "puta", "polla", "perra", "zorra", "coño", "orto", "morra", "negrata", "pelotuda", "moromierda", "guarr"]
for idx, t in df_dev.iterrows():
    for w in profane_words:
        if w in t["text"].lower():
            df_dev.loc[idx, "PROFANITY"] = 1
            break
    

AttributeError: 'float' object has no attribute 'lower'

In [230]:
df_dev.loc[24529, "PROFANITY"] = 1

In [234]:
print(df_dev[df_dev["PROFANITY"] == 0].shape[0])
df_dev[df_dev["PROFANITY"] == 0][169:]

180


Unnamed: 0_level_0,text,HS,TR,AG,proba,PROFANITY
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
24632,¡¡¡Ahora si!!! ¡¡Hoy empieza la lucha!! Esto es cosa de hombres!!,0.0,0.0,0.0,0.320857,0.0
24649,yo me pregunto como es el teclado de los que escriben en arabe,0.0,0.0,0.0,0.105719,0.0
24686,No me gusta el titular. Culpabilizar a la inmigración del populismo? El populusmo es quien uso cualquier hecho para agitar.El riesgo populista en España por la tensión migratoria pone en alerta a Bruselas https://t.co/fo7ZuIBEFG vía @elpais_espana,0.0,0.0,0.0,0.169626,0.0
24692,omegle niña árabe jugando para mí https://t.co/oKrJr2Sy0t,0.0,0.0,0.0,0.267984,0.0
24733,Racismo es no permitir que te eche mis güeros en la espalda.,0.0,0.0,0.0,0.055695,0.0
24768,"1.Sera casualidad que cuando hay una gran entrada de refugiados árabes en Europa, un grupo de Árabes atenta. 2.Cuando hay una gran entrada de Africanos en Europa, un grupo de Africanos atenta. 3.Chinos, preparaos! #topmanta #Desmontando #políticos #Noticias",1.0,0.0,1.0,0.92991,0.0
24907,"La Policía tramita en Algeciras 400 expedientes al día de inmigrantes indocumentados https://t.co/SIr9Y5ROP3 vía @elmundoes. Miles al día ,que entran . Qué no caben leche . Qué lo piensan todo el mundo y El Gobierno NO hace NADA.Nos tenemos que ir Los Españoles,para que entren?",1.0,0.0,1.0,0.656582,0.0
24909,"""Mientras los ciudadanos de a pie(ahora más que nunca """"a pie"""") enfrentamos la inseguridad a diario, sin armas, solo con valor y bolas (no hay otra), al indocumentado impostor lo rodearon con esterillas protectoras (inútiles ante un RPG)""",1.0,0.0,1.0,0.538309,0.0
24925,"La verdad que si, no veia la hora de llegar a los 5 mil amigos😂 ahora de a poco voy borrando esos indios indocumentados😂 https://t.co/Xw8q4GLM8v",1.0,0.0,0.0,0.048991,0.0
24928,"Hoy, 20hrs, haremos un twittazo en contra Rodolfo Noriega, quien, pese a ser un incitador al odio e inmigrante, sigue en Chile. El hashtag, será #FueraRodolfoNoriega. https://t.co/1AvN3N7AvJ",1.0,1.0,0.0,0.530379,0.0


In [165]:
pd.set_option('max_colwidth', 400)



print("Totales = ", len(false_negatives))
print("No AG ({}) AG ({})".format(sum(false_negatives["AG"] == 0), sum(false_negatives["AG"] == 1)))
false_negatives[["text", "proba", "HS", "AG", "PROFANITY"]]

Totales =  49
No AG (16) AG (33)


Unnamed: 0_level_0,text,proba,HS,AG,PROFANITY
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
24126,LA SOLUCIÓN ES SOLDARLE EL TIMÓN DE LA PATERA RUMBO DE DONDE SALIERON CON AGUA Y COMIDA. https://t.co/59pInBdgnR,0.022556,1,0,0
22065,| lo único que dominas es mi polla en tu cara. https://t.co/qlYOd4zPwW,0.023897,1,1,0
24590,"SOMOS MUCHO MÁS DE LO QUE SUEÑAS SER PINCHÉ SUDACA CAGADO, y si no te gusta dime donde nos topamos pa reventarnos el hocico 1:1 @amarchesin1 https://t.co/vHHPBKS1AK",0.028093,1,1,0
24925,"La verdad que si, no veia la hora de llegar a los 5 mil amigos😂 ahora de a poco voy borrando esos indios indocumentados😂 https://t.co/Xw8q4GLM8v",0.048991,1,0,0
24864,rosalia me podría decir sudaca i wouldn't give a fuck,0.050993,1,1,0
20307,tu eres lesbi Ana xk no as probaddo mi polla,0.055418,1,1,0
23688,"Ninguna mujer es tan santa como para no aprender a coger bien, ni tan puta como para no aprender a amar.",0.08203,1,1,0
22560,@CarlaEUrena @FelipeCalderon Callateeeee !! Puta gallina cacarea !! Ni idea tienes de nada .,0.087284,1,1,0
22008,"@Namurii @medicaster_xz @Yorha2d @KeloKlau_ Se merecía de puta y no quiere que le metan la verga, jajaja no mamen",0.088236,1,0,0
21727,"España crea su primer 'campo de refugiados' en la bahía de Algeciras https://t.co/l7Zmh2kvPN vía @elmundoes Gran noticia para el contribuyente español. Españoles a pagar, a pagar. Las pensiones pensad en las pensiones. Esto la sanidad como es gratis podemos dejar de pagarla no?",0.101227,1,0,0


## Falsos Positivos

In [20]:
pd.set_option('max_colwidth', 300)



print("Totales = ", len(false_positives))
print("No AG ({}) AG ({})".format(sum(false_positives["AG"] == 0), sum(false_positives["AG"] == 1)))
false_positives[["text", "proba", "HS", "AG"]]

Totales =  37
No AG (37) AG (0)


Unnamed: 0_level_0,text,proba,HS,AG
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
22457,"De Colombia tocará emigrar en pateras, como hacen los africanos subsaharianos.",0.984295,0,0
20376,"Zorra tu abuela, imbécil.",0.953888,0,0
21892,@saancisco Callate puta tu eres el traidor.,0.953812,0,0
21497,Talvez quede como zorra pero te lo mereces Socia😎,0.944706,0,0
20148,Racismo es que hagas enfrijoladas con frijoles güeros y no negros.,0.942656,0,0
24402,zorra eres tu que no te sientes hombre y no entiendes que toda mujer es bella,0.934405,0,0
22014,Ni tú eres una zorra hambrienta ni yo un incorregible depredador.,0.926217,0,0
22416,@Pepe_ElEzequiel Puta!? Puta con las que vos te metes Esa mujer es un ángel enviado por Jesucristo nuestro señor para darnos esa paz que buscamos sólo con verla,0.89616,0,0
22115,"Una chica no es una guarra, una zorra, una puta, una buscan por su manera de vestir.",0.886693,0,0
24209,"¿Ya les he contado que si fuera rica/millonaria sería toda una PERRA?, Yisus me está enseñando humildad... Y no he aprendido mucho ldvdd.",0.881671,0,0
