In [68]:
import os
import pandas as pd
import nltk

In [60]:
TRAIN_PATH = os.path.join(os.getcwd(), 'data', 'train.csv')

In [61]:
data_df = pd.read_csv(TRAIN_PATH, index_col='index')
data_df = data_df.rename(columns={
    'prejudice_woman': 'woman',
    'prejudice_lgbtiq': 'lgbtiq',
    'prejudice_inmigrant_race': 'race',
    'mean_prejudice': 'mean',
})
display(data_df.head(5))
display(data_df.describe())


Unnamed: 0_level_0,tweet,humor,woman,lgbtiq,race,gordofobia,mean
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
72157,Mi celular tiene una aplicación que te hace ve...,1,0,0,0,1,3.0
68084,"En esta vida me tocó tener mala suerte, espero...",1,0,0,0,1,2.8
69089,"Tu mamá es taaan taan obesa, que cuando pasa f...",1,0,0,0,1,3.6
69190,Mi tía me dijo: \n- tengo memoria de Elefante....,1,0,0,0,1,3.4
70474,"- Mamá, en el colegio me dicen gorda.\n- ¡Ay M...",1,0,0,0,1,3.0


Unnamed: 0,humor,woman,lgbtiq,race,gordofobia,mean
count,2671.0,2671.0,2671.0,2671.0,2671.0,2671.0
mean,0.325346,0.483714,0.227256,0.248596,0.08012,3.053126
std,0.468592,0.499828,0.419138,0.43228,0.271529,0.809173
min,0.0,0.0,0.0,0.0,0.0,0.4
25%,0.0,0.0,0.0,0.0,0.0,2.4
50%,0.0,0.0,0.0,0.0,0.0,3.0
75%,1.0,1.0,0.0,0.0,0.0,3.6
max,1.0,1.0,1.0,1.0,1.0,5.0


In [62]:
# Remove punctuation
data_df['tweet'] = data_df['tweet'].str.replace('[^\w\s]', '', regex=True)
data_df.head(5)

Unnamed: 0_level_0,tweet,humor,woman,lgbtiq,race,gordofobia,mean
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
72157,Mi celular tiene una aplicación que te hace ve...,1,0,0,0,1,3.0
68084,En esta vida me tocó tener mala suerte espero ...,1,0,0,0,1,2.8
69089,Tu mamá es taaan taan obesa que cuando pasa fr...,1,0,0,0,1,3.6
69190,Mi tía me dijo \n tengo memoria de Elefante \n...,1,0,0,0,1,3.4
70474,Mamá en el colegio me dicen gorda\n Ay Marran...,1,0,0,0,1,3.0


In [63]:
# Remove newline characters
data_df['tweet'] = data_df['tweet'].str.replace('\n', ' ', regex=True)
data_df.head(5)

Unnamed: 0_level_0,tweet,humor,woman,lgbtiq,race,gordofobia,mean
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
72157,Mi celular tiene una aplicación que te hace ve...,1,0,0,0,1,3.0
68084,En esta vida me tocó tener mala suerte espero ...,1,0,0,0,1,2.8
69089,Tu mamá es taaan taan obesa que cuando pasa fr...,1,0,0,0,1,3.6
69190,Mi tía me dijo tengo memoria de Elefante le...,1,0,0,0,1,3.4
70474,Mamá en el colegio me dicen gorda Ay Marrana...,1,0,0,0,1,3.0


In [64]:
# If not installed, download stopwords
try:
    spanish_stopwords = nltk.corpus.stopwords.words("spanish")
except LookupError:
    nltk.download("stopwords")
    spanish_stopwords = nltk.corpus.stopwords.words("spanish")

# Remove stopwords
data_df["no_stopwords"] = data_df["tweet"].apply(
    lambda x: " ".join([word for word in x.split() if word not in (spanish_stopwords)])
)

data_df.head(5)

Unnamed: 0_level_0,tweet,humor,woman,lgbtiq,race,gordofobia,mean,no_stopwords
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
72157,Mi celular tiene una aplicación que te hace ve...,1,0,0,0,1,3.0,Mi celular aplicación hace ver gordo feo En se...
68084,En esta vida me tocó tener mala suerte espero ...,1,0,0,0,1,2.8,En vida tocó tener mala suerte espero proxima ...
69089,Tu mamá es taaan taan obesa que cuando pasa fr...,1,0,0,0,1,3.6,Tu mamá taaan taan obesa pasa frente TV pierde...
69190,Mi tía me dijo tengo memoria de Elefante le...,1,0,0,0,1,3.4,Mi tía dijo memoria Elefante respondí Buenisim...
70474,Mamá en el colegio me dicen gorda Ay Marrana...,1,0,0,0,1,3.0,Mamá colegio dicen gorda Ay Marrana hagas caso...


In [65]:
# Stemming
stemmer = nltk.stem.SnowballStemmer("spanish")
data_df["no_stopwords_stemmed"] = data_df["no_stopwords"].apply(
    lambda x: " ".join([stemmer.stem(word) for word in x.split()])
)

data_df.head(5)

Unnamed: 0_level_0,tweet,humor,woman,lgbtiq,race,gordofobia,mean,no_stopwords,no_stopwords_stemmed
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
72157,Mi celular tiene una aplicación que te hace ve...,1,0,0,0,1,3.0,Mi celular aplicación hace ver gordo feo En se...,mi celul aplic hac ver gord feo en seri com ll...
68084,En esta vida me tocó tener mala suerte espero ...,1,0,0,0,1,2.8,En vida tocó tener mala suerte espero proxima ...,en vid toc ten mal suert esper proxim toqu ser...
69089,Tu mamá es taaan taan obesa que cuando pasa fr...,1,0,0,0,1,3.6,Tu mamá taaan taan obesa pasa frente TV pierde...,tu mam taa taan obes pas frent tv pierd 5 come...
69190,Mi tía me dijo tengo memoria de Elefante le...,1,0,0,0,1,3.4,Mi tía dijo memoria Elefante respondí Buenisim...,mi tia dij memori elef respond buenisim hac ju...
70474,Mamá en el colegio me dicen gorda Ay Marrana...,1,0,0,0,1,3.0,Mamá colegio dicen gorda Ay Marrana hagas caso...,mam colegi dic gord ay marran hag cas marian m...


In [66]:
# TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
vectorized = vectorizer.fit_transform(data_df["no_stopwords_stemmed"])
data_df["no_stopwords_stemmed_tfidf"] = vectorized.toarray().tolist()
data_df.head(5)


Unnamed: 0_level_0,tweet,humor,woman,lgbtiq,race,gordofobia,mean,no_stopwords,no_stopwords_stemmed,no_stopwords_stemmed_tfidf
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
72157,Mi celular tiene una aplicación que te hace ve...,1,0,0,0,1,3.0,Mi celular aplicación hace ver gordo feo En se...,mi celul aplic hac ver gord feo en seri com ll...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
68084,En esta vida me tocó tener mala suerte espero ...,1,0,0,0,1,2.8,En vida tocó tener mala suerte espero proxima ...,en vid toc ten mal suert esper proxim toqu ser...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
69089,Tu mamá es taaan taan obesa que cuando pasa fr...,1,0,0,0,1,3.6,Tu mamá taaan taan obesa pasa frente TV pierde...,tu mam taa taan obes pas frent tv pierd 5 come...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
69190,Mi tía me dijo tengo memoria de Elefante le...,1,0,0,0,1,3.4,Mi tía dijo memoria Elefante respondí Buenisim...,mi tia dij memori elef respond buenisim hac ju...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
70474,Mamá en el colegio me dicen gorda Ay Marrana...,1,0,0,0,1,3.0,Mamá colegio dicen gorda Ay Marrana hagas caso...,mam colegi dic gord ay marran hag cas marian m...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."


Pre-trained word embeddings were downloaded from [github repository](https://github.com/aitoralmeida/spanish_word2vec)

Aitor Almeida, & Aritz Bilbao. (2018). Spanish 3B words Word2Vec Embeddings (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.1410403
Bilbao-Jayo, A., & Almeida, A. (2018). Automatic political discourse analysis with multi-scale convolutional neural networks and contextual data. International Journal of Distributed Sensor Networks, 14(11), 1550147718811827.

In [None]:
# Word embeddings
from gensim.models import Word2Vec
from gensim.models import KeyedVectors

# Load pre-trained word embeddings
word2vec_path = os.path.join(os.getcwd(), 'word2vec', 'complete.kv')
word2vec = KeyedVectors.load_word2vec_format(word2vec_path, mmap='r')