In [12]:
import pandas as pd
import tensorflow as tf
import numpy as np

import re
import nltk
from nltk.corpus import stopwords 
from nltk.stem.lancaster import LancasterStemmer

In [22]:
data = pd.read_csv("Candidatos/Bolsonaro.csv")
data.head()

Unnamed: 0.1,Unnamed: 0,candidato,text
0,0,Bolsonaro,RT @Miltonneves: Falo como “sapo de fora”. Ess...
1,1,Bolsonaro,RT @cidadaodemal: Viva Nossa Senhora Aparecida...
2,2,Bolsonaro,RT @carloscezarcjr: Bolsonaro fica em 1° lugar...
3,3,Bolsonaro,"RT @NaoInviabilize: não foi atacada, não foi a..."
4,4,Bolsonaro,"É isso aí, Brasil acima de tudo, Deus acima de..."


In [16]:
def words_to_lower(data):
    return data.text.apply(lambda x: x.lower())

def remove_username(data):
    return data.text.apply(lambda x: re.sub(r'@[\w\.-]+','',x))

def remove_email(data):
    return data.text.apply(lambda x: re.sub(r'[\w\.-]+@[\w\.-]+','',x))

def remove_url(data):
    return data.text.apply(lambda x: re.sub(r'^https?:\/\/.*[\r\n]*','',x))

def remove_number(data):
    return data.text.apply(lambda x: re.sub(r'[0-9]','',x))

def remove_pontuation(data):
    return data.text.apply(lambda x: re.sub(r'[^a-zA-z\s]','',x))

def remove_repeated_character(data):
    return data.text.apply(lambda x: re.sub(r"(\w)\1*", r'\1', x))

def tokenizer(data):
    return data.text.apply(lambda x: nltk.word_tokenize(x))

def remove_stopword(data):
    stop_words = set(stopwords.words('english'))
    return data.text.apply(lambda x: [j for j in x if not j in stop_words])

def stemming(data):
    stem = LancasterStemmer()
    return data.text.apply(lambda x: [stem.stem(j) for j in x])

def concat(data):
    return data.text.apply(lambda x: " ".join(x))

In [23]:
data.text = words_to_lower(data)
data.text = remove_username(data)
data.text = remove_number(data)
data.text = remove_pontuation(data)
data.text = remove_repeated_character(data)
data.text = tokenizer(data)
data.text = remove_stopword(data)
#data.text = stemming(data)
data.text = concat(data)

In [24]:
data.head()

Unnamed: 0.1,Unnamed: 0,candidato,text
0,0,Bolsonaro,rt falo como sapo de fora esas invenes de ataq...
1,1,Bolsonaro,rt viva nosa senhora aparecida pastor chutou i...
2,2,Bolsonaro,rt bolsonaro fica em lugar com milhes de votos...
3,3,Bolsonaro,rt foi atacada foi agredida ia l nis atris tud...
4,4,Bolsonaro,iso brasil acima de tudo deus acima de todos b...


In [29]:
corpus = data.text

In [34]:
words = []
for text in corpus:
    for word in text.split(' '):
        words.append(word)

words = set(words)

In [35]:
words

{'desprezo',
 'francesa',
 'htpstcohkvblktqzi',
 'vtima',
 'htpstcobymubx',
 'patifaria',
 'sincero',
 'hofman',
 'acesores',
 'triste',
 'atacaram',
 'forja',
 'ap',
 'placa',
 'presidncia',
 'informar',
 'buro',
 'htpstcojrostl',
 'pegar',
 'falava',
 'histria',
 'prof',
 'comprova',
 'htpstcoarzmfnqgx',
 'fechamento',
 'nam',
 'encontrlo',
 'htpstcounlcoryp',
 'exce',
 'fodas',
 'apoiaram',
 'ofend',
 'outro',
 'ri',
 'insta',
 'gustavo',
 'wylys',
 'incentivo',
 'htpstcosezesvtra',
 'agredido',
 'bloquear',
 'influenciadores',
 'nazifascistas',
 'htpstcojnkzamvfera',
 'dito',
 'privatizad',
 'exorcismo',
 'cago',
 'ajudou',
 'aumentou',
 'xinga',
 'pesquisar',
 'nega',
 'bomes',
 'gostava',
 'tute',
 'declara',
 'pora',
 'familia',
 'podem',
 'ufrj',
 'htpstcoguxrfklq',
 'prncipe',
 'te',
 'jos',
 'tentativa',
 'fala',
 'cuspidor',
 'mato',
 'achando',
 'gay',
 'viva',
 'sistema',
 'volta',
 'preconceituoso',
 'eduardo',
 'financeiro',
 'barbaridades',
 'certo',
 'letras',
 'ns',
 

In [36]:
word2int = {}

for i,word in enumerate(words):
    word2int[word] = i

sentences = []
for sentence in corpus:
    sentences.append(sentence.split())
    
WINDOW_SIZE = 2

data = []
for sentence in sentences:
    for idx, word in enumerate(sentence):
        for neighbor in sentence[max(idx - WINDOW_SIZE, 0) : min(idx + WINDOW_SIZE, len(sentence)) + 1] : 
            if neighbor != word:
                data.append([word, neighbor])

In [37]:
data

[['rt', 'falo'],
 ['rt', 'como'],
 ['falo', 'rt'],
 ['falo', 'como'],
 ['falo', 'sapo'],
 ['como', 'rt'],
 ['como', 'falo'],
 ['como', 'sapo'],
 ['como', 'de'],
 ['sapo', 'falo'],
 ['sapo', 'como'],
 ['sapo', 'de'],
 ['sapo', 'fora'],
 ['de', 'como'],
 ['de', 'sapo'],
 ['de', 'fora'],
 ['de', 'esas'],
 ['fora', 'sapo'],
 ['fora', 'de'],
 ['fora', 'esas'],
 ['fora', 'invenes'],
 ['esas', 'de'],
 ['esas', 'fora'],
 ['esas', 'invenes'],
 ['esas', 'de'],
 ['invenes', 'fora'],
 ['invenes', 'esas'],
 ['invenes', 'de'],
 ['invenes', 'ataques'],
 ['de', 'esas'],
 ['de', 'invenes'],
 ['de', 'ataques'],
 ['de', 'por'],
 ['ataques', 'invenes'],
 ['ataques', 'de'],
 ['ataques', 'por'],
 ['ataques', 'parte'],
 ['por', 'de'],
 ['por', 'ataques'],
 ['por', 'parte'],
 ['por', 'pesoal'],
 ['parte', 'ataques'],
 ['parte', 'por'],
 ['parte', 'pesoal'],
 ['parte', 'prpt'],
 ['pesoal', 'por'],
 ['pesoal', 'parte'],
 ['pesoal', 'prpt'],
 ['pesoal', 'para'],
 ['prpt', 'parte'],
 ['prpt', 'pesoal'],
 ['prpt',

In [38]:
for text in corpus:
    print(text)

df = pd.DataFrame(data, columns = ['input', 'label'])

rt falo como sapo de fora esas invenes de ataques por parte pesoal prpt para pintar esfaqueado bolsonaro como r
rt viva nosa senhora aparecida pastor chutou imagem da santa e causou revolta pas edir macedo lder da
rt bolsonaro fica em lugar com milhes de votos na frente revoltados com esa diferena os apoiadores de bo
rt foi atacada foi agredida ia l nis atris tudo rinu k htpstcoraxqsoka
iso brasil acima de tudo deus acima de todos brasilcombolsonaro
rt boulos amigo hadad incitando uma multido invadir casa bolsonaro que deus proteja capito
se vc lese plano de governo bolsonaro teria tanta certeza que teria comida htpstcosryrupyn
rt daqui cem anos vai ter adolescente dizendo que bolsonaro foi de esquerda
rt cara fica puto e xinga em latim mano htpstcogsdwiex
rt auto crio tem manifestao contra presidencivel jair bolsonaro htpstcocrljxco
rt chega nunca mais falo bem de bolsonaro depois disto aqui olhem q ele fez com um nordestino nordeste nordesteco
bolsonaro diz que aceita realizar debate

In [39]:
df.head(10)

Unnamed: 0,input,label
0,rt,falo
1,rt,como
2,falo,rt
3,falo,como
4,falo,sapo
5,como,rt
6,como,falo
7,como,sapo
8,como,de
9,sapo,falo


In [40]:
df.shape

(54550, 2)

In [41]:
word2int

{'desprezo': 0,
 'francesa': 1,
 'htpstcohkvblktqzi': 2,
 'vtima': 3,
 'htpstcobymubx': 4,
 'patifaria': 5,
 'sincero': 6,
 'hofman': 7,
 'acesores': 8,
 'triste': 9,
 'atacaram': 10,
 'forja': 11,
 'ap': 12,
 'placa': 13,
 'presidncia': 14,
 'informar': 15,
 'buro': 16,
 'htpstcojrostl': 17,
 'pegar': 18,
 'falava': 19,
 'histria': 20,
 'prof': 21,
 'comprova': 22,
 'htpstcoarzmfnqgx': 23,
 'fechamento': 24,
 'nam': 25,
 'encontrlo': 26,
 'htpstcounlcoryp': 27,
 'exce': 28,
 'fodas': 29,
 'apoiaram': 30,
 'ofend': 31,
 'outro': 32,
 'ri': 33,
 'insta': 34,
 'gustavo': 35,
 'wylys': 36,
 'incentivo': 37,
 'htpstcosezesvtra': 38,
 'agredido': 39,
 'bloquear': 40,
 'influenciadores': 41,
 'nazifascistas': 42,
 'htpstcojnkzamvfera': 43,
 'dito': 44,
 'privatizad': 45,
 'exorcismo': 46,
 'cago': 47,
 'ajudou': 48,
 'aumentou': 49,
 'xinga': 50,
 'pesquisar': 51,
 'nega': 52,
 'bomes': 53,
 'gostava': 54,
 'tute': 55,
 'declara': 56,
 'pora': 57,
 'familia': 58,
 'podem': 59,
 'ufrj': 60,
 

In [42]:
ONE_HOT_DIM = len(words)

# function to convert numbers to one hot vectors
def to_one_hot_encoding(data_point_index):
    one_hot_encoding = np.zeros(ONE_HOT_DIM)
    one_hot_encoding[data_point_index] = 1
    return one_hot_encoding

X = [] # input word
Y = [] # target word

for x, y in zip(df['input'], df['label']):
    X.append(to_one_hot_encoding(word2int[ x ]))
    Y.append(to_one_hot_encoding(word2int[ y ]))

# convert them to numpy arrays
X_train = np.asarray(X)
Y_train = np.asarray(Y)

# making placeholders for X_train and Y_train
x = tf.placeholder(tf.float32, shape=(None, ONE_HOT_DIM))
y_label = tf.placeholder(tf.float32, shape=(None, ONE_HOT_DIM))

# word embedding will be 2 dimension for 2d visualization
EMBEDDING_DIM = 2 

# hidden layer: which represents word vector eventually
W1 = tf.Variable(tf.random_normal([ONE_HOT_DIM, EMBEDDING_DIM]))
b1 = tf.Variable(tf.random_normal([1])) #bias
hidden_layer = tf.add(tf.matmul(x,W1), b1)

# output layer
W2 = tf.Variable(tf.random_normal([EMBEDDING_DIM, ONE_HOT_DIM]))
b2 = tf.Variable(tf.random_normal([1]))
prediction = tf.nn.softmax(tf.add( tf.matmul(hidden_layer, W2), b2))

# loss function: cross entropy
loss = tf.reduce_mean(-tf.reduce_sum(y_label * tf.log(prediction), axis=[1]))

# training operation
train_op = tf.train.GradientDescentOptimizer(0.05).minimize(loss)

In [None]:
sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init) 

iteration = 20000
for i in range(iteration):
    # input is X_train which is one hot encoded word
    # label is Y_train which is one hot encoded neighbor word
    sess.run(train_op, feed_dict={x: X_train, y_label: Y_train})
    if i % 3000 == 0:
        print('iteration '+str(i)+' loss is : ', sess.run(loss, feed_dict={x: X_train, y_label: Y_train}))

In [None]:
# Now the hidden layer (W1 + b1) is actually the word look up table
vectors = sess.run(W1 + b1)
print(vectors)

In [None]:
w2v_df = pd.DataFrame(vectors, columns = ['x1', 'x2'])
w2v_df['word'] = words
w2v_df = w2v_df[['word', 'x1', 'x2']]
w2v_df

In [None]:
fig, ax = plt.subplots()

for word, x1, x2 in zip(w2v_df['word'], w2v_df['x1'], w2v_df['x2']):
    ax.annotate(word, (x1,x2 ))
    
PADDING = 1.0
x_axis_min = np.amin(vectors, axis=0)[0] - PADDING
y_axis_min = np.amin(vectors, axis=0)[1] - PADDING
x_axis_max = np.amax(vectors, axis=0)[0] + PADDING
y_axis_max = np.amax(vectors, axis=0)[1] + PADDING
 
plt.xlim(x_axis_min,x_axis_max)
plt.ylim(y_axis_min,y_axis_max)
plt.rcParams["figure.figsize"] = (10,10)

plt.show()