# word2vec: How To Prep Word Vectors For Modeling

### Train Our Own Model

In [1]:
# Read in the data, clean it, split it into train and test sets, and then train a word2vec model
import gensim
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
pd.set_option('display.max_colwidth', 100)


# Read in and clean data
import nltk
nltk.download('stopwords')
import numpy as np
import pandas as pd
import re
from sklearn.model_selection import train_test_split
import string

stopwords = nltk.corpus.stopwords.words('english')

messages = pd.read_csv('train 2.csv', encoding='latin-1', usecols= ['id', 'NARRATIVE', 'CRIMETYPE'])
messages = pd.read_csv('train 2.csv', encoding='latin-1', usecols= ['id', 'NARRATIVE', 'CRIMETYPE'])
# Dataset is now stored in a Pandas Dataframe
messages.NARRATIVE=messages.NARRATIVE.astype(str)
messages.CRIMETYPE=messages.CRIMETYPE.astype(str)
messages.id=messages.id.astype(int)

messages.columns = ["id", "NARRATIVE", "CRIMETYPE"]



[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/mrudulareddy/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:

messages['text_clean'] = messages['NARRATIVE'].apply(lambda x: gensim.utils.simple_preprocess(x))
X_train, X_test, y_train, y_test = train_test_split(messages['text_clean'],
                                                    messages['CRIMETYPE'], test_size=0.2)


In [4]:
testdata = pd.read_csv('test 3.csv', encoding='latin-1', usecols= ['id', 'NARRATIVE', 'BEGDATE'])

In [6]:
testdata.NARRATIVE=testdata.NARRATIVE.astype(str)
testdata.id= testdata.id.astype(int)

In [7]:
testdata['text_clean'] = testdata['NARRATIVE'].apply(lambda x: gensim.utils.simple_preprocess(x))


In [8]:

w2v_model = gensim.models.Word2Vec(X_train,
                                   vector_size=100,
                                   window=5,
                                   min_count=2)

### Prep Word Vectors

In [7]:
# Generate a list of words the word2vec model learned word vectors for
w2v_model.wv.index_to_key

['unk',
 'and',
 'prop',
 'susp',
 'veh',
 'fled',
 'victs',
 'removed',
 'to',
 'entered',
 'susps',
 'loc',
 'window',
 'in',
 'door',
 'the',
 'vict',
 'took',
 'with',
 'property',
 'entry',
 'smashed',
 'open',
 'rear',
 'dir',
 'then',
 'from',
 'used',
 'of',
 'direction',
 'side',
 'front',
 'unlocked',
 'nan',
 'an',
 'into',
 'tool',
 'by',
 'through',
 'rmvd',
 'gained',
 'ransacked',
 'via',
 'resid',
 'locked',
 'pried',
 'location',
 'gain',
 'on',
 'vic',
 'thru',
 'was',
 'opened',
 'poe',
 'secured',
 'pass',
 'obj',
 'his',
 'ent',
 'pry',
 'means',
 'broke',
 'smash',
 'inside',
 'lock',
 'her',
 'vehicle',
 'res',
 'hard',
 'left',
 'residence',
 'vs',
 'ss',
 'garage',
 'no',
 'parked',
 'forced',
 'cut',
 'items',
 'exited',
 'enter',
 'sus',
 'passenger',
 'screen',
 'driver',
 'at',
 'taken',
 'glass',
 'remvd',
 'business',
 'object',
 'poss',
 'without',
 'bedroom',
 'dr',
 'missing',
 'wndw',
 'car',
 'frt',
 'resd',
 'key',
 'unknown',
 'apt',
 'victims',
 '

In [9]:
# Generate aggregated sentence vectors based on the word vectors for each word in the sentence
w2v_vect = np.array([np.array([w2v_model.wv[i] for i in ls if i in w2v_model.wv.index_to_key])
                     for ls in X_test], dtype=object)

In [11]:
# Why is the length of the sentence different than the length of the sentence vector?
for i, v in enumerate(w2v_vect):
    print(len(X_test.iloc[i]), len(v))

17 17
17 17
12 12
18 18
18 18
16 15
18 18
16 16
9 9
30 30
23 23
17 17
11 11
18 18
19 19
1 1
20 20
17 17
1 1
12 12
22 22
26 24
11 11
24 24
26 26
26 25
10 10
14 14
15 15
24 24
17 17
20 19
25 25
21 20
1 1
12 12
20 20
1 1
21 21
29 28
16 16
16 15
22 21
11 11
9 9
11 11
15 15
9 9
16 16
1 1
22 22
18 18
27 27
24 24
16 16
1 1
13 13
21 20
20 20
9 9
16 16
9 9
13 13
16 16
13 13
11 11
6 6
16 16
1 1
18 18
17 17
16 15
14 13
6 6
14 14
1 1
15 15
9 8
5 5
7 7
28 28
27 27
10 10
4 4
18 18
16 16
11 11
1 1
25 24
12 12
1 1
21 21
19 19
17 16
13 13
9 9
28 28
16 14
8 8
23 22
25 25
19 19
27 27
11 11
20 20
10 10
16 16
14 14
28 28
7 7
21 21
14 14
24 23
17 17
25 24
15 15
25 25
26 26
8 8
17 17
10 10
11 11
22 20
19 19
23 23
8 8
29 29
27 27
15 15
11 11
9 9
18 18
25 25
9 9
8 8
21 21
8 8
14 13
9 9
26 26
17 17
23 23
12 12
1 1
23 22
1 1
21 21
23 23
8 8
18 18
11 11
27 27
18 18
21 21
23 22
11 11
1 1
14 14
9 9
17 17
1 1
25 24
25 25
11 11
11 11
12 12
31 31
25 25
24 23
24 24
1 1
9 8
10 10
12 12
13 13
15 15
24 24
7 7
13 13
15 15


30 30
23 23
17 17
23 23
28 28
14 14
9 9
18 18
28 28
24 22
23 23
19 19
14 14
26 26
19 19
21 21
16 16
11 11
17 17
15 15
10 10
1 1
11 11
16 16
10 9
1 1
19 19
1 1
19 19
17 17
19 19
9 9
16 16
28 28
19 18
14 13
24 24
11 11
20 20
10 10
14 14
15 15
19 15
13 12
28 27
12 12
25 24
8 8
9 9
25 25
16 16
29 29
12 12
20 20
25 24
9 9
23 23
15 15
26 26
29 28
21 21
15 15
19 19
12 12
13 13
20 20
29 29
11 11
13 13
11 11
11 10
10 10
17 17
1 1
13 13
15 15
9 9
15 15
16 16
24 23
1 1
15 15
27 27
26 26
21 21
1 1
24 23
23 22
19 18
26 24
13 13
23 22
18 18
25 25
15 15
13 13
12 12
25 25
13 13
18 18
15 15
12 12
20 20
13 13
8 8
8 8
12 12
23 23
22 22
13 13
19 18
17 17
11 11
16 16
25 24
8 8
25 25
17 17
9 9
14 13
11 11
15 14
10 10
16 15
16 14
19 19
26 26
25 25
25 24
18 17
19 19
24 24
18 18
25 25
24 24
26 25
10 10
17 17
18 18
8 8
17 17
10 10
8 8
21 21
20 20
8 6
15 15
10 10
15 15
23 23
18 18
23 23
12 12
16 16
24 24
16 16
14 14
14 14
20 20
27 27
21 21
11 11
18 18
16 16
14 14
11 11
22 20
16 16
11 11
1 1
20 19
23 23
11 11
16 

22 22
20 19
14 14
21 21
8 7
12 12
19 19
19 19
20 20
14 14
18 18
14 14
1 1
16 16
1 1
19 19
26 26
19 19
8 8
27 27
1 1
14 14
27 27
1 1
20 17
7 6
1 1
22 22
19 19
19 19
23 23
16 16
13 13
22 22
11 11
8 8
14 14
17 17
1 1
1 1
20 20
24 22
14 14
11 11
5 5
19 19
17 17
26 26
1 1
21 20
17 17
26 25
21 21
17 17
9 9
15 15
11 11
13 13
1 1
20 20
19 19
17 17
15 15
18 18
22 22
18 17
29 29
7 7
1 1
1 1
16 16
15 15
19 19
17 17
11 11
18 18
16 15
26 25
19 18
18 18
11 11
4 4
13 13
23 23
17 17
15 15
21 21
18 18
21 21
18 18
25 24
17 17
21 20
13 13
20 20
16 16
19 18
16 16
21 21
20 20
23 23
20 20
21 21
25 25
15 15
23 23
1 1
15 15
12 12
26 26
11 11
20 20
13 13
11 11
20 20
10 10
10 10
21 21
21 21
7 7
17 17
13 13
11 11
26 25
12 12
10 9
22 22
12 12
28 28
21 20
1 1
10 10
18 18
19 19
17 17
22 22
25 24
16 16
24 24
1 1
18 18
22 22
13 13
26 26
17 17
12 12
8 8
25 24
13 13
1 1
25 25
7 7
12 12
25 24
15 15
1 1
14 14
16 16
18 18
24 21
19 19
17 17
16 16
10 10
13 13
22 22
28 27
14 14
10 10
23 21
19 19
9 9
18 18
1 1
7 7
8 8
9 9
1 1

24 24
10 10
25 25
8 8
26 26
8 8
24 23
22 22
15 15
18 18
1 1
19 19
1 1
1 1
29 28
28 28
10 10
13 13
1 1
13 13
15 15
7 7
18 18
23 22
8 8
11 11
1 1
30 29
14 14
14 14
17 17
13 12
15 15
11 11
11 11
20 20
1 1
1 1
10 10
18 18
21 21
15 15
7 7
8 8
16 15
12 12
27 27
20 20
26 26
9 9
12 12
25 25
23 23
25 25
22 22
15 14
1 1
20 19
17 17
25 25
11 11
5 5
27 27
18 18
7 7
17 17
29 26
24 24
15 15
14 14
11 11
12 12
19 18
26 24
1 1
24 24
19 18
11 11
20 20
15 15
17 17
12 12
15 15
24 23
22 22
15 15
10 10
19 19
11 11
22 22
15 13
12 12
1 1
1 1
1 1
22 22
22 22
21 21
23 22
12 12
13 13
22 22
13 13
16 16
15 15
22 22
20 18
12 12
22 21
16 16
18 18
22 21
14 14
19 19
1 1
18 17
16 16
21 20
23 23
10 10
24 24
1 1
17 17
9 9
22 22
1 1
24 24
10 10
9 9
1 1
5 5
15 15
20 19
1 1
28 26
13 12
22 22
10 10
26 26
21 21
19 18
1 1
18 18
29 29
24 24
20 18
1 1
24 24
1 1
16 16
24 23
16 15
13 13
19 19
20 20
8 8
25 25
1 1
12 12
10 10
5 5
22 21
26 26
17 17
9 9
13 13
8 8
9 9
10 10
28 28
27 27
21 21
25 25
8 8
23 23
17 17
1 1
23 23
8 8
20 19
16

21 21
23 22
19 19
12 12
13 13
1 1
19 19
12 12
13 13
19 19
1 1
17 17
16 16
15 15
11 11
21 20
11 10
16 16
12 12
21 21
29 28
17 17
19 19
15 15
1 1
13 13
17 16
21 21
19 19
22 22
23 21
19 19
14 13
1 1
24 24
1 1
15 15
11 11
20 19
12 12
7 6
11 10
19 19
23 23
13 12
25 25
1 1
17 17
12 12
11 11
21 21
8 8
22 22
22 22
1 1
26 25
1 1
23 23
25 25
14 14
24 24
20 20
22 22
18 18
1 1
14 14
24 23
20 20
17 17
16 16
17 17
21 21
9 9
13 13
19 18
8 8
28 28
10 10
1 1
26 25
1 1
25 24
12 12
25 25
9 9
9 9
23 22
13 13
22 21
13 12
14 14
1 1
11 11
24 21
15 15
21 21
13 13
22 22
12 12
19 19
19 19
15 15
25 25
26 25
11 11
9 9
1 1
25 25
24 24
16 16
16 16
9 9
25 25
7 7
14 14
1 1
12 9
18 18
14 14
17 17
1 1
19 19
25 25
27 27
21 21
7 7
1 1
21 21
17 17
23 23
20 20
21 21
26 26
1 1
23 23
19 18
19 19
1 1
27 27
16 16
8 8
25 24
18 18
16 16
10 10
19 19
10 10
26 26
17 16
22 22
1 1
24 24
1 1
14 14
21 21
14 14
18 18
22 22
19 19
17 17
18 18
12 12
27 27
17 17
21 20
13 13
24 24
18 18
16 16
22 19
17 17
22 22
15 15
20 20
15 15
18 18
17 17
1

22 22
7 7
14 14
13 13
10 10
20 20
19 19
22 22
25 25
16 16
19 19
18 18
1 1
13 13
11 11
12 12
25 25
13 13
15 15
8 8
18 18
13 13
16 16
13 13
17 16
11 11
1 1
15 15
13 13
1 1
1 1
11 10
26 26
1 1
23 23
21 21
17 15
15 15
16 16
18 18
8 8
25 24
17 17
10 10
1 1
12 11
16 16
8 8
18 18
23 23
28 28
16 15
18 18
16 15
1 1
11 11
14 13
12 12
16 16
22 22
25 25
18 18
9 8
1 1
25 21
9 9
9 9
18 18
11 11
22 22
11 11
19 18
9 9
22 21
24 24
7 7
27 27
12 12
1 1
16 16
16 16
19 18
1 1
10 10
15 15
10 10
22 22
21 21
27 27
21 20
18 18
14 14
1 1
21 21
22 21
10 10
25 25
18 18
1 1
26 25
22 22
17 17
29 29
8 8
23 22
21 21
26 26
16 16
12 12
9 9
10 10
21 21
22 22
17 17
1 1
13 13
26 26
21 21
23 22
26 26
17 17
20 20
15 15
1 1
8 8
29 29
25 25
20 20
10 10
18 18
1 1
21 21
13 13
16 16
20 20
16 16
1 1
13 13
1 1
26 26
11 11
20 20
13 13
8 8
13 13
20 20
12 12
12 12
18 18
23 22
23 23
19 19
19 19
18 18
10 10
27 27
9 9
17 17
29 29
9 9
22 20
18 18
21 21
15 15
16 16
10 10
22 21
19 19
21 20
16 16
19 19
8 8
8 8
22 21
20 20
24 24
22 21
18 18


1 1
17 16
17 17
16 16
21 21
7 7
14 14
20 20
26 24
26 26
11 11
17 17
7 7
8 8
18 18
21 21
25 25
27 25
22 22
10 10
9 9
1 1
15 15
15 15
16 16
17 17
20 20
16 16
12 12
1 1
7 7
13 13
13 13
21 20
11 11
16 16
19 19
26 26
17 17
16 16
13 13
17 17
11 11
20 20
24 22
19 18
25 25
20 20
21 21
26 26
26 23
7 7
19 19
1 1
27 27
24 22
10 10
1 1
11 11
18 18
16 16
21 20
22 21
22 21
28 28
12 12
13 13
16 16
16 16
14 14
17 17
18 18
16 16
1 1
13 13
18 18
24 24
14 14
15 15
24 24
15 15
10 10
14 14
15 15
22 22
18 18
17 15
9 9
16 16
23 23
15 14
26 26
26 26
1 1
22 22
21 21
14 14
8 8
12 12
23 23
22 22
26 26
20 20
15 15
22 22
10 10
17 17
13 13
24 23
12 12
17 17
21 21
27 25
15 15
14 14
8 8
10 10
11 11
22 22
27 27
22 22
20 20
8 8
12 12
24 23
19 19
19 19
17 17
19 19
21 21
24 24
8 8
15 15
1 1
1 1
23 23
16 16
1 1
19 19
23 23
18 18
26 25
16 16
15 15
1 1
19 19
25 25
20 20
18 18
11 11
1 1
17 17
22 22
23 23
13 13
19 19
12 12
14 14
22 22
18 13
9 9
17 17
8 8
24 24
1 1
21 21
25 24
12 12
11 11
1 1
25 25
9 9
27 26
14 14
28 28
13 13


10 10
23 23
11 11
17 17
18 18
16 16
15 14
24 24
1 1
12 11
9 9
20 20
26 26
10 10
24 24
11 10
17 17
22 19
22 22
15 13
19 19
8 8
24 24
7 7
1 1
24 23
15 15
16 16
27 27
23 23
21 21
8 8
1 1
17 17
25 25
25 24
10 9
10 10
15 15
17 16
7 7
13 13
15 14
21 21
1 1
21 21
21 21
8 8
15 15
23 23
23 23
14 13
19 19
12 12
29 29
11 11
14 14
17 17
15 14
21 21
8 8
28 27
20 20
20 20
10 10
10 10
15 15
24 24
15 14
17 17
19 19
14 14
11 11
20 18
17 17
15 15
12 12
1 1
22 22
22 22
20 20
21 21
1 1
23 23
9 9
17 17
22 21
28 28
15 15
15 15
24 24
14 14
22 21
13 13
23 22
17 17
1 1
28 27
19 19
20 18
22 22
16 16
16 16
23 23
10 10
12 12
27 27
9 9
14 14
13 13
22 21
23 23
14 14
22 22
10 10
11 11
15 15
20 20
25 24
12 12
1 1
19 19
28 28
14 14
22 21
1 1
10 10
23 23
20 20
24 22
1 1
14 14
29 29
27 27
8 8
16 16
16 16
11 11
13 13
11 11
15 15
15 15
25 24
22 22
22 21
16 16
11 11
29 29
24 24
27 26
24 24
18 18
23 22
24 24
1 1
8 8
22 22
1 1
22 21
15 15
9 9
15 15
19 19
25 25
7 7
8 8
24 24
13 13
16 16
25 24
15 15
19 18
11 11
1 1
11 11
17 16

12 12
26 26
11 11
20 20
26 25
8 8
22 21
15 15
15 15
16 16
11 9
20 20
9 9
16 16
21 20
11 11
16 15
1 1
20 20
10 10
9 9
22 22
12 12
10 10
11 11
1 1
12 12
11 11
22 22
13 13
17 17
16 16
29 29
7 7
26 24
22 22
9 9
22 22
26 26
1 1
11 11
18 18
10 10
12 12
22 20
23 21
18 18
12 12
16 16
24 24
23 23
18 18
14 14
14 14
31 31
29 29
20 20
22 22
14 14
26 26
17 17
21 21
19 19
27 25
27 27
13 13
18 17
18 18
19 19
20 20
12 12
8 8
26 24
20 20
22 20
7 7
14 13
23 23
10 10
16 15
1 1
21 20
16 16
12 12
27 27
14 14
14 14
17 16
1 1
1 1
1 1
10 10
13 13
26 26
7 7
1 1
21 21
18 17
24 24
16 15
11 11
21 21
1 1
19 18
18 18
21 21
19 19
13 13
13 13
26 26
20 20
29 29
21 21
11 11
12 12
22 22
6 6
17 17
23 23
13 13
16 16
8 8
14 14
13 13
1 1
13 13
9 9
25 25
20 20
10 10
11 11
1 1
15 15
23 23
19 19
27 27
16 15
17 16
26 26
20 20
19 19
18 18
15 15
19 19
10 10
12 12
11 11
18 18
1 1
26 25
14 14
26 26
17 15
13 13
18 18
8 8
14 14
19 19
20 20
19 19
15 15
13 13
22 21
27 26
24 24
8 8
25 25
14 14
10 10
20 19
22 22
15 15
14 14
14 14
14 14
2

12 12
28 28
16 16
7 7
19 19
11 11
26 26
13 13
19 19
16 16
12 12
21 21
1 1
23 23
21 21
6 6
18 17
11 11
13 13
16 16
10 10
22 22
16 16
15 14
1 1
7 7
14 14
12 12
20 20
27 27
13 13
10 10
23 21
27 27
20 20
11 11
25 25
9 9
19 19
1 1
24 24
9 9
14 14
1 1
22 22
12 12
21 20
20 20
20 20
17 17
7 7
15 15
12 10
16 16
13 13
25 24
25 25
18 18
23 23
6 6
10 10
15 15
18 17
1 1
21 20
12 12
21 21
15 15
23 23
12 12
15 15
16 16
16 16
27 26
15 15
1 1
18 17
18 18
20 20
19 18
1 1
25 25
13 13
24 24
23 23
16 16
11 10
12 12
1 1
21 21
15 15
22 22
14 14
23 22
1 1
1 1
19 19
18 18
17 17
13 13
9 9
24 23
16 15
23 23
16 16
14 13
1 1
1 1
25 24
1 1
15 15
24 24
1 1
28 28
9 9
20 20
7 7
19 19
21 21
23 23
26 25
14 14
19 19
24 22
20 20
21 21
13 13
9 9
1 1
31 31
9 9
22 22
21 21
15 15
12 12
27 27
17 15
8 8
20 20
16 16
12 12
8 8
7 7
6 6
1 1
1 1
21 21
20 20
25 24
20 20
19 19
1 1
13 13
20 20
17 17
12 12
22 22
1 1
8 8
28 28
13 13
22 22
1 1
11 11
10 10
20 20
6 6
13 13
12 12
19 19
20 20
11 11
20 20
24 24
11 11
12 12
22 22
8 8
21 21
7 7


28 27
14 14
20 20
18 18
19 19
1 1
17 17
12 11
1 1
14 12
1 1
26 26
10 10
13 13
22 21
27 27
1 1
15 15
25 24
14 14
14 14
15 15
1 1
14 13
14 14
14 14
7 7
21 21
21 21
19 19
19 19
14 14
24 24
7 7
12 12
24 24
24 24
16 16
19 19
1 1
6 6
19 19
20 20
9 9
15 15
23 23
18 17
14 14
18 18
15 14
9 9
14 13
18 18
7 7
15 15
17 17
20 20
10 10
18 18
21 21
28 27
13 13
23 23
21 21
16 16
14 14
26 25
27 26
11 11
23 23
16 16
21 21
29 27
19 19
16 15
8 7
14 14
18 18
22 22
1 1
21 20
22 21
11 11
17 17
13 13
8 8
24 23
1 1
20 20
1 1
17 17
1 1
12 12
16 16
18 18
24 24
18 17
10 10
25 25
21 20
10 10
19 19
18 18
1 1
16 16
23 23
8 8
25 25
20 20
11 11
13 13
8 8
13 13
1 1
22 22
8 8
15 15
11 11
20 19
22 22
18 18
7 6
1 1
21 21
32 31
24 24
17 17
9 9
14 14
13 13
21 21
14 14
19 19
10 10
6 6
18 18
21 21
17 17
14 14
16 16
1 1
12 11
27 27
24 24
14 14
11 11
10 10
11 11
27 27
24 24
13 13
9 9
17 17
24 24
15 15
28 28
14 14
7 7
8 8
1 1
29 29
19 18
15 15
21 21
11 11
17 17
14 14
19 19
16 16
18 18
21 21
12 12
22 22
22 22
20 20
25 24
16 16
6 

23 23
18 18
6 6
7 7
15 15
17 17
17 17
10 10
19 19
22 22
9 9
16 16
23 23
18 18
17 17
10 10
27 27
1 1
12 11
22 22
7 7
15 15
19 19
9 9
16 13
16 16
24 24
20 20
13 13
3 3
21 21
22 22
16 16
19 19
11 11
14 13
25 25
14 14
14 14
28 28
18 17
21 21
23 23
20 20
14 14
1 1
25 25
13 13
10 10
17 17
17 17
15 15
9 9
15 15
30 30
22 22
20 20
26 26
11 10
17 17
13 13
1 1
1 1
18 18
1 1
9 9
1 1
20 20
21 21
14 14
17 17
7 7
11 11
22 22
20 20
13 13
20 20
8 8
12 12
23 23
29 26
13 13
15 14
8 8
19 19
20 20
21 20
18 18
27 27
10 10
17 15
16 16
6 6
17 17
22 22
14 14
19 18
21 21
21 21
29 29
11 11
14 14
23 23
20 20
14 14
16 16
22 22
10 10
16 16
1 1
24 22
14 14
14 14
22 22
16 16
1 1
21 21
25 25
17 17
19 19
20 20
14 14
23 22
12 12
25 25
15 15
17 17
24 24
15 15
18 18
22 21
10 10
22 22
23 23
28 28
15 15
9 8
17 17
23 23
16 16
12 12
10 10
18 18
11 11
23 22
18 18
7 7
22 22
1 1
14 13
13 13
21 21
16 16
13 13
24 24
12 12
10 10
28 28
15 15
21 20
14 14
17 17
12 12
16 16
19 19
25 24
13 13
10 10
24 22
19 19
23 22
10 10
23 23
16 16
28

14 14
11 10
19 18
22 22
14 14
8 8
10 10
16 16
16 15
14 14
27 27
12 12
20 18
13 13
22 22
9 9
16 16
26 26
23 23
14 14
24 24
15 15
23 23
11 11
14 14
11 11
25 24
18 18
15 15
18 18
16 16
26 26
10 10
16 16
21 20
21 21
18 18
25 25
18 18
19 19
14 14
25 24
18 18
25 25
8 8
24 24
11 11
17 17
13 13
13 13
17 16
24 24
20 19
28 26
10 9
28 28
11 11
3 3
16 15
1 1
24 23
17 16
9 9
25 24
1 1
18 18
1 1
20 20
13 13
8 8
24 24
17 16
13 13
22 22
26 26
17 17
21 21
1 1
15 15
18 18
1 1
13 13
20 20
28 28
24 24
1 1
9 9
22 22
16 16
23 23
9 9
19 18
12 12
14 14
20 20
15 14
18 18
26 25
22 22
18 18
21 21
19 19
9 9
1 1
9 9
10 10
25 25
10 10
1 1
21 20
10 9
1 1
23 22
21 20
17 17
25 24
21 21
23 22
19 19
9 9
19 18
14 14
19 19
21 21
8 8
1 1
1 1
1 1
23 23
18 16
9 9
24 24
21 21
16 16
13 13
27 27
25 25
10 9
8 8
14 14
1 1
23 23
14 14
26 25
9 9
23 23
16 14
18 18
13 13
23 21
11 11
14 14
11 11
20 19
12 12
19 18
12 12
13 12
9 9
12 12
27 27
18 18
19 19
14 14
24 23
1 1
28 28
1 1
16 15
8 8
18 18
23 22
21 21
19 19
13 13
19 19
24 24
13 13

In [12]:
# Compute sentence vectors by averaging the word vectors for the words contained in the sentence
w2v_vect_avg = []

for vect in w2v_vect:
    if len(vect)!=0:
        w2v_vect_avg.append(vect.mean(axis=0))
    else:
        w2v_vect_avg.append(np.zeros(100))

In [13]:
# Are our sentence vector lengths consistent?
for i, v in enumerate(w2v_vect_avg):
    print(len(X_test.iloc[i]), len(v))

17 100
17 100
12 100
18 100
18 100
16 100
18 100
16 100
9 100
30 100
23 100
17 100
11 100
18 100
19 100
1 100
20 100
17 100
1 100
12 100
22 100
26 100
11 100
24 100
26 100
26 100
10 100
14 100
15 100
24 100
17 100
20 100
25 100
21 100
1 100
12 100
20 100
1 100
21 100
29 100
16 100
16 100
22 100
11 100
9 100
11 100
15 100
9 100
16 100
1 100
22 100
18 100
27 100
24 100
16 100
1 100
13 100
21 100
20 100
9 100
16 100
9 100
13 100
16 100
13 100
11 100
6 100
16 100
1 100
18 100
17 100
16 100
14 100
6 100
14 100
1 100
15 100
9 100
5 100
7 100
28 100
27 100
10 100
4 100
18 100
16 100
11 100
1 100
25 100
12 100
1 100
21 100
19 100
17 100
13 100
9 100
28 100
16 100
8 100
23 100
25 100
19 100
27 100
11 100
20 100
10 100
16 100
14 100
28 100
7 100
21 100
14 100
24 100
17 100
25 100
15 100
25 100
26 100
8 100
17 100
10 100
11 100
22 100
19 100
23 100
8 100
29 100
27 100
15 100
11 100
9 100
18 100
25 100
9 100
8 100
21 100
8 100
14 100
9 100
26 100
17 100
23 100
12 100
1 100
23 100
1 100
21 100
23 1

23 100
15 100
19 100
22 100
10 100
13 100
18 100
6 100
15 100
13 100
17 100
13 100
28 100
13 100
14 100
11 100
21 100
24 100
24 100
18 100
1 100
21 100
23 100
14 100
10 100
12 100
23 100
20 100
14 100
8 100
22 100
25 100
8 100
19 100
9 100
14 100
14 100
18 100
6 100
8 100
20 100
10 100
14 100
1 100
16 100
19 100
7 100
14 100
9 100
20 100
15 100
10 100
17 100
23 100
15 100
13 100
18 100
24 100
17 100
17 100
12 100
6 100
20 100
27 100
1 100
23 100
1 100
17 100
8 100
17 100
17 100
8 100
20 100
22 100
16 100
11 100
28 100
15 100
16 100
22 100
1 100
26 100
11 100
14 100
1 100
13 100
27 100
23 100
22 100
26 100
22 100
12 100
26 100
26 100
22 100
17 100
17 100
19 100
21 100
6 100
17 100
16 100
14 100
17 100
1 100
23 100
14 100
1 100
18 100
17 100
1 100
18 100
15 100
16 100
17 100
10 100
6 100
21 100
18 100
15 100
24 100
14 100
10 100
1 100
17 100
24 100
17 100
12 100
20 100
11 100
24 100
8 100
1 100
21 100
24 100
23 100
26 100
8 100
1 100
24 100
12 100
14 100
13 100
17 100
19 100
12 100
23 10

23 100
13 100
9 100
14 100
25 100
10 100
25 100
28 100
1 100
16 100
27 100
19 100
23 100
26 100
16 100
24 100
8 100
11 100
15 100
23 100
17 100
9 100
13 100
18 100
20 100
7 100
13 100
1 100
13 100
11 100
1 100
9 100
17 100
15 100
14 100
20 100
22 100
18 100
1 100
17 100
10 100
16 100
24 100
18 100
18 100
27 100
27 100
21 100
7 100
17 100
31 100
16 100
19 100
1 100
26 100
15 100
14 100
24 100
1 100
16 100
15 100
25 100
20 100
25 100
25 100
25 100
27 100
23 100
8 100
9 100
24 100
14 100
1 100
15 100
13 100
1 100
11 100
20 100
26 100
1 100
10 100
22 100
16 100
18 100
14 100
19 100
11 100
16 100
1 100
24 100
11 100
26 100
7 100
26 100
1 100
14 100
12 100
17 100
20 100
16 100
1 100
28 100
25 100
9 100
22 100
24 100
14 100
11 100
22 100
19 100
14 100
22 100
24 100
23 100
7 100
15 100
1 100
9 100
16 100
19 100
17 100
15 100
29 100
22 100
25 100
21 100
19 100
29 100
1 100
19 100
22 100
23 100
18 100
17 100
19 100
19 100
11 100
1 100
18 100
13 100
11 100
1 100
24 100
1 100
15 100
16 100
18 100


20 100
17 100
11 100
7 100
24 100
11 100
11 100
18 100
10 100
13 100
22 100
17 100
11 100
1 100
11 100
1 100
18 100
10 100
25 100
22 100
25 100
8 100
1 100
24 100
25 100
27 100
18 100
28 100
15 100
13 100
24 100
18 100
24 100
1 100
16 100
24 100
10 100
11 100
11 100
26 100
22 100
24 100
20 100
12 100
18 100
6 100
23 100
18 100
7 100
20 100
10 100
16 100
18 100
1 100
23 100
23 100
15 100
23 100
22 100
16 100
16 100
1 100
17 100
16 100
18 100
28 100
15 100
18 100
28 100
7 100
16 100
11 100
20 100
17 100
17 100
18 100
20 100
13 100
28 100
5 100
15 100
16 100
9 100
15 100
14 100
15 100
26 100
24 100
16 100
10 100
16 100
21 100
23 100
1 100
16 100
12 100
1 100
23 100
12 100
22 100
21 100
19 100
23 100
1 100
13 100
4 100
23 100
20 100
22 100
23 100
13 100
26 100
1 100
10 100
18 100
18 100
17 100
12 100
10 100
27 100
16 100
24 100
11 100
18 100
9 100
21 100
21 100
27 100
10 100
8 100
19 100
16 100
20 100
1 100
17 100
1 100
18 100
23 100
17 100
12 100
12 100
16 100
9 100
12 100
14 100
8 100
24

10 100
12 100
22 100
1 100
14 100
30 100
1 100
16 100
22 100
11 100
23 100
1 100
24 100
18 100
10 100
21 100
10 100
22 100
22 100
13 100
24 100
1 100
1 100
11 100
16 100
10 100
18 100
9 100
17 100
15 100
26 100
19 100
21 100
27 100
22 100
18 100
25 100
16 100
22 100
17 100
1 100
18 100
12 100
22 100
22 100
19 100
1 100
12 100
10 100
8 100
10 100
17 100
16 100
26 100
22 100
16 100
13 100
8 100
25 100
16 100
1 100
17 100
9 100
25 100
15 100
25 100
1 100
20 100
18 100
17 100
1 100
16 100
19 100
15 100
12 100
27 100
13 100
24 100
27 100
19 100
26 100
21 100
10 100
15 100
10 100
14 100
13 100
16 100
17 100
13 100
17 100
27 100
21 100
16 100
18 100
1 100
12 100
21 100
8 100
7 100
8 100
1 100
15 100
7 100
15 100
24 100
18 100
14 100
12 100
9 100
26 100
10 100
9 100
9 100
7 100
1 100
17 100
16 100
8 100
10 100
1 100
11 100
28 100
19 100
16 100
18 100
16 100
11 100
14 100
9 100
14 100
24 100
8 100
15 100
14 100
1 100
11 100
15 100
14 100
17 100
5 100
18 100
27 100
15 100
15 100
12 100
27 100
9 

17 100
14 100
8 100
19 100
9 100
12 100
19 100
14 100
7 100
12 100
20 100
15 100
15 100
8 100
21 100
1 100
18 100
22 100
1 100
13 100
18 100
23 100
14 100
8 100
22 100
22 100
20 100
18 100
10 100
16 100
13 100
14 100
22 100
1 100
19 100
15 100
26 100
25 100
20 100
26 100
13 100
22 100
19 100
18 100
21 100
15 100
21 100
19 100
14 100
17 100
17 100
16 100
13 100
11 100
15 100
21 100
26 100
26 100
13 100
17 100
8 100
22 100
16 100
28 100
19 100
10 100
24 100
14 100
19 100
1 100
15 100
15 100
23 100
5 100
19 100
19 100
23 100
19 100
23 100
12 100
22 100
22 100
21 100
13 100
15 100
1 100
21 100
16 100
20 100
25 100
19 100
1 100
21 100
20 100
1 100
28 100
1 100
20 100
15 100
25 100
13 100
16 100
14 100
12 100
21 100
15 100
11 100
1 100
8 100
11 100
18 100
23 100
15 100
1 100
12 100
19 100
16 100
11 100
16 100
17 100
21 100
20 100
1 100
19 100
1 100
19 100
19 100
1 100
26 100
25 100
28 100
18 100
21 100
16 100
13 100
13 100
16 100
20 100
1 100
16 100
1 100
20 100
16 100
9 100
24 100
12 100
25

10 100
19 100
15 100
8 100
18 100
18 100
12 100
20 100
8 100
21 100
25 100
22 100
20 100
13 100
14 100
11 100
7 100
8 100
10 100
20 100
9 100
14 100
16 100
29 100
24 100
16 100
18 100
10 100
14 100
1 100
21 100
21 100
17 100
19 100
14 100
23 100
17 100
21 100
19 100
21 100
20 100
25 100
14 100
25 100
22 100
16 100
9 100
15 100
18 100
12 100
24 100
20 100
15 100
1 100
22 100
8 100
23 100
14 100
14 100
16 100
24 100
18 100
9 100
1 100
26 100
10 100
19 100
20 100
16 100
23 100
8 100
16 100
26 100
13 100
16 100
16 100
23 100
23 100
1 100
14 100
8 100
16 100
16 100
21 100
14 100
9 100
14 100
23 100
21 100
20 100
26 100
11 100
11 100
1 100
20 100
16 100
17 100
6 100
1 100
15 100
20 100
9 100
17 100
1 100
14 100
1 100
1 100
25 100
21 100
29 100
22 100
15 100
23 100
26 100
19 100
18 100
12 100
10 100
24 100
14 100
9 100
18 100
16 100
14 100
13 100
24 100
18 100
1 100
18 100
13 100
24 100
19 100
23 100
1 100
11 100
15 100
20 100
22 100
1 100
15 100
15 100
14 100
23 100
17 100
20 100
23 100
12 1

22 100
26 100
19 100
27 100
18 100
28 100
14 100
15 100
17 100
12 100
8 100
5 100
23 100
17 100
18 100
9 100
24 100
24 100
13 100
14 100
8 100
19 100
26 100
14 100
23 100
10 100
23 100
19 100
18 100
17 100
25 100
1 100
6 100
21 100
23 100
14 100
10 100
1 100
25 100
29 100
11 100
11 100
11 100
1 100
16 100
11 100
12 100
29 100
10 100
21 100
12 100
21 100
1 100
1 100
1 100
23 100
1 100
18 100
16 100
13 100
24 100
7 100
13 100
16 100
9 100
24 100
12 100
16 100
21 100
12 100
1 100
1 100
8 100
12 100
22 100
18 100
8 100
22 100
14 100
17 100
13 100
12 100
15 100
20 100
18 100
17 100
22 100
25 100
12 100
10 100
1 100
16 100
15 100
27 100
17 100
19 100
23 100
16 100
13 100
14 100
18 100
21 100
16 100
21 100
18 100
9 100
16 100
22 100
27 100
22 100
27 100
8 100
8 100
26 100
24 100
16 100
13 100
10 100
16 100
8 100
12 100
12 100
14 100
27 100
9 100
20 100
16 100
20 100
16 100
29 100
19 100
10 100
9 100
25 100
9 100
18 100
20 100
1 100
15 100
1 100
21 100
27 100
13 100
13 100
16 100
11 100
12 100

25 100
21 100
12 100
12 100
7 100
30 100
20 100
22 100
20 100
1 100
20 100
8 100
14 100
16 100
10 100
1 100
19 100
19 100
17 100
15 100
27 100
13 100
8 100
1 100
27 100
26 100
26 100
27 100
22 100
13 100
13 100
24 100
23 100
22 100
23 100
12 100
1 100
18 100
1 100
15 100
11 100
20 100
23 100
14 100
16 100
8 100
13 100
1 100
13 100
20 100
17 100
19 100
24 100
25 100
14 100
13 100
18 100
12 100
24 100
22 100
26 100
21 100
1 100
14 100
8 100
1 100
11 100
10 100
23 100
24 100
15 100
16 100
13 100
19 100
11 100
7 100
18 100
20 100
13 100
23 100
26 100
16 100
7 100
24 100
7 100
13 100
21 100
27 100
16 100
17 100
14 100
16 100
13 100
13 100
12 100
17 100
18 100
19 100
17 100
15 100
18 100
15 100
13 100
25 100
15 100
13 100
1 100
9 100
13 100
9 100
13 100
28 100
12 100
29 100
11 100
17 100
25 100
1 100
6 100
16 100
7 100
27 100
21 100
1 100
22 100
14 100
1 100
20 100
9 100
11 100
16 100
20 100
10 100
11 100
13 100
14 100
18 100
13 100
15 100
18 100
14 100
7 100
26 100
15 100
12 100
24 100
8 10

18 100
7 100
9 100
20 100
16 100
21 100
1 100
12 100
8 100
11 100
1 100
10 100
18 100
17 100
24 100
15 100
11 100
24 100
13 100
18 100
7 100
20 100
19 100
11 100
8 100
28 100
16 100
23 100
12 100
19 100
21 100
28 100
10 100
15 100
22 100
23 100
13 100
17 100
1 100
21 100
1 100
16 100
27 100
16 100
16 100
12 100
13 100
9 100
1 100
1 100
20 100
17 100
8 100
19 100
16 100
16 100
25 100
22 100
1 100
13 100
29 100
13 100
20 100
4 100
22 100
8 100
25 100
17 100
13 100
21 100
15 100
13 100
20 100
13 100
12 100
15 100
17 100
13 100
14 100
20 100
8 100
13 100
1 100
20 100
18 100
5 100
8 100
24 100
8 100
12 100
8 100
24 100
14 100
19 100
17 100
16 100
16 100
19 100
26 100
16 100
14 100
1 100
16 100
16 100
24 100
19 100
19 100
17 100
22 100
24 100
12 100
18 100
16 100
8 100
19 100
1 100
19 100
1 100
26 100
10 100
26 100
10 100
15 100
1 100
1 100
20 100
16 100
1 100
21 100
14 100
25 100
18 100
13 100
20 100
25 100
23 100
1 100
17 100
14 100
26 100
8 100
9 100
14 100
27 100
21 100
8 100
18 100
16 1

10 100
1 100
28 100
22 100
12 100
1 100
24 100
10 100
26 100
15 100
15 100
1 100
28 100
16 100
24 100
9 100
15 100
20 100
22 100
21 100
19 100
21 100
14 100
27 100
1 100
1 100
13 100
8 100
24 100
18 100
1 100
1 100
24 100
24 100
20 100
7 100
18 100
26 100
15 100
13 100
10 100
14 100
24 100
13 100
17 100
11 100
23 100
12 100
7 100
10 100
1 100
26 100
19 100
13 100
17 100
21 100
12 100
11 100
18 100
18 100
15 100
7 100
20 100
22 100
21 100
21 100
16 100
10 100
22 100
23 100
25 100
14 100
20 100
20 100
24 100
26 100
10 100
10 100
20 100
24 100
11 100
1 100
8 100
25 100
9 100
8 100
14 100
9 100
19 100
12 100
18 100
1 100
14 100
6 100
18 100
15 100
12 100
25 100
22 100
1 100
15 100
18 100
10 100
10 100
18 100
23 100
22 100
22 100
15 100
7 100
30 100
20 100
17 100
16 100
18 100
20 100
12 100
23 100
9 100
24 100
18 100
10 100
15 100
10 100
10 100
12 100
22 100
12 100
25 100
10 100
20 100
19 100
16 100
9 100
18 100
19 100
15 100
7 100
29 100
1 100
11 100
13 100
25 100
7 100
16 100
19 100
9 100

20 100
9 100
1 100
23 100
16 100
12 100
21 100
21 100
20 100
23 100
8 100
1 100
1 100
1 100
1 100
10 100
21 100
9 100
7 100
20 100
1 100
22 100
10 100
16 100
12 100
22 100
14 100
15 100
28 100
20 100
1 100
16 100
15 100
1 100
15 100
1 100
19 100
16 100
9 100
1 100
15 100
6 100
13 100
28 100
27 100
13 100
23 100
7 100
15 100
14 100
17 100
16 100
19 100
15 100
28 100
12 100
1 100
8 100
7 100
26 100
17 100
21 100
1 100
7 100
20 100
12 100
24 100
16 100
1 100
31 100
1 100
1 100
12 100
8 100
11 100
18 100
15 100
8 100
17 100
17 100
25 100
14 100
22 100
12 100
18 100
19 100
11 100
16 100
26 100
12 100
21 100
19 100
12 100
12 100
24 100
21 100
13 100
14 100
19 100
16 100
20 100
19 100
22 100
23 100
12 100
22 100
21 100
24 100
17 100
16 100
15 100
12 100
27 100
12 100
9 100
28 100
11 100
1 100
19 100
21 100
16 100
20 100
24 100
10 100
11 100
1 100
14 100
22 100
20 100
16 100
12 100
1 100
19 100
15 100
17 100
14 100
20 100
18 100
22 100
26 100
24 100
23 100
17 100
26 100
16 100
1 100
14 100
19 

19 100
11 100
27 100
1 100
1 100
1 100
28 100
25 100
13 100
1 100
20 100
14 100
9 100
23 100
16 100
25 100
11 100
26 100
16 100
11 100
21 100
31 100
8 100
26 100
1 100
27 100
16 100
25 100
19 100
17 100
23 100
21 100
20 100
27 100
1 100
19 100
19 100
29 100
17 100
25 100
17 100
11 100
16 100
25 100
24 100
17 100
29 100
19 100
10 100
9 100
22 100
13 100
20 100
20 100
13 100
1 100
15 100
17 100
20 100
1 100
25 100
18 100
10 100
21 100
20 100
21 100
20 100
14 100
1 100
1 100
16 100
26 100
27 100
20 100
16 100
22 100
21 100
20 100
23 100
24 100
16 100
13 100
1 100
20 100
9 100
16 100
24 100
16 100
1 100
20 100
11 100
11 100
19 100
17 100
18 100
27 100
20 100
10 100
13 100
16 100
22 100
9 100
14 100
20 100
18 100
11 100
11 100
17 100
6 100
25 100
1 100
11 100
16 100
11 100
15 100
6 100
23 100
10 100
16 100
18 100
25 100
26 100
8 100
23 100
13 100
18 100
9 100
28 100
21 100
18 100
16 100
13 100
18 100
21 100
19 100
27 100
1 100
24 100
10 100
14 100
23 100
10 100
19 100
22 100
21 100
1 100
9 

5 100
10 100
19 100
12 100
16 100
10 100
1 100
1 100
20 100
17 100
10 100
10 100
14 100
18 100
12 100
1 100
10 100
1 100
17 100
22 100
8 100
23 100
11 100
19 100
15 100
12 100
16 100
22 100
22 100
27 100
13 100
25 100
16 100
14 100
29 100
24 100
18 100
1 100
14 100
22 100
22 100
26 100
16 100
15 100
20 100
20 100
16 100
16 100
24 100
17 100
26 100
16 100
6 100
9 100
8 100
29 100
19 100
22 100
16 100
24 100
18 100
17 100
21 100
25 100
22 100
10 100
19 100
12 100
