In [1]:
from gensim.models import KeyedVectors
from gensim.models.doc2vec import TaggedDocument, Doc2Vec

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC
from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.metrics import classification_report
from sklearn.preprocessing import FunctionTransformer, MultiLabelBinarizer

from nltk import sent_tokenize
from nltk import pos_tag
from nltk import map_tag
from nltk import word_tokenize
from nltk.corpus import stopwords

import pandas as pd
import numpy as np
import torch
import json
import re
import csv
from tqdm import tqdm

In [2]:
metadata = pd.read_csv("../data/movie.metadata.tsv", sep = '\t', header = None)
metadata.columns = ["movie_id",1,"movie_name",3,4,5,6,7,"genre"]

plots = []
with open("../data/plot_summaries.txt", 'r') as f:
    reader = csv.reader(f, dialect='excel-tab') 
    for row in tqdm(reader):
        plots.append(row)

movie_id = []
plot = []

# extract movie Ids and plot summaries
for i in tqdm(plots):
    movie_id.append(i[0])
    plot.append(i[1])

# create dataframe
movies = pd.DataFrame({'movie_id': movie_id, 'plot': plot})

# change datatype of 'movie_id'
metadata['movie_id'] = metadata['movie_id'].astype(str)

# merge meta with movies
movies = pd.merge(movies, metadata[['movie_id', 'movie_name', 'genre']], on = 'movie_id')

genres = [] 

# extract genres
for i in movies['genre']: 
    genres.append(list(json.loads(i).values())) 

# add to 'movies' dataframe  
movies['genre_new'] = genres

movies_new = movies[~(movies['genre_new'].str.len() == 0)]

def clean_text(text):
    # remove a string like {{plot}}
    text = re.sub("\s*{{\w*}}\s*", "", text)
    # remove backslash-apostrophe 
    text = re.sub("\'", "", text)
    
    text = text.lower().replace('\n', ' ').replace('\t', ' ').replace('\xa0',' ') #get rid of problem chars
    
    text = ' '.join(text.split())
    
    return text

movies_new['clean_plot'] = movies_new['plot'].apply(lambda x: clean_text(x))

42303it [00:01, 37036.26it/s]
100%|██████████| 42303/42303 [00:00<00:00, 1193620.20it/s]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


In [24]:
def doc2vec(data_df):
    data = []
    print("Building TaggedDocuments")
    total = len(data_df[['movie_id', 'clean_plot']].as_matrix().tolist())
    processed = 0
    for x in data_df[['movie_id', 'clean_plot']].as_matrix().tolist():
        label = ["_".join(x[0].split())]
        words = []
        sentences = sent_tokenize(x[1])
        for s in sentences:
            words.extend([x for x in word_tokenize(s)])
        doc = TaggedDocument(words, label)
        data.append(doc)

        processed += 1
        if processed % 10000 == 0:
            print(processed, "/", total)

    model = Doc2Vec(min_count=1, window=10, size=300, sample=1e-5, negative=5, workers=2, epochs=20, min_alpha=0.00025)
    
    print("Building Vocabulary")
    model.build_vocab(data)
    
    print("Training starts")
    
    model.train(documents=data, total_examples=model.corpus_count, epochs=model.epochs)
    
    # Build doc2vec vectors
    x_data = []
    genres = data_df['genre_new'].as_matrix().tolist()
    binarizer = MultiLabelBinarizer()
    y_data = binarizer.fit_transform(genres)
    ids = data_df[['movie_id']].as_matrix().tolist()
    for i in range(len(ids)):
        movie_id = ids[i][0]
        label = "_".join(movie_id.split())
        x_data.append(model.docvecs[label])

    return np.array(x_data), y_data


In [25]:
x_data, y_data = doc2vec(movies_new)

Building TaggedDocuments
TaggedDocument(['shlykov', ',', 'a', 'hard-working', 'taxi', 'driver', 'and', 'lyosha', ',', 'a', 'saxophonist', ',', 'develop', 'a', 'bizarre', 'love-hate', 'relationship', ',', 'and', 'despite', 'their', 'prejudices', ',', 'realize', 'they', 'arent', 'so', 'different', 'after', 'all', '.'], ['23890098'])
TaggedDocument(['the', 'nation', 'of', 'panem', 'consists', 'of', 'a', 'wealthy', 'capitol', 'and', 'twelve', 'poorer', 'districts', '.', 'as', 'punishment', 'for', 'a', 'past', 'rebellion', ',', 'each', 'district', 'must', 'provide', 'a', 'boy', 'and', 'girl', 'between', 'the', 'ages', 'of', '12', 'and', '18', 'selected', 'by', 'lottery', 'for', 'the', 'annual', 'hunger', 'games', '.', 'the', 'tributes', 'must', 'fight', 'to', 'the', 'death', 'in', 'an', 'arena', ';', 'the', 'sole', 'survivor', 'is', 'rewarded', 'with', 'fame', 'and', 'wealth', '.', 'in', 'her', 'first', 'reaping', ',', '12-year-old', 'primrose', 'everdeen', 'is', 'chosen', 'from', 'district

  after removing the cwd from sys.path.
  


TaggedDocument(['the', 'film', 'begins', 'with', 'a', 'boy', 'named', 'michael', ',', 'a', 'kid', 'who', 'has', 'the', 'hots', 'for', 'a', 'beautiful', 'girl', 'named', 'jada', ',', 'but', 'is', 'always', 'rejected', 'because', 'jada', 'is', 'stuck', 'with', 'a', 'gangster', ',', 'lorenzo', ',', 'and', 'when', 'michael', 'comes', 'close', 'to', 'her', ',', 'he', 'is', 'threatened', 'with', 'bodily', 'harm', 'by', 'getting', 'beat', 'up', 'by', 'both', 'lorenzo', 'and', 'his', 'homeboys', ',', 't-bone', 'and', 'baby', 'boy', '.', 'but', 'michael', 'is', 'secretly', 'involved', 'in', 'black', 'magic', ',', 'and', 'tries', 'to', 'bring', 'a', 'doll', 'that', 'he', 'keeps', 'calling', 'killjoy', 'to', 'life', '.', 'but', 'the', 'spell', 'does', 'not', 'work', 'quickly', ';', 'after', 'he', 'is', 'abducted', 'by', 'the', 'gangsters', 'and', 'brought', 'into', 'an', 'abandoned', 'area', 'of', 'the', 'woods', ',', 'michael', 'is', 'accidentally', 'shot', 'and', 'killed', 'by', 'lorenzo', 'whe

TaggedDocument(['phir', 'kabhi', 'targets', 'the', 'heart', 'of', 'its', 'audience', '.', 'it', 'is', 'all', 'about', 'emotions', '.', 'it', 'is', 'a', 'sensitive', 'tale', 'of', 'love', '.', 'there', 'are', 'many', 'moments', 'in', 'the', 'film', 'where', 'one', 'may', 'realize', 'the', 'meaning', 'behind', 'the', 'saying', ',', 'crying', 'while', 'laughing', 'and', 'laughing', 'also', 'while', 'crying', '.', 'how', 'both', 'the', 'phenomena', 'happen', 'together', 'can', 'be', 'witnessed', 'via', 'few', 'moments', 'of', 'this', 'film', '.', 'film', 'rides', 'over', 'the', 'successive', 'sequences', 'of', 'light', 'and', 'sensitive', 'scenes', '.', 'at', 'one', 'moment', 'something', 'light', ',', 'humorous', 'and', 'lively', 'is', 'happening', 'on', 'screen', 'and', 'a', 'smile', 'is', 'flowing', 'on', 'the', 'lips', 'of', 'the', 'characters', 'and', 'audiences', 'also', 'and', 'all', 'of', 'a', 'sudden', 'it', '’', 's', 'followed', 'by', 'a', 'very', 'intense', 'and', 'sensitive', '

TaggedDocument(['two', 'elderly', 'ladies', '(', 'one', 'of', 'which', 'is', '[', '[', 'granny', ',', 'the', 'owners', 'of', 'sylvester', 'and', 'tweety', ',', 'sneak', 'their', 'pets', 'into', 'a', 'hotel', 'where', 'no', 'pets', 'are', 'allowed', '.', 'sylvester', ',', 'hearing', 'tweetys', 'singing', 'in', 'the', 'room', 'next', 'to', 'his', ',', 'writes', 'a', 'letter', 'to', 'the', 'canary', 'from', 'his', '``', 'ardent', 'admirer', "''", '.', 'tweety', 'shortly', 'discovers', 'who', 'his', '``', 'admirer', "''", 'is', ',', 'and', 'a', 'chase', 'ensues', ',', 'which', 'is', 'cut', 'short', 'by', 'the', 'doorman', ',', 'forcing', 'sylvester', 'to', 'disguise', 'himself', 'causing', 'the', 'doorman', 'to', 'apologize', 'and', 'flee', '.', 'sylvester', 'then', 'sneaks', 'into', 'tweetys', 'room', 'and', 'tries', 'to', 'get', 'him', 'in', 'his', 'cage', ';', 'this', 'backfires', 'and', 'he', 'is', 'knocked', 'out', 'by', 'the', 'spring-loaded', 'cage', '.', 'sylvester', 'then', 'phone

TaggedDocument(['dr.', 'mortimer', 'gangreen', 'escapes', 'from', 'prison', 'and', 'has', 'set', 'up', 'a', 'base', 'at', 'his', 'assistant', 'igors', 'really', 'big', 'castle', 'located', 'outside', 'paris', ',', 'france', ',', 'and', 'he', 'is', 'still', 'bent', 'on', 'global', 'domination', '.', 'using', 'his', 'killer', 'tomatoes', ',', 'gangreen', 'plans', 'to', 'stage', 'a', 'second', 'french', 'revolution', 'according', 'to', 'an', 'old', 'prophecy', 'written', 'by', 'nicodemus', ',', 'in', 'which', 'the', 'king', 'of', 'france', 'will', 'return', 'to', 'claim', 'the', 'throne', '.', 'the', 'only', 'image', 'of', 'louis', 'xvii', 'shows', 'that', 'he', 'bears', 'a', 'close', 'resemblance', 'to', 'igor', ',', 'and', 'gangreen', 'plans', 'to', 'use', 'this', 'to', 'his', 'advantage', 'to', 'have', 'igor', 'impersonate', 'louis', 'xvii', 'to', 'claim', 'the', 'throne', '.', 'the', 'heroes', 'of', 'the', 'film', 'are', 'a', 'has-been', 'tv', 'actor', 'named', 'michael', 'and', 'mari

TaggedDocument(['the', 'action', 'takes', 'place', 'in', 'ancient', 'rome', ',', 'judaea', ',', 'capri', ',', 'and', 'galilee', 'in', 'a', 'time', 'period', 'stretching', 'from', '32', 'a.d.', 'to', '38', 'a.d.the', 'beginning', 'date', 'is', 'given', 'as', 'the', '``', '18th', 'year', 'of', 'tiberius', ',', 'and', 'the', 'ending', 'date', 'is', 'a', 'year', 'after', 'the', 'historical', 'year', 'of', 'the', 'accession', 'of', 'caligula', 'as', 'roman', 'emperor', '.', 'diana', 'tells', 'caligula', 'that', 'she', 'had', 'not', 'heard', 'from', 'marcellus', 'for', 'almost', 'a', 'year', 'when', 'marcellus', 'was', 'in', 'cana', 'of', 'galilee', '.', 'at', 'that', 'time', 'marcellus', 'was', 'told', 'by', 'paulus', 'that', 'caligula', 'was', 'then', 'the', 'emperor', '.', 'marcellus', 'gallio', ',', 'son', 'of', 'an', 'important', 'roman', 'senator', 'and', 'himself', 'a', 'military', 'tribune', 'begins', 'the', 'film', 'in', 'a', 'prologue', 'that', 'introduces', 'the', 'viewer', 'to', 

TaggedDocument(['all', 'remaining', 'reserves', 'of', 'petroleum', 'have', 'finally', 'run', 'out', ';', 'forcing', 'people', 'to', 'ration', 'the', 'few', 'remaining', 'containers', 'of', 'gasoline', 'left', 'on', 'the', 'earth', 'against', 'mercenaries', 'and', 'warlords', '.', 'straker', 'and', 'his', 'men', 'find', 'a', 'vast', 'supply', 'of', 'diesel', 'fuel', 'in', 'a', 'compound', 'once', 'thought', 'to', 'be', 'radioactive', '.', 'when', 'corlie', 'refuses', 'to', 'execute', 'the', 'previous', 'owners', ',', 'she', 'runs', 'away', 'from', 'base', 'camp', '.', 'hunter', ',', 'on', 'his', 'amazing', 'motorcycle', ',', 'rescues', 'the', 'girl', 'and', 'takes', 'her', 'to', 'his', 'farm', '.', 'after', 'keeping', 'her', 'on', 'the', 'farm', 'on', 'a', 'temporary', 'basis', ',', 'hunter', 'sends', 'her', 'off', 'to', 'live', 'in', 'a', 'walled', 'city', 'governed', 'by', 'a', 'strict', 'old-fashioned', 'democracy', 'where', 'she', 'is', 'quickly', 'accepted', 'by', 'the', 'community

TaggedDocument(['poh', 'huat', ',', 'the', 'father', 'of', 'the', 'loh', 'family', ',', 'works', 'as', 'a', 'lawyers', 'clerk', '.', 'he', 'is', 'married', 'to', 'siew', 'luan', ',', 'a', 'housewife', 'who', 'likes', 'to', 'brew', 'liang', 'teh', 'for', 'the', 'family', '.', 'poh', 'huat', 'has', 'a', 'habit', 'of', 'buying', 'lottery', 'tickets', 'in', 'hope', 'of', 'winning', 'and', 'enjoying', 'a', 'better', 'life', '.', 'he', 'also', 'keeps', 'newspaper', 'cuttings', 'of', 'car', 'models', 'and', 'condominiums', 'and', 'stores', 'them', 'in', 'a', 'box', 'in', 'his', 'room', '.', 'the', 'family', 'has', 'one', 'son', ',', 'seng', ',', 'and', 'one', 'daughter', ',', 'mei', '.', 'despite', 'meis', 'superior', 'academic', 'performance', ',', 'the', 'family', 'has', 'consistently', 'shown', 'favouritism', 'for', 'seng', '.', 'even', 'though', 'he', 'was', 'ostensibly', 'the', 'academically', 'poorer', 'sibling', ',', 'dropping', 'out', 'of', 'school', 'in', 'secondary', '3', ',', 'his'

TaggedDocument(['while', 'scrubbing', 'the', 'floor', 'at', 'home', ',', 'belle', 'is', 'interrupted', 'by', 'her', 'brothers', 'friend', 'avenant', 'who', 'tells', 'her', 'she', 'deserves', 'better', 'and', 'suggests', 'they', 'get', 'married', '.', 'belle', 'rejects', 'avenant', ',', 'as', 'she', 'wishes', 'to', 'stay', 'home', 'and', 'take', 'care', 'of', 'her', 'father', ',', 'who', 'has', 'suffered', 'much', 'since', 'his', 'ships', 'were', 'lost', 'at', 'sea', 'and', 'the', 'family', 'fortune', 'along', 'with', 'them', '.', 'belles', 'father', 'arrives', 'home', 'announcing', 'he', 'has', 'come', 'into', 'great', 'fortune', 'that', 'he', 'will', 'pick', 'up', 'the', 'next', 'day', ',', 'along', 'with', 'gifts', 'for', 'his', 'daughters', ',', 'belles', 'shrewish', 'sisters', 'adelaide', 'and', 'felicie', '.', 'belles', 'roguish', 'brother', 'ludovic', 'signs', 'a', 'contract', 'from', 'a', 'moneylender', 'allowing', 'him', 'to', 'the', 'ability', 'to', 'sue', 'ludovics', 'father'

TaggedDocument(['boxer', 'and', 'amateur', 'pilot', 'joe', 'pendleton', '(', '[', '[', 'robert', 'montgomery', 'flies', 'his', 'small', 'plane', 'to', 'his', 'next', 'fight', 'in', 'new', 'york', 'city', ',', 'but', 'crashes', 'when', 'a', 'control', 'cable', 'severs', '.', 'his', 'soul', 'is', '``', 'rescued', "''", 'by', '7013', ',', 'an', 'officious', 'angel', ',', 'who', 'assumed', 'that', 'joe', 'could', 'not', 'have', 'survived', '.', 'joes', 'manager', ',', 'max', 'corkle', ',', 'has', 'his', 'body', 'cremated', '.', 'in', 'the', 'afterlife', ',', 'the', 'records', 'show', 'his', 'death', 'was', 'a', 'mistake', ';', 'he', 'was', 'supposed', 'to', 'live', 'for', '50', 'more', 'years', '.', 'the', 'angels', 'superior', ',', 'mr.', 'jordan', ',', 'confirms', 'this', ',', 'but', 'since', 'there', 'is', 'no', 'more', 'body', ',', 'joe', 'will', 'have', 'to', 'take', 'over', 'a', 'newly', 'dead', 'corpse', '.', 'mr.', 'jordan', 'explains', 'that', 'a', 'body', 'is', 'just', 'something

TaggedDocument(['at', 'the', 'tail-end', 'of', 'world', 'war', 'ii', ',', 'choi', 'bae-dal', 'is', 'a', 'young', 'korean', 'man', 'who', 'longs', 'to', 'be', 'able', 'to', 'fly', 'fighter', 'planes', '.', 'stowing', 'away', 'to', 'japan', 'in', 'order', 'to', 'join', 'their', 'air', 'force', ',', 'bae-dals', 'first', 'experience', 'of', 'the', 'country', 'is', 'when', 'a', 'con-man', 'tries', 'to', 'steal', 'his', 'money', '.', 'bae-dal', 'discovers', 'that', 'the', 'man', 'is', 'a', 'fellow', 'korean', 'called', 'chun-bae', ',', 'who', 'has', 'survived', 'the', 'harsh', 'treatment', 'of', 'koreans', 'in', 'japan', 'by', 'turning', 'to', 'petty', 'crime', '.', 'with', 'their', 'different', 'motives', ':', 'bae-dal', 'driven', 'by', 'desire', 'for', 'action', 'and', 'chun-bae', 'needing', 'to', 'escape', 'from', 'some', 'gangsters', ',', 'the', 'two', 'koreans', 'stow', 'away', 'in', 'a', 'truck', 'to', 'the', 'air', 'force', 'training', 'camp', '.', 'the', 'commander', 'in', 'charge', 

TaggedDocument(['the', 'hikari', 'studio', 'arrives', 'in', 'a', 'new', 'a.r', '.', 'world', 'where', ',', 'after', 'seeing', 'that', 'tsukasas', 'photos', 'of', 'this', 'world', 'are', 'coming', 'out', 'perfectly', ',', 'natsumi', 'realizes', 'they', 'may', 'be', 'in', 'tsukasas', 'home', 'world', '.', 'tsukasa', 'realizes', 'he', 'remembers', 'the', 'mansion', 'depicted', 'on', 'the', 'backdrop', 'that', 'took', 'them', 'here', '.', 'finding', 'the', 'manor', ',', 'tsukasa', 'opens', 'the', 'door', 'as', 'he', 'natsumi', 'and', 'yuusuke', 'meet', 'a', 'girl', 'named', 'sayo', ',', 'who', 'identifies', 'tsukasa', 'as', 'her', 'older', 'brother', '.', 'as', 'sayo', 'learns', 'that', 'tsukasa', 'lost', 'his', 'memories', ',', 'revealing', 'how', 'he', 'left', 'her', 'a', 'year', 'ago', ',', 'her', 'caretaker', 'nobuhiko', 'tsukikage', 'arrives', 'and', 'confronts', 'him', 'about', 'leaving', 'his', 'sister', 'alone', 'for', 'so', 'long', '.', 'but', 'when', 'the', 'nine', 'worlds', 'fus

TaggedDocument(['taking', 'place', 'after', 'the', 'series', ',', 'the', 'story', 'opens', 'in', 'bellwood', 'as', 'a', 'mysterious', 'figure', 'appears', 'and', 'immediately', 'starts', 'destroying', 'things', '.', 'ben', 'tennyson', '(', '[', '[', 'graham', 'phillips', ',', 'in', 'the', 'form', 'of', 'heatblast', '(', 'voiced', 'by', '[', '[', 'david', 'franklin', ',', 'confronts', 'him', '.', 'after', 'a', 'short', 'battle', ',', 'ben', 'seemingly', 'obliterates', 'the', 'villain', '.', 'the', 'next', 'day', ',', 'ben', 'goes', 'back', 'to', 'school', ',', 'and', 'has', 'trouble', 'adjusting', 'to', 'normal', 'life', 'again', '.', 'after', 'a', 'bad', 'day', 'he', 'gets', 'bullied', 'by', 'cash', 'and', 'jt', 'and', 'two', 'girls', 'he', 'tried', 'to', 'flirt', 'with', 'earlier', 'in', 'the', 'movie', 'resulting', 'in', 'greymatter', 'causing', 'complete', 'chaos', 'at', 'a', 'diner', 'where', 'ms.', 'dalton', 'works', '.', 'later', 'he', 'and', 'gwen', 'tennyson', 'go', 'over', 'an

TaggedDocument(['seenu', '(', '[', '[', 'ram', 'enjoys', 'fights', 'right', 'from', 'his', 'childhood', '.', 'he', 'appreciates', 'violence', '.', 'he', 'wants', 'to', 'be', 'like', 'manikyam', ',', 'who', 'was', 'a', 'goonda', ',', 'as', 'everyone', ',', 'including', 'his', 'teacher', ',', 'is', 'afraid', 'of', 'him', '.', 'when', 'all', 'the', 'boys', 'wanted', 'to', 'become', 'doctors', ',', 'engineers', ',', 'lawyers', 'and', 'other', 'professionals', ',', 'seenu', 'wants', 'to', 'become', 'a', 'goonda', '.', 'though', 'he', 'behaves', 'like', 'a', 'ruffian', ',', 'he', 'comes', 'to', 'know', 'that', 'one', 'should', 'have', 'the', 'support', 'of', 'a', 'politician', 'or', 'a', 'big', 'dada', '.', 'with', 'the', 'help', 'of', 'laddu', 'an', 'associate', 'of', 'manikyam', ',', 'seenu', 'meets', 'the', 'latter', 'and', 'joins', 'his', 'gang', '.', 'at', 'this', 'juncture', ',', 'seenu', 'falls', 'in', 'love', 'with', 'subbalakshmi', '.', 'as', 'she', 'pleads', 'with', 'seenu', 'to', 

TaggedDocument(['a', 'mysterious', 'group', 'of', 'ninja', 'called', 'the', 'sora', 'from', 'the', 'sky', 'country', 'makes', 'a', 'surprise', 'attack', 'on', 'konoha', 'for', 'vengeance', 'due', 'to', 'konoha', 'nearly', 'destroying', 'the', 'sky', 'country', 'during', 'the', 'last', 'shinobi', 'world', 'war', '.', 'at', 'the', 'same', 'time', 'naruto', ',', 'sakura', ',', 'and', 'hinata', 'are', 'sent', 'along', 'to', 'help', 'a', 'boys', 'village', '.', 'they', 'accompany', 'amaru', ',', 'the', 'boy', ',', 'and', 'shinnō', ',', 'his', 'sensei', ',', 'back', 'to', 'the', 'village', '.', 'later', 'naruto', 'notices', 'that', 'amaru', 'is', 'in', 'fact', 'a', 'female', 'due', 'to', 'her', 'falling', 'into', 'the', 'water', 'for', 'her', 'scapel', '.', 'meanwhile', 'at', 'konoha', ',', 'the', 'sora-nin', 'retreat', 'with', 'their', 'dwindling', 'chakra', 'supply', '.', 'tsunade', 'sends', 'another', 'special', 'team', 'consisting', 'of', 'kakashi', ',', 'shikamaru', ',', 'sai', 'and', '

TaggedDocument(['zamindar', 'sivalingam', 'is', 'married', 'to', 'lakshmiammal', 'and', 'takes', 'his', 'familys', 'prestige', 'and', 'heritage', 'very', 'seriously', '.', 'dancer', 'sulochana', 'and', 'lakshmiammal', 'have', 'baby', 'girls', 'at', 'the', 'same', 'time', 'in', 'the', 'same', 'hospital', '.', 'sivalingam', 'is', 'not', 'in', 'town', 'at', 'the', 'time', 'of', 'the', 'delivery', 'and', 'his', 'close', 'friend', 'ramaswamy', '(', '[', '[', 'v.', 'k.', 'ramaswamy', 'takes', 'care', 'of', 'lakshmiammal', '.', 'when', 'the', 'babies', 'are', 'taken', 'for', 'cleaning', 'by', 'the', 'nurses', ',', 'there', 'is', 'a', 'short', 'circuit', 'and', 'both', 'nurses', 'die', '.', 'there', 'is', 'no', 'way', 'of', 'identifying', 'the', 'babies', '.', 'sulochana', 'who', 'was', 'abandoned', 'by', 'her', 'husband', ',', 'leaves', 'the', 'hospital', '.', 'the', 'doctor', 'brings', 'both', 'babies', 'to', 'lakshmiammal', 'and', 'she', 'is', 'not', 'able', 'to', 'identify', 'her', 'baby',

TaggedDocument(['in', 'the', 'small', 'town', 'of', 'dukesberry', ',', 'new', 'hampshire', ',', 'davey', 'stone', ',', 'a', '33-year-old', 'alcoholic', 'troublemaker', 'with', 'a', 'long', 'criminal', 'record', ',', 'is', 'arrested', 'for', 'walking', 'out', 'on', 'his', 'bill', 'at', 'mr.', 'changs', 'chinese', 'restaurant', 'and', ',', 'while', 'attempting', 'to', 'evade', 'arrest', ',', 'destroying', 'a', 'giant', 'menorah/santa', 'ice', 'sculpture', '.', 'davey', 'is', 'about', 'to', 'be', 'sentenced', 'to', 'jail', 'time', 'when', 'whitey', 'duvall', ',', 'a', '70-year-old', 'volunteer', 'referee', 'from', 'daveys', 'former', 'basketball', 'league', ',', 'intervenes', 'and', 'comes', 'forward', 'at', 'his', 'trial', '.', 'the', 'judge', ',', 'at', 'whiteys', 'suggestion', ',', 'sentences', 'davey', 'to', 'community', 'service', 'as', 'a', 'referee-in-training', 'for', 'whiteys', 'youth', 'basketball', 'league', '.', 'under', 'the', 'terms', 'of', 'the', 'community', 'service', ','

TaggedDocument(['howard', 'tyler', 'is', 'a', 'family', 'man', ',', 'living', 'in', 'california', ',', 'who', 'cant', 'seem', 'to', 'get', 'by', 'financially', '.', 'he', 'meets', 'up', 'with', 'a', 'small-time', ',', 'but', 'charismatic', ',', 'hood', 'jerry', 'slocum', '.', 'soon', ',', 'slocum', 'convinces', 'tyler', 'into', 'participating', 'in', 'gas', 'station', 'robberies', 'to', 'get', 'by', '.', 'later', ',', 'they', 'kidnap', 'a', 'wealthy', 'man', 'in', 'hopes', 'of', 'getting', 'a', 'huge', 'ransom', '.', 'things', 'go', 'wrong', 'when', 'the', 'man', 'is', 'murdered', 'by', 'slocum', 'then', 'thrown', 'in', 'a', 'lake', '.', 'tyler', 'reaches', 'his', 'limit', 'emotionally', ',', 'and', 'he', 'begins', 'drinking', 'heavily', '.', 'he', 'meets', 'a', 'lonely', 'woman', 'and', 'confesses', 'the', 'crime', 'while', 'drunk', '.', 'the', 'woman', 'flees', 'and', 'goes', 'to', 'the', 'police', '.', 'when', 'the', 'two', 'kidnappers', 'are', 'arrested', ',', 'a', 'local', 'journa

TaggedDocument(['angus', 'bethune', 'is', 'a', 'teenage', 'boy', 'living', 'in', 'minnesota', ',', 'who', ',', 'despite', 'his', 'talents', 'as', 'a', 'football', 'player', 'and', 'in', 'science', 'class', ',', 'holds', 'deep', 'insecurities', 'about', 'himself', '.', 'since', 'kindergarten', ',', 'angus', 'has', 'been', 'regularly', 'harassed', 'by', 'handsome', 'rick', 'sanford', ',', 'and', 'his', 'complacent', 'cohorts', ',', 'for', 'not', 'being', '``', 'normal', "''", 'due', 'to', 'being', 'overweight', 'and', 'is', ',', 'in', 'their', 'view', ',', '``', 'named', 'after', 'a', 'cow', "''", '.', 'his', 'only', 'friend', 'is', 'troy', 'wedberg', ',', 'who', 'is', 'also', 'a', 'social', 'outcast', 'like', 'him', '.', 'angus', 'also', 'had', 'feelings', 'for', 'melissa', 'lefevre', ',', 'though', 'is', 'fearful', 'of', 'expressing', 'it', 'because', 'she', 'is', 'dating', 'rick', '.', 'eventually', ',', 'tired', 'of', 'the', 'abuse', 'from', 'rick', ',', 'angus', 'applies', 'for', 'a

TaggedDocument(['the', 'film', 'begins', 'with', 'a', 'flashback', 'to', 'an', 'inebriated', 'police', 'detective', 'jerry', 'black', ',', 'mumbling', 'incoherently', 'at', 'an', 'unspecified', 'location', '.', 'the', 'scene', 'then', 'switches', 'to', 'events', 'that', 'precede', 'the', 'opening', 'scene', '.', 'jerry', 'is', 'ice', 'fishing', ',', 'then', 'driving', 'to', 'work', '.', 'after', 'work', ',', 'he', 'goes', 'to', 'a', 'restaurant', ',', 'where', 'the', 'department', 'has', 'thrown', 'him', 'a', 'retirement', 'party', '.', 'police', 'captain', 'eric', 'pollack', 'gives', 'jerry', 'a', 'gift', ',', 'a', 'trip', 'to', 'go', 'fishing', 'in', 'mexico', '.', 'the', 'party', 'is', 'interrupted', 'by', 'the', 'discovery', 'of', 'a', 'murdered', 'young', 'girl', 'named', 'ginny', '.', 'jerry', 'decides', 'to', 'go', 'with', 'another', 'detective', ',', 'stan', 'krolak', 'to', 'the', 'scene', 'of', 'the', 'crime', '.', 'jerry', 'delivers', 'the', 'bad', 'news', 'to', 'the', 'girls

TaggedDocument(['american', 'ambassador', 'to', 'israel', 'peter', 'hacker', 'and', 'head', 'of', 'security', 'frank', 'stevenson', 'are', 'en', 'route', 'to', 'a', 'secret', 'location', 'in', 'the', 'judean', 'desert', 'to', 'meet', 'with', 'representatives', 'of', 'the', 'plo', '.', 'it', 'is', 'part', 'of', 'hacker', '’', 's', 'secret', 'plan', 'to', 'have', 'young', 'jews', 'and', 'muslims', 'begin', 'a', 'peaceful', 'dialogue', '.', 'an', 'armed', 'israeli', 'helicopter', 'locates', 'and', 'disrupts', 'the', 'meeting', 'by', 'firing', 'on', 'it', 'causing', 'several', 'deaths', '.', 'hacker', 'and', 'stevenson', 'survive', 'and', 'are', 'apprehended', 'by', 'israeli', 'ground', 'soldiers', '.', 'alex', 'hacker', ',', 'the', 'ambassador', '’', 's', 'troubled', 'and', 'lonely', 'wife', 'is', 'in', 'jerusalem', 'where', 'she', 'is', 'secretly', 'meeting', 'her', 'lover', '.', 'however', ',', 'she', 'is', 'followed', 'and', 'their', 'tryst', 'is', 'caught', 'on', 'videotape', 'by', 'a

TaggedDocument(['tansen', 'is', 'known', 'to', 'be', 'the', 'greatest', 'classical', 'vocalist', 'ever', 'to', 'have', 'existed', 'in', 'india', ',', 'and', 'was', 'one', 'of', 'the', 'nine', 'jewels', 'of', 'emperor', 'akbar', '’', 's', 'court', '.', 'nobody', 'could', 'sing', 'in', 'the', 'city', 'unless', 'he', 'or', 'she', 'could', 'sing', 'better', 'than', 'tansen', '.', 'if', 'this', 'was', 'not', 'the', 'case', ',', 'he', 'or', 'she', 'was', 'executed', '.', 'baiju', 'bawra', 'is', 'the', 'story', 'of', 'an', 'unknown', 'singer', ',', 'baiju', ',', 'who', 'is', 'on', 'a', 'mission', 'to', 'defeat', 'tansen', 'in', 'a', 'musical', 'duel', 'to', 'avenge', 'the', 'death', 'of', 'his', 'father', '.', 'when', 'baiju', 'is', 'still', 'a', 'child', ',', 'tansens', 'sentry', 'tries', 'to', 'stop', 'baiju', '’', 's', 'father', 'from', 'singing', ',', 'and', 'in', 'the', 'ensuing', 'scuffle', ',', 'his', 'father', 'dies', '.', 'before', 'dying', ',', 'he', 'extracts', 'a', 'promise', 'fro

TaggedDocument(['while', 'grace', 'wong', 'is', 'driving', 'her', 'vehicle', ',', 'her', 'car', 'is', 'knocked', 'down', 'by', 'another', 'vehicle', 'and', 'she', 'is', 'abducted', 'from', 'the', 'scene', '.', 'the', 'kidnappers', ',', 'led', 'by', 'fok', 'tak-nang', ',', 'return', 'to', 'graces', 'house', ',', 'where', 'they', 'kill', 'her', 'maid', ',', 'and', 'start', 'searching', 'the', 'place', '.', 'grace', 'is', 'then', 'taken', 'to', 'an', 'abandoned', 'house', ',', 'where', 'she', 'manages', 'to', 'repair', 'a', 'destroyed', 'telephone', '.', 'with', 'the', 'phone', ',', 'she', 'manages', 'to', 'contact', 'bob', ',', 'a', 'single', 'father', 'and', 'debt', 'collector', '.', 'bob', 'has', 'promised', 'his', 'son', ',', 'kit-kit', ',', 'and', 'his', 'sister', ',', 'jeannie', ',', 'that', 'he', 'will', 'meet', 'them', 'at', 'an', 'airport', ',', 'before', 'kit-kit', 'boards', 'a', 'flight', 'to', 'australia', '.', 'while', 'talking', 'to', 'grace', 'on', 'his', 'cellular', 'phone

TaggedDocument(['2:37', 'is', 'a', 'complex', 'tale', 'narrated', 'by', 'six', 'high', 'school', 'students', 'whose', 'lives', 'are', 'interwoven', ';', 'each', 'of', 'whom', 'has', 'their', 'own', 'personal', 'problems', 'and', 'goals', '.', 'the', 'story', 'takes', 'place', 'during', 'a', 'normal', 'school', 'day', 'where', ',', 'at', 'precisely', '2:37', ',', 'a', 'students', 'suicide', 'will', 'occur', '.', 'as', 'the', 'story', 'unfolds', ',', 'the', 'individual', 'stories', 'are', 'revealed', 'leading', 'to', 'one', 'of', 'the', 'characters', 'taking', 'their', 'own', 'life', '.', 'the', 'film', 'begins', 'with', 'a', 'student', 'hearing', 'noises', 'of', 'someone', 'falling', 'within', 'a', 'disabled', 'bathroom', '.', 'a', 'nearby', 'teacher', 'is', 'alerted', ',', 'who', 'calls', 'for', 'the', 'janitor', 'to', 'open', 'the', 'door', '.', 'worry', 'escalates', 'when', 'the', 'teacher', 'realises', 'that', 'blood', 'is', 'running', 'from', 'under', 'the', 'door', '.', 'marcus', 

TaggedDocument(['someone', 'has', 'been', 'killing', 'women', 'in', 'la', 'and', 'leaving', 'the', 'bodies', 'drained', 'of', 'blood', '.', 'the', 'police', 'planned', 'a', 'sting', 'using', 'a', 'female', 'officer', ',', 'detective', 'gwen', ',', 'taylor', '{', 'denise', 'alessandria', 'hurd', '}', 'however', 'the', 'killer', 'was', 'instead', 'intercepted', 'and', 'captured', 'by', 'a', 'group', 'calling', 'itself', 'the', 'delphi', 'project', '.', 'the', 'delphi', 'project', 'is', 'a', 'secret', 'government', 'group', 'intent', 'on', 'capturing', 'and', 'studying', 'a', 'live', 'vampire', 'and', 'as', 'it', 'turns', 'out', 'the', 'killer', 'that', 'they', 'are', 'after', 'is', 'actually', 'a', 'thousand', 'year', 'old', 'vampire', 'going', 'by', 'the', 'name', 'simon', 'molinar', '{', 'jason', 'carter', '}', '.', 'during', 'the', 'attempted', 'capture', 'dr.', 'hirsch', '{', 'james', 'kiberd', '}', 'gets', 'killed', 'by', 'the', 'vampire', '.', 'a', 'replacement', 'doctor', ',', 'dr

TaggedDocument(['the', 'film', 'begins', 'with', 'a', 'business', 'man', 'in', 'a', 'hurry', 'to', 'get', 'into', 'his', 'car', '.', 'he', 'appears', 'to', 'be', 'stressed', 'and', 'somewhat', 'distraught', '.', 'he', 'gets', 'in', 'and', 'starts', 'down', 'the', 'city', 'streets', ',', 'suddenly', 'screaming', '``', 'fuck', '!', "''", 'at', 'the', 'top', 'of', 'his', 'lungs', 'before', 'a', 'truck', 'running', 'a', 'red', 'light', 'crashes', 'into', 'him', '.', 'as', 'he', 'falls', 'unconscious', ',', 'he', 'dreams', 'of', 'playing', 'with', 'his', 'little', 'girl', 'emma', '.', 'at', 'first', 'he', 'seems', 'tired', 'and', 'is', 'reluctant', 'to', 'play', 'with', 'her', ',', 'but', 'he', 'gives', 'in', 'when', 'she', 'pretends', 'to', 'be', 'taken', 'away', 'by', 'monsters', ',', 'and', 'he', 'runs', 'to', 'save', 'her', 'from', 'them', '.', 'the', 'dream', 'then', 'fades', 'to', 'black', '.', 'it', 'is', 'revealed', 'that', 'there', 'are', 'people', 'who', 'exist', 'on', 'an', 'alte

TaggedDocument(['beth', 'raymond', 'is', 'terrified', 'by', 'the', 'deaths', 'of', 'four', 'friends', ',', 'shelley', ',', 'leann', ',', 'brian', 'and', 'taylor', ',', 'after', 'they', 'received', 'chilling', 'phone', 'calls', 'apparently', 'from', 'themselves', 'in', 'the', 'future', ',', 'showing', 'the', 'exact', 'time', 'of', 'their', 'deaths', '.', 'after', 'each', 'of', 'their', 'deaths', ',', 'a', 'single', 'red', 'hard', 'candy', 'comes', 'out', 'of', 'their', 'mouths', '.', 'in', 'all', 'the', 'cases', ',', 'the', 'people', 'who', 'are', 'going', 'to', 'die', 'see', 'strange', 'apparitions', 'shortly', 'before', 'being', 'killed', '.', 'beth', 'reports', 'these', 'strange', 'occurrences', 'to', 'the', 'police', ';', 'however', ',', 'they', 'think', 'she', 'is', 'delirious', '.', 'detective', 'jack', 'andrews', 'believes', 'her', 'and', 'together', ',', 'they', 'begin', 'to', 'unravel', 'the', 'mystery', '.', 'they', 'eventually', 'trace', 'the', 'calls', 'back', 'to', 'a', 'wo

TaggedDocument(['the', 'film', 'begins', 'with', 'navin', 'r.', 'johnson', ',', 'a', 'homeless', 'bum', ',', 'directly', 'addressing', 'the', 'camera', 'and', 'telling', 'his', 'story', '.', 'he', 'is', 'the', 'adopted', 'white', 'son', 'of', 'african', 'american', 'sharecroppers', ',', 'who', 'grows', 'to', 'adulthood', 'naïvely', 'unaware', 'of', 'his', 'obvious', 'adoption', '.', 'he', 'stands', 'out', 'in', 'his', 'family', 'not', 'just', 'because', 'of', 'his', 'skin', 'color', ',', 'but', 'also', 'because', 'of', 'his', 'utter', 'lack', 'of', 'rhythm', 'when', 'his', 'adopted', 'family', 'plays', 'spirited', 'blues', 'music', '.', 'one', 'night', ',', 'he', 'hears', 'the', 'staid', 'and', 'starchy', 'roger', 'wolfe', 'kahn', 'orchestra', 'song', 'called', '``', 'crazy', 'rhythm', "''", 'on', 'the', 'radio', 'and', 'his', 'feet', 'spontaneously', 'begin', 'to', 'move', 'with', 'the', 'urge', 'to', 'dance', ';', 'he', 'sees', 'this', 'as', 'a', 'calling', 'and', 'decides', 'to', 'h

TaggedDocument(['the', 'film', 'opens', 'on', 'a', 'long', 'strand', 'of', 'beach', ',', 'where', 'several', 'people', 'in', 'white', 'robes', 'gather', 'around', 'a', 'young', 'man', 'named', 'ilius', ',', 'adorning', 'him', 'in', 'a', 'vest', 'of', 'leather', 'armor', ',', 'while', 'an', 'old', 'man', 'hands', 'him', 'a', 'bow', 'and', 'a', 'set', 'of', 'arrows', ',', 'summoning', 'it', 'to', 'fly', 'to', 'them', '.', 'the', 'old', 'man', 'tells', 'ilius', 'the', 'tale', 'of', 'an', 'ancient', 'warrior', 'god', 'named', 'kronos', ',', 'who', 'once', 'wielded', 'the', 'bow', ',', 'and', 'how', 'when', 'he', 'ran', 'out', 'of', 'arrows', ',', 'the', 'sun', 'itself', 'seemed', 'to', 'vanish', 'from', 'the', 'sky', ',', 'transferring', 'itself', 'to', 'his', 'bow', ',', 'making', 'arrows', 'out', 'of', 'pure', 'sunlight', '.', 'after', 'telling', 'ilius', 'this', 'tale', ',', 'the', 'old', 'man', 'and', 'his', 'people', 'depart', 'as', 'ilius', 'wordlessly', 'departs', 'down', 'the', 'be

TaggedDocument(['benjamin', 'jahrvi', 'has', 'moved', 'to', 'new', 'york', 'city', 'where', 'he', 'is', 'selling', 'toy', 'versions', 'of', 'johnny', '5', 'on', 'the', 'street', '.', 'struggling', 'department', 'store', 'buyer', 'sandy', 'banatoni', 'sees', 'the', 'toys', 'and', 'orders', '1,000', 'units', '.', 'ben', 'is', 'helped', 'by', 'con', 'artist', 'fred', 'ritter', 'with', 'the', 'project', '.', 'fred', 'borrows', 'money', 'from', 'a', 'loan', 'shark', 'for', 'equipment', ',', 'hires', 'temporary', 'workers', 'and', 'rents', 'a', 'warehouse', 'to', 'build', 'the', 'toys', '.', 'unfortunately', ',', 'the', 'warehouse', 'is', 'the', 'base', 'of', 'operations', 'for', 'a', 'couple', 'of', 'thieves', 'hired', 'by', 'bank', 'teller', 'oscar', 'baldwin', 'to', 'tunnel', 'into', 'the', 'bank', 'vault', 'across', 'the', 'street', '.', 'they', 'plan', 'to', 'steal', 'a', 'set', 'of', 'jewels', 'known', 'as', 'the', 'vanderveer', 'collection', ',', 'worth', '$', '37,862,000', '.', 'the'

TaggedDocument(['the', 'film', 'begins', 'in', 'a', 'bowling', 'alley', ',', 'where', 'a', 'group', 'of', 'friends', 'are', 'awaiting', 'the', 'arrival', 'of', 'salim', '.', 'meanwhile', ',', 'deepak', 'arrives', 'with', 'his', 'fiancée', 'sheetal', '.', 'when', 'a', 'conversation', 'about', 'love', 'arises', ',', 'deepak', 'and', 'the', 'rest', 'find', 'it', 'necessary', 'to', 'make', 'sheetal', 'aware', 'that', 'true', 'love', 'does', 'exist', '.', 'they', 'tell', 'her', 'the', 'story', 'of', 'raj', 'and', 'priya', ',', 'two', 'of', 'their', 'closest', 'friends', '.', 'raj', 'mathur', 'is', 'the', 'owner', 'of', 'raj', 'transport', ',', 'a', 'small', 'trucking', 'company', 'he', 'founded', 'himself', '.', 'raj', 'is', 'a', 'carefree', 'man', 'who', 'is', 'unorganized', ',', 'messy', ',', 'lazy', 'and', 'late', 'all', 'the', 'time', '.', 'although', 'he', 'isnt', 'the', 'richest', ',', 'hes', 'always', 'happy', '.', 'on', 'the', 'other', 'hand', ',', 'priya', 'chopra', 'is', 'a', 'suc

KeyboardInterrupt: 

In [18]:
import pickle 
with open('doc2vec_data.pkl', 'wb') as f:
    pickle.dump((x_data, y_data), f)

In [19]:
with open('doc2vec_data.pkl', 'rb') as f:
    data = pickle.load(f)
    x_data, y_data = data[0], data[1]