In [788]:
'''
Analysis of /r/nba Posts
@author: Brian Lin
'''
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import re
import Bayes_Helper as bayes
import Multinomial_Helper as multih

In [789]:
def return_csv_files(path):
    pattern = r'^.*\.csv$'
    return [f for f in os.listdir(path) if bool(re.match(pattern,f))]
    
path = 'data/backlog/'
csv_files = return_csv_files(path)
df = pd.DataFrame()
for csv in csv_files:
    csv_df = pd.read_csv(path + csv)
    df = pd.concat([df,csv_df])
df['created'] = pd.to_datetime(df.created, unit = 's')
df.index = range(0,len(df))

In [790]:
''' 
Randomly shuffle the dataframe and generates a training, cross-validation, and test set
'''
random_df = df.reindex(np.random.permutation(df.index))
training_df = random_df.iloc[0:12000]
cross_validation_df = random_df.iloc[12000:15000]
test_df = random_df.iloc[15000:]

In [791]:
cutoffs = [50, 150, 350]
Y_training = training_df.score.apply(lambda d: multih.bucketize(cutoffs,d))
Y_cross_validation = cross_validation_df.score.apply(lambda d: multih.bucketize(cutoffs,d))
Y_test = test_df.score.apply(lambda d: multih.bucketize(cutoffs,d))

In [792]:
words = (bayes.generate_words_and_scores(training_df.title, training_df.score)
                 .groupby('word').agg({'score':['mean','std','median','count']}))


In [793]:
words[('score','bucket')] = words[('score','median')].apply(lambda d: multih.bucketize(cutoffs,d))
bucketize_words = words[words[('score','count')] > 20].sort_values(by=[('score','bucket'),('score','count')], ascending=False)
top200ineachbucket = []
for i in range(len(cutoffs) + 1):
    if i == 2:
        bucket = bucketize_words[bucketize_words[('score','bucket')] == i][:400]
    else:
        bucket = bucketize_words[bucketize_words[('score','bucket')] == i][:200]
    top200ineachbucket.append(bucket)
top200ineachbucket = pd.concat(top200ineachbucket).index.values

In [794]:
n = 250
top250 = words[words['score','count'] > 20].sort_values(by=('score','median'),ascending=False)[:n]
bot250 = words[words['score','count'] > 20].sort_values(by=('score','median'),ascending=True)[:n]
topbot500 = pd.concat([top250,bot250])
topbot500_words = topbot500.index.values
all_words = words.index.values
word_vector_trained_upon= topbot500_words

In [795]:
f500words = words[words['score','count'] > 20].sort_values(by=('score','count'),ascending=False)[:500].index.values

In [856]:
#Note: This changes the word vector we train upon
word_vector_trained_upon= top200ineachbucket


X_training = bayes.generate_feature_vector((training_df.title), word_vector_trained_upon, bayes.common_words)
X_training_df = pd.DataFrame(X_training)

# number of training examples without any features mapped
sum(X_training_df.sum(axis=1) == 0)/float(len(X_training_df))

0.041083333333333333

In [971]:
#bayes_weights = [.9,.8,1.2,.6]
#bayes_weights = [1,1,1,1]
def pxy_table(X_data, Y_data, words, num_i):
    '''
    p(word|y=i) = # of times y = i where word appears / # of time y = i
    '''
    pxyi = [{} for i in range(num_i)]
    for index in range(len(words)):
        for i in range(len(pxyi)):
            word = words[index]
            table = pxyi[i]
            num = float(((X_data.iloc[:,index] == 1) & (Y_data == i)).sum() +1) 
            den = float((Y_data == i).sum() +2)
            table[word] = num/den
    return pxyi

def py_table(Y_data, num_i):
    py = []
    for i in range(num_i):
        py.append(float((Y_data == i).sum())/ len(Y_data))
    return py

def bayes_prob(training_df, x_titles, pxy_table, py_table, pno):
    titles_prob = []
    X_hour = training_df.created.apply(lambda d: d.hour).rename('hour')
    for title_i in range(len(x_titles)):
        title = x_titles[title_i]
        title_prob = [1.0 for _ in range(len(py_table))]
        for word in title:
            for i in range((len(title_prob))):
                if word in pxy_table[i]:
                    title_prob[i] *= pxy_table[i][word]
                #else:
                #    title_prob[i] *= pno[i]
        hour = X_hour.iloc[title_i]
        if title_i % 1000 == 0:
            print title, hour, py
        title_prob = [(phour[len(py_table)*4 + hour]) * (bayes_weights[i]) * (title_prob[i]) for i in range(len(py_table))]
        titles_prob.append(title_prob)
    return titles_prob

def pno_table(Y_data, num_i):
    pno = []
    for i in range(num_i):
        pno.append(1 / float(sum(Y_data.values == i) +2))
    return pno

In [972]:
pxy = pxy_table(X_training_df, Y_training.values, word_vector_trained_upon, len(cutoffs)+1)
py = py_table(Y_training, len(cutoffs)+1)
pno = pno_table(Y_training, len(cutoffs)+1)

In [983]:
X_hour = training_df.created.apply(lambda d: d.hour).rename('hour')
phour = (pd.concat([hour,Y_training], axis=1).groupby(['hour','score']).size()/ pd.concat([hour,Y_training], axis=1).groupby(['hour']).size())
#phour.groupby(['score']).mean()
#p_time(training_df)
#phour[(phour.hour==0) & (phour.score ==0)][0].values
phour.values

array([ 0.55418381,  0.16186557,  0.1138546 ,  0.17009602,  0.59051186,
        0.13732834,  0.12484395,  0.14731586,  0.59826947,  0.13844252,
        0.11619283,  0.14709518,  0.60516605,  0.14760148,  0.11193112,
        0.13530135,  0.62764457,  0.14245416,  0.08744711,  0.14245416,
        0.61103048,  0.14949202,  0.1030479 ,  0.13642961,  0.64285714,
        0.14603175,  0.09206349,  0.11904762,  0.64123377,  0.12662338,
        0.0974026 ,  0.13474026,  0.61066236,  0.15831987,  0.08562197,
        0.1453958 ,  0.59369527,  0.1821366 ,  0.09281961,  0.13134851,
        0.63093415,  0.143951  ,  0.08269525,  0.1424196 ,  0.61740558,
        0.136289  ,  0.08702791,  0.1592775 ,  0.65257353,  0.15257353,
        0.08272059,  0.11213235,  0.72010178,  0.10687023,  0.07379135,
        0.09923664,  0.74222222,  0.14666667,  0.04444444,  0.06666667,
        0.7804878 ,  0.06707317,  0.06707317,  0.08536585,  0.75510204,
        0.10884354,  0.04081633,  0.0952381 ,  0.78512397,  0.06

In [974]:
X_hour.iloc[0]

22

In [975]:
def accuracy(predicted_Y, Y):
    return sum(predicted_Y == Y)/float(len(predicted_Y))
def accuracy_on_set(X_data, Y_data):
    probs_Y = pd.DataFrame(bayes_prob(X_data, bayes.sanitize_and_split_titles(X_data.title),pxy,py,pno))
    probs_Y.index = Y_data.index
    prediction_Y = probs_Y.apply(lambda d: d.argmax(),axis=1)
    prediction_Y.index = Y_data.index
    return accuracy(prediction_Y, Y_data)

In [976]:
#Goal is 65% Accuracy

print 'training accuracy:', accuracy_on_set(training_df, Y_training)
print 'validation accuracy:', accuracy_on_set(cross_validation_df, Y_cross_validation)
print 'test accuracy:', accuracy_on_set(test_df, Y_test)

training accuracy: ['pre-draft', 'thread', 'r/nba', 'draft', 'round', 'results', 'round', 'starts', 'pm', 'est'] 22 [0.6120833333333333, 0.14333333333333334, 0.09966666666666667, 0.14491666666666667]
['michael', 'jordan', 'brixton', 'london', 'uk', 'mid', "80's"] 7 [0.6120833333333333, 0.14333333333333334, 0.09966666666666667, 0.14491666666666667]
["you're", 'westbrook', "isn't", 'best', 'interest', 'commit', 'team', 'via', 'trade', 'competitive', 'reasons'] 8 [0.6120833333333333, 0.14333333333333334, 0.09966666666666667, 0.14491666666666667]
['top', 'centers', 'currently', 'playing'] 9 [0.6120833333333333, 0.14333333333333334, 0.09966666666666667, 0.14491666666666667]
['kobe', 'bryant', '@usabasketball', 'deep', 'strong'] 7 [0.6120833333333333, 0.14333333333333334, 0.09966666666666667, 0.14491666666666667]
['gardner', 'league', 'source', 'indicates', 'bucks', 'made', 'qualifying', 'offer', 'center', 'miles', 'plumlee', 'making', 'restricted', 'free', 'agent'] 10 [0.6120833333333333, 0

In [977]:
probs_Y = pd.DataFrame(bayes_prob(training_df, bayes.sanitize_and_split_titles(training_df.title),pxy,py,pno))
probs_Y.index = Y_training.index
prediction_Y = probs_Y.apply(lambda d: d.argmax(),axis=1)
prediction_Y.index = Y_training.index

debug_df = pd.concat([training_df.title,prediction_Y, Y_training], axis=1)
debug_df.title = bayes.sanitize_and_split_titles(training_df.title)

['pre-draft', 'thread', 'r/nba', 'draft', 'round', 'results', 'round', 'starts', 'pm', 'est'] 22 [0.6120833333333333, 0.14333333333333334, 0.09966666666666667, 0.14491666666666667]
['michael', 'jordan', 'brixton', 'london', 'uk', 'mid', "80's"] 7 [0.6120833333333333, 0.14333333333333334, 0.09966666666666667, 0.14491666666666667]
["you're", 'westbrook', "isn't", 'best', 'interest', 'commit', 'team', 'via', 'trade', 'competitive', 'reasons'] 8 [0.6120833333333333, 0.14333333333333334, 0.09966666666666667, 0.14491666666666667]
['top', 'centers', 'currently', 'playing'] 9 [0.6120833333333333, 0.14333333333333334, 0.09966666666666667, 0.14491666666666667]
['kobe', 'bryant', '@usabasketball', 'deep', 'strong'] 7 [0.6120833333333333, 0.14333333333333334, 0.09966666666666667, 0.14491666666666667]
['gardner', 'league', 'source', 'indicates', 'bucks', 'made', 'qualifying', 'offer', 'center', 'miles', 'plumlee', 'making', 'restricted', 'free', 'agent'] 10 [0.6120833333333333, 0.14333333333333334,

KeyboardInterrupt: 

In [None]:
prediction_Y.value_counts()

In [None]:
prediction_Y[Y_training != prediction_Y].value_counts()/prediction_Y.value_counts()

In [None]:
Y_training[Y_training != prediction_Y].value_counts()/Y_training.value_counts()