import version used for paper

entron · Apr 15, 2016 · bfdf61c · bfdf61c
1 parent 26e7406
commit bfdf61c
Show file tree

Hide file tree

Showing 47 changed files with 1,004 additions and 20,066 deletions.
diff --git a/README.md b/README.md
diff --git a/calculate_metric.py b/calculate_metric.py
@@ -0,0 +1,51 @@
+# Compute the distance between two stores based on the definition in the paper.
+
+import pickle
+import random
+import numpy
+
+f = open('feature_train_data.pickle', 'rb')
+(X, y) = pickle.load(f)
+
+dictlist = [{} for _ in range(1115)]
+for feature, sale in zip(X, y):
+    store = feature[1]
+    dictlist[store][tuple(feature[2:7])] = sale
+
+with open("embeddings.pickle", 'rb') as f:
+    embeddings = pickle.load(f)
+store_embeddings = embeddings[0]
+
+
+def distance(store_pairs, dictlist):
+    '''Distance as defined in the paper'''
+    absdiffs = []
+    a, b = store_pairs
+    for key in dictlist[a]:
+        if key in dictlist[b]:
+            absdiffs.append(abs(dictlist[a][key] - dictlist[b][key]))
+    return sum(absdiffs) / float(len(absdiffs))
+
+
+def embed_distance(store_pairs, em):
+    '''Distance in the embedding space'''
+    a, b = store_pairs
+    a_vec = em[a]
+    b_vec = em[b]
+    return(numpy.linalg.norm(a_vec - b_vec))
+
+# Generate n random store pairs
+n = 10000
+pairs = set()
+while len(pairs) < n:
+    a, b = random.sample(range(1115), 2)
+    if a < b:
+        pairs.add((a, b))
+
+
+# Calcuate distances
+with open('distances.csv', 'w') as f:
+    for pair in pairs:
+        d = distance(pair, dictlist)
+        d_em = embed_distance(pair, store_embeddings)
+        print(d, d_em, file=f)
diff --git a/embedding_visualization.ipynb b/embedding_visualization.ipynb
diff --git a/embedding_visualization_plotly.html b/embedding_visualization_plotly.html
diff --git a/embedding_visualization_plotly.ipynb b/embedding_visualization_plotly.ipynb
diff --git a/extract.py → extract_csv_file.py b/extract.py → extract_csv_file.py
@@ -1,7 +1,5 @@
-# -*- coding: utf-8 -*-
 import pickle
 import csv
-from random import shuffle
 
 
 def csv2dicts(csvfile):
@@ -28,7 +26,6 @@ def set_nan_as_string(data, replace_str='0'):
 
 train_data = "train.csv"
 store_data = "store.csv"
-test_data = "test.csv"
 store_states = 'store_states.csv'
 
 with open(train_data) as csvfile:
@@ -39,12 +36,6 @@ def set_nan_as_string(data, replace_str='0'):
         pickle.dump(data, f, -1)
         print(data[:3])
 
-with open(test_data) as csvfile:
-    data = csv.reader(csvfile, delimiter=',')
-    with open('test_data.pickle', 'wb') as f:
-        data = csv2dicts(data)
-        pickle.dump(data, f, -1)
-        print(data[0])
 
 with open(store_data) as csvfile, open(store_states) as csvfile2:
     data = csv.reader(csvfile, delimiter=',')

diff --git a/extract_fb_features.py b/extract_fb_features.py
diff --git a/extract_google_trend.py b/extract_google_trend.py