[https://kaggle2.blob.core.windows.net/forum-message-attachments/53646/1539/fast_solution.py?sv=2012-02-12&se=2015-12-04T20%3A40%3A32Z&sr=b&sp=r&sig=qTDaOlHCMWaqBB9aOK6haM6Vo2FmmkfopqtwQaexnC0%3D]


In [2]:
'''
           DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSE
                   Version 2, December 2004

Copyright (C) 2004 Sam Hocevar <sam@hocevar.net>

Everyone is permitted to copy and distribute verbatim or modified
copies of this license document, and changing it is allowed as long
as the name is changed.

           DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSE
  TERMS AND CONDITIONS FOR COPYING, DISTRIBUTION AND MODIFICATION

 0. You just DO WHAT THE FUCK YOU WANT TO.
'''


from datetime import datetime
from csv import DictReader
from math import exp, log, sqrt

# parameters #################################################################
#train = 'train.csv'  # path to training file
#test = 'test.csv'  # path to testing file

#train = r'C:\Users\NYE\Downloads\dac.tar\train.txt'
#test = r'C:\Users\NYE\Downloads\dac.tar\test.txt'

train = r'D:\etc\Thesis\data\dac_sample.tar\train.txt'
test = r'D:\etc\Thesis\data\dac_sample.tar\test.txt'


D = 2 ** 20   # number of weights use for learning
alpha = .1    # learning rate for sgd optimization



In [3]:
# function definitions #######################################################

# A. Bounded logloss
# INPUT:
#     p: our prediction
#     y: real answer
# OUTPUT
#     logarithmic loss of p given y
def logloss(p, y):
    p = max(min(p, 1. - 10e-12), 10e-12)
    return -log(p) if y == 1. else -log(1. - p)

**get_x**

In [7]:
# B. Apply hash trick of the original csv row
# for simplicity, we treat both integer and categorical features as categorical
# INPUT:
#     csv_row: a csv dictionary, ex: {'Lable': '1', 'I1': '357', 'I2': '', ...}
#     D: the max index that we can hash to
# OUTPUT:
#     x: a list of indices that its value is 1
def get_x(csv_row, D):
    x = [0]  # 0 is the index of the bias term
    for key, value in csv_row.items():
        index = int(value + key[1:], 16) % D  # weakest hash ever ;)
        x.append(index)
    return x  # x contains indices of features that have a value of 1

**get_p**

아래 get_p 함수를 살펴보자.  
여기서 인자로 받는 x는 특정 row의 bucket번호를 갖고 있는 array이다. 각 row마다 자신이 해당하지 않는 bucket의 weight들은 전혀 의미가 없고, 모든 범주들이 hashing되어 있으므로 해당하는 bucket에 대응하는 x값은 모두 1이라고 할 수 있다. 따라서 wTx를 구하기 위하여 해당하는 bucket들의 weight을 단순히 더해주면 된다. 이 linear combination값을 inverse sigmoid function에 넣어 bernulli trial의 성공확률 theta를 구할 수 있다.

In [8]:
# C. Get probability estimation on x
# INPUT:
#     x: features
#     w: weights
# OUTPUT:
#     probability of p(y = 1 | x; w)
def get_p(x, w):
    wTx = 0.
    for i in x:  # do wTx
        wTx += w[i] * 1.  # w[i] * x[i], but if i in x we got x[i] = 1.
    return 1. / (1. + exp(-max(min(wTx, 20.), -20.)))  # bounded sigmoid

In [9]:
# D. Update given model
# INPUT:
#     w: weights
#     n: a counter that counts the number of times we encounter a feature
#        this is used for adaptive learning rate
#     x: feature
#     p: prediction of our model
#     y: answer
# OUTPUT:
#     w: updated model
#     n: updated count
def update_w(w, n, x, p, y):
    for i in x:
        # alpha / (sqrt(n) + 1) is the adaptive learning rate heuristic
        # (p - y) * x[i] is the current gradient
        # note that in our case, if i in x then x[i] = 1
        w[i] -= (p - y) * alpha / (sqrt(n[i]) + 1.)
        n[i] += 1.

    return w, n

------------

아래 테스트 코드를 통해서 무슨 일이 일어나고 있는지 살펴보자.   

우선 우리가 다루려는 데이터는 Y값이 0/1의 binomial이고, I1부터 I13까지의 13개의 수치형으로 보이는 변수(물론 의미적으로는 범주형 일수도 있음)와 C1부터 C26까지 26개의 범주형 변수로 이루어져 있다. 그런데 각 범주형 변수의 범주의 수가 수천개 혹은 그 이상일 수도 있다. 이처럼 범주가 많고 기존에는 없던 범주가 언제든지 추가될 수 있는 상황이고 게다가 이런 데이터를 실시간 처리 해야 할 경우 모든 발생 가능한 범주는 상정해서 dummy variable을 생성할 수가 없다. 따라서 이런 경우에는 어느정도의 collision을 감수하더라도 hash tric을 사용하는 것이 합리적인 선택이다. 또한 데이터의 sample수가 많기 때문에 collision으로 인한 영향이 크지 않다고 볼 수 있다.

이 예에서는 2의 20승개의 bucket을 사용하려 한다. 경우에 따라서 더 많은 수 혹은 적은 수의 bucket을 사용할 수도 있을 것이다. 변수 D는 bucket의 수를 나타내고, w은 D개의 weight array를 나타낸다. 

여기에서의 hashing 방법은 **get_x** 함수로 구현되어 있다. 이를 살펴보면 csv_row는 dict type으로 한 record를 의미한다. 하나의 record를 받는데, x는 이 record가 값을 갖는 bucket 번호를 갖는 array이다. 하나의 record를 담은 dict인 csv_row에서 items()라는 함수를 사용하여 (key, value)단위로 iteration을 다시 돌게 된다. 각 key, value는 str값으로서, value값과 key의 두번째 문자부터를 concat한 후 이를 16진수로 보고 10진수로 변환한다. 예를들어 0번 row의 'I6' 변수의 값은 4이므로   value + key[1:] 의 값은 46이 된다. 이를 16진수로 보고 10진수 변환하게 되면 16x4 + 6 = 70이 된다. 마지막으로 bucket수인 D로 modular하면, bucket수로 제한된 숫자가 나오게 된다. 이 경우 70은 bucket수 보다 한참 작으므로 그대로 70이 반환된다.

In [49]:
# test cell

w = [0.] * D  # weights
n = [0.] * D  # number of times we've encountered a feature
loss = 0.


sample = r'D:/etc/Thesis/data/dac_sample.tar/dac_sample.txt'

f = open(sample)
fn = ['Label'] + [ 'I' + str(i) for i in list(range(1,14))] + [ 'C' + str(i) for i in list(range(1,27))]




for t, row in enumerate(DictReader(f, fieldnames=fn, delimiter='\t')):
    if t == 0:
        #print('%s | %s' % (t, row))
        y = 1. if row['Label'] == '1' else 0.
        del row['Label']  # can't let the model peek the answer
        #print('%s | %s' % (t, row))
        
        x = get_x(row, D)
        for key, value in row.items():
            if key == 'I6':
                print(int(value + key[1:], 16) % D)
        
        p = get_p(x, w)
        print(p)
        
        loss = logloss(p, y)
        print(loss)


70
0.5
0.6931471805599453


----------------------

In [12]:
# training and testing #######################################################

# initialize our model
w = [0.] * D  # weights
n = [0.] * D  # number of times we've encountered a feature

# start training a logistic regression model using on pass sgd
loss = 0.

#f = open('../thesis/data/dac_sample.txt')
f = open(train)
fn = ['Label'] + [ 'I' + str(i) for i in list(range(1,14))] + [ 'C' + str(i) for i in list(range(1,27))]


# t : int
# row : dict, this dict could be accessed with key. for example row['Label'] returns y value.
for t, row in enumerate(DictReader(f, fieldnames=fn, delimiter='\t')):
#for t, row in enumerate(DictReader(open(train))):
    y = 1. if row['Label'] == '1' else 0. # Because data type of 'Label' is str, converting to numeric 1 or 0.

    del row['Label']  # can't let the model peek the answer
    #del row['Id']  # we don't need the Id, but there is no 'Id' column in the data that we can get after the kaggle contest.

    # main training procedure
    # step 1, get the hashed features
    x = get_x(row, D) # x contains the bucket numbers that has the value for current row.

    # step 2, get prediction
    p = get_p(x, w)

    # for progress validation, useless for learning our model
    loss += logloss(p, y)
    if t % 1000000 == 0 and t > 1:
        print('%s\tencountered: %d\tcurrent logloss: %f' % (
            datetime.now(), t, loss/t))

    # step 3, update model with answer
    w, n = update_w(w, n, x, p, y)

f.close()

2015-12-04 03:16:15.760836	encountered: 1000000	current logloss: 0.473722
2015-12-04 03:17:58.278966	encountered: 2000000	current logloss: 0.468350
2015-12-04 03:19:41.453531	encountered: 3000000	current logloss: 0.466356
2015-12-04 03:21:26.204966	encountered: 4000000	current logloss: 0.465526
2015-12-04 03:22:57.902531	encountered: 5000000	current logloss: 0.464644
2015-12-04 03:24:21.518360	encountered: 6000000	current logloss: 0.463928
2015-12-04 03:25:45.492840	encountered: 7000000	current logloss: 0.463666
2015-12-04 03:27:09.426853	encountered: 8000000	current logloss: 0.463781
2015-12-04 03:28:33.313838	encountered: 9000000	current logloss: 0.463295
2015-12-04 03:29:57.276867	encountered: 10000000	current logloss: 0.463704
2015-12-04 03:31:21.061795	encountered: 11000000	current logloss: 0.463851
2015-12-04 03:32:44.879741	encountered: 12000000	current logloss: 0.463777
2015-12-04 03:34:08.922518	encountered: 13000000	current logloss: 0.463684
2015-12-04 03:35:32.851917	encount

In [23]:
# testing (build kaggle's submission file)
#f = open('../thesis/data/dac_sample.txt')
f = open(test)
with open('submission1234.csv', 'w') as submission:
    submission.write('Predicted\n')
    #for t, row in enumerate(DictReader(open(test))):
    for t, row in enumerate(DictReader(f, fieldnames=fn, delimiter='\t')):
        #Id = row['Id']
        #del row['Id']
        y = 1. if row['Label'] == '1' else 0.
        del row['Label']  # can't let the model peek the answer
    
        x = get_x(row, D)
        p = get_p(x, w)
        submission.write('%f\n' % (p))