solution5.py

import os
from csv import writer

from sklearn.ensemble import ExtraTreesClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn import cross_validation
import six

import utilities

# Decide read/write mode based on python version
read_mode, write_mode = ('r', 'w') if six.PY2 else ('rt', 'wt')

# Set the path to your consolidated files
path = '/Users/chrysovalantis/Documents/UCY/EPL451/Project'
os.chdir(path)

# File names
ftrain = 'train_consolidation.txt'
ftest = 'test_consolidation.txt'
flabel = 'trainLabels.csv'
fsubmission = 'submission.csv'

labels = utilities.read_labels(flabel)

# Dimensions for train set
ntrain = 10868
nfeature = 16 ** 2 + 1 + 1  # For two_byte_codes, no_que_marks, label
train = utilities.read_train(ntrain, nfeature, labels, ftrain)

X = train[:, :-1]
y = train[:,  -1]

del labels
del train

# Parameters for trees
random_state = 5342
n_jobs = 8
verbose = 1
n_estimators = 89
# ExtraTreesClassifier - feature selection
clf1 = ExtraTreesClassifier(criterion='gini', random_state=random_state, n_jobs=n_jobs, verbose=verbose, n_estimators=n_estimators, max_features=None)

clf1.fit(X, y)
X_new = clf1.transform(X, '0.5*median')
X = X_new

# Initialize classifier
clf = KNeighborsClassifier(n_neighbors=20, p=1)

# Start training
print('training started')

############################
# test log loss
print('computing log loss')
kf = cross_validation.KFold(ntrain, n_folds=4)

_logloss = 0.0
for trainIndex, testIndex in kf:
    print("TRAIN:", trainIndex, "TEST:", testIndex)
    X_train, X_test = X[trainIndex], X[testIndex]
    y_train, y_test = y[trainIndex], y[testIndex]

    clf.fit(X_train, y_train)
    pred = clf.predict_proba(X_test)

    _logloss += utilities.log_loss(pred, y_test)

print('log loss = ', _logloss/len(kf))
############################

clf.fit(X, y)

print('training completed')

del X
del y

# Dimensions for train set
ntest = 10873
nfeature = 16 ** 2 + 1  # For two_byte_codes, no_que_marks
test, Ids = utilities.read_test(ntest, nfeature, ftest)

test = clf1.transform(test, '1.25*median')

# Predict for whole test set
final_pred = clf.predict_proba(test)

del test

# Writing results to file
with open(fsubmission, write_mode) as f:
    fw = writer(f)
    # Header preparation
    header = ['Id'] + ['Prediction' + str(i) for i in range(1, 10)]
    fw.writerow(header)
    for t, (Id, pred) in enumerate(zip(Ids, final_pred.tolist())):
        fw.writerow([Id] + pred)
        if (t + 1) % 1000 == 0:
            print(t + 1, 'prediction written')

print('all done!')