In [2]:
import pandas as pd
import numpy as np
import itertools
import string
import random

from sklearn.svm import SVC, LinearSVC
from sklearn.model_selection import StratifiedKFold, GridSearchCV
from sklearn import metrics
from matplotlib import pyplot as plt

def load_data(fname):
    """
    Reads in a csv file and return a dataframe. A dataframe df is similar to dictionary.
    You can access the label by calling df['label'], the content by df['content']
    the rating by df['rating']
    """
    return pd.read_csv(fname)

def get_multiclass_training_data():
    """
    Reads in the data from data/dataset.csv and returns it using
    extract_dictionary and generate_feature_matrix as a tuple
    (X_train, Y_train) where the labels are multiclass as follows
        -1: poor
         0: average
         1: good
    Also returns the dictionary used to create X_train.
    """
    fname = "data/dataset.csv"
    dataframe = load_data(fname)
    dictionary = extract_dictionary(dataframe)
    X_train = generate_feature_matrix(dataframe, dictionary)
    Y_train = dataframe['label'].values.copy()

    return (X_train, Y_train, dictionary)

def get_heldout_reviews(dictionary):
    """
    Reads in the data from data/heldout.csv and returns it as a feature
    matrix based on the functions extract_dictionary and generate_feature_matrix
    Input:
        dictionary: the dictionary created by get_multiclass_training_data
    """
    fname = "data/heldout.csv"
    dataframe = load_data(fname)
    X = generate_feature_matrix(dataframe, dictionary)
    return X

def generate_challenge_labels(y, uniqname):
    """
    Takes in a numpy array that stores the prediction of your multiclass
    classifier and output the prediction to held_out_result.csv. Please make sure that
    you do not change the order of the ratings in the heldout dataset since we will
    this file to evaluate your classifier.
    """
    pd.Series(np.array(y)).to_csv(uniqname+'.csv', header=['label'], index=False)
    return

def multiclass_accuracy(y_true, y_pred):
    t=0
    n=len(y_true)
    for i in range(n):
        if y_true[i]==y_pred[i]:
            t+=1
    return t/n

def cv_performance(clf, X, y, k=5):
    """
        Splits the data X and the labels y into k-folds and runs k-fold
        cross-validation: for each fold i in 1...k, trains a classifier on
        all the data except the ith fold, and tests on the ith fold.
        Calculates the k-fold cross-validation performance metric for classifier
        clf by averaging the performance across folds.
        Input:
        clf: an instance of SVC()
        X: (n,d) array of feature vectors, where n is the number of examples
        and d is the number of features
        y: (n,) array of binary labels {1,-1}
        k: an int specifying the number of folds (default=5)
        metric: string specifying the performance metric (default='accuracy'
        other options: 'f1-score', 'auroc', 'precision', 'sensitivity',
        and 'specificity')
        Returns:
        average 'test' performance across the k folds as np.float64
        """
    # TODO: Implement this function
    scores = []
    #HINT: You may find the StratifiedKFold from sklearn.model_selection
    #to be useful
    skf = StratifiedKFold(n_splits=k)
    skf.get_n_splits(X,y)
    for train_index, test_index in skf.split(X, y):
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]
        clf.fit(X_train,y_train)
        y_pred = clf.predict(X_test)
        score=multiclass_accuracy(y_test, y_pred)
        scores.append(score)
    
    #And return the average performance across all fold splits.
    return np.array(scores).mean()

def extract_dictionary(df):
    """
        Reads a panda dataframe, and returns a dictionary of distinct words
        mapping from each distinct word to its index (ordered by when it was found).
        Input:
        df: dataframe/output of load_data()
        Returns:
        a dictionary of distinct words that maps each distinct word
        to a unique index corresponding to when it was first found while
        iterating over all words in each review in the dataframe df
        """
    word_dict = {}
    
    # TODO: Implement this function
    index=0
    for text in df["text"]:
        for p in string.punctuation:
            text=text.replace(p," ")
        text=text.lower()
        spl=text.split()
        for word in spl:
            if word not in word_dict:
                word_dict[word]=index
                index=index+1
    return word_dict

def generate_feature_matrix(df, word_dict, count=False, normalize=False):
    number_of_reviews = df.shape[0]
    number_of_words = len(word_dict)
    feature_matrix = np.zeros((number_of_reviews, number_of_words))
    # TODO: Implement this function
    index=0
    for text in df["text"]:
        for p in string.punctuation:
            text=text.replace(p," ")
        text=text.lower()
        spl=text.split()
        for word in spl:
            if word in word_dict:
                if count:
                    feature_matrix[index,word_dict[word]]+=1
                else:
                    feature_matrix[index,word_dict[word]]=1  
        if normalize:
            feature_matrix=feature_matrix*1.0
            norm=np.linalg.norm(feature_matrix)
            feature_matrix[index]=feature_matrix[index]/norm
        index=index+1
    return feature_matrix

def select_classifier(penalty='l2', c=1.0, degree=1, r=0.0):
    """
        Return a linear svm classifier based on the given
        penalty function and regularization parameter c.
        """
    # TODO: Optionally implement this helper function if you would like to
    # instantiate your SVM classifiers in a single function. You will need
    # to use the above parameters throughout the assignment.
    if penalty=="l2":
        if degree==1:
            return SVC(kernel="linear", C=c, coef0=r)
        return SVC(kernel="poly", C=c, degree=degree, gamma="auto",coef0=r)
    if penalty=="l1":
        return LinearSVC(penalty="l1", C=c, dual=False, max_iter=10000)

In [2]:
multiclass_features, multiclass_labels, multiclass_dictionary = get_multiclass_training_data()
heldout_features = get_heldout_reviews(multiclass_dictionary)

In [23]:
print("penalty=l1 search for C")
maxc=0
maxperf=0
c_range={1e-3,1e-2,0.1,1,10,100,1000}
for c in c_range:
    clf = select_classifier(penalty='l1', c=c, degree=1, r=0.0)
    perf = cv_performance(clf, multiclass_features, multiclass_labels, k=5)
    print("C=",c,"perf=",perf)
    if perf>maxperf:
        maxc=c
        maxperf=perf
print("C=",c,"perf=",perf,"is optimal")

penalty=l1 search for C
C= 0.1 perf= 0.7073333333333334




C= 1 perf= 0.7076666666666667




C= 100 perf= 0.6736666666666667




C= 1000 perf= 0.6653333333333333
C= 10 perf= 0.6910000000000001
C= 0.01 perf= 0.5963333333333333
C= 0.001 perf= 0.3333333333333333
C= 0.001 perf= 0.3333333333333333 is optimal


In [4]:
print("penalty=l2 search for C and r")
maxc=0
maxr=0
maxperf=0
c_range=[1e-3]
r_range=[1e-3,1e-2,0.1,1,10,100,1000]
for c in c_range:
    for r in r_range:
        clf = select_classifier(penalty='l2', c=c, degree=2, r=r)
        perf = cv_performance(clf, multiclass_features, multiclass_labels, k=5)
        print("C=",c,"r=",r,"perf=",perf)
        if perf>maxperf:
            maxc=c
            maxr=r
            maxperf=perf
print("C=",c,"r=",r,"perf=",perf,"is optimal")

penalty=l2 search for C and r
C= 0.001 r= 0.001 perf= 0.589
C= 0.001 r= 0.01 perf= 0.6056666666666667
C= 0.001 r= 0.1 perf= 0.6066666666666667
C= 0.001 r= 1 perf= 0.6056666666666667
C= 0.001 r= 10 perf= 0.6056666666666667
C= 0.001 r= 100 perf= 0.6063333333333334
C= 0.001 r= 1000 perf= 0.6050000000000001
C= 0.001 r= 1000 perf= 0.6050000000000001 is optimal


In [5]:
print("penalty=l2 random search for C and r")
maxc=0
maxr=0
maxperf=0
for i in range(25):
    c=10**random.uniform(-1,1)
    r=10**random.uniform(2,4)
    clf = select_classifier(penalty='l2', c=c, degree=2, r=r)
    perf = cv_performance(clf, multiclass_features, multiclass_labels, k=5)
    print("C=",c,"r=",r,"perf=",perf)
    if perf>maxperf:
        maxc=c
        maxr=r
        maxperf=perf
print("C=",maxc,"r=",maxr,"perf=",maxperf,"is optimal")

penalty=l2 random search for C and r
C= 0.14026581127258977 r= 724.3317158620732 perf= 0.7043333333333333
C= 0.40642430093517684 r= 211.06801486282657 perf= 0.7003333333333333
C= 0.13953219855743554 r= 470.40219491090073 perf= 0.6950000000000001
C= 4.474750518507663 r= 816.225965360086 perf= 0.679
C= 1.0775015313296965 r= 688.0209324094741 perf= 0.7106666666666666
C= 2.810043188882764 r= 245.23463799657702 perf= 0.7116666666666667
C= 0.42179998647065353 r= 100.54408505567464 perf= 0.6763333333333333
C= 0.27360243457812444 r= 8812.940588294197 perf= 0.6063333333333334
C= 0.4129077466538718 r= 4976.403431571559 perf= 0.5503333333333333
C= 1.9878501822164714 r= 7695.9574646617575 perf= 0.6186666666666666
C= 1.0901568537348432 r= 2197.633941136434 perf= 0.6729999999999998
C= 0.2061383756636033 r= 908.7404435498545 perf= 0.7176666666666667
C= 0.3546064292336439 r= 500.6843698708613 perf= 0.7163333333333334
C= 0.1974819684491745 r= 1590.4486729389675 perf= 0.712
C= 0.21590916533629229 r= 200

In [13]:
print("penalty=l1 search for C")
maxc=0
maxperf=0
c_range=[1e-3,1e-2,0.1,1,10,100,1000]
for c in c_range:
    clf = LinearSVC(C=c,max_iter=100000)
    perf = cv_performance(clf, multiclass_features, multiclass_labels, k=5)
    print("C=",c,"perf=",perf)
    if perf>maxperf:
        maxc=c
        maxperf=perf
print("C=",maxc,"perf=",maxperf,"is optimal")

penalty=l1 search for C
C= 0.001 perf= 0.6473333333333333
C= 0.01 perf= 0.7206666666666667
C= 0.1 perf= 0.7263333333333334
C= 1 perf= 0.7063333333333334
C= 10 perf= 0.6856666666666666
C= 100 perf= 0.6703333333333334




C= 1000 perf= 0.6576666666666666
C= 0.1 perf= 0.7263333333333334 is optimal




In [18]:
fname = "data/dataset.csv"
dataframe = load_data(fname)
multi_dict = extract_dictionary(dataframe)
multi_features = generate_feature_matrix(dataframe, multi_dict, count=True)
multi_labels = dataframe['label'].values.copy()

print("l2 linear SVC with count, search for C")
maxc=0
maxperf=0
c_range=list(range(41))
c_range=[10**(-2+c*0.1) for c in c_range]

for c in c_range:
    clf = LinearSVC(C=c,max_iter=1000)
    perf = cv_performance(clf, multiclass_features, multiclass_labels, k=5)
    print("C=",c,"perf=",perf)
    if perf>maxperf:
        maxc=c
        maxperf=perf
print("C=",maxc,"perf=",maxperf,"is optimal")

l2 linear SVC with count, search for C
C= 0.01 perf= 0.7206666666666667
C= 0.012589254117941675 perf= 0.7243333333333334
C= 0.015848931924611134 perf= 0.7246666666666667
C= 0.0199526231496888 perf= 0.7276666666666667
C= 0.025118864315095794 perf= 0.7296666666666666
C= 0.03162277660168379 perf= 0.7306666666666667
C= 0.039810717055349734 perf= 0.7306666666666668
C= 0.05011872336272725 perf= 0.7300000000000001
C= 0.06309573444801933 perf= 0.7296666666666667
C= 0.07943282347242814 perf= 0.728
C= 0.1 perf= 0.7263333333333334
C= 0.12589254117941676 perf= 0.7246666666666666
C= 0.15848931924611143 perf= 0.7249999999999999
C= 0.19952623149688797 perf= 0.7236666666666667
C= 0.25118864315095807 perf= 0.7213333333333333
C= 0.31622776601683794 perf= 0.7186666666666667
C= 0.3981071705534973 perf= 0.7156666666666667
C= 0.5011872336272725 perf= 0.7150000000000001
C= 0.6309573444801934 perf= 0.7106666666666668
C= 0.7943282347242817 perf= 0.7106666666666668
C= 1.0 perf= 0.7063333333333334
C= 1.258925411



C= 3.1622776601683795 perf= 0.6976666666666667




C= 3.981071705534973 perf= 0.694




C= 5.011872336272725 perf= 0.6950000000000001




C= 6.309573444801936 perf= 0.6900000000000001




C= 7.943282347242821 perf= 0.689




C= 10.0 perf= 0.686




C= 12.589254117941675 perf= 0.6863333333333334




C= 15.848931924611142 perf= 0.6819999999999999




C= 19.952623149688808 perf= 0.6793333333333332




C= 25.11886431509582 perf= 0.6783333333333333




C= 31.622776601683793 perf= 0.6746666666666666




C= 39.810717055349734 perf= 0.6733333333333333




C= 50.11872336272725 perf= 0.6746666666666666




C= 63.095734448019364 perf= 0.6729999999999999




C= 79.43282347242821 perf= 0.6706666666666666




C= 100.0 perf= 0.6693333333333333
C= 0.039810717055349734 perf= 0.7306666666666668 is optimal




In [19]:
fname = "data/dataset.csv"
dataframe = load_data(fname)
multi_dict = extract_dictionary(dataframe)
multi_features = generate_feature_matrix(dataframe, multi_dict, count=True, normalize=True)
multi_labels = dataframe['label'].values.copy()

print("l2 linear SVC with count, search for C")
maxc=0
maxperf=0
c_range=list(range(41))
c_range=[10**(-2+c*0.1) for c in c_range]

for c in c_range:
    clf = LinearSVC(C=c,max_iter=1000)
    perf = cv_performance(clf, multiclass_features, multiclass_labels, k=5)
    print("C=",c,"perf=",perf)
    if perf>maxperf:
        maxc=c
        maxperf=perf
print("C=",maxc,"perf=",maxperf,"is optimal")

l2 linear SVC with count, search for C
C= 0.01 perf= 0.7206666666666667
C= 0.012589254117941675 perf= 0.7243333333333334
C= 0.015848931924611134 perf= 0.7246666666666667
C= 0.0199526231496888 perf= 0.7276666666666667
C= 0.025118864315095794 perf= 0.7296666666666666
C= 0.03162277660168379 perf= 0.7306666666666667
C= 0.039810717055349734 perf= 0.7306666666666668
C= 0.05011872336272725 perf= 0.7300000000000001
C= 0.06309573444801933 perf= 0.7296666666666667
C= 0.07943282347242814 perf= 0.728
C= 0.1 perf= 0.7263333333333334
C= 0.12589254117941676 perf= 0.7246666666666666
C= 0.15848931924611143 perf= 0.7249999999999999
C= 0.19952623149688797 perf= 0.7236666666666667
C= 0.25118864315095807 perf= 0.7213333333333333
C= 0.31622776601683794 perf= 0.7186666666666667
C= 0.3981071705534973 perf= 0.7156666666666667
C= 0.5011872336272725 perf= 0.7150000000000001
C= 0.6309573444801934 perf= 0.7106666666666668
C= 0.7943282347242817 perf= 0.7106666666666668
C= 1.0 perf= 0.7063333333333334
C= 1.258925411



C= 3.1622776601683795 perf= 0.6976666666666667




C= 3.981071705534973 perf= 0.6933333333333334




C= 5.011872336272725 perf= 0.6946666666666667




C= 6.309573444801936 perf= 0.6900000000000001




C= 7.943282347242821 perf= 0.6886666666666666




C= 10.0 perf= 0.687




C= 12.589254117941675 perf= 0.686




C= 15.848931924611142 perf= 0.6823333333333335




C= 19.952623149688808 perf= 0.6796666666666666




C= 25.11886431509582 perf= 0.678




C= 31.622776601683793 perf= 0.674




C= 39.810717055349734 perf= 0.6719999999999999




C= 50.11872336272725 perf= 0.6726666666666665




C= 63.095734448019364 perf= 0.6729999999999999




C= 79.43282347242821 perf= 0.6729999999999999




C= 100.0 perf= 0.6679999999999999
C= 0.039810717055349734 perf= 0.7306666666666668 is optimal




In [20]:
fname = "data/dataset.csv"
dataframe = load_data(fname)
multi_dict = extract_dictionary(dataframe)
multi_features = generate_feature_matrix(dataframe, multi_dict, normalize=True)
multi_labels = dataframe['label'].values.copy()

print("l2 linear SVC with count, search for C")
maxc=0
maxperf=0
c_range=list(range(41))
c_range=[10**(-2+c*0.1) for c in c_range]

for c in c_range:
    clf = LinearSVC(C=c,max_iter=1000)
    perf = cv_performance(clf, multiclass_features, multiclass_labels, k=5)
    print("C=",c,"perf=",perf)
    if perf>maxperf:
        maxc=c
        maxperf=perf
print("C=",maxc,"perf=",maxperf,"is optimal")

l2 linear SVC with count, search for C
C= 0.01 perf= 0.7206666666666667
C= 0.012589254117941675 perf= 0.7243333333333334
C= 0.015848931924611134 perf= 0.7246666666666667
C= 0.0199526231496888 perf= 0.7276666666666667
C= 0.025118864315095794 perf= 0.7296666666666666
C= 0.03162277660168379 perf= 0.7306666666666667
C= 0.039810717055349734 perf= 0.7306666666666668
C= 0.05011872336272725 perf= 0.7300000000000001
C= 0.06309573444801933 perf= 0.7296666666666667
C= 0.07943282347242814 perf= 0.728
C= 0.1 perf= 0.7263333333333334
C= 0.12589254117941676 perf= 0.7246666666666666
C= 0.15848931924611143 perf= 0.7249999999999999
C= 0.19952623149688797 perf= 0.7236666666666667
C= 0.25118864315095807 perf= 0.7213333333333333
C= 0.31622776601683794 perf= 0.7186666666666667
C= 0.3981071705534973 perf= 0.7156666666666667
C= 0.5011872336272725 perf= 0.7150000000000001
C= 0.6309573444801934 perf= 0.7106666666666668
C= 0.7943282347242817 perf= 0.7106666666666668
C= 1.0 perf= 0.7063333333333334
C= 1.258925411



C= 3.1622776601683795 perf= 0.6976666666666667




C= 3.981071705534973 perf= 0.6936666666666668




C= 5.011872336272725 perf= 0.6946666666666667




C= 6.309573444801936 perf= 0.6906666666666667




C= 7.943282347242821 perf= 0.689




C= 10.0 perf= 0.6856666666666665




C= 12.589254117941675 perf= 0.6843333333333332




C= 15.848931924611142 perf= 0.6836666666666666




C= 19.952623149688808 perf= 0.6779999999999999




C= 25.11886431509582 perf= 0.678




C= 31.622776601683793 perf= 0.6746666666666666




C= 39.810717055349734 perf= 0.6736666666666666




C= 50.11872336272725 perf= 0.6726666666666665




C= 63.095734448019364 perf= 0.6719999999999999




C= 79.43282347242821 perf= 0.6703333333333333




C= 100.0 perf= 0.672
C= 0.039810717055349734 perf= 0.7306666666666668 is optimal




In [21]:
fname = "data/dataset.csv"
dataframe = load_data(fname)
multi_dict = extract_dictionary(dataframe)
multi_features = generate_feature_matrix(dataframe, multi_dict)
multi_labels = dataframe['label'].values.copy()

print("l2 linear SVC with count, search for C")
maxc=0
maxperf=0
c_range=list(range(41))
c_range=[10**(-2+c*0.1) for c in c_range]

for c in c_range:
    clf = LinearSVC(C=c,max_iter=1000)
    perf = cv_performance(clf, multiclass_features, multiclass_labels, k=5)
    print("C=",c,"perf=",perf)
    if perf>maxperf:
        maxc=c
        maxperf=perf
print("C=",maxc,"perf=",maxperf,"is optimal")

l2 linear SVC with count, search for C
C= 0.01 perf= 0.7206666666666667
C= 0.012589254117941675 perf= 0.7243333333333334
C= 0.015848931924611134 perf= 0.7246666666666667
C= 0.0199526231496888 perf= 0.7276666666666667
C= 0.025118864315095794 perf= 0.7296666666666666
C= 0.03162277660168379 perf= 0.7306666666666667
C= 0.039810717055349734 perf= 0.7306666666666668
C= 0.05011872336272725 perf= 0.7300000000000001
C= 0.06309573444801933 perf= 0.7296666666666667
C= 0.07943282347242814 perf= 0.728
C= 0.1 perf= 0.7263333333333334
C= 0.12589254117941676 perf= 0.7246666666666666
C= 0.15848931924611143 perf= 0.7249999999999999
C= 0.19952623149688797 perf= 0.7236666666666667
C= 0.25118864315095807 perf= 0.7213333333333333
C= 0.31622776601683794 perf= 0.7186666666666667
C= 0.3981071705534973 perf= 0.7156666666666667
C= 0.5011872336272725 perf= 0.7150000000000001
C= 0.6309573444801934 perf= 0.7106666666666668
C= 0.7943282347242817 perf= 0.7106666666666668
C= 1.0 perf= 0.7063333333333334
C= 1.258925411



C= 2.5118864315095824 perf= 0.698




C= 3.1622776601683795 perf= 0.6976666666666667




C= 3.981071705534973 perf= 0.6936666666666668




C= 5.011872336272725 perf= 0.6946666666666667




C= 6.309573444801936 perf= 0.6896666666666668




C= 7.943282347242821 perf= 0.6883333333333334




C= 10.0 perf= 0.6866666666666668




C= 12.589254117941675 perf= 0.6853333333333333




C= 15.848931924611142 perf= 0.6826666666666666




C= 19.952623149688808 perf= 0.6789999999999999




C= 25.11886431509582 perf= 0.6773333333333333




C= 31.622776601683793 perf= 0.675




C= 39.810717055349734 perf= 0.6726666666666666




C= 50.11872336272725 perf= 0.6736666666666665




C= 63.095734448019364 perf= 0.6726666666666666




C= 79.43282347242821 perf= 0.6713333333333333




C= 100.0 perf= 0.671
C= 0.039810717055349734 perf= 0.7306666666666668 is optimal




In [None]:
multiclass_features, multiclass_labels, multiclass_dictionary = get_multiclass_training_data()
print("penalty=l2 search for C and r")
maxc=0
maxr=0
maxperf=0
c_range=[1e-3,1e-2,0.1,1,10,100,1000]
r_range=[1e-3,1e-2,0.1,1,10,100,1000]
for c in c_range:
    for r in r_range:
        clf = SVC(kernel="poly",degree=2,C=c,coef0=r,gamma="auto",decision_function_shape="ovo")
        perf = cv_performance(clf, multiclass_features, multiclass_labels, k=5)
        print("C=",c,"r=",r,"perf=",perf)
        if perf>maxperf:
            maxc=c
            maxr=r
            maxperf=perf
print("C=",c,"r=",r,"perf=",perf,"is optimal")

penalty=l2 search for C and r
C= 0.001 r= 0.001 perf= 0.589
C= 0.001 r= 0.01 perf= 0.6056666666666667
C= 0.001 r= 0.1 perf= 0.6066666666666667


In [4]:
multiclass_features, multiclass_labels, multiclass_dictionary = get_multiclass_training_data()
heldout_features = get_heldout_reviews(multiclass_dictionary)
clf = LinearSVC(C=0.04,max_iter=10000)
clf.fit(multiclass_features, multiclass_labels)
y_pred=clf.predict(heldout_features)
generate_challenge_labels(y_pred, "dongzy")