In [1]:
from collections import Counter, defaultdict
import numpy as np
from itertools import product

In [2]:
def load_dataset_sents(file_path, as_zip=True, to_idx=False, token_vocab=None, target_vocab=None):
	targets = []
	inputs = []
	zip_inps = []
	with open(file_path) as f:
		for line in f:
			sent, tags = line.split('\t')
			words = [token_vocab[w.strip()] if to_idx else w.strip() for w in sent.split()]	
			ner_tags = [target_vocab[w.strip()] if to_idx else w.strip() for w in tags.split()]
			inputs.append(words)
			targets.append(ner_tags)
			zip_inps.append(list(zip(words, ner_tags)))
	return zip_inps if as_zip else (inputs, targets)


In [3]:
train_data = load_dataset_sents("train.txt")

In [4]:
test_data = load_dataset_sents("test.txt")

In [5]:
def cw_cl_count(corpus, threshold=3):
	cw_cl_count = []
	for s in corpus:
		for cw_cl in s:
			cw_cl_count.append(cw_cl[0]+"_"+cw_cl[1])

	return {cw_cl: count for cw_cl, count in Counter(cw_cl_count).items() if count >= threshold}


In [174]:
cw_cl_counts = cw_cl_count(train_data, 1)

In [184]:
def phi_1(x, y, cw_cl_counts):
	cw_cl_counts_s = {}
	for x_i, y_i in zip(x, y):
		if x_i+"_"+y_i in cw_cl_counts:
			cw_cl_counts_s[x_i+"_"+y_i] = cw_cl_counts_s.get(x_i+"_"+y_i, 0) + 1

	return cw_cl_counts_s


In [243]:
phi_1(["270", "270", "270", "270", "270"], ["O", "PER", "MISC", "LOC", "ORG"], cw_cl_counts)

{'270_O': 1}

In [164]:
x = [z[0] for z in [y for x in train_data for y in x]]
y = [z[1] for z in [y for x in train_data for y in x]]



In [165]:
def pl_cl_count(corpus, threshold=3):
    pl_cl_count = []
    for s in corpus:
        s = [("None", "None")] + s[:]
        for i in range(len(s)-1):
            pl_cl_count.append(s[i][1]+"_"+s[i+1][1])

    return {pl_cl: count for pl_cl, count in Counter(pl_cl_count).items() if count >= threshold}


In [166]:
pl_cl_counts = pl_cl_count(train_data)

In [167]:
def phi_2(x, y, pl_cl_counts):
	pl_cl_counts_s = {}
	y = ["None"] + list(y[:])
	for i in range(len(y)-1):
		if y[i]+"_"+y[i+1] in pl_cl_counts:
			pl_cl_counts_s[y[i]+"_"+y[i+1]] = pl_cl_counts_s.get(y[i]+"_"+y[i+1], 0) + 1

	return pl_cl_counts_s


In [168]:
phi_combo = lambda phi1, phi2: {**phi1, **phi2}

In [169]:
import random
def argmax(w, x, feat_type, y_N):
    pred_y_N = {}
    y_N = list(y_N)
    for i, y in enumerate(y_N):
        phi = phi_1(x, y, feat_type) if not isinstance(feat_type, list) else phi_combo(phi_1(x, y, feat_type[0]), phi_2(x, y, feat_type[1]))
        pred_y_N[i] = sum([w.get(ft, 0)*c for ft, c in phi.items()])
    
    return list(y_N)[max(pred_y_N, key=lambda x: pred_y_N[x])]

In [295]:
def viterbi(w, x, feat_type):
    pred_y = []
    ner_tags = ["PER", "O", "LOC", "ORG", "MISC"]
    for x_i in x:
        phi = phi_1([x_i for i in range(5)], ner_tags, feat_type)
        #if len(phi) == 0:
            #phi[x_i+"_O"] = 0
        pred_y.append(sorted({k.split("_")[-1]:v*w.get(k, 0) for k,v in phi.items()}.items(), key=lambda x: x[1])[0][0])

    return pred_y

In [296]:
#Training function -> D - [([x_1*],[y_1*]), ([x_2*],[y_2*]), ..., ([x_n], [y_n])]
def train(D, w, pfi=1):

    feat_type = [cw_cl_count(D, 1), pl_cl_count(D, 1)]

    w = defaultdict(lambda: 0) if w == None else w
    #Looping through training -> x - [w_1, w_2, ..., w_n] ; y - [l_1, l_2, ..., l_n]
    for x_y in D:
        #Predict y
        x = [z[0] for z in x_y]
        y = [z[1] for z in x_y]

        #y_pred = argmax(w, x, feat_type[0] if pfi == 1 else feat_type, product(["PER", "O", "LOC", "ORG", "MISC"], repeat=len(x)))
        y_pred = viterbi(w, x, feat_type[0])
        
        if y_pred != y:
            phi_c = phi_1(x, y, feat_type[0]) 
            if pfi == 2: phi_c = phi_combo(phi_c, phi_2(x, y, feat_type[1]))

            phi_pred = phi_1(x, y_pred, feat_type[0]) 
            if pfi == 2: phi_pred = phi_combo(phi_pred, phi_2(x, y_pred, feat_type[1]))
            
            for ft in set(list(phi_c.keys()) + list(phi_pred.keys())):
                w[ft] = w[ft] + phi_c.get(ft, 0) - phi_pred.get(ft, 0)
    return w


In [297]:
def predict(x, feat_type, w):
    #return argmax(w, x, feat_type, product(["O", "PER", "LOC", "ORG", "MISC"], repeat=len(x)))
    return viterbi(w, x, feat_type)

def test(test_data, feat_type, w):
    y_correct = []
    y_predict = []
    for x_y in test_data:
        x = [z[0] for z in x_y]
        y_correct += [z[1] for z in x_y]
        y_predict += predict(x, feat_type, w)
    return f1_score(y_correct, y_predict, average="micro", labels=["ORG", "MISC", "PER", "LOC"])



In [298]:
avg_weights = lambda weights: {k: sum([z[k] for z in weights])/len(weights) for k in weights[0].keys()}

In [299]:
from random import shuffle
num_iters = 5
weights = [None]
print("[*] Training with %d using phi_1" %num_iters)
for i in range(num_iters):
    shuffle(train_data)
    weights.append(dict(sorted(train(train_data, weights[-1], 1).items())))


[*] Training with 5 using phi_1
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
307

3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075


3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075


3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075


3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075


3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075


3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075
3075


In [300]:
from sklearn.metrics import f1_score

avg_weights = lambda weights: {k: sum([z[k] for z in weights])/len(weights) for k in weights[0].keys()}
average_weights = avg_weights(weights[1:])

f1_score_v = test(test_data, [cw_cl_count(train_data, 1), pl_cl_count(train_data, 1)][0], average_weights)
print("[*] F1-Score for phi_1+phi_2 feature set: %.2f" %f1_score_v)


3075
3075
3075
3075
3075
3075


IndexError: list index out of range