In [1]:
import random
import tqdm

In [26]:
def extract_features(x: str) -> dict[str, float]:
    features = {}
    x_split = x.split(' ')
    for x in x_split:
        features[x] = features.get(x, 0) + 1.0
    return features

In [27]:
feature_weights = {}

In [28]:
def read_xy_data(filename: str) -> tuple[list[str], list[int]]:
    x_data = []
    y_data = []
    with open(filename, 'r') as f:
        for line in f:
            label, text = line.strip().split(' ||| ')
            x_data.append(text)
            y_data.append(int(label))
    return x_data, y_data

In [29]:
x_train, y_train = read_xy_data('Data/sst-sentiment-text-fiveclass/test.txt')
x_dev, y_dev = read_xy_data('Data/sst-sentiment-text-fiveclass/dev.txt')

In [30]:
print(x_train[0])
print(y_train[0])

Effective but too-tepid biopic
2


In [31]:
def run_classifier(features: dict[str, float]) -> int:
    score = 0
    for feat_name, feat_value in features.items():
        score = score + feat_value * feature_weights.get(feat_name, 0)
    if score > 0:
        return 1
    elif score < 0:
        return -1
    else:
        return 0

In [32]:
NUM_EPOCHS = 200
for epoch in range(1, NUM_EPOCHS+1):
    # Shuffle the order of the data
    data_ids = list(range(len(x_train)))
    random.shuffle(data_ids)
    # Run over all data points
    for data_id in tqdm.tqdm(data_ids, desc=f'Epoch {epoch}'):
        x = x_train[data_id]
        y = y_train[data_id]
        # We will skip neutral examples
        if y == 0:    
            continue
        # Make a prediction
        features = extract_features(x)
        predicted_y = run_classifier(features)
        # Update the weights if the prediction is wrong
        if predicted_y != y:
            for feature in features:
                feature_weights[feature] = feature_weights.get(feature, 0) + y * features[feature]

Epoch 1: 100%|██████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 87950.09it/s]
Epoch 2: 100%|██████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 65561.49it/s]
Epoch 3: 100%|██████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 54696.48it/s]
Epoch 4: 100%|██████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 47219.68it/s]
Epoch 5: 100%|██████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 63671.85it/s]
Epoch 6: 100%|██████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 68869.43it/s]
Epoch 7: 100%|██████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 92098.24it/s]
Epoch 8: 100%|██████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 59553.68it/s]
Epoch 9: 100%|██████████████████████████

Epoch 69: 100%|█████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 64517.87it/s]
Epoch 70: 100%|█████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 74981.29it/s]
Epoch 71: 100%|█████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 76092.30it/s]
Epoch 72: 100%|█████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 78421.42it/s]
Epoch 73: 100%|█████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 73839.85it/s]
Epoch 74: 100%|█████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 73217.52it/s]
Epoch 75: 100%|█████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 72360.18it/s]
Epoch 76: 100%|█████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 76876.09it/s]
Epoch 77: 100%|█████████████████████████

Epoch 137: 100%|████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 55770.29it/s]
Epoch 138: 100%|████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 42251.42it/s]
Epoch 139: 100%|████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 71161.94it/s]
Epoch 140: 100%|████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 81033.41it/s]
Epoch 141: 100%|████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 64213.95it/s]
Epoch 142: 100%|████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 55228.00it/s]
Epoch 143: 100%|████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 39138.36it/s]
Epoch 144: 100%|████████████████████████████████████████████████████████████████| 2210/2210 [00:00<00:00, 39533.47it/s]
Epoch 145: 100%|████████████████████████

In [33]:
def calculate_accuracy(x_data: list[str], y_data: list[int]) -> float:
    total_number = 0
    correct_number = 0
    for x, y in zip(x_data, y_data):
        y_pred = run_classifier(extract_features(x))
        total_number += 1
        if y == y_pred:
            correct_number += 1
    return correct_number / float(total_number)

In [34]:
label_count = {}
for y in y_dev:
    if y not in label_count:
        label_count[y] = 0
    label_count[y] += 1
print(label_count)

{3: 279, 2: 229, 4: 165, 0: 139, 1: 289}


In [35]:
train_accuracy = calculate_accuracy(x_train, y_train)
test_accuracy = calculate_accuracy(x_dev, y_dev)
print(f'Train accuracy: {train_accuracy}')
print(f'Dev/test accuracy: {test_accuracy}')

Train accuracy: 0.2864253393665158
Dev/test accuracy: 0.26248864668483196
