In [None]:
#1
def pad_sequences(sequences):
    if len(sequences) == 0:
        return []
    max_len = max([len(sub) for sub in sequences])
    for sub in sequences:
        while len(sub) < max_len:
            sub.append(0)
    
    return sequences

assert pad_sequences([[1, 2], [3, 4, 5], [6]]) == [[1, 2, 0], [3, 4, 5], [6, 0, 0]], "Test 1 Failed"
assert pad_sequences([[1, 1], [2, 2], [3, 3]]) == [[1, 1], [2, 2], [3, 3]], "Test 2 Failed"
assert pad_sequences([[1, 2, 3], []]) == [[1, 2, 3], [0, 0, 0]], "Test 3 Failed"
assert pad_sequences([[7, 8]]) == [[7, 8]], "Test 4 Failed"
assert pad_sequences([]) == [], "Test 5 Failed"

In [35]:
#2
def split_dataset(data, train_ratio, val_ratio):
    num_train = int(len(data) * train_ratio)
    num_val = int(len(data) * val_ratio)
    num_test = len(data) - num_train - num_val

    train_set = data[ : num_train]
    val_set = data[num_train : num_val + num_train]
    test_set = data[num_val + num_train : num_val + num_train + num_test]

    return train_set, val_set, test_set

# Test 1: Chia tỷ lệ chuẩn
dataset = list(range(100))
train, val, test = split_dataset(dataset, 0.7, 0.15)
assert (len(train), len(val), len(test)) == (70, 15, 15), "Test 1 Failed"

# Test 2: Dữ liệu nhỏ, chia đều, kiểm tra làm tròn
dataset = ['a', 'b', 'c']
train, val, test = split_dataset(dataset, 0.5, 0.5)
assert (len(train), len(val), len(test)) == (1, 1, 1), "Test 2 Failed"

# Test 3: Không có tập validation
dataset = list(range(5))
train, val, test = split_dataset(dataset, 0.8, 0.0)
assert (train, val, test) == (list(range(4)), [], [4]), "Test 3 Failed"

# Test 4: Dữ liệu rỗng
dataset = []
train, val, test = split_dataset(dataset, 0.6, 0.2)
assert (train, val, test) == ([], [], []), "Test 4 Failed"

# Test 5: Tổng tỉ lệ nhỏ hơn 1, phần còn lại là test
dataset = list(range(10))
train, val, test = split_dataset(dataset, 0.2, 0.3) # 2, 3, 5
assert (train, val, test) == (list(range(2)), list(range(2, 5)), list(range(5, 10))), "Test 5 Failed"


In [38]:
#3
def flatten_tokens(corpus):
    if len(corpus) == 0:
        return []

    return [word for sentence in corpus for word in sentence] 

# Test 1: Hai câu, mỗi câu có nhiều từ, làm phẳng toàn bộ
assert flatten_tokens([["hello", "world"], ["this", "is", "a", "test"]]) == ["hello", "world", "this", "is", "a", "test"], "Test 1 Failed"

# Test 2: Một câu ngắn và một câu 1 từ, kiểm tra xử lý danh sách không đều
assert flatten_tokens([["a", "b"], ["c"]]) == ["a", "b", "c"], "Test 2 Failed"

# Test 3: Kho văn bản rỗng, đầu ra là list rỗng
assert flatten_tokens([]) == [], "Test 3 Failed"

# Test 4: Chỉ có một câu, kiểm tra hoạt động đơn lẻ
assert flatten_tokens([["single", "sentence"]]) == ["single", "sentence"], "Test 4 Failed"

# Test 5: Nhiều câu có độ dài khác nhau, kiểm tra tính ổn định của kết quả
assert flatten_tokens([["deep", "learning"], ["rocks"], ["NLP", "is", "fun"]]) == ["deep", "learning", "rocks", "NLP", "is", "fun"], "Test 5 Failed"


In [None]:
#4
def one_hot_encode(labels, classes):
    num_labels = len(labels)
    num_classes = len(classes)
    output = [[0] * num_classes for _ in range(num_labels)] 

    for i in range(num_labels):
        for j in range(num_classes):
            if labels[i] == classes[j]:
                output[i][j] = 1
                
    return output

# Test 1: Danh sách nhãn đầy đủ, kiểm tra thứ tự và ánh xạ chính xác
assert one_hot_encode(["dog", "cat", "bird", "dog"], ["cat", "dog", "bird"]) == [[0, 1, 0], [1, 0, 0], [0, 0, 1], [0, 1, 0]], "Test 1 Failed"

# Test 2: Danh sách nhãn rỗng, kết quả cũng phải là danh sách rỗng
assert one_hot_encode([], ["cat", "dog", "bird"]) == [], "Test 2 Failed"

# Test 3: Trường hợp chỉ có hai lớp, lặp lại nhãn nhiều lần
assert one_hot_encode(["A", "A", "B"], ["A", "B"]) == [[1, 0], [1, 0], [0, 1]], "Test 3 Failed"


# Test 4: Chỉ có một nhãn duy nhất, kiểm tra đầu ra đơn
assert one_hot_encode(["cat"], ["cat", "dog", "bird"]) == [[1, 0, 0]], "Test 4 Failed"

# Test 5: Lớp có nhãn dài, kiểm tra ánh xạ không bị ảnh hưởng bởi độ dài chuỗi
assert one_hot_encode(["sad", "happy"], ["happy", "sad", "neutral"]) == [[0, 1, 0], [1, 0, 0]], "Test 5 Failed"

In [65]:
#5
def filter_low_confidence_boxes(predictions, threshold):
    return [predict for predict in predictions if predict[1] >= threshold]

# Test 1: Có 2 boxes đủ điểm tự tin (>= 0.8), 1 box bị loại
predictions1 = [[0, 0.95, 10, 10, 50, 50], [1, 0.4, 20, 20, 30, 30], [0, 0.88, 15, 15, 40, 40]]
assert filter_low_confidence_boxes(predictions1, 0.8) == [[0, 0.95, 10, 10, 50, 50], [0, 0.88, 15, 15, 40, 40]], "Test 1 Failed"

# Test 2: Threshold cao hơn mọi boxes -> kết quả rỗng
assert filter_low_confidence_boxes(predictions1, 0.99) == [], "Test 2 Failed"

# Test 3: Dữ liệu đầu vào rỗng -> đầu ra cũng rỗng
assert filter_low_confidence_boxes([], 0.5) == [], "Test 3 Failed"

# Test 4: Một box có confidence đúng bằng threshold -> vẫn được giữ lại
predictions2 = [[0, 0.5, 5, 5, 10, 10]]
assert filter_low_confidence_boxes(predictions2, 0.5) == [[0, 0.5, 5, 5, 10, 10]], "Test 4 Failed"

# Test 5: Tất cả các boxes đều đủ điểm -> không loại boxes nào
predictions3 = [[0, 0.85, 1, 2, 3, 4], [1, 0.95, 4, 5, 6, 7]]
assert filter_low_confidence_boxes(predictions3, 0.5) == predictions3, "Test 5 Failed"

In [None]:
#6
def min_max_scale(data):
    if len(data) == 0:
        return []
    
    min_val = min(data)
    max_val = max(data)
    
    if min_val == max_val:
        return [0] * len(data)
    
    return [(x - min_val) / (max_val - min_val) for x in data]

# Test 1: Chuẩn hóa danh sách số nguyên dương
assert min_max_scale([10, 20, 50, 30]) == [0.0, 0.25, 1.0, 0.5], "Test 1 Failed"

# Test 2: Danh sách chứa số âm và số 0
assert min_max_scale([-10, 0, 10]) == [0.0, 0.5, 1.0], "Test 2 Failed"

# Test 3: Tất cả các phần tử giống nhau, tránh chia cho 0
assert min_max_scale([5, 5, 5, 5]) == [0.0, 0.0, 0.0, 0.0], "Test 3 Failed"

# Test 4: Danh sách đầu vào rỗng
assert min_max_scale([]) == [], "Test 4 Failed"

# Test 5: Dữ liệu đã ở trong khoảng [0, 1]
# Lưu ý: Do sai số floating point, ta cần so sánh với một sai số nhỏ
scaled_data = min_max_scale([0.1, 0.5, 0.9])
expected_data = [0.0, 0.5, 1.0]
assert all(abs(a - b) < 1e-9 for a, b in zip(scaled_data, expected_data)), "Test 5 Failed"


In [78]:
#7
def calculate_accuracy(y_true, y_pred):
    if len(y_true) == 0:
        return 0.0
    return float(sum(1 for y, y_hat in zip(y_true, y_pred) if y == y_hat) / len(y_pred))

# Test 1: Các nhãn là chuỗi, độ chính xác 80%
y_true1 = ["cat", "dog", "cat", "bird", "dog"]
y_pred1 = ["cat", "dog", "cat", "dog", "dog"]
assert calculate_accuracy(y_true1, y_pred1) == 0.8, "Test 1 Failed"

# Test 2: Các nhãn là số, độ chính xác 100%
y_true2 = [1, 0, 1, 1, 0]
y_pred2 = [1, 0, 1, 1, 0]
assert calculate_accuracy(y_true2, y_pred2) == 1.0, "Test 2 Failed"

# Test 3: Độ chính xác 0%
y_true3 = [0, 0, 0]
y_pred3 = [1, 1, 1]
assert calculate_accuracy(y_true3, y_pred3) == 0.0, "Test 3 Failed"

# Test 4: Danh sách rỗng

assert calculate_accuracy([], []) == 0.0, "Test 4 Failed"

# Test 5: Độ chính xác 50%
y_true5 = ["A", "B"]
y_pred5 = ["A", "C"]
assert calculate_accuracy(y_true5, y_pred5) == 0.5, "Test 5 Failed"


In [80]:
#8
import random

def add_noise_augmentation(time_series, noise_level):
    return [x + noise_level for x in time_series]

random.seed(0)

# Test 1: Thêm nhiễu vào một chuỗi thời gian
ts1 = [10, 11, 12, 11, 10]
augmented_ts1 = add_noise_augmentation(ts1, 0.1)
assert len(augmented_ts1) == len(ts1), "Test 1 Failed: Length mismatch"

assert augmented_ts1 != ts1, \
"Test 1 Failed: Series should be different after adding noise"

# Test 2: noise_level = 0, chuỗi không thay đổi
ts2 = [100, 200, 150]
augmented_ts2 = add_noise_augmentation(ts2, 0.0)
assert augmented_ts2 == ts2, \
"Test 2 Failed: Series should be identical with zero noise"

# Test 3: Chuỗi rỗng
assert add_noise_augmentation([], 0.5) == [], \
"Test 3 Failed: Empty list should return empty list"

# Test 4: Kiểm tra xem giá trị có thay đổi không
# Vì kết quả là ngẫu nhiên, ta chỉ kiểm tra xem nó có khác bản gốc không
ts4 = [5]
augmented_ts4 = add_noise_augmentation(ts4, 1.0)
assert augmented_ts4 != ts4, "Test 4 Failed: Single element should change"

In [None]:
#9


In [None]:
#10
def create_bow_vectors(corpus, vocabulary):
    vocab_map = {word: i for i, word in enumerate(vocabulary)}

    bow_vectors = []

    for document in corpus:
        tmp = [0] * len(vocabulary)
        for token in document:
            if token in vocabulary:
                id = vocab_map[token]
                tmp[id] += 1
        bow_vectors.append(tmp)


    return bow_vectors


vocab = ["apple", "banana", "fruit", "orange"]

# Test 1: Hai tài liệu với các từ trong từ điển
corpus1 = [["apple", "banana", "apple"], ["fruit", "orange"]]
expected1 = [[2, 1, 0, 0], [0, 0, 1, 1]]
assert create_bow_vectors(corpus1, vocab) == expected1, "Test 1 Failed"

# Test 2: Tài liệu chứa từ không có trong từ điển
corpus2 = [["apple", "grape", "banana"]] # "grape" không có trong vocab
expected2 = [[1, 1, 0, 0]]
assert create_bow_vectors(corpus2, vocab) == expected2, "Test 2 Failed"

# Test 3: Một tài liệu rỗng
corpus3 = [[]]
expected3 = [[0, 0, 0, 0]]
assert create_bow_vectors(corpus3, vocab) == expected3, "Test 3 Failed"

# Test 4: Kho văn bản rỗng
assert create_bow_vectors([], vocab) == [], "Test 4 Failed"

# Test 5: Từ điển lớn hơn, tài liệu chỉ chứa một vài từ
vocab5 = ["a", "b", "c", "d", "e"]
corpus5 = [["a", "c", "e", "a"]]
expected5 = [[2, 0, 1, 0, 1]]
assert create_bow_vectors(corpus5, vocab5) == expected5, "Test 5 Failed"