# **Getting Max Over Kernal**

In [None]:
def max_kernel(num_list, k):
    """
    Trả về danh sách các giá trị lớn nhất trong mỗi cửa sổ con (window) kích thước k
    chạy trượt trên danh sách num_list.

    Parameters:
        num_list (list of numbers): Danh sách các số đầu vào.
        k (int): Kích thước của cửa sổ trượt.

    Returns:
        list: Danh sách các giá trị lớn nhất trong từng cửa sổ con liên tiếp.
    """
    result = []
    if k <= 0 or not num_list:
        return result

    for i in range(len(num_list) - k + 1):
        # Lấy cửa sổ con từ i đến i+k
        window = num_list[i:i + k]
        # Tìm giá trị lớn nhất trong cửa sổ con
        max_value = max(window)
        # Thêm giá trị lớn nhất vào kết quả
        result.append(max_value)
    return result


# Kiểm tra hàm
assert max_kernel([3, 4, 5, 1, -44], 3) == [5, 5, 5]
num_list = [3, 4, 5, 1, -44, 5, 10, 12, 33, 1]
k = 3
print(max_kernel(num_list, k))

# **Character Counting**

In [None]:
def count_character(word):

    """
    Đếm số lần xuất hiện của từng ký tự trong chuỗi đầu vào.

    Parameters:
        word (str): Chuỗi ký tự cần thống kê.

    Returns:
        dict: Từ điển với mỗi ký tự là một khóa, giá trị là số lần xuất hiện.
    """
    character_statistic = {}

    for character in word:
        if character in character_statistic:
            character_statistic[character] += 1
        else:
            character_statistic[character] = 1

    return character_statistic

# Kiểm tra hàm

assert count_character("Baby") == {'B': 1, 'b': 1, 'a': 1, 'y': 1}
print(count_character('smiles'))

In [None]:

def count_character(word):

    """
    Đếm số lần xuất hiện của từng ký tự trong chuỗi đầu vào.

    Parameters:
        word (str): Chuỗi ký tự cần thống kê.

    Returns:
        dict: Từ điển với mỗi ký tự là một khóa, giá trị là số lần xuất hiện.
    """
    character_statistic = {}

    for character in word:
        character_statistic[character] = character_statistic.get(character, 0) + 1

    return character_statistic

# Kiểm tra hàm

assert count_character("Baby") == {'B': 1, 'b': 1, 'a': 1, 'y': 1}
print(count_character('smiles'))

In [None]:
#!/usr/bin/env python3
# Cách sử dụng Counter từ collections để đếm ký tự. Cách này ngắn gọn và hiệu quả nhất
from collections import Counter
def count_character(word):

    """
    Đếm số lần xuất hiện của từng ký tự trong chuỗi đầu vào.

    Parameters:
        word (str): Chuỗi ký tự cần thống kê.

    Returns:
        dict: Từ điển với mỗi ký tự là một khóa, giá trị là số lần xuất hiện.
    """
    character_statistic = Counter(word)

    return character_statistic

# Kiểm tra hàm
assert count_character("Baby") == {'B': 1, 'b': 1, 'a': 1, 'y': 1}
print(count_character('smiles'))

# **Word Counting**

In [None]:
!gdown https://drive.google.com/uc?id=1IBScGdW2xlNsc9v5zSAya548kNgiOrko

Downloading...
From: https://drive.google.com/uc?id=1IBScGdW2xlNsc9v5zSAya548kNgiOrko
To: /content/P1_data.txt
  0% 0.00/747 [00:00<?, ?B/s]100% 747/747 [00:00<00:00, 2.96MB/s]


In [None]:
with open('/content/P1_data.txt', 'r') as f:
    document = f.read()

In [None]:
document

'He who conquers himself is the mightiest warrior\nTry not to become a man of success but rather become a man of value\nOne man with courage makes a majority\nOne secret of success in life is for a man to be ready for his opportunity when it comes\nThe successful man will profit from his mistakes and try again in a different way\nA successful man is one who can lay a firm foundation with the bricks others have thrown at him\nSuccess usually comes to those who are too busy looking for it\nWe cannot solve problems with the kind of thinking we employed when we came up with them\nJust one small positive thought in the morning can change your whole day\nYou can get everything in life you want if you will just help enough other people get what they want'

In [None]:
def preprocess_text(sentence):
    """
    Tiền xử lý một câu bằng cách:
    - Chuyển tất cả các ký tự thành chữ thường
    - Loại bỏ dấu chấm (.) và dấu phẩy (,)
    - Tách câu thành danh sách các từ

    Parameters:
        sentence (str): Chuỗi câu đầu vào.

    Returns:
        list: Danh sách các từ sau khi xử lý.
    """
    return sentence.lower().replace('.','').replace(',','').split()

# Kiểm tra hàm
sentence = 'I love AI. AI is not easy'
print(preprocess_text(sentence))

['i', 'love', 'ai', 'ai', 'is', 'not', 'easy']


In [None]:
def count_word(file_path):
    """
    Đếm số lần xuất hiện của từng từ trong văn bản đầu vào sau khi tiền xử lý.

    Quá trình tiền xử lý gồm:
    - Chuyển văn bản thành chữ thường
    - Loại bỏ dấu chấm (.) và dấu phẩy (,)
    - Tách văn bản thành danh sách từ

    Parameters:
        file_path (str): Đường dẫn đến file.

    Returns:
        dict: Từ điển đếm số lần xuất hiện của từng từ.
    """
    try:
        # Mở file và đọc nội dung, encoding='utf-8' dùng để đảm bảo đọc đúng các ký tự đặc biệt
        with open(file_path, 'r', encoding='utf-8') as f:
            document = f.read()
        # Tiền xử lý văn bản
        words = preprocess_text(document)
        # Sử dụng Counter để đếm số lần xuất hiện của từng từ
        counter = Counter(words)
    except FileNotFoundError:
        print(f"File {file_path} not found.")
        return {}

    # Trả về từ điển đếm
    return counter

file_path = './P1_data.txt'
result = count_word(file_path)
assert result.get('who', 0) == 3
print(result.get('man', 0))

# Levenshten Distance

In [None]:
def levenshtein_distance(token1, token2):
    """
    Tính khoảng cách Levenshtein (edit distance) giữa hai chuỗi.

    Khoảng cách Levenshtein là số lần chỉnh sửa nhỏ nhất (chèn, xóa, thay thế)
    để biến chuỗi token1 thành token2.

    Parameters:
        token1 (str): Chuỗi thứ nhất.
        token2 (str): Chuỗi thứ hai.

    Returns:
        int: Khoảng cách Levenshtein giữa hai chuỗi.
    """
    # Ma trận đã được khởi tạo với các giá trị 0
    distances = [[0] * (len(token2) + 1) for _ in range(len(token1) + 1)]

    # 1. Lấy độ dài của hai chuỗi
    m, n = len(token1), len(token2)

    # 2. Khởi tạo hàng và cột đầu tiên của ma trận
    # Chi phí để biến chuỗi con của token1 thành chuỗi rỗng là số lần xóa
    for i in range(m + 1):
        distances[i][0] = i

    # Chi phí để biến chuỗi rỗng thành chuỗi con của token2 là số lần chèn
    for j in range(n + 1):
        distances[0][j] = j

    # 3. Điền vào phần còn lại của ma trận
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            # Tính chi phí thay thế: 1 nếu ký tự khác nhau, 0 nếu giống nhau
            substitution_cost = 1 if token1[i - 1] != token2[j - 1] else 0

            # Chọn chi phí nhỏ nhất từ 3 lựa chọn: xóa, chèn, hoặc thay thế
            distances[i][j] = min(
                distances[i - 1][j] + 1,                 # Chi phí xóa (từ trên xuống)
                distances[i][j - 1] + 1,                 # Chi phí chèn (từ trái qua)
                distances[i - 1][j - 1] + substitution_cost  # Chi phí thay thế (đường chéo)
            )
    # 4. Khoảng cách Levenshtein là giá trị ở ô cuối cùng của ma trận

    return distances[len(token1)][len(token2)]

In [None]:
assert levenshtein_distance("hi", "hello") == 4
print(levenshtein_distance("hola", "hello"))