# 19/10/2025

In [None]:
# **Tên bài:** Phân loại Độ dài Chuỗi Dữ liệu

# ### 🎯 Mục tiêu

# Trong phân tích văn bản (NLP/AI), việc biết độ dài của dữ liệu đầu vào là rất quan trọng. 
# Hãy viết một hàm Python nhận vào một danh sách các chuỗi (giả định là các đoạn văn bản) và trả về một **từ điển** (dictionary) 
# tóm tắt **số lần xuất hiện** của các độ dài chuỗi đó.

# ### 📜 Yêu cầu

# 1.  Viết hàm `count_string_lengths(data: list[str]) -> dict[int, int]`.
# 2.  Hàm nhận vào một danh sách các chuỗi (`data`).
# 3.  Đối với mỗi chuỗi, tính độ dài của nó.
# 4.  Đếm số lần mỗi độ dài chuỗi xuất hiện trong danh sách.
# 5.  Trả về một từ điển trong đó:
#       * **Khóa** là độ dài chuỗi (số nguyên).
#       * **Giá trị** là số lần độ dài đó xuất hiện (số nguyên).

# ### 📝 Ví dụ

# | Input (`data`) | Output (Từ điển) | Giải thích |
# | :--- | :--- | :--- |
# | `["AI", "Data", "Science", "ML", "Model"]` | `{2: 2, 4: 1, 7: 1, 5: 1}` | "AI", "ML" có độ dài 2 (2 lần); "Data" độ dài 4 (1 lần); "Science" độ dài 7 (1 lần); "Model" độ dài 5 (1 lần). |
# | `["", "A", "BB", "A"]` | `{0: 1, 1: 2, 2: 1}` | Chuỗi rỗng độ dài 0 (1 lần); "A" độ dài 1 (2 lần); "BB" độ dài 2 (1 lần). |

# # Kiểm tra
# test_data_1 = ["AI", "Data", "Science", "ML", "Model"]
# print(f"Input: {test_data_1}")
# print(f"Output: {count_string_lengths(test_data_1)}")

# test_data_2 = ["", "A", "BB", "A"]
# print(f"Input: {test_data_2}")
# print(f"Output: {count_string_lengths(test_data_2)}")
# ```

In [21]:
from typing import List
from collections import Counter, defaultdict

def count_string_lengths(data: List[str]) -> List[str]:
    result = defaultdict(int)

    for word in data:
        length = len(word)

        result[length] +=1
    return dict(result)
        

# # Kiểm tra
test_data_1 = ["AI", "Data", "Science", "ML", "Model"]
print(f"Input: {test_data_1}")
print(f"Output: {count_string_lengths(test_data_1)}")

test_data_2 = ["", "A", "BB", "A"]
print(f"Input: {test_data_2}")
print(f"Output: {count_string_lengths(test_data_2)}")

Input: ['AI', 'Data', 'Science', 'ML', 'Model']
Output: {2: 2, 4: 1, 7: 1, 5: 1}
Input: ['', 'A', 'BB', 'A']
Output: {0: 1, 1: 2, 2: 1}


In [17]:
test_data_1 = ["AI", "Data", "Science", "ML", "Model"]
result = []
for word in test_data_1:
    c = Counter(word)
    result.append(c)
result

[Counter({'A': 1, 'I': 1}),
 Counter({'a': 2, 'D': 1, 't': 1}),
 Counter({'c': 2, 'e': 2, 'S': 1, 'i': 1, 'n': 1}),
 Counter({'M': 1, 'L': 1}),
 Counter({'M': 1, 'o': 1, 'd': 1, 'e': 1, 'l': 1})]

# 20/10/2025

In [None]:

# **Tập trung vào:** Phân tích dữ liệu, Xử lý chuỗi, Tư duy logic cho việc tiền xử lý dữ liệu (Pre-processing) trong AI/ML.

# ### Tên bài toán: Phân Tích Cảm Xúc Cơ Bản (Basic Sentiment Analysis)

# ### Mô tả

# Trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên (NLP), việc trích xuất cảm xúc từ văn bản là bước quan trọng. 
# Bạn được cung cấp một **danh sách các câu** (ví dụ: bình luận, đánh giá). 
# Nhiệm vụ của bạn là viết một hàm Python để phân loại mỗi câu thành 
# **Tích Cực** (Positive), **Tiêu Cực** (Negative) hoặc **Trung Tính** (Neutral) dựa trên sự xuất hiện của các từ khóa.

# ### Yêu cầu

# Viết một hàm Python `analyze_sentiment(sentences)` nhận vào một danh sách các chuỗi (câu) và
#  trả về một danh sách các chuỗi kết quả ('Tích Cực', 'Tiêu Cực', hoặc 'Trung Tính').

# **Các quy tắc phân loại:**

# 1.  **Tích Cực** nếu câu chứa ít nhất một trong các từ khóa: **'great', 'excellent', 'love', 'amazing'**.
# 2.  **Tiêu Cực** nếu câu chứa ít nhất một trong các từ khóa: **'bad', 'worst', 'poor', 'disappointed'**.
# 3.  **Trung Tính** nếu câu không chứa từ khóa Tích Cực hay Tiêu Cực nào.
# 4.  ***Lưu ý:*** **Ưu tiên Tích Cực** hơn Tiêu Cực nếu một câu chứa cả từ khóa Tích Cực và Tiêu Cực.
# 5.  Việc kiểm tra **không phân biệt chữ hoa, chữ thường** (case-insensitive).

# ### Ví dụ

# | Input (sentences) | Output (sentiment results) | Giải thích |
# | :--- | :--- | :--- |
# | `["This is a great product."]` | `['Tích Cực']` | Chứa từ 'great'. |
# | `["The service was bad."]` | `['Tiêu Cực']` | Chứa từ 'bad'. |
# | `["It was okay, not good."]` | `['Trung Tính']` | Không chứa từ khóa nào. |
# | `["The quality was great but the price was bad."]` | `['Tích Cực']` | Chứa cả 'great' và 'bad', ưu tiên Tích Cực. |

# ### Lời giải (Ẩn)

# ```python
# def analyze_sentiment(sentences):
#     """
#     Phân loại cảm xúc cơ bản cho một danh sách các câu.
#     Ưu tiên Tích Cực hơn Tiêu Cực.
#     """
#     positive_words = {'great', 'excellent', 'love', 'amazing'}
#     negative_words = {'bad', 'worst', 'poor', 'disappointed'}
#     results = []

#     for sentence in sentences:
#         # Chuyển câu thành chữ thường để kiểm tra không phân biệt chữ hoa, chữ thường
#         sentence_lower = sentence.lower()

#         # Kiểm tra sự xuất hiện của từ khóa
#         is_positive = any(word in sentence_lower for word in positive_words)
#         is_negative = any(word in sentence_lower for word in negative_words)

#         # Áp dụng quy tắc phân loại (Ưu tiên Tích Cực)
#         if is_positive:
#             results.append('Tích Cực')
#         elif is_negative:
#             results.append('Tiêu Cực')
#         else:
#             results.append('Trung Tính')

#     return results

# # Ví dụ kiểm tra:
# test_sentences = [
#     "This is a great product.",
#     "The service was bad.",
#     "It was okay, not good.",
#     "The quality was great but the price was bad.",
#     "Nothing special here."
# ]

# # print(analyze_sentiment(test_sentences))
# # Kết quả mong đợi: ['Tích Cực', 'Tiêu Cực', 'Trung Tính', 'Tích Cực', 'Trung Tính']
# ```

In [13]:
from typing import List
def analyze_sentiment(sentences: List[str]) -> List[str]:
    positive_words = {'great', 'excellent', 'love', 'amazing'}
    negative_words = {'bad', 'worst', 'poor', 'disappointed'}
    results = []

    for sentence in sentences:
        sentence_lower = sentence.lower()

        is_positive = any(word in sentence_lower for word in positive_words)
        is_negative = any(word in sentence_lower for word in negative_words)

        if is_positive == True:
            results.append("Positive")
        elif is_negative == False:
            results.append("Negative")
        else:
            results.append("Netral")

    return results
        


test_sentences = [
    "This is a great product.",
    "The service was bad.",
    "It was okay, not good.",
    "The quality was great but the price was bad.",
    "Nothing special here."
]

print(analyze_sentiment(test_sentences))
# Kết quả mong đợi: ['Tích Cực', 'Tiêu Cực', 'Trung Tính', 'Tích Cực', 'Trung Tính']

['Positive', 'Netral', 'Negative', 'Positive', 'Negative']


# 21/10/2025

In [None]:
# ### 🎯 Mục tiêu

# Luyện tập kỹ năng **xử lý chuỗi (string manipulation)** và **tính toán tần suất (frequency counting)**, 
# một kỹ năng cơ bản trong **Tiền xử lý Dữ liệu (Data Preprocessing)** và **Xử lý Ngôn ngữ Tự nhiên (NLP)**.

# ### 📜 Yêu cầu Bài toán: Tìm Từ Đơn Độc

# Cho một danh sách các câu (một mảng chuỗi), hãy tìm ra **tất cả các từ** chỉ xuất hiện **đúng một lần** trên *toàn bộ* danh sách câu đó. 
# Các từ không phân biệt chữ hoa/chữ thường.

# **Ví dụ:**

#   * **Đầu vào:** `sentences = ["The cat sat on the mat.", "A dog chased the cat.", "The bird flew."]`

#   * **Đầu ra Mong muốn (Danh sách các từ):** `["sat", "on", "mat", "a", "dog", "chased", "bird", "flew"]`

#   * **Giải thích:**

#       * "the" và "cat" xuất hiện nhiều hơn một lần.
#       * "sat", "on", "mat", "a", "dog", "chased", "bird", "flew" mỗi từ chỉ xuất hiện đúng một lần.

# ### 🛠️ Hàm Cần Triển khai

# ```python
# def find_unique_words(sentences: list[str]) -> list[str]:
#     """
#     Tìm tất cả các từ chỉ xuất hiện đúng một lần trong toàn bộ danh sách câu.
    
#     :param sentences: Danh sách các chuỗi câu.
#     :return: Danh sách các từ đơn độc.
#     """
#     pass
# ```

# ### 💡 Gợi ý

# 1.  Cần phải chuẩn hóa tất cả các từ về **chữ thường**.
# 2.  Loại bỏ các **dấu câu** (ví dụ: `.`, `,`).
# 3.  Sử dụng một **từ điển (dictionary)** hoặc **`collections.Counter`** để đếm tần suất của mỗi từ.

In [None]:
# from typing import List
# from collections import Counter
# import string

# def find_unique_words(sentences: List[str]) -> List[str]:
#     all_words = []

#     for sentence in sentences:
#         sentence_lower = sentence.lower()
#         sentence_clean = sentence_lower.translate(str.maketrans('', '', string.punctuation))
#         words = sentence_clean.split()
#         all_words.extend(words)

#     word_counts = Counter(all_words)
#     result = [word for word, count in word_counts.items() if count == 1]

#     return result


# if __name__ == "__main__":
#     sentences = ["The cat sat on the mat.", "A dog chased the cat.", "The bird flew."]
#     result = find_unique_words(sentences)
#     print(result)

['sat', 'on', 'mat', 'a', 'dog', 'chased', 'bird', 'flew']


# 22/10/2025

In [None]:
# ### 📊 Ngữ cảnh & Mục tiêu: Chuẩn hóa Dữ liệu (Normalization)

# Trong tiền xử lý dữ liệu cho Machine Learning/AI, **Chuẩn hóa Min-Max (Min-Max Normalization)** 
# là một kỹ thuật phổ biến để chuyển đổi các đặc trưng (features) về một phạm vi cố định, 
# thường là $[0, 1]$. Điều này giúp các thuật toán học (đặc biệt là các thuật toán dựa trên khoảng cách như K-Means, KNN) 
# hoạt động hiệu quả hơn và ngăn chặn các đặc trưng có phạm vi lớn chi phối.

# **Yêu cầu:**

# Viết một hàm Python có tên `min_max_normalize` nhận vào một **danh sách các số nguyên hoặc số thực (list of numbers)** 
# và trả về một **danh sách mới** chứa các giá trị đã được chuẩn hóa theo công thức sau:

# $$
# X_{\text{norm}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
# $$

# Trong đó:
# * $X$ là giá trị gốc.
# * $X_{\text{min}}$ là giá trị nhỏ nhất trong danh sách.
# * $X_{\text{max}}$ là giá trị lớn nhất trong danh sách.

# **Lưu ý quan trọng:**
# * Phải xử lý trường hợp đặc biệt: Nếu $X_{\text{max}} = X_{\text{min}}$ (tất cả các số đều bằng nhau), 
# hàm nên trả về một danh sách các số $0.0$ có cùng độ dài.
# * Kết quả phải là danh sách các số thực (float).

# ```

In [18]:
from typing import List, Union

def min_max_normalize(data: List[Union[int, float]]) -> List[float]:
    """
    Chuẩn hóa Min-Max một danh sách các số về khoảng [0, 1].

    Args:
        data: Danh sách các số (int hoặc float).

    Returns:
        Danh sách các số đã được chuẩn hóa.
    """
    if not data:
        return []

    max_x = max(data)
    min_x = min(data)

    # Xử lý trường hợp tất cả các phần tử bằng nhau
    if min_x == max_x:
        return [0.0] * len(data)  # Trả về list các số float 0.0
    
    # Sử dụng list comprehension cho ngắn gọn và hiệu quả
    return [(x - min_x) / (max_x - min_x) for x in data]

# Kiểm tra
data1 = [10, 20, 30, 40, 50]
print(f"Input: {data1} -> Output: {min_max_normalize(data1)}")

data2 = [5, 5, 5, 5]
print(f"Input: {data2} -> Output: {min_max_normalize(data2)}")

Input: [10, 20, 30, 40, 50] -> Output: [0.0, 0.25, 0.5, 0.75, 1.0]
Input: [5, 5, 5, 5] -> Output: [0.0, 0.0, 0.0, 0.0]


In [16]:
# Input 1
data1 = [10, 20, 30, 40, 50]
# Expected Output: [0.0, 0.25, 0.5, 0.75, 1.0]
# (Min=10, Max=50 -> Denominator=40. (10-10)/40=0.0, (20-10)/40=0.25, ...)


# Input 2
data2 = [5, 5, 5, 5]
# Expected Output: [0.0, 0.0, 0.0, 0.0]


# Input 3
data3 = [-5, 0, 5, 10]
# Expected Output: [0.0, 0.3333333333333333, 0.6666666666666666, 1.0]
data1_res = min_max_normalize(data3)
print(data1_res)

[0.0, 0.3333333333333333, 0.6666666666666666, 1.0]
