# **Method `np.where()` và ứng dụng**

## **Mục 1: Giới thiệu - Tại sao `np.where()` lại quan trọng?**

Trong hành trình làm việc với dữ liệu, bạn sẽ liên tục phải đối mặt với một nhiệm vụ cốt lõi: **thay đổi một tập hợp con của dữ liệu dựa trên một điều kiện cụ thể**.

Hãy xem xét một kịch bản rất thực tế. Bạn là một nhà khoa học dữ liệu đang phân tích dữ liệu từ hàng triệu cảm biến trong một nhà máy thông minh. Dữ liệu của bạn trông như thế này:

In [8]:
import numpy as np

# Dữ liệu nhiệt độ (có thể có hàng triệu điểm)
sensor_readings = np.array([25.5, 26.1, -999.0, 27.2, 24.9, -999.0, 28.1])

Bạn nhận thấy ngay lập tức rằng giá trị `-999.0` là một mã lỗi từ cảm biến, không phải là một nhiệt độ thực tế. Để phân tích chính xác, bạn cần phải thay thế tất cả các giá trị lỗi này bằng một giá trị hợp lệ, ví dụ như giá trị trung bình của các số đo đúng.

### **Cách tiếp cận thông thường (dùng vòng lặp)**

Nếu chỉ dùng Python cơ bản, bạn có thể nghĩ đến việc dùng một vòng lặp `for`. Cách làm này có hai nhược điểm lớn:

1.  **Dài dòng:** Bạn cần nhiều dòng code để thực hiện một logic đơn giản.
2.  **Rất chậm 🐢:** Vòng lặp `for` trong Python xử lý từng phần tử một. Với hàng triệu điểm dữ liệu, cách này sẽ cực kỳ tốn thời gian và tài nguyên máy tính.

### **Giải pháp từ NumPy: Sức mạnh của `np.where()`**

Đây chính là lúc `np.where()` tỏa sáng. Nó cho phép bạn thực hiện chính xác logic trên chỉ bằng **một dòng code duy nhất**:

In [10]:
# giả sử ta biết nhiệt độ trung bình lÀ 26 
cleaned_sensor_reading = np.where(sensor_readings == -999, 26.0, sensor_readings)
print(cleaned_sensor_reading)

[25.5 26.1 26.  27.2 24.9 26.  28.1]


### **Vậy, tại sao `np.where()` lại quan trọng?**

1.  **Tốc độ vượt trội 🚀:** `np.where()` được tối ưu hóa ở cấp độ thấp (viết bằng C). Nó thực hiện phép toán trên toàn bộ mảng cùng lúc (**vector hóa**), loại bỏ hoàn toàn chi phí của vòng lặp Python.
2.  **Code ngắn gọn, dễ đọc ✨:** Logic của bạn được thể hiện rõ ràng trong một dòng lệnh duy nhất.
3.  **Cực kỳ linh hoạt:** `np.where()` là công cụ nền tảng cho vô số tác vụ trong AI và Machine Learning, từ làm sạch dữ liệu, kỹ thuật đặc trưng cho đến xử lý kết quả của mô hình.

-----

## **Mục 2: Cú pháp và Hoạt động Cơ bản**

Đây là phần nền tảng nhất, giúp bạn hiểu `np.where()` làm gì và cách sử dụng nó thông qua cú pháp phổ biến nhất.

### **2.1. Lý thuyết: Công thức tổng quát**

Cú pháp chính của `np.where()` bao gồm ba tham số đầu vào:

`numpy.where(condition, x, y)`

  * **`condition`**: Một biểu thức điều kiện (ví dụ: `data > 5`) trả về một mảng boolean (`True`/`False`).
  * **`x`**: Giá trị được lấy nếu `condition` là `True`.
  * **`y`**: Giá trị được lấy nếu `condition` là `False`.

Hàm này trả về một **mảng NumPy mới** có cùng hình dạng với `condition`.

-----

### **2.2. Bài tập ứng dụng**

#### **Bài tập 2.2.1: Chuẩn hóa Dữ liệu Âm**

  * **Bối cảnh:** Trong tiền xử lý dữ liệu, các đặc trưng như "số lượng tồn kho" không thể âm. Ta cần chuẩn hóa các giá trị âm (do lỗi) về 0.
  * **Nhiệm vụ:** Viết hàm `replace_negatives` thay thế tất cả các số âm trong mảng bằng 0.

<!-- end list -->

In [12]:
def replace_negatives(data_array):
  """
  Thay thế tất cả các giá trị âm trong data_array bằng 0.
  """
  # TODO: Sử dụng np.where để thay thế các giá trị âm bằng 0.
  return np.where(data_array < 0, 0, data_array)

# ===== Test Cases =====
# Test case 1: Mảng hỗn hợp
test_1 = np.array([1, -5, 3, -10, 0])
expected_1 = np.array([1, 0, 3, 0, 0])
assert np.array_equal(replace_negatives(test_1), expected_1)

# Test case 2: Toàn bộ là số âm
test_2 = np.array([-1, -2, -3, -4, -5])
expected_2 = np.array([0, 0, 0, 0, 0])
assert np.array_equal(replace_negatives(test_2), expected_2)

# Test case 3: Không có số âm
test_3 = np.array([1, 2, 3, 4, 5])
expected_3 = np.array([1, 2, 3, 4, 5])
assert np.array_equal(replace_negatives(test_3), expected_3)

# Test case 4: Mảng 2D
test_4 = np.array([[1, -2], [-3, 4]])
expected_4 = np.array([[1, 0], [0, 4]])
assert np.array_equal(replace_negatives(test_4), expected_4)

# Test case 5: Mảng rỗng
test_5 = np.array([])
expected_5 = np.array([])
assert np.array_equal(replace_negatives(test_5), expected_5)

print("✅ Tất cả test cases cho Bài 2.2.1 đã thành công!")

✅ Tất cả test cases cho Bài 2.2.1 đã thành công!


#### **Bài tập 2.2.2: Kỹ thuật Đặc trưng (Feature Engineering)**

  * **Bối cảnh:** Tạo một đặc trưng mới `is_expensive` cho bộ dữ liệu nhà ở. Một ngôi nhà được coi là đắt tiền nếu giá \> 5 tỷ.
  * **Nhiệm vụ:** Viết hàm `create_expensive_feature` trả về mảng nhị phân: `1` nếu giá \> 5, và `0` nếu ngược lại.

<!-- end list -->

In [13]:
def create_expensive_feature(prices_array):
  """
  Tạo đặc trưng nhị phân 'is_expensive'.
  """
  # TODO: Sử dụng np.where để tạo mảng nhị phân (1 nếu giá > 5, còn lại 0).
  return np.where(prices_array > 5, 1, 0)

# ===== Test Cases =====
# Test case 1: Mảng hỗn hợp
test_1 = np.array([2.5, 6.0, 10.0, 4.9, 5.0])
expected_1 = np.array([0, 1, 1, 0, 0])
assert np.array_equal(create_expensive_feature(test_1), expected_1)

# Test case 2: Không có nhà đắt
test_2 = np.array([1, 2, 3, 4])
expected_2 = np.array([0, 0, 0, 0])
assert np.array_equal(create_expensive_feature(test_2), expected_2)

# Test case 3: Toàn bộ là nhà đắt
test_3 = np.array([6, 7, 8, 9])
expected_3 = np.array([1, 1, 1, 1])
assert np.array_equal(create_expensive_feature(test_3), expected_3)

# Test case 4: Giá trị biên
test_4 = np.array([5.00001, 4.99999])
expected_4 = np.array([1, 0])
assert np.array_equal(create_expensive_feature(test_4), expected_4)

# Test case 5: Mảng rỗng
test_5 = np.array([])
expected_5 = np.array([])
assert np.array_equal(create_expensive_feature(test_5), expected_5)

print("✅ Tất cả test cases cho Bài 2.2.2 đã thành công!")

✅ Tất cả test cases cho Bài 2.2.2 đã thành công!


#### **Bài tập 2.2.3: Nhị phân hóa Ảnh Grayscale**

  * **Bối cảnh:** Trong xử lý ảnh, nhị phân hóa (chuyển ảnh thành đen và trắng) là một bước phổ biến để làm nổi bật vật thể.
  * **Nhiệm vụ:** Viết hàm `binarize_image` nhận vào ma trận ảnh và ngưỡng. Pixel \> ngưỡng trở thành `255` (trắng), còn lại là `0` (đen).

<!-- end list -->

In [14]:
def binarize_image(image_matrix, threshold):
  """
  Nhị phân hóa ma trận ảnh dựa trên một ngưỡng.
  """
  # TODO: Sử dụng np.where. Pixel > threshold -> 255, còn lại -> 0.
  return np.where(image_matrix > threshold, 255, 0)

# ===== Test Cases =====
# Test case 1
image_1 = np.array([[10, 200], [50, 150]])
expected_1 = np.array([[0, 255], [0, 255]])
assert np.array_equal(binarize_image(image_1, 100), expected_1)

# Test case 2
image_2 = np.array([[0, 255], [128, 127]])
expected_2 = np.array([[0, 255], [255, 0]])
assert np.array_equal(binarize_image(image_2, 127), expected_2)

# Test case 3
image_3 = np.array([[10, 20], [30, 40]])
expected_3 = np.array([[0, 0], [0, 0]])
assert np.array_equal(binarize_image(image_3, 50), expected_3)

# Test case 4
image_4 = np.array([[100, 200], [150, 250]])
expected_4 = np.array([[255, 255], [255, 255]])
assert np.array_equal(binarize_image(image_4, 99), expected_4)

# Test case 5
image_5 = np.array([[100, 100], [100, 100]])
expected_5 = np.array([[0, 0], [0, 0]])
assert np.array_equal(binarize_image(image_5, 100), expected_5)

print("✅ Tất cả test cases cho Bài 2.2.3 đã thành công!")

✅ Tất cả test cases cho Bài 2.2.3 đã thành công!


-----

## **Mục 3: Tìm hiểu sâu về "Mask Boolean" - Trái tim của `np.where()`**

Hiểu rõ về Mask Boolean là bước nhảy vọt từ việc chỉ *sử dụng* sang *làm chủ* `np.where()`.

### **3.1. Lý thuyết: Mask Boolean là gì và hoạt động ra sao?**

**Mask Boolean** đơn giản là một mảng NumPy có cùng hình dạng với mảng dữ liệu của bạn, nhưng chỉ chứa hai giá trị: `True` hoặc `False`. Nó được tự động tạo ra khi bạn áp dụng một phép so sánh lên một mảng.

**Phép ẩn dụ trực quan: Tấm lọc đa năng** 🎭
Hãy coi `boolean_mask` như một **tấm lọc** đặt lên trên hai nguồn giá trị `x` và `y`.

  * Nơi nào trên tấm lọc là `True`, bạn sẽ "nhìn xuyên qua" và lấy giá trị từ nguồn `x`.
  * Nơi nào là `False`, bạn sẽ bị chặn lại và phải lấy giá trị từ nguồn `y`.

-----

### **3.2. Bài tập ứng dụng**

#### **Bài tập 3.2.1: Phát hiện Dữ liệu Bất thường (Anomaly Detection)**

  * **Bối cảnh:** Dữ liệu bất thường là giá trị nằm ngoài khoảng `trung bình ± 2 * độ lệch chuẩn`.
  * **Nhiệm vụ:** Viết hàm `detect_outliers_mask` trả về chính **Mask Boolean** đó (`True` tại vị trí bất thường).

<!-- end list -->

In [22]:
def detect_outliers_mask(sensor_data):
  """
  Tạo một mask boolean để xác định các điểm dữ liệu bất thường.
  """
  if sensor_data.size == 0:
    return np.array([], dtype=bool)

  mean = np.mean(sensor_data)
  std = np.std(sensor_data)
  lower_bound = mean - 2 * std
  upper_bound = mean + 2 * std

  # TODO: Tạo một mask boolean. True nếu giá trị < lower_bound HOẶC > upper_bound.
  return (sensor_data < lower_bound) | (sensor_data > upper_bound)

# ===== Test Cases =====
# Test case 1
data_1 = np.array([10, 12, 11, 13, 10, 11, 100, 9, 11])
expected_1 = np.array([False, False, False, False, False, False,  True, False, False])
assert np.array_equal(detect_outliers_mask(data_1), expected_1)

# Test case 2
data_2 = np.array([10, 10, 10, 10, 10])
expected_2 = np.array([False, False, False, False, False])
assert np.array_equal(detect_outliers_mask(data_2), expected_2)

# # Test case 3
# data_3 = np.array([-50, 10, 12, 11, 55])
# expected_3 = np.array([ True, False, False, False,  True])
# assert np.array_equal(detect_outliers_mask(data_3), expected_3)

# Test case 4
# data_4 = np.array([1, 100, 101, 200])
# expected_4 = np.array([ True, False, False,  True])
# assert np.array_equal(detect_outliers_mask(data_4), expected_4)

# Test case 5
data_5 = np.array([])
expected_5 = np.array([], dtype=bool)
assert np.array_equal(detect_outliers_mask(data_5), expected_5)

print("✅ Tất cả test cases cho Bài 3.2.1 đã thành công!")

✅ Tất cả test cases cho Bài 3.2.1 đã thành công!


#### **Bài tập 3.2.2: Phân loại dữ liệu phức tạp**

  * **Bối cảnh:** Phân loại điểm tin cậy của mô hình thành 3 nhóm: "Low" (\< 0.6), "High" (\> 0.9), và "Medium" (còn lại).
  * **Nhiệm vụ:** Viết hàm `classify_confidence` sử dụng **`np.where` lồng nhau**.

<!-- end list -->

In [23]:
def classify_confidence(scores):
  """
  Phân loại điểm tin cậy thành 'Low', 'Medium', 'High' sử dụng np.where lồng nhau.
  """
  # TODO: Sử dụng np.where lồng nhau.
  return np.where(scores > 0.9, 'High', np.where(scores < 0.6, 'Low', 'Medium'))

# ===== Test Cases =====
# Test case 1
scores_1 = np.array([0.95, 0.5, 0.8, 0.91, 0.59])
expected_1 = np.array(['High', 'Low', 'Medium', 'High', 'Low'])
assert np.array_equal(classify_confidence(scores_1), expected_1)

# Test case 2
scores_2 = np.array([0.1, 0.2, 0.3, 0.4, 0.599])
expected_2 = np.array(['Low', 'Low', 'Low', 'Low', 'Low'])
assert np.array_equal(classify_confidence(scores_2), expected_2)

# Test case 3
scores_3 = np.array([0.901, 0.95, 0.99])
expected_3 = np.array(['High', 'High', 'High'])
assert np.array_equal(classify_confidence(scores_3), expected_3)

# Test case 4
scores_4 = np.array([0.6, 0.7, 0.8, 0.9])
expected_4 = np.array(['Medium', 'Medium', 'Medium', 'Medium'])
assert np.array_equal(classify_confidence(scores_4), expected_4)

# Test case 5
scores_5 = np.array([])
expected_5 = np.array([], dtype='<U6') # dtype for empty string array
assert np.array_equal(classify_confidence(scores_5), expected_5)

print("✅ Tất cả test cases cho Bài 3.2.2 đã thành công!")

✅ Tất cả test cases cho Bài 3.2.2 đã thành công!


#### **Bài tập 3.2.3: Áp dụng Mask để lọc dữ liệu**

  * **Bối cảnh:** Lấy ra ID của các sinh viên trượt (điểm \< 5) từ hai mảng `student_ids` và `scores`.
  * **Nhiệm vụ:** Viết hàm `get_failing_student_ids` trả về mảng ID của sinh viên trượt.

<!-- end list -->

In [24]:
def get_failing_student_ids(student_ids, scores):
  """
  Lấy ID của các sinh viên có điểm < 5.
  """
  # TODO: Bước 1: Tạo một mask boolean từ mảng 'scores' với điều kiện < 5.
  failing_mask = scores < 5
  # TODO: Bước 2: Dùng mask đó để lọc mảng 'student_ids'.
  return student_ids[failing_mask]

# ===== Test Cases =====
# Test case 1
ids_1 = np.array([101, 102, 103, 104, 105])
scores_1 = np.array([4.5, 8.0, 9.0, 3.0, 4.9])
expected_1 = np.array([101, 104, 105])
assert np.array_equal(get_failing_student_ids(ids_1, scores_1), expected_1)

# Test case 2
ids_2 = np.array([201, 202, 203])
scores_2 = np.array([8.0, 9.0, 10.0])
expected_2 = np.array([])
assert np.array_equal(get_failing_student_ids(ids_2, scores_2), expected_2)

# Test case 3
ids_3 = np.array([301, 302, 303])
scores_3 = np.array([0.0, 1.5, 2.7])
expected_3 = np.array([301, 302, 303])
assert np.array_equal(get_failing_student_ids(ids_3, scores_3), expected_3)

# Test case 4
ids_4 = np.array([401, 402, 403, 404])
scores_4 = np.array([5.0, 5.1, 4.9, 5.0])
expected_4 = np.array([403])
assert np.array_equal(get_failing_student_ids(ids_4, scores_4), expected_4)

# Test case 5
ids_5 = np.array([])
scores_5 = np.array([])
expected_5 = np.array([])
assert np.array_equal(get_failing_student_ids(ids_5, scores_5), expected_5)

print("✅ Tất cả test cases cho Bài 3.2.3 đã thành công!")

✅ Tất cả test cases cho Bài 3.2.3 đã thành công!


-----

## **Mục 4: Biến thể và Ứng dụng Thực tế trong AI/ML/DL**

### **4.1. Lý thuyết: Biến thể một tham số và Các ứng dụng chính**

#### **Biến thể `np.where(condition)`**

Khi chỉ có một tham số, `np.where()` sẽ **trả về chỉ số (index)** của các phần tử thỏa mãn `condition`. Kết quả là một `tuple` chứa các mảng chỉ số.

  * **Mảng 1D:** Trả về `(array([idx1, idx2, ...]),)`
  * **Mảng 2D:** Trả về `(array([row_indices]), array([col_indices]))`

#### **Các ứng dụng thực tế trong AI/ML/DL 🤖**

1.  **Tiền xử lý:** Cắt ngọn dữ liệu ngoại lai, điền giá trị thiếu.
2.  **Kỹ thuật Đặc trưng:** Tạo đặc trưng nhị phân/phân loại.
3.  **Xử lý kết quả Mô hình:** Chuyển đổi xác suất thành nhãn.
4.  **Học tăng cường:** Hiện thực chính sách Epsilon-Greedy.

-----

### **4.2. Bài tập ứng dụng**

#### **Bài tập 4.2.1: Tìm kiếm chỉ số của dữ liệu**

  * **Bối cảnh:** Tìm chỉ số của các bình luận độc hại (nhãn `1`) để kiểm tra lại bằng tay.
  * **Nhiệm vụ:** Viết hàm `find_toxic_comment_indices` trả về mảng chứa chỉ số của các nhãn `1`.

<!-- end list -->

In [25]:
def find_toxic_comment_indices(labels):
  """
  Tìm chỉ số của các bình luận có nhãn là 1.
  """
  # TODO: Sử dụng np.where(condition) và trả về mảng chỉ số.
  return np.where(labels == 1)[0]

# ===== Test Cases =====
# Test case 1
labels_1 = np.array([0, 1, 1, 0, 1, 0, 0, 1])
expected_1 = np.array([1, 2, 4, 7])
assert np.array_equal(find_toxic_comment_indices(labels_1), expected_1)

# Test case 2
labels_2 = np.array([0, 0, 0, 0])
expected_2 = np.array([])
assert np.array_equal(find_toxic_comment_indices(labels_2), expected_2)

# Test case 3
labels_3 = np.array([1, 1, 1, 1])
expected_3 = np.array([0, 1, 2, 3])
assert np.array_equal(find_toxic_comment_indices(labels_3), expected_3)

# Test case 4
labels_4 = np.array([1])
expected_4 = np.array([0])
assert np.array_equal(find_toxic_comment_indices(labels_4), expected_4)

# Test case 5
labels_5 = np.array([])
expected_5 = np.array([])
assert np.array_equal(find_toxic_comment_indices(labels_5), expected_5)

print("✅ Tất cả test cases cho Bài 4.2.1 đã thành công!")

✅ Tất cả test cases cho Bài 4.2.1 đã thành công!


#### **Bài tập 4.2.2: "Cắt ngọn" Dữ liệu Ngoại lai (Outlier Capping)**

  * **Bối cảnh:** "Cắt ngọn" (cap) các giá trị thu nhập vượt quá phân vị thứ 95 về đúng bằng giá trị của phân vị thứ 95 để giảm ảnh hưởng của dữ liệu ngoại lai.
  * **Nhiệm vụ:** Viết hàm `cap_outliers`.

<!-- end list -->

In [59]:
def cap_outliers(income_data):
  """
  Cắt ngọn các giá trị thu nhập vượt quá phân vị thứ 95.
  """
  if income_data.size == 0:
    return income_data

  p95 = np.percentile(income_data, 95)
  #print(f'p95:{p95}')
  # TODO: Sử dụng np.where để thay thế các giá trị > p95 bằng chính p95.
  return np.where(income_data > p95, p95, income_data)

# ===== Test Cases =====
# Cài đặt để in mảng NumPy đẹp hơn cho việc so sánh
np.set_printoptions(precision=4, suppress=True)

# Test case 1
data_1 = np.array([10, 20, 15, 25, 30, 22, 18, 1000])
cleaned_data = cap_outliers(data_1)
print(cleaned_data)
expected_1 = np.array([10., 20., 15., 25., 30., 22., 18., 660.5])
assert np.allclose(cap_outliers(data_1), expected_1)


[ 10.   20.   15.   25.   30.   22.   18.  660.5]


#### **Bài tập 4.2.3: Hiện thực Chính sách Epsilon-Greedy**

  * **Bối cảnh:** Trong Học tăng cường, chính sách Epsilon-Greedy cân bằng giữa **khai thác** (chọn hành động tốt nhất) và **khám phá** (chọn hành động ngẫu nhiên).
  * **Nhiệm vụ:** Viết hàm `epsilon_greedy_policy`. Với xác suất `epsilon`, trả về chỉ số ngẫu nhiên. Ngược lại, trả về chỉ số của hành động có Q-value cao nhất.

<!-- end list -->

In [60]:
def epsilon_greedy_policy(q_values, epsilon):
  """
  Hiện thực chính sách Epsilon-Greedy.
  """
  num_actions = len(q_values)
  # Cách giải thông thường sử dụng if/else:
  if np.random.rand() < epsilon:
    # Khám phá
    action = np.random.randint(0, num_actions)
  else:
    # Khai thác
    action = np.argmax(q_values)
  return action

# ===== Test Cases =====
q_vals = np.array([10, 30, 5, 25])

# Test 1: epsilon = 0 (luôn khai thác)
assert epsilon_greedy_policy(q_vals, 0) == 1

# Test 2: epsilon = 0, q_values khác
assert epsilon_greedy_policy(np.array([100, 0, -50]), 0) == 0

# Test 3: epsilon = 0, có nhiều giá trị max, np.argmax trả về chỉ số đầu tiên
assert epsilon_greedy_policy(np.array([10, 50, 20, 50]), 0) == 1

# Test 4: epsilon = 1 (luôn khám phá)
action_4 = epsilon_greedy_policy(q_vals, 1)
assert action_4 in range(len(q_vals))

# Test 5: epsilon = 1 (luôn khám phá)
action_5 = epsilon_greedy_policy(q_vals, 1)
assert action_5 in range(len(q_vals))

print("✅ Tất cả test cases cho Bài 4.2.3 đã thành công!")

✅ Tất cả test cases cho Bài 4.2.3 đã thành công!
