# Bài 1: Numpy (part 1)

## 1. Tổng quan
- `numpy` là viết tắt của numerical python, dành cho việc tối ưu tính toán số học
- Cấu trúc dữ liệu nền tảng của numpy là numpy array
- Numpy array tương tự như list
- Một số đặc điểm nổi bật:
    - Các phần tử buộc phải cùng kiểu dữ liệu (dtype) để tối ưu cho việc tính toán
    - Kích thước np array không thể thay đổi sau khi tạo
    - Tuy nhiên có thể thay đổi giá trị các phần tử
    - Hỗ trợ tính toán element-wise
    - Là nền tảng dựng nên gói `pandas` (học sau), tool chính cho DA

### 1.1. Tạo numpy array

- Thường import numpy dưới tên `np`

In [None]:
import numpy as np

- Đơn giản nhất là khởi tạo np array từ list, tuple

In [None]:
l = [1, 1.2, 4]
a = np.array(l)

In [None]:
# Value
a

In [None]:
# Type
type(a)

In [None]:
# Type of elements
a.dtype

- Khởi tạo từ tuple

In [None]:
t = (1, 2, 3, 4)
a = np.array(t)

# Print
a

- Tạo array các số nguyên liên tiếp (hoặc nhảy cách 1 khoảng cố định)

In [None]:
# Using stop
np.arange(10)

In [None]:
# Using start stop
np.arange(1, 10)

In [None]:
# Using start, stop, step
np.arange(1, 10, 2)

In [None]:
# Step có thể là số float
np.arange(0, 1.00001, 0.1)

- Nếu data không cùng kiểu, sẽ được promote lên kiểu tổng quát nhất

In [None]:
# VD 1: convert all to float
a = np.array([0, 1, 2, True, False, 3.5])

print(a)
print(a.dtype)

In [None]:
# VD2: convert all to str
a = np.array([1, 2, True, 'Apple'])

print(a)
print(a.dtype)

In [None]:
# VD3: convert all to object (not recommended)
# Mục đích của np sinh ra để tối ưu hóa tính toán cho collection chứa các phần tử cùng kiểu
# Vì vậy, không dùng numpy để handle collection của elements khác kiểu
a = np.array([1, 2, True, "Apple", [1, 2]])

print(a)
print(a.dtype)

- Array 2 chiều (tương tự như nested list)

In [None]:
a = np.array([[1, 2], [3, 4]])

print(a)
print(type(a))
print(a.dtype)

## 2. Thao tác với numpy array

### 2.1. Lấy thông tin cơ bản

- Khởi tạo

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7])
b = np.array([[1, 2], [3, 4], [5, 6]])

print(a)
print(b)

- Đếm số phần tử - len

In [None]:
len(a)

In [None]:
len(b)

- Đếm số phần tử - size

In [None]:
a.size

In [None]:
b.size

- Check dtype

In [None]:
a.dtype

In [None]:
b.dtype

- Check số chiều

In [None]:
a.ndim

In [None]:
b.ndim

- Check shape

In [None]:
a.shape

In [None]:
b.shape

#### Basic info summary
- size
- dtype
- ndim
- shape

### 2.2. Indexing and Slicing 1d-arrays

- Tương tự list

#### A) Index / Slice (read)

In [None]:
# Initialize
a = np.arange(12)

print(a)
print(type(a))

In [None]:
# First
a[0]

In [None]:
# Last elem
a[-1]

In [None]:
# 1st to 3rd
a[:3]

In [None]:
# 3rd to last
a[2:]

In [None]:
# 3rd to second to last
a[2:-1]

In [None]:
# Start, stop, step
a[:5:2]

#### B) Index (write)

In [None]:
# Sửa phần tử đầu thành 99
a[0] = 99
a

In [None]:
# Slice 3 phần tử đầu và thay chúng bằng [90, 80, 70]
a[:3] = [90, 80, 70]
a

In [None]:
# Slice 3 phần tử đầu và thay chúng bằng [90, 80]
# a[:3] = [90, 80]
# Error: biểu thức gán bên phải phải có số phần tử bằng với slice phía bên trái, vì np array không thay đổi được kích thước

### 2.3. Indexing and Slicing 2d-arrays

In [None]:
# Initialize
a = np.arange(12).reshape((3, 4))

print(a)
print(a.dtype)

#### A) Indexing
- Hàng trước, cột sau

In [None]:
# Hàng 2, cột 1
# Tuy nhiên không nên dùng cú pháp này (dùng cú pháp VD phía dưới)
a[1][0]

In [None]:
# Hàng 2, cột 1
a[1, 0]

In [None]:
# Hàng đầu, cột 3
a[0, 2]

In [None]:
# Hàng đầu, cột đầu
a[0, 0]

In [None]:
# Hàng cuối, cột cuối
a[-1, -1]

#### B) Slicing

In [None]:
# Hàng đầu
a[0, :]

In [None]:
# Hàng cuối
a[-1, :]

In [None]:
# Hàng thứ 2
a[1, :]

In [None]:
# Cột đầu
a[:, 0]

In [None]:
# Cột cuối
a[:, -1]

In [None]:
# Hai cột giữa
a[:, 1:3]

In [None]:
# Sub matrix 2 hàng đầu, giao 2 cột cuối
a[:2, -2:]

In [None]:
# Cột đầu + cột cuối
a[:, [0, -1]]

## 3. Vectorization (broadcasting)
- Đặc biệt quan trọng

In [None]:
# Initialize
a = np.arange(-5, 5)

print(a)

- Tạo array chứa các elements là bình phương của element trong `a`

In [None]:
# Numpy way
a ** 2

In [None]:
# Python way
# Longer, slower
[x ** 2 for x in a]

- Các phép tính elementwise khác

In [None]:
# Addition
a + 10

In [None]:
# Subtraction
a - 10

In [None]:
# Multiplication
a * 10

In [None]:
# Division
a / 10

In [None]:
# Square root
# Return nan nếu phép toán không hợp lệ (vd: căn bậc 2 của số âm)
np.sqrt(a)

In [None]:
# Negation
-a

In [None]:
# Absolute value
np.abs(a)

In [None]:
# Comparison
a > 0

## 4. Masking
- Dùng để lọc (filter) data
- Indexing bằng cách dùng một logical (boolean) array có chiều dài đúng bằng chiều dài của array cần filter

In [None]:
# Set seed để reproduce lại kết quả
np.random.seed(1)

# Initialize
a = np.random.randint(-10, 11, size=5)

# Print
a

In [None]:
# Filter using a boolean array
# Note: chiều dài của bool array phải cùng chiều dài với a
# Phần tử của a tương ứng với giá trị True của bool array sẽ được trả về
a[[True,  False, False, False, False]]

In [None]:
# Tạo book array từ phép so sánh
a > 0

In [None]:
# Filter dùng bool array phía trên (masking)
a[a > 0]

- Các ví dụ khác

In [None]:
# In lại a
a

In [None]:
# Lọc giá trị âm
a[a < 0]

In [None]:
# Lọc giá trị chẵn
a[a % 2 == 0]

In [None]:
# Lọc giá trị chia hết cho 5
a[a % 5 == 0]

- Toán tử `&` và `|`. Lưu ý cần phân biệt:
    - `&` vs. `and`
    - `|` vs. `or`

In [None]:
# Lọc giá trị chẵn và dương
a[(a % 2 == 0) & (a > 0)]

In [None]:
# Lọc các giá trị chẵn hoặc âm 
a[(a % 2 == 0) | (a < 0)]

In [None]:
a[a > 0]

- ALL: trả về True nếu ALL element của array đều là True. Trả về False nếu tồn tại ít nhất 1 phần tử là False

In [None]:
# Return True
np.all([True, True, False])

In [None]:
# Return False
np.any([False, False, False])

In [None]:
# Return False
np.any([True, True, False])

In [None]:
# In lại a
a

In [None]:
# Kiểm tra xem có phải tất cả các phần tử của a đều là số dương
np.all(a > 0)

- ANY: trả về True nếu tồn tại 1 element của array là True. Trả về False nếu tất cả elements đều là False

In [None]:
# Return True
np.any([True, True, False])

In [None]:
# Return True
np.any([True, False, False])

In [None]:
# Return False
np.any([False, False, False])

In [None]:
# In lại a
a

In [None]:
# Kiểm tra xem có tồn tại phần tử nào dương không
np.any(a > 0)