# HƯỚNG DẪN SỬ DỤNG BỘ THƯ VIỆN NUMPY - PANDAS - MATPLOTLIB
_(Các phần Code Demo cho Bộ Tài Liệu Nghiên Cứu "Python Data Analytics - Numpy Pandas Matplotlib")_

## NUMPY

### Cài đặt NumPy

- Để cài đặt NumPy trong môi trường Jupyter Notebook, bạn có thể sử dụng lệnh sau trong một ô của Jupyter Notebook:

In [None]:
%pip install numpy

- Sau khi NumPy đã được cài đặt, để nhập mô-đun NumPy vào phiên làm việc Python của bạn trong Jupyter Notebook, bạn viết lệnh sau:

In [2]:
import numpy as np

### ndarray

- Cách dễ nhất để định nghĩa một ndarray mới là sử dụng hàm array(), truyền vào một danh sách Python chứa các phần tử cần đưa vào mảng.

In [3]:
a = np.array([1, 2, 3])
a

array([1, 2, 3])

- Bạn có thể dễ dàng kiểm tra đối tượng vừa tạo có phải là ndarray hay không bằng cách truyền biến mới vào hàm type().

In [4]:
type(a)

numpy.ndarray

- Để biết dtype liên kết với ndarray vừa tạo, bạn sử dụng thuộc tính dtype.

In [5]:
a.dtype

dtype('int32')

- Mảng vừa tạo có một trục, vì vậy thứ hạng của nó là 1, trong khi hình dạng của nó sẽ là (3,). Để lấy các giá trị này từ mảng tương ứng, bạn sử dụng thuộc tính ndim để lấy số trục, thuộc tính size để xác định độ dài của mảng, và thuộc tính shape để lấy hình dạng của mảng.

In [6]:
a.ndim

1

In [7]:
a.size

3

In [8]:
a.shape

(3,)

- Những gì bạn vừa thấy là trường hợp đơn giản nhất của mảng một chiều. Nhưng việc sử dụng mảng có thể dễ dàng mở rộng ra nhiều chiều. Ví dụ, nếu bạn định nghĩa một mảng hai chiều 2x2:

In [9]:
b = np.array([[1.3, 2.4], [0.3, 4.1]])

In [10]:
b.dtype

dtype('float64')

In [11]:
b.ndim

2

In [12]:
b.size

4

In [13]:
b.shape

(2, 2)

=> Mảng này có thứ hạng 2, vì nó có hai trục, mỗi trục có độ dài 2.

- Một thuộc tính quan trọng khác là itemsize, định nghĩa kích thước tính bằng byte của mỗi phần tử trong mảng. Thuộc tính data là bộ đệm chứa các phần tử thực tế của mảng. Thuộc tính thứ hai này ít được sử dụng, vì để truy cập dữ liệu trong mảng, bạn sử dụng cơ chế lập chỉ mục, sẽ được giới thiệu trong các phần tiếp theo.


In [14]:
b.itemsize

8

In [15]:
b.data

<memory at 0x000001ED78D8ACF0>

#### Tạo một Mảng

- Để tạo một mảng mới trong NumPy, bạn có thể thực hiện theo nhiều cách khác nhau. Cách thông thường nhất là sử dụng hàm array(), truyền vào một danh sách hoặc một dãy các danh sách làm đối số.

In [16]:
c = np.array([[1, 2, 3], [4, 5, 6]])
c

array([[1, 2, 3],
       [4, 5, 6]])

- Hàm array() không chỉ chấp nhận danh sách, mà còn có thể nhận tuples và các dãy tuples làm đối số.

In [17]:
d = np.array(((1, 2, 3), (4, 5, 6)))
d

array([[1, 2, 3],
       [4, 5, 6]])

- Nó cũng có thể nhận các dãy tuples và các danh sách liên kết với nhau.

In [18]:
e = np.array([(1, 2, 3), [4, 5, 6], (7, 8, 9)])
e

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### Các Loại Dữ Liệu

- Bạn đã thấy các giá trị số đơn giản như số nguyên (integer) và số thực (float). Tuy nhiên, mảng NumPy được thiết kế để chứa nhiều loại dữ liệu khác nhau. Ví dụ, bạn có thể sử dụng loại dữ liệu chuỗi ký tự (string):

In [19]:
g = np.array([['a', 'b'], ['c', 'd']])
g

array([['a', 'b'],
       ['c', 'd']], dtype='<U1')

In [20]:
g.dtype

dtype('<U1')

In [21]:
g.dtype.name

'str32'

#### dtype

- Nếu bạn muốn tạo một mảng chứa các giá trị phức hợp, bạn có thể sử dụng tuỳ chọn dtype như sau:

In [22]:
f = np.array([[1, 2, 3], [4, 5, 6]], dtype=complex)
f

array([[1.+0.j, 2.+0.j, 3.+0.j],
       [4.+0.j, 5.+0.j, 6.+0.j]])

#### Tạo Mảng Nội Tại (Intrinsic)

##### Hàm zeros()

- Hàm zeros() tạo ra một mảng đầy các giá trị bằng 0 với kích thước được xác định bởi đối số shape. Ví dụ, để tạo một mảng hai chiều 3x3:

In [23]:
np.zeros((3, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

##### Hàm ones()

- Hàm ones() tạo ra một mảng đầy các giá trị bằng 1 theo cách tương tự. Ví dụ:

In [24]:
np.ones((3, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

##### Hàm arange()

- Hàm arange() tạo ra các mảng NumPy với dãy số tuân theo các quy tắc nhất định dựa trên các đối số được truyền vào. Ví dụ, nếu bạn muốn tạo ra một dãy giá trị từ 0 đến 10:

In [25]:
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

- Nếu bạn muốn bắt đầu từ một giá trị khác 0, bạn chỉ cần xác định hai đối số: giá trị bắt đầu và giá trị kết thúc.

In [26]:
np.arange(4, 10)

array([4, 5, 6, 7, 8, 9])

- Bạn cũng có thể tạo dãy số với khoảng cách xác định giữa các giá trị bằng cách thêm đối số thứ ba.

In [27]:
np.arange(0, 12, 3)

array([0, 3, 6, 9])

- Đối số thứ ba này cũng có thể là một số thực.

In [28]:
np.arange(0, 6, 0.6)

array([0. , 0.6, 1.2, 1.8, 2.4, 3. , 3.6, 4.2, 4.8, 5.4])

- Những phần trên, bạn chỉ tạo ra các mảng một chiều. Để tạo các mảng hai chiều, bạn có thể kết hợp hàm arange() với hàm reshape().

In [29]:
np.arange(0, 12).reshape(3, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

##### Hàm linspace()

- Hàm linspace() tương tự như arange(), nhưng thay vì xác định khoảng cách giữa các phần tử, đối số thứ ba xác định số lượng phần tử mà bạn muốn chia đoạn.

In [30]:
np.linspace(0, 10, 5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

##### Hàm random()

- Một cách khác để tạo mảng là điền vào chúng các giá trị ngẫu nhiên bằng cách sử dụng hàm random() của mô-đun numpy.random. Hàm này sẽ tạo ra một mảng với số phần tử được xác định trong đối số.

In [31]:
np.random.random(3)

array([0.93884195, 0.13704609, 0.42708801])

- Để tạo một mảng đa chiều, bạn chỉ cần truyền kích thước của mảng làm đối số.

In [32]:
np.random.random((3, 3))

array([[0.15579218, 0.14775648, 0.51711305],
       [0.11474727, 0.87104231, 0.94034747],
       [0.06340394, 0.03503861, 0.29447585]])

### Các Phép Toán Cơ Bản

#### Phép Toán Số Học

- Các phép toán đầu tiên bạn sẽ thực hiện trên mảng là các phép toán số học. Các phép toán dễ thấy nhất là cộng và nhân một mảng với một số hằng.

In [33]:
a = np.arange(4)
a

array([0, 1, 2, 3])

In [34]:
a + 4

array([4, 5, 6, 7])

In [35]:
a * 2

array([0, 2, 4, 6])

- Các phép toán này cũng có thể được sử dụng giữa hai mảng. Trong NumPy, các phép toán này được thực hiện từng phần tử, nghĩa là các toán tử chỉ được áp dụng giữa các phần tử tương ứng của mảng.

In [36]:
b = np.arange(4, 8)
b

array([4, 5, 6, 7])

In [37]:
a + b

array([ 4,  6,  8, 10])

In [38]:
a - b

array([-4, -4, -4, -4])

In [39]:
a * b

array([ 0,  5, 12, 21])

- Hơn nữa, các phép toán này cũng có sẵn cho các hàm, với điều kiện giá trị trả về là một mảng NumPy. Ví dụ, bạn có thể nhân mảng với hàm sin hoặc hàm căn bậc hai của các phần tử trong mảng b.

In [40]:
a * np.sin(b)

array([-0.        , -0.95892427, -0.558831  ,  1.9709598 ])

In [41]:
a * np.sqrt(b)

array([0.        , 2.23606798, 4.89897949, 7.93725393])

- Chuyển sang trường hợp đa chiều, các phép toán số học vẫn tiếp tục hoạt động theo từng phần tử.

In [42]:
A = np.arange(0, 9).reshape(3, 3)
A

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [43]:
B = np.ones((3, 3))
B

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [44]:
A * B

array([[0., 1., 2.],
       [3., 4., 5.],
       [6., 7., 8.]])

#### Phép Nhân Ma Trận

- Trong NumPy, phép nhân ma trận không được thực hiện bằng toán tử * mà bằng hàm dot(). Phép toán này không thực hiện từng phần tử.

In [45]:
np.dot(A, B)

array([[ 3.,  3.,  3.],
       [12., 12., 12.],
       [21., 21., 21.]])

=> Kết quả ở mỗi vị trí là tổng của các tích giữa từng phần tử của hàng tương ứng trong ma trận đầu tiên với phần tử tương ứng của cột trong ma trận thứ hai.

- Một cách khác để viết phép nhân ma trận là sử dụng hàm dot() như một phương thức của một trong hai ma trận.

In [46]:
A.dot(B)

array([[ 3.,  3.,  3.],
       [12., 12., 12.],
       [21., 21., 21.]])

- Chú ý rằng phép nhân ma trận không phải là phép toán giao hoán, do đó thứ tự của các toán hạng rất quan trọng.

In [47]:
np.dot(B, A)

array([[ 9., 12., 15.],
       [ 9., 12., 15.],
       [ 9., 12., 15.]])

#### Các Toán Tử Tăng Giảm

- Python không có các toán tử tăng giảm như ++ hoặc --. Để tăng hoặc giảm giá trị, bạn phải sử dụng các toán tử như += và -=. Các toán tử này không khác gì so với những toán tử trước đó, ngoại trừ việc thay vì tạo một mảng mới với các kết quả, chúng gán lại kết quả vào cùng một mảng.

In [48]:
a = np.arange(4)
a

array([0, 1, 2, 3])

In [49]:
a += 1
a

array([1, 2, 3, 4])

In [50]:
a -= 1
a

array([0, 1, 2, 3])

- Việc sử dụng các toán tử này rất hữu ích khi bạn muốn thay đổi giá trị trong một mảng mà không tạo ra một mảng mới.

In [51]:
a += 4
a

array([4, 5, 6, 7])

In [52]:
a *= 2
a

array([ 8, 10, 12, 14])

#### Hàm Toàn Cầu (Universal Functions - ufunc)

- Hàm toàn cầu, gọi là ufunc, là một hàm hoạt động trên mảng theo từng phần tử. Điều này có nghĩa là nó tác động từng phần tử đơn lẻ của mảng đầu vào để tạo ra kết quả tương ứng trong một mảng đầu ra mới. Kết quả cuối cùng là một mảng có cùng kích thước với mảng đầu vào.
- Có nhiều phép toán toán học và lượng giác tuân theo định nghĩa này; ví dụ, tính căn bậc hai với sqrt(), logarit - log(), hoặc sin - sin().

In [53]:
a = np.arange(1, 5)
a

array([1, 2, 3, 4])

In [54]:
np.sqrt(a)

array([1.        , 1.41421356, 1.73205081, 2.        ])

In [55]:
np.log(a)

array([0.        , 0.69314718, 1.09861229, 1.38629436])

In [56]:
np.sin(a)

array([ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ])

=> Nhiều hàm toán học phổ biến đã được triển khai trong thư viện NumPy.

#### Hàm Tổng Hợp (Aggregate Functions)

- Hàm tổng hợp thực hiện một phép toán trên một tập hợp các giá trị, ví dụ như một mảng, và trả về một kết quả duy nhất. Do đó, tổng của tất cả các phần tử trong một mảng là một hàm tổng hợp. Nhiều hàm loại này được triển khai trong lớp ndarray và có thể được gọi trực tiếp từ mảng mà bạn muốn thực hiện tính toán.

In [57]:
a = np.array([3.3, 4.5, 1.2, 5.7, 0.3])
a.sum()

15.0

In [58]:
a.min()

0.3

In [59]:
a.max()

5.7

In [60]:
a.mean()

3.0

In [61]:
a.std()

2.0079840636817816

=> Hàm sum() trả về tổng của tất cả các phần tử trong mảng. Hàm min() trả về giá trị nhỏ nhất trong mảng. Hàm max() trả về giá trị lớn nhất trong mảng. Hàm mean() trả về giá trị trung bình của các phần tử trong mảng. Hàm std() trả về độ lệch chuẩn của các phần tử trong mảng.

### Indexing, Slicing, Iterating

#### Chỉ mục (Indexing)

- Việc sử dụng Indexing trong mảng luôn dùng dấu ngoặc vuông ([ ]) để truy cập các phần tử của mảng, giúp bạn có thể tham chiếu từng phần tử riêng lẻ cho các mục đích khác nhau như trích xuất giá trị, chọn các phần tử, hoặc gán giá trị mới.

In [62]:
a = np.arange(10, 16)
a

array([10, 11, 12, 13, 14, 15])

In [63]:
a[4]

14

- Mảng NumPy cũng chấp nhận các chỉ mục âm. Các chỉ mục này có thứ tự tăng dần từ 0 đến -1, -2, v.v., nhưng trong thực tế, chúng làm cho phần tử cuối cùng dần dần chuyển đến phần tử đầu tiên, tức là phần tử có giá trị chỉ mục âm lớn hơn.

In [64]:
a[-1]

15

In [65]:
a[-6]

10

- Để chọn nhiều phần tử cùng một lúc, bạn có thể truyền một mảng các chỉ mục vào trong ngoặc vuông

In [66]:
a[[1, 3, 4]]

array([11, 13, 14])

- Chuyển sang trường hợp hai chiều, tức là các ma trận, chúng được biểu diễn dưới dạng các mảng chữ nhật gồm các hàng và cột, được xác định bởi hai trục, trong đó trục 0 đại diện cho các hàng và trục 1 đại diện cho các cột. 
- Do đó, việc chỉ mục trong trường hợp này được biểu diễn bằng một cặp giá trị: giá trị đầu tiên là chỉ mục của hàng và giá trị thứ hai là chỉ mục của cột.


In [67]:
A = np.arange(10, 19).reshape((3, 3))
A

array([[10, 11, 12],
       [13, 14, 15],
       [16, 17, 18]])

In [68]:
A[1, 2]

15

#### Cắt lát (Slicing)

- Tùy thuộc vào phần của mảng mà bạn muốn trích xuất, bạn phải sử dụng cú pháp cắt lát; tức là bạn sử dụng một dãy số được phân tách bằng dấu hai chấm (:) trong ngoặc vuông.

In [69]:
a = np.arange(10, 16)
a

array([10, 11, 12, 13, 14, 15])

In [70]:
a[1:5]

array([11, 12, 13, 14])

- Nếu bạn muốn trích xuất các phần tử từ phần trước đó và bỏ qua một số phần tử theo sau, sau đó trích xuất phần tử tiếp theo và bỏ qua một lần nữa, bạn có thể sử dụng một đối số thứ ba để xác định khoảng cách giữa các phần tử trong dãy.

In [71]:
a[1:5:2]

array([11, 13])

- Cú pháp cắt lát cũng có thể sử dụng khi bạn không dùng các giá trị số cụ thể. Nếu bạn bỏ qua số đầu tiên, NumPy sẽ ngầm hiểu số này là 0. Nếu bạn bỏ qua số thứ hai, nó sẽ được hiểu là chỉ mục lớn nhất của mảng; và nếu bạn bỏ qua số cuối cùng, nó sẽ được hiểu là 1. Tất cả các phần tử sẽ được xem xét mà không có khoảng cách.

In [72]:
a[::2]

array([10, 12, 14])

In [73]:
a[:5:2]

array([10, 12, 14])

In [74]:
a[:5:]

array([10, 11, 12, 13, 14])

- Trong trường hợp mảng hai chiều, cú pháp cắt lát vẫn áp dụng, nhưng nó được xác định riêng cho các hàng và cột.

In [75]:
A = np.arange(10, 19).reshape((3, 3))
A

array([[10, 11, 12],
       [13, 14, 15],
       [16, 17, 18]])

In [76]:
A[0, :]

array([10, 11, 12])

- Như bạn thấy trong chỉ mục thứ hai, nếu bạn chỉ để lại dấu hai chấm mà không định rõ số, bạn sẽ chọn tất cả các cột. Nếu bạn muốn trích xuất tất cả các giá trị của cột đầu tiên, bạn viết ngược lại.

In [77]:
A[:, 0]

array([10, 13, 16])

- Nếu bạn muốn trích xuất một ma trận nhỏ hơn, bạn cần phải định rõ tất cả các khoảng với các chỉ mục xác định chúng.

In [78]:
A[0:2, 0:2]

array([[10, 11],
       [13, 14]])

- Nếu các chỉ mục của hàng hoặc cột cần trích xuất không liền kề, bạn có thể chỉ định một mảng các chỉ mục.

In [79]:
A[[0, 2], 0:2]

array([[10, 11],
       [16, 17]])

#### Lặp qua một Mảng (Iterating)

- Trong Python, lặp qua các phần tử trong một mảng rất đơn giản; bạn chỉ cần sử dụng cấu trúc for.

In [80]:
for i in a:
    print(i)

10
11
12
13
14
15


- Chuyển sang trường hợp hai chiều, bạn có thể nghĩ đến việc áp dụng giải pháp hai vòng lặp lồng nhau với cấu trúc for. Vòng lặp đầu tiên sẽ quét các hàng của mảng, và vòng lặp thứ hai sẽ quét các cột. Tuy nhiên, nếu bạn áp dụng vòng lặp for cho một ma trận, nó sẽ luôn thực hiện quét theo trục đầu tiên.

In [81]:
for row in A:
    print(row)

[10 11 12]
[13 14 15]
[16 17 18]


- Nếu bạn muốn lặp qua từng phần tử, bạn có thể sử dụng cấu trúc sau, sử dụng vòng lặp for trong A.flat.

In [82]:
for item in A.flat: 
    print(item)

10
11
12
13
14
15
16
17
18


- Tuy nhiên, NumPy cung cấp một giải pháp thay thế và đẹp hơn so với vòng lặp for. Thông thường, bạn cần áp dụng một phép lặp để áp dụng một hàm trên các hàng, các cột, hoặc trên từng phần tử. Nếu bạn muốn sử dụng một hàm tổng hợp trả về một giá trị được tính cho mỗi cột hoặc mỗi hàng, có một cách tối ưu để để NumPy quản lý vòng lặp: hàm apply_along_axis().
- Hàm này nhận ba đối số: hàm tổng hợp, trục mà bạn muốn áp dụng vòng lặp, và mảng. Nếu tùy chọn trục bằng 0, thì vòng lặp sẽ đánh giá các phần tử theo từng cột, ngược lại, nếu trục bằng 1 thì vòng lặp sẽ đánh giá các phần tử theo từng hàng.


In [83]:
np.apply_along_axis(np.mean, axis=0, arr=A)

array([13., 14., 15.])

In [84]:
np.apply_along_axis(np.mean, axis=1, arr=A)

array([11., 14., 17.])

- Trường hợp trước đó sử dụng một hàm đã được định nghĩa trong thư viện NumPy, nhưng không có gì ngăn cản bạn định nghĩa các hàm của riêng mình. Bạn cũng đã sử dụng một hàm tổng hợp. Tuy nhiên, không có gì ngăn cản bạn sử dụng một hàm toàn cục (ufunc). Trong trường hợp này, việc lặp qua cột và hàng sẽ cho kết quả giống nhau. Thực tế, việc sử dụng một hàm toàn cục sẽ thực hiện lặp qua từng phần tử.

In [85]:
def foo(x): 
    return x / 2
np.apply_along_axis(foo, axis=1, arr=A)

array([[5. , 5.5, 6. ],
       [6.5, 7. , 7.5],
       [8. , 8.5, 9. ]])

In [86]:
np.apply_along_axis(foo, axis=0, arr=A)

array([[5. , 5.5, 6. ],
       [6.5, 7. , 7.5],
       [8. , 8.5, 9. ]])

=> Như bạn thấy, hàm ufunc chia đôi giá trị của mỗi phần tử trong mảng đầu vào, bất kể việc lặp được thực hiện theo hàng hay theo cột.

### Thao Tác Hình Dạng (Shape Manipulation)

- Bạn đã thấy khi tạo một mảng hai chiều, có thể chuyển đổi một mảng một chiều thành ma trận nhờ vào hàm reshape().

In [87]:
a = np.random.random(12)
a

array([0.58641172, 0.16983415, 0.82848287, 0.70279606, 0.98251205,
       0.42219377, 0.99143306, 0.45088688, 0.97204133, 0.71398963,
       0.38197473, 0.56403605])

In [88]:
A = a.reshape(3, 4)
A

array([[0.58641172, 0.16983415, 0.82848287, 0.70279606],
       [0.98251205, 0.42219377, 0.99143306, 0.45088688],
       [0.97204133, 0.71398963, 0.38197473, 0.56403605]])

- Hàm reshape() trả về một mảng mới và có thể tạo các đối tượng mới. Tuy nhiên, nếu bạn muốn thay đổi đối tượng bằng cách thay đổi hình dạng, bạn có thể gán một tuple chứa các kích thước mới trực tiếp vào thuộc tính shape của nó.

In [89]:
a.shape = (3, 4)
a

array([[0.58641172, 0.16983415, 0.82848287, 0.70279606],
       [0.98251205, 0.42219377, 0.99143306, 0.45088688],
       [0.97204133, 0.71398963, 0.38197473, 0.56403605]])

- Như bạn thấy, lần này là mảng ban đầu thay đổi hình dạng và không có đối tượng nào được trả về. Phép nghịch đảo cũng có thể thực hiện được; tức là bạn có thể chuyển đổi một mảng hai chiều thành một mảng một chiều. Bạn làm điều này bằng cách sử dụng hàm ravel().

In [90]:
a = a.ravel()
a

array([0.58641172, 0.16983415, 0.82848287, 0.70279606, 0.98251205,
       0.42219377, 0.99143306, 0.45088688, 0.97204133, 0.71398963,
       0.38197473, 0.56403605])

- Hoặc bạn có thể tác động trực tiếp vào thuộc tính shape của mảng.

In [91]:
a.shape = (A.size)
a

array([0.58641172, 0.16983415, 0.82848287, 0.70279606, 0.98251205,
       0.42219377, 0.99143306, 0.45088688, 0.97204133, 0.71398963,
       0.38197473, 0.56403605])

- Một thao tác quan trọng khác là chuyển vị ma trận, tức là hoán đổi các cột với các hàng. NumPy cung cấp tính năng này với hàm transpose().

In [92]:
A.transpose()

array([[0.58641172, 0.98251205, 0.97204133],
       [0.16983415, 0.42219377, 0.71398963],
       [0.82848287, 0.99143306, 0.38197473],
       [0.70279606, 0.45088688, 0.56403605]])

### Thao Tác Mảng

#### Nối Mảng (Joining Arrays)

- Bạn có thể gộp nhiều mảng để tạo thành một mảng mới chứa tất cả các mảng. NumPy sử dụng khái niệm xếp chồng, cung cấp một số hàm cho mục đích này. 
- Ví dụ, bạn có thể thực hiện xếp chồng dọc với hàm vstack(), kết hợp mảng thứ hai làm các hàng mới của mảng đầu tiên. Trong trường hợp này, mảng sẽ tăng trưởng theo chiều dọc. Ngược lại, hàm hstack() thực hiện xếp chồng ngang; tức là, mảng thứ hai được thêm vào các cột của mảng đầu tiên.

In [93]:
A = np.ones((3, 3))
B = np.zeros((3, 3))
np.vstack((A, B))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [94]:
np.hstack((A, B))

array([[1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 0., 0., 0.]])

- Hai hàm khác thực hiện việc xếp chồng giữa nhiều mảng là column_stack() và row_stack(). Các hàm này hoạt động khác với hai hàm trước. 
- Thường thì các hàm này được sử dụng với các mảng một chiều, được xếp chồng thành các cột hoặc hàng để tạo thành một mảng hai chiều mới.


In [95]:
a = np.array([0, 1, 2])
b = np.array([3, 4, 5])
c = np.array([6, 7, 8])
np.column_stack((a, b, c))

array([[0, 3, 6],
       [1, 4, 7],
       [2, 5, 8]])

In [96]:
np.row_stack((a, b, c))

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

#### Chia Mảng (Splitting Arrays)

- Trong phần trước, bạn đã thấy cách gộp nhiều mảng qua việc xếp chồng. Bây giờ, bạn sẽ học cách chia một mảng thành nhiều phần. Trong NumPy, bạn sử dụng việc chia để làm điều này. Bạn có một tập hợp các hàm hoạt động cả theo chiều ngang với hàm hsplit() và theo chiều dọc với hàm vsplit().

In [97]:
A = np.arange(16).reshape((4, 4))
A

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

- Nếu bạn muốn chia mảng theo chiều ngang, tức là chiều rộng của mảng được chia thành hai phần, ma trận 4x4 A sẽ được chia thành hai ma trận 2x4.

In [98]:
[B, C] = np.hsplit(A, 2)
B

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [99]:
C

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

- Ngược lại, nếu bạn muốn chia mảng theo chiều dọc, tức là chiều cao của mảng được chia thành hai phần, ma trận 4x4 A sẽ được chia thành hai ma trận 4x2.

In [100]:
[B, C] = np.vsplit(A, 2)
B

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [101]:
C

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

- Một lệnh phức tạp hơn là hàm split(), cho phép bạn chia mảng thành các phần không đối xứng. Khi truyền mảng làm đối số, bạn cũng phải chỉ định các chỉ mục của các phần để chia. Nếu bạn sử dụng tùy chọn axis=1, thì các chỉ mục sẽ là các cột; nếu tùy chọn là axis=0, thì chúng sẽ là các chỉ mục hàng.

In [102]:
[A1, A2, A3] = np.split(A, [1, 3], axis=1)
A1

array([[ 0],
       [ 4],
       [ 8],
       [12]])

In [103]:
A2

array([[ 1,  2],
       [ 5,  6],
       [ 9, 10],
       [13, 14]])

In [104]:
A3

array([[ 3],
       [ 7],
       [11],
       [15]])

- Bạn cũng có thể làm tương tự bằng cách chia theo hàng.

In [105]:
[A1, A2, A3] = np.split(A, [1, 3], axis=0)
A1

array([[0, 1, 2, 3]])

In [106]:
A2

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [107]:
A3

array([[12, 13, 14, 15]])

=> Tính năng này cũng bao gồm các chức năng của các hàm vsplit() và hsplit().

### Broadcasting

- Phát sóng (broadcasting) cho phép một toán tử hoặc hàm hoạt động trên hai hoặc nhiều mảng ngay cả khi các mảng này không có cùng hình dạng. Tuy nhiên, không phải tất cả các chiều đều có thể được phát sóng; chúng phải tuân theo các quy tắc nhất định.
- Bạn đã thấy rằng khi sử dụng NumPy, bạn có thể phân loại các mảng đa chiều thông qua một hình dạng là một tuple đại diện cho độ dài của các phần tử của mỗi chiều. Hai mảng có thể được phát sóng khi tất cả các chiều của chúng tương thích, tức là, độ dài của mỗi chiều phải bằng nhau hoặc một trong số chúng phải bằng 1. Nếu không đáp ứng được điều kiện này, bạn sẽ nhận được một ngoại lệ thông báo rằng hai mảng không tương thích.

In [108]:
A = np.arange(16).reshape(4, 4)
b = np.arange(4)
A

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [109]:
b

array([0, 1, 2, 3])

- Trong trường hợp này, bạn có hai mảng:
    - Mảng A có hình dạng 4x4
    - Mảng b có hình dạng 4
- Có hai quy tắc phát sóng. Đầu tiên, bạn phải thêm 1 vào mỗi chiều còn thiếu. Nếu các quy tắc tương thích bây giờ được thỏa mãn, bạn có thể áp dụng phát sóng và chuyển sang quy tắc thứ hai. Ví dụ:
    - Hình dạng của A: 4x4
    - Hình dạng của b sau khi thêm 1: 4x1
- Quy tắc tương thích được đáp ứng. Sau đó, bạn có thể chuyển sang quy tắc thứ hai của phát sóng. Quy tắc này giải thích cách mở rộng kích thước của mảng nhỏ nhất để nó có kích thước của mảng lớn nhất, sao cho hàm hoặc toán tử theo từng phần tử có thể áp dụng.
- Quy tắc thứ hai giả định rằng các phần tử thiếu (kích thước, chiều dài 1) được điền bằng các bản sao của các giá trị chứa trong các kích thước mở rộng.
- Bây giờ các mảng đã có cùng kích thước, các giá trị bên trong có thể được cộng lại với nhau.


In [110]:
A + b

array([[ 0,  2,  4,  6],
       [ 4,  6,  8, 10],
       [ 8, 10, 12, 14],
       [12, 14, 16, 18]])

- Đây là một trường hợp đơn giản trong đó một trong hai mảng nhỏ hơn mảng còn lại. Có thể có những trường hợp phức tạp hơn trong đó hai mảng có các hình dạng khác nhau và mỗi mảng nhỏ hơn mảng kia chỉ ở một số chiều nhất định.

In [111]:
m = np.arange(6).reshape(3, 1, 2)
n = np.arange(6).reshape(3, 2, 1)
m

array([[[0, 1]],

       [[2, 3]],

       [[4, 5]]])

In [112]:
n

array([[[0],
        [1]],

       [[2],
        [3]],

       [[4],
        [5]]])

- Ngay cả trong trường hợp này, bằng cách phân tích các hình dạng của hai mảng, bạn có thể thấy rằng chúng tương thích và do đó các quy tắc phát sóng có thể được áp dụng.
    - Hình dạng của m: 3x1x2
    - Hình dạng của n: 3x2x1
- Trong trường hợp này, cả hai mảng đều trải qua việc mở rộng các chiều (broadcasting).

In [113]:
m + n

array([[[ 0,  1],
        [ 1,  2]],

       [[ 4,  5],
        [ 5,  6]],

       [[ 8,  9],
        [ 9, 10]]])

### Đọc và Ghi Dữ Liệu Mảng Vào Tập Tin

#### Tải và Lưu Dữ Liệu Trong Tập Tin Nhị Phân

- NumPy cung cấp một cặp hàm, gọi là save() và load(), cho phép bạn lưu và sau đó lấy lại dữ liệu được lưu trữ ở định dạng nhị phân.
- Khi bạn có một mảng cần lưu, ví dụ, một mảng chứa kết quả của quá trình xử lý phân tích dữ liệu của bạn, bạn chỉ cần gọi hàm save() và chỉ định tên tập tin và mảng làm các đối số. Tập tin sẽ tự động được gán đuôi .npy.

In [114]:
data = np.random.random((3, 3))
data

array([[0.24349723, 0.70098522, 0.08534261],
       [0.44191861, 0.52582364, 0.48102126],
       [0.42401984, 0.64207559, 0.16919964]])

In [115]:
np.save('saved_data', data)

- Khi bạn cần khôi phục dữ liệu đã lưu trữ trong tập tin .npy, bạn sử dụng hàm load() bằng cách chỉ định tên tập tin làm đối số, lần này thêm đuôi .npy.

In [116]:
loaded_data = np.load('saved_data.npy')
loaded_data

array([[0.24349723, 0.70098522, 0.08534261],
       [0.44191861, 0.52582364, 0.48102126],
       [0.42401984, 0.64207559, 0.16919964]])

#### Đọc Tập Tin Có Dữ Liệu Dạng Bảng

- Có trường hợp, dữ liệu mà bạn muốn đọc hoặc lưu trữ ở định dạng văn bản (TXT hoặc CSV). Bạn có thể lưu dữ liệu ở định dạng này, thay vì nhị phân, vì các tập tin sau đó có thể được truy cập độc lập nếu bạn đang làm việc với NumPy hoặc với bất kỳ ứng dụng nào khác. Lấy ví dụ một tập hợp dữ liệu ở định dạng CSV (Comma-Separated Values), trong đó dữ liệu được thu thập dưới dạng bảng và các giá trị được phân tách bằng dấu phẩy.

- Tạo nội dung cho tập tin ch3_data.csv:

In [117]:
data = """id,value1,value2,value3
1,123,1.4,23
2,110,0.5,18
3,164,2.1,19"""

with open('ch3_data.csv', 'w') as file:
    file.write(data)

- Để có thể đọc dữ liệu trong một tập tin văn bản và chèn các giá trị vào một mảng, NumPy cung cấp một hàm gọi là genfromtxt(). Thông thường, hàm này nhận ba đối số—tên của tập tin chứa dữ liệu, ký tự phân tách các giá trị (trong trường hợp này là dấu phẩy), và liệu dữ liệu có chứa tiêu đề cột hay không.

In [118]:
data = np.genfromtxt('ch3_data.csv', delimiter=',', names=True)
data

array([(1., 123., 1.4, 23.), (2., 110., 0.5, 18.), (3., 164., 2.1, 19.)],
      dtype=[('id', '<f8'), ('value1', '<f8'), ('value2', '<f8'), ('value3', '<f8')])

 - Như bạn thấy từ kết quả, bạn nhận được một mảng cấu trúc trong đó tiêu đề cột đã trở thành tên các trường.
- Hàm này ngầm thực hiện hai vòng lặp: vòng lặp đầu tiên đọc từng dòng một, và vòng lặp thứ hai phân tách và chuyển đổi các giá trị chứa trong đó, chèn các phần tử liên tiếp được tạo ra một cách cụ thể. Một khía cạnh tích cực của tính năng này là nếu một số dữ liệu bị thiếu, hàm có thể xử lý chúng.


- Tạo nội dung cho tập tin ch3_data2.csv:

In [119]:
data2 = """id,value1,value2,value3
1,123,1.4,23
2,110,,18
3,,2.1,19"""

with open('ch3_data2.csv', 'w') as file:
    file.write(data2)

In [121]:
data2 = np.genfromtxt('ch3_data2.csv', delimiter=',', names=True)
data2

array([(1., 123., 1.4, 23.), (2., 110., nan, 18.), (3.,  nan, 2.1, 19.)],
      dtype=[('id', '<f8'), ('value1', '<f8'), ('value2', '<f8'), ('value3', '<f8')])

- Ở cuối mảng, bạn có thể thấy các tiêu đề cột chứa trong tập tin. Các tiêu đề này có thể được coi là các nhãn hoạt động như các chỉ mục để trích xuất các giá trị theo cột.

In [122]:
data2['id']

array([1., 2., 3.])

- Ngược lại, bằng cách sử dụng các chỉ mục số theo cách cổ điển, bạn trích xuất dữ liệu tương ứng với các hàng.

In [123]:
data2[0]

(1., 123., 1.4, 23.)

## PANDAS

### Cài đặt Pandas

- Bạn cũng có thể tiếp tục sử dụng Jupyter NoteBook để cài đặt tiếp cho phần pandas. Để cài đặt Pandas, bạn có thể sử dụng pip:

In [None]:
%pip install pandas

- Sau khi Pandas đã được cài đặt, để nhập mô-đun Pandas vào phiên làm việc Python của bạn trong Jupyter Notebook, bạn viết lệnh sau:

In [124]:
import pandas as pd

### Cấu Trúc Dữ Liệu Chính Trong Pandas
- Trái tim của pandas là hai cấu trúc dữ liệu chính, trung tâm của mọi giao dịch trong phân tích dữ liệu:
    - Series
    - DataFrame

- Series là cấu trúc dữ liệu được thiết kế để chứa một dãy dữ liệu một chiều, trong khi DataFrame là cấu trúc dữ liệu phức tạp hơn, được thiết kế để chứa các trường hợp với nhiều chiều.

- Mặc dù hai cấu trúc dữ liệu này không phải là giải pháp cho tất cả các vấn đề, chúng cung cấp một công cụ hợp lệ và mạnh mẽ cho hầu hết các ứng dụng. Thực tế, chúng rất đơn giản để hiểu và sử dụng. Ngoài ra, nhiều trường hợp cấu trúc dữ liệu phức tạp hơn vẫn có thể truy ngược lại hai trường hợp đơn giản này.

- Đặc điểm nổi bật của chúng là tích hợp các đối tượng chỉ mục (index objects) và nhãn (labels) trong cấu trúc của chúng. Tính năng này giúp các cấu trúc dữ liệu này dễ dàng thao tác.


### Series

#### Khai Báo Series

- Để tạo một Series, bạn chỉ cần gọi hàm Series() và truyền vào một mảng chứa các giá trị.

In [125]:
s = pd.Series([12, -4, 7, 9])
s

0    12
1    -4
2     7
3     9
dtype: int64

- Như bạn thấy từ kết quả của Series, bên trái là các giá trị trong chỉ mục (indexes), và bên phải là các giá trị tương ứng (values). Nếu bạn không chỉ định bất kỳ chỉ mục nào khi định nghĩa Series, pandas sẽ gán các giá trị số tăng dần từ 0 làm nhãn.
- Tuy nhiên, thường thì việc tạo một Series với các nhãn (labels) có ý nghĩa là ưu tiên hơn để phân biệt và xác định từng mục mà không cần quan tâm đến thứ tự của chúng.

In [126]:
s = pd.Series([12, -4, 7, 9], index=['a', 'b', 'c', 'd'])
s

a    12
b    -4
c     7
d     9
dtype: int64

- Nếu bạn muốn xem riêng từng mảng tạo nên cấu trúc dữ liệu này, bạn có thể gọi hai thuộc tính của Series là index và values.

In [127]:
s.values

array([12, -4,  7,  9], dtype=int64)

In [128]:
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

#### Chọn Các Phần Tử Bên Trong

- Bạn có thể chọn các phần tử riêng lẻ như các mảng NumPy thông thường, bằng cách chỉ định khóa.

In [None]:
s[2]

- Hoặc bạn có thể chỉ định nhãn tương ứng với vị trí của chỉ mục.

In [130]:
s['b']

-4

- Cách này bạn cũng có thể chọn nhiều phần tử trong một mảng NumPy, bạn có thể chỉ định danh sách các nhãn trong một mảng.

In [131]:
s[['b', 'c']]

b   -4
c    7
dtype: int64

#### Gán Giá Trị Cho Các Phần Tử

- Khi bạn đã hiểu cách chọn các phần tử riêng lẻ, bạn cũng biết cách gán giá trị mới cho chúng. Bạn có thể chọn giá trị theo chỉ mục hoặc theo nhãn.

In [None]:
s[1] = 0
s

In [134]:
s['b'] = 1
s

a    12
b     1
c     7
d     9
dtype: int64

#### Định Nghĩa Series Từ Các Mảng NumPy Và Series Khác

- Bạn có thể định nghĩa một Series mới từ các mảng NumPy hoặc từ một Series hiện có.

In [135]:
arr = np.array([1, 2, 3, 4]) 
s3 = pd.Series(arr) 
s3

0    1
1    2
2    3
3    4
dtype: int32

In [136]:
s4 = pd.Series(s)
s4

a    12
b     1
c     7
d     9
dtype: int64

- Cần nhớ rằng các giá trị chứa trong mảng NumPy hoặc Series gốc không được sao chép, mà được tham chiếu. Nghĩa là, đối tượng được chèn động vào trong đối tượng Series mới. Nếu nó thay đổi, ví dụ giá trị phần tử bên trong thay đổi, những thay đổi đó cũng sẽ có trong đối tượng Series mới.

In [137]:
s3

0    1
1    2
2    3
3    4
dtype: int32

In [138]:
arr[2] = -2
s3

0    1
1    2
2   -2
3    4
dtype: int32

#### Lọc Giá Trị

- Nhờ lựa chọn thư viện NumPy làm nền tảng của pandas, nhiều thao tác áp dụng cho các mảng NumPy cũng được mở rộng cho Series. Một trong số đó là lọc giá trị chứa trong cấu trúc dữ liệu qua các điều kiện.

In [139]:
s[s > 8]

a    12
d     9
dtype: int64

#### Các Phép Toán Và Hàm Toán Học

- Các phép toán (+, -, *, và /) và các hàm toán học áp dụng cho mảng NumPy cũng có thể mở rộng cho Series.

In [140]:
s / 2

a    6.0
b    0.5
c    3.5
d    4.5
dtype: float64

In [141]:
np.log(s)

a    2.484907
b    0.000000
c    1.945910
d    2.197225
dtype: float64

#### Đánh Giá Giá Trị

- Thường có các giá trị trùng lặp trong một Series. Bạn có thể cần thông tin về sự tồn tại của các giá trị trùng lặp và liệu một giá trị cụ thể có trong Series hay không.

In [142]:
serd = pd.Series([1, 0, 2, 1, 2, 3], index=['white', 'white', 'blue', 'green', 'green', 'yellow'])
serd

white     1
white     0
blue      2
green     1
green     2
yellow    3
dtype: int64

In [143]:
serd.unique()

array([1, 0, 2, 3], dtype=int64)

In [144]:
serd.value_counts()

1    2
2    2
0    1
3    1
Name: count, dtype: int64

In [145]:
serd.isin([0, 3])

white     False
white      True
blue      False
green     False
green     False
yellow     True
dtype: bool

In [146]:
serd[serd.isin([0, 3])]

white     0
yellow    3
dtype: int64

#### Giá Trị NaN

- Giá trị NaN (Not a Number) được sử dụng trong các cấu trúc dữ liệu của pandas để chỉ sự hiện diện của một trường trống hoặc một cái gì đó không thể xác định bằng số. Pandas cho phép bạn xác định rõ ràng các giá trị NaN và thêm chúng vào cấu trúc dữ liệu, như một Series.

In [147]:
s2 = pd.Series([5, -3, np.NaN, 14])
s2

0     5.0
1    -3.0
2     NaN
3    14.0
dtype: float64

In [148]:
s2.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [149]:
s2.notnull()

0     True
1     True
2    False
3     True
dtype: bool

In [150]:
s2[s2.notnull()]

0     5.0
1    -3.0
3    14.0
dtype: float64

In [151]:
s2[s2.isnull()]

2   NaN
dtype: float64

#### Series Như Các Từ Điển

- Một cách khác để nghĩ về Series là coi nó như một đối tượng dict (từ điển). Tương tự như khi định nghĩa một đối tượng Series. Bạn có thể tạo một Series từ một dict đã định nghĩa trước đó.

In [152]:
mydict = {'red': 2000, 'blue': 1000, 'yellow': 500, 'orange': 1000}
myseries = pd.Series(mydict)
myseries

red       2000
blue      1000
yellow     500
orange    1000
dtype: int64

#### Các Phép Toán Giữa Các Series

- Bạn đã thấy cách thực hiện các phép toán giữa Series và các giá trị số. Điều tương tự cũng có thể thực hiện bằng cách thực hiện các phép toán giữa hai Series, nhưng trong trường hợp này, các nhãn cũng được xem xét.

In [153]:
mydict2 = {'red': 400, 'yellow': 1000, 'black': 700}
myseries2 = pd.Series(mydict2)
myseries + myseries2

black        NaN
blue         NaN
orange       NaN
red       2400.0
yellow    1500.0
dtype: float64

=> Bạn nhận được một đối tượng Series mới trong đó chỉ các mục có cùng nhãn mới được cộng lại. Tất cả các nhãn khác có trong một trong hai Series vẫn được thêm vào kết quả nhưng có giá trị NaN.

### DataFrame

### Định Nghĩa DataFrame

- Cách phổ biến nhất để tạo một DataFrame mới là truyền một đối tượng dict vào hàm tạo DataFrame. Đối tượng dict này chứa một khóa cho mỗi cột bạn muốn định nghĩa, cùng với một mảng các giá trị cho mỗi cột.

In [154]:
data = {'color': ['blue', 'green', 'yellow', 'red', 'white'],
        'object': ['ball', 'pen', 'pencil', 'paper', 'mug'],
        'price': [1.2, 1.0, 0.6, 0.9, 1.7]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,color,object,price
0,blue,ball,1.2
1,green,pen,1.0
2,yellow,pencil,0.6
3,red,paper,0.9
4,white,mug,1.7


- Nếu đối tượng dict mà bạn muốn tạo DataFrame chứa nhiều dữ liệu hơn bạn quan tâm, bạn có thể thực hiện lựa chọn bằng cách sử dụng tùy chọn columns. Các cột sẽ được tạo ra theo thứ tự của dãy này bất kể chúng được chứa trong đối tượng dict như thế nào.

In [155]:
frame2 = pd.DataFrame(data, columns=['object', 'price'])
frame2

Unnamed: 0,object,price
0,ball,1.2
1,pen,1.0
2,pencil,0.6
3,paper,0.9
4,mug,1.7


- Nếu nhãn không được chỉ định rõ ràng trong mảng chỉ mục, pandas sẽ tự động gán một dãy số bắt đầu từ 0. Nếu bạn muốn gán nhãn cho các chỉ mục của DataFrame, bạn phải sử dụng tùy chọn index và gán nó một mảng chứa các nhãn.

In [156]:
frame2 = pd.DataFrame(data, index=['one', 'two', 'three', 'four', 'five'])
frame2

Unnamed: 0,color,object,price
one,blue,ball,1.2
two,green,pen,1.0
three,yellow,pencil,0.6
four,red,paper,0.9
five,white,mug,1.7


- Bây giờ bạn đã biết các tùy chọn index và columns, bạn có thể tưởng tượng một cách khác để định nghĩa DataFrame. Thay vì sử dụng đối tượng dict, bạn có thể định nghĩa ba đối số trong hàm tạo: một ma trận dữ liệu, một mảng chứa các nhãn được gán cho tùy chọn index, và một mảng chứa các tên cột được gán cho tùy chọn columns.

In [157]:
frame3 = pd.DataFrame(np.arange(16).reshape((4,4)),
                      index=['red', 'blue', 'yellow', 'white'],
                      columns=['ball', 'pen', 'pencil', 'paper'])
frame3

Unnamed: 0,ball,pen,pencil,paper
red,0,1,2,3
blue,4,5,6,7
yellow,8,9,10,11
white,12,13,14,15


#### Lựa Chọn Phần Tử

- Nếu bạn muốn biết tên của tất cả các cột trong DataFrame, bạn có thể chỉ định thuộc tính columns trên đối tượng DataFrame.

In [158]:
frame.columns

Index(['color', 'object', 'price'], dtype='object')

- Tương tự, để lấy danh sách các chỉ mục, bạn nên chỉ định thuộc tính index.

In [159]:
frame.index

RangeIndex(start=0, stop=5, step=1)

- Bạn cũng có thể lấy toàn bộ tập dữ liệu chứa trong cấu trúc dữ liệu sử dụng thuộc tính values.

In [160]:
frame.values

array([['blue', 'ball', 1.2],
       ['green', 'pen', 1.0],
       ['yellow', 'pencil', 0.6],
       ['red', 'paper', 0.9],
       ['white', 'mug', 1.7]], dtype=object)

- Hoặc, nếu bạn quan tâm đến việc chỉ chọn nội dung của một cột, bạn có thể viết tên của cột.

In [161]:
frame['price']

0    1.2
1    1.0
2    0.6
3    0.9
4    1.7
Name: price, dtype: float64

- Như bạn thấy, giá trị trả về là một đối tượng Series. Một cách khác để làm điều này là sử dụng tên cột như một thuộc tính của đối tượng DataFrame.

In [162]:
frame.price

0    1.2
1    1.0
2    0.6
3    0.9
4    1.7
Name: price, dtype: float64

- Đối với các hàng trong DataFrame, bạn có thể sử dụng thuộc tính loc với giá trị chỉ mục của hàng mà bạn muốn trích xuất.

In [163]:
frame.loc[2]

color     yellow
object    pencil
price        0.6
Name: 2, dtype: object

=> Đối tượng trả về lại là một Series trong đó tên các cột đã trở thành nhãn của chỉ mục mảng và các giá trị đã trở thành dữ liệu của Series.

- Để chọn nhiều hàng, bạn chỉ định một mảng với dãy các hàng để chèn.

In [164]:
frame.loc[[2, 4]]

Unnamed: 0,color,object,price
2,yellow,pencil,0.6
4,white,mug,1.7


- Nếu bạn cần trích xuất một phần của DataFrame, chọn các dòng bạn muốn trích xuất, bạn có thể sử dụng các số tham chiếu của các chỉ mục.

In [165]:
frame[0:1]

Unnamed: 0,color,object,price
0,blue,ball,1.2


- Nếu bạn muốn nhiều hơn một dòng, bạn phải mở rộng phạm vi lựa chọn.

In [166]:
frame[1:3]

Unnamed: 0,color,object,price
1,green,pen,1.0
2,yellow,pencil,0.6


- Cuối cùng, nếu bạn muốn lấy một giá trị duy nhất trong DataFrame, bạn trước tiên sử dụng tên của cột và sau đó là chỉ mục hoặc nhãn của hàng.

In [167]:
frame['object'][3]

'paper'

#### Gán Giá Trị

- Sau khi hiểu cách truy cập các phần tử tạo nên DataFrame, bạn theo cùng logic để thêm hoặc thay đổi các giá trị trong đó.
- Ví dụ, bạn đã thấy rằng trong cấu trúc DataFrame, một mảng chỉ mục được chỉ định bởi thuộc tính index, và hàng chứa tên các cột được chỉ định bởi thuộc tính columns. Bạn cũng có thể gán một nhãn, sử dụng thuộc tính name, cho hai cấu trúc con này để xác định chúng.

In [168]:
frame.index.name = 'id'
frame.columns.name = 'item'
frame

item,color,object,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,blue,ball,1.2
1,green,pen,1.0
2,yellow,pencil,0.6
3,red,paper,0.9
4,white,mug,1.7


- Một trong những tính năng tốt nhất của các cấu trúc dữ liệu của pandas là tính linh hoạt cao của chúng. Thực tế, bạn có thể luôn can thiệp ở bất kỳ mức độ nào để thay đổi cấu trúc dữ liệu bên trong. Ví dụ, một thao tác rất phổ biến là thêm một cột mới.

In [169]:
frame['new'] = 12
frame

item,color,object,price,new
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,blue,ball,1.2,12
1,green,pen,1.0,12
2,yellow,pencil,0.6,12
3,red,paper,0.9,12
4,white,mug,1.7,12


=> Như bạn thấy từ kết quả này, có một cột mới gọi là new với giá trị 12 được lặp lại cho mỗi phần tử của nó.

- Nếu bạn muốn cập nhật nội dung của một cột, bạn phải sử dụng một mảng.

In [170]:
frame['new'] = [3.0, 1.3, 2.2, 0.8, 1.1]
frame

item,color,object,price,new
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,blue,ball,1.2,3.0
1,green,pen,1.0,1.3
2,yellow,pencil,0.6,2.2
3,red,paper,0.9,0.8
4,white,mug,1.7,1.1


- Các cột của DataFrame cũng có thể được tạo ra bằng cách gán một Series cho một trong số chúng, ví dụ bằng cách chỉ định một Series chứa một dãy giá trị tăng dần thông qua việc sử dụng np.arange().

In [171]:
ser = pd.Series(np.arange(5))
ser

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [172]:
frame['new'] = ser
frame

item,color,object,price,new
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,blue,ball,1.2,0
1,green,pen,1.0,1
2,yellow,pencil,0.6,2
3,red,paper,0.9,3
4,white,mug,1.7,4


- Cuối cùng, để thay đổi một giá trị duy nhất, bạn chỉ cần chọn phần tử và gán giá trị mới.

In [173]:
frame.loc[2, 'price'] = 3.3

#### Thành Viên Của Một Giá Trị

- Bạn đã thấy hàm isin() áp dụng cho Series để xác định thành viên của một tập giá trị. Hàm này cũng áp dụng cho các đối tượng DataFrame.

In [174]:
frame.isin([1.0, 'pen'])

item,color,object,price,new
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,False,False,False,False
1,False,True,True,True
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False


#### Xóa Một Cột

- Nếu bạn muốn xóa một cột và tất cả nội dung của nó, sử dụng lệnh del.

In [175]:
del frame['new']
frame

item,color,object,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,blue,ball,1.2
1,green,pen,1.0
2,yellow,pencil,3.3
3,red,paper,0.9
4,white,mug,1.7


#### Lọc dữ liệu

- Ngay cả với một DataFrame, bạn có thể áp dụng lọc thông qua việc áp dụng các điều kiện nhất định.

In [176]:
frame[frame['price'] < 1.2]

item,color,object,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,green,pen,1.0
3,red,paper,0.9


#### DataFrame Từ Một dict Lồng Nhau

- Một cấu trúc dữ liệu rất phổ biến được sử dụng trong Python là một dict lồng nhau.

In [177]:
nestdict = {'red': {2012: 22, 2013: 33},
            'white': {2011: 13, 2012: 22, 2013: 16},
            'blue': {2011: 17, 2012: 27, 2013: 18}}

frame2 = pd.DataFrame(nestdict)
frame2

Unnamed: 0,red,white,blue
2012,22.0,22,27
2013,33.0,16,18
2011,,13,17


#### Chuyển Vị Của DataFrame

- Một thao tác bạn có thể cần khi làm việc với các cấu trúc dữ liệu dạng bảng là chuyển vị (transpose), tức là cột trở thành hàng và hàng trở thành cột. pandas cho phép bạn làm điều này một cách đơn giản. Bạn có thể lấy chuyển vị của DataFrame bằng cách thêm thuộc tính T.

In [178]:
frame2.T

Unnamed: 0,2012,2013,2011
red,22.0,33.0,
white,22.0,16.0,13.0
blue,27.0,18.0,17.0
