# THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG (ĐTTX)

**Khoa Công nghệ Thông tin - ĐH Khoa học Tự nhiên TP. HCM ([fit@hcmus](https://www.fit.hcmus.edu.vn/))**

*Giảng viên: Vũ Quốc Hoàng (vqhoang@fit.hcmus.edu.vn)*

# BÀI 4 - XỬ LÝ BẢNG DỮ LIỆU VỚI PANDAS (Phần 1)

**Nội dung**

* [Giới thiệu](#gioi_thieu)
* [Các đối tượng cơ bản của pandas](#doi_tuong_co_ban)
  * [Series](#series)
  * [DataFrame](#dataframe)
* [Truy cập dữ liệu của `DataFrame`](#truy_cap)
* [Các phép toán trên `DataFrame` và `Series`](#phep_toan)

**Tài liệu tham khảo**

* Chương 13, 14, 15 [Python Data Science Handbook (Jake VanderPlas)](https://www.amazon.com/Python-Data-Science-Handbook-Essential-dp-1098121228/dp/1098121228/)

## <a name="gioi_thieu"/>Giới thiệu

**[pandas](https://pandas.pydata.org/)** là thư viện được xây dựng dựa trên NumPy, hỗ trợ hiệu quả và linh hoạt các thao tác trên các **bảng dữ liệu** (data table) như các chương trình **bảng tính** (spreadsheet) hay **cơ sở dữ liệu** (database). pandas được xem là thư viện quan trọng nhất của hệ sinh thái khoa học dữ liệu Python.

Các bảng dữ liệu có thể **không đồng nhất** (heterogeneous) và có các **dữ liệu bị thiếu** (missing data). Hơn nữa, các dòng và cột trong bảng có thể được gắn nhãn ("đặt tên").

Tham khảo: [Getting started](https://pandas.pydata.org/docs/getting_started/index.html), [User guide](https://pandas.pydata.org/docs/user_guide/index.html), [Reference](https://pandas.pydata.org/docs/reference/index.html).

Nạp thư viện `pandas` với tên qui ước `pd`.

In [1]:
import pandas as pd
import numpy as np

pd.__version__

'2.0.3'

## <a name="doi_tuong_co_ban"/>Các đối tượng cơ bản của pandas

pandas có 3 cấu trúc dữ liệu cơ bản là `Series`, `DataFrame` và `Index`.

### <a name="series"/>Series

`Series` là mảng một chiều các giá trị được chỉ mục. Có thể xem `Series` là các cột dữ liệu.

In [2]:
sr = pd.Series([10, 20, 30, 40, 50])
sr

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [3]:
type(sr)

pandas.core.series.Series

Thuộc tính `values` trả về mảng các giá trị (là đối tượng 1D-array của NumPy)

In [4]:
sr.values

array([10, 20, 30, 40, 50], dtype=int64)

In [5]:
print(type(sr.values), sr.values.ndim, sr.values.shape)

<class 'numpy.ndarray'> 1 (5,)


Thuộc tính `index` trả về mảng các chỉ mục (là đối tượng `Index` của pandas)

In [6]:
sr.index

RangeIndex(start=0, stop=5, step=1)

In [7]:
type(sr.index)

pandas.core.indexes.range.RangeIndex

Mặc định (khi không cung cấp) thì chỉ mục là mảng số thứ tự (tính từ 0, như chỉ số của `list` hay `ndarray`).

Ta có thể truy cập các phần tử trong `Series` tương tự 1D-array của NumPy.

In [8]:
print(sr[0])           # index
print(sr[:3])          # slice
print(sr[[1, 3]])      # fancy index
print(sr[sr > 30])    # mask

10
0    10
1    20
2    30
dtype: int64
1    20
3    40
dtype: int64
3    40
4    50
dtype: int64


In [9]:
sr[:2] = 0
sr

0     0
1     0
2    30
3    40
4    50
dtype: int64

Quan trọng, ta có thể gắn **chỉ mục** (không nhất thiết là số nguyên) cho các phần tử của `Series` và truy cập thông qua chỉ mục.

In [10]:
sr = pd.Series([10, 20, 30, 40, 50], index=["a", "b", "c", "d", "e"])
sr

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [11]:
sr.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [12]:
print(sr["a"])
print(sr[0])

10
10


In [13]:
print(sr[:"c"])
print(sr[:3])

a    10
b    20
c    30
dtype: int64
a    10
b    20
c    30
dtype: int64


In [14]:
print(sr[["b", "d"]])
print(sr[[1, 3]]) 

b    20
d    40
dtype: int64
b    20
d    40
dtype: int64


Ta cũng có thể xem `Series` như là một từ điển với key là chỉ mục (index) và value là giá trị.

In [15]:
sr = pd.Series({"a": 10, "b": 20, "c": 30, "d": 40, "e": 50})
sr

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [16]:
sr.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [17]:
list(sr.items())

[('a', 10), ('b', 20), ('c', 30), ('d', 40), ('e', 50)]

**Bài tập**

Cho `sr` là `Series` tạo bởi ô lệnh sau.
1. Cho biết mảng giá trị, mảng chỉ mục của `sr`.
2. Cho biết giá trị của các phần tử có chỉ mục lần lượt là  5, 8, 2.
3. Cho biết chỉ mục các phần tử có giá trị `'o'`.
4. Tạo một `Series` cho biết tần số các kí tự có trong `sr`.

In [18]:
data = list("Hello World")
sr = pd.Series(data, index=range(1, len(data) + 1))

In [19]:
# TODO:


### <a name="dataframe"/>DataFrame

`DataFrame` là mảng 2 chiều các giá trị được chỉ mục theo cả dòng lẫn cột. Có thể xem `DataFrame` là bảng dữ liệu mà các cột là các `Series`. Hơn nữa các cột sẽ được gióng hàng với nhau theo chỉ mục.

In [20]:
col1 = pd.Series({"a": 1, "b": 2, "c": 3})
col2 = pd.Series({"b": 2.5, "c": 3.5, "a": 3.5})

df = pd.DataFrame({"A": col1, "B": col2})
df

Unnamed: 0,A,B
a,1,3.5
b,2,2.5
c,3,3.5


Các thuộc tính `index`, `columns` cho biết chỉ mục theo dòng, cột.

In [21]:
df.index

Index(['a', 'b', 'c'], dtype='object')

In [22]:
df.columns

Index(['A', 'B'], dtype='object')

Thuộc tính `values` cho biết các giá trị (là 2D-array của NumPy)

In [23]:
df.values

array([[1. , 3.5],
       [2. , 2.5],
       [3. , 3.5]])

In [24]:
print(type(df.values))
print(df.values.ndim)
print(df.values.shape)

<class 'numpy.ndarray'>
2
(3, 2)


Nếu không chỉ rõ `index` và/hoặc `columns` thì chúng là mảng các số thứ tự (tính từ 0).

In [25]:
df = pd.DataFrame(np.arange(12).reshape(3, 4))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [26]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [27]:
df.columns

RangeIndex(start=0, stop=4, step=1)

In [28]:
df.index = ['a', 'b', 'c']
df.columns = ['A', 'B', 'C', 'D']
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11


## <a name="truy_cap"/>Truy cập dữ liệu của `DataFrame`

Ta có thể xem `DataFrame` như từ điển trong đó key là chỉ mục cột và value là `Series` tương ứng.

In [29]:
df = pd.DataFrame(np.arange(12).reshape(3, 4), 
                    index=["dòng 1", "dòng 2", "dòng 3"], 
                    columns=[f"cột {i + 1}" for i in range(4)])
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4
dòng 1,0,1,2,3
dòng 2,4,5,6,7
dòng 3,8,9,10,11


In [30]:
df["cột 1"]

dòng 1    0
dòng 2    4
dòng 3    8
Name: cột 1, dtype: int32

In [31]:
df["cột 1"]["dòng 2"] = -10
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4
dòng 1,0,1,2,3
dòng 2,-10,5,6,7
dòng 3,8,9,10,11


In [32]:
df["cột mới"] = np.array(['a', 'b', 'c'])
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4,cột mới
dòng 1,0,1,2,3,a
dòng 2,-10,5,6,7,b
dòng 3,8,9,10,11,c


In [33]:
df["cột 12"] = df["cột 1"] + df["cột 2"]
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4,cột mới,cột 12
dòng 1,0,1,2,3,a,1
dòng 2,-10,5,6,7,b,-5
dòng 3,8,9,10,11,c,17


Ta cũng có thể xem `DataFrame` như mảng 2 chiều.

In [34]:
df.values

array([[0, 1, 2, 3, 'a', 1],
       [-10, 5, 6, 7, 'b', -5],
       [8, 9, 10, 11, 'c', 17]], dtype=object)

In [35]:
df.values[:, :2]

array([[0, 1],
       [-10, 5],
       [8, 9]], dtype=object)

Một cách trực tiếp, ta dùng thuộc tính `loc` của `DataFrame` để truy cập các phần tử (đọc/ghi) theo chỉ mục (`index`, `columns`).

In [36]:
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4,cột mới,cột 12
dòng 1,0,1,2,3,a,1
dòng 2,-10,5,6,7,b,-5
dòng 3,8,9,10,11,c,17


In [37]:
df.loc["dòng 3", :]

cột 1       8
cột 2       9
cột 3      10
cột 4      11
cột mới     c
cột 12     17
Name: dòng 3, dtype: object

In [38]:
df.loc[:, ["cột 12", "cột 3"]]

Unnamed: 0,cột 12,cột 3
dòng 1,1,2
dòng 2,-5,6
dòng 3,17,10


In [39]:
df.loc[df["cột 1"] >= 0, :"cột 3"]

Unnamed: 0,cột 1,cột 2,cột 3
dòng 1,0,1,2
dòng 3,8,9,10


Ta cũng có thể dùng thuộc tính `iloc` của `DataFrame` để truy cập các phần tử (đọc/ghi) theo chỉ số dòng, cột (tương tự `ndarray`).

In [40]:
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4,cột mới,cột 12
dòng 1,0,1,2,3,a,1
dòng 2,-10,5,6,7,b,-5
dòng 3,8,9,10,11,c,17


In [41]:
df.iloc[:2, :3] = 0
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4,cột mới,cột 12
dòng 1,0,0,0,3,a,1
dòng 2,0,0,0,7,b,-5
dòng 3,8,9,10,11,c,17


**Bài tập**

1. Tạo một `DataFrame` có chỉ mục các dòng, cột đều là các số nguyên từ 1 đến 9 với phần tử ở dòng $i$ cột $j$ có giá trị là $i \times j$ (như là bảng cửu chương).
2. Trích ra bảng cửu chương 2 (2x1, 2x2, ..., 2x9)
3. Trích ra góc phần tư cuối bảng (dòng 5 trở xuống, cột 5 trở qua)

In [42]:
# TODO:


## <a name="phep_toan"/>Các phép toán trên `DataFrame` và `Series`

Giống như NumPy, các phép toán được thực hiện trên từng phần tử rất hiệu quả trong pandas. Hơn nữa, pandas sẽ duy trì các chỉ mục.

In [43]:
sr = pd.Series([10, 20, 30, 40, 50], index=["a", "b", "c", "d", "e"])
sr

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [44]:
2**sr

a                1024
b             1048576
c          1073741824
d       1099511627776
e    1125899906842624
dtype: int64

In [45]:
df = pd.DataFrame(np.arange(12).reshape(3, 4), 
                    index=["dòng 1", "dòng 2", "dòng 3"], 
                    columns=[f"cột {i + 1}" for i in range(4)])
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4
dòng 1,0,1,2,3
dòng 2,4,5,6,7
dòng 3,8,9,10,11


In [46]:
np.power(2, df)

Unnamed: 0,cột 1,cột 2,cột 3,cột 4
dòng 1,1,2,4,8
dòng 2,16,32,64,128
dòng 3,256,512,1024,2048


Khi thực hiện phép toán trên nhiều `DataFrame` hay `Series`, padas sẽ thực hiện việc **canh chỉ mục** (index alignment).

In [47]:
sr2 = pd.Series({"c": 4, "d": 10, "f": 100})
print(sr)
print(sr2)

a    10
b    20
c    30
d    40
e    50
dtype: int64
c      4
d     10
f    100
dtype: int64


In [48]:
sr * sr2

a      NaN
b      NaN
c    120.0
d    400.0
e      NaN
f      NaN
dtype: float64

Giá trị `NaN` đánh dấu **thiếu dữ liệu**.

Ta cũng có thể chỉ rõ giá trị điền cho dữ liệu bị thiếu.

In [49]:
sr.mul(sr2, fill_value=0)

a      0.0
b      0.0
c    120.0
d    400.0
e      0.0
f      0.0
dtype: float64

Với `DataFrame`, việc canh chỉ mục được thực hiện cho cả chỉ mục dòng (`index`) lẫn cột (`columns`).

In [50]:
df1 = pd.DataFrame(np.random.randint(0, 100, (2, 2)), columns=list('AB'))
df1

Unnamed: 0,A,B
0,78,75
1,4,77


In [51]:
df2 = pd.DataFrame(np.random.randint(0, 100, (3, 3)), columns=list('BAC'))
df2

Unnamed: 0,B,A,C
0,5,36,28
1,94,75,72
2,55,10,82


In [52]:
df1 * df2

Unnamed: 0,A,B,C
0,2808.0,375.0,
1,300.0,7238.0,
2,,,


Thao tác giữa `DataFrame` với `Series` được tiến hành tương tự như giữa 2D-array với 1D-array của NumPy.

In [53]:
df = pd.DataFrame(np.random.randint(0, 100, (3, 4)), columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,6,16,43,20
1,57,3,62,42
2,79,9,73,7


In [54]:
df - df.iloc[0]  # trừ dòng 0 vào tất cả các dòng

Unnamed: 0,A,B,C,D
0,0,0,0,0
1,51,-13,19,22
2,73,-7,30,-13


In [55]:
df.subtract(df["A"], axis=0) # trừ cột A vào tất cả các cột

Unnamed: 0,A,B,C,D
0,0,10,37,14
1,0,-54,5,-15
2,0,-70,-6,-72


In [56]:
df.iloc[0, :2]

A     6
B    16
Name: 0, dtype: int32

In [57]:
df - df.iloc[0, :2]

Unnamed: 0,A,B,C,D
0,0.0,0.0,,
1,51.0,-13.0,,
2,73.0,-7.0,,


Các phép toán thu gọn (reduce) hay tổng hợp (aggregate) được thực hiện tương tự như trên NumPy.

In [58]:
df

Unnamed: 0,A,B,C,D
0,6,16,43,20
1,57,3,62,42
2,79,9,73,7


In [59]:
df.A.max()  # max cột A

79

In [60]:
df.iloc[0].max() # max dòng 0

43

In [61]:
df.max() # max từng cột

A    79
B    16
C    73
D    42
dtype: int32

In [62]:
df.max(axis=1) # max từng dòng

0    43
1    62
2    79
dtype: int32

**Bài tập**

Từ bảng dữ liệu `df` trên, tính:
1. Tổng mỗi dòng
1. Tổng mỗi cột
1. Tổng các số lớn nhất trên mỗi cột
1. Cột chứa số lớn nhất trên mỗi dòng
1. Dòng chứa số lớn nhất trên mỗi cột

In [63]:
# TODO:
