In [1]:
import numpy as np
import pandas as pd
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80
pd.options.display.max_columns = 20
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

In [3]:
# Cần import pandas as pd và import numpy as np trước
data = pd.Series(np.random.uniform(size=9), # Tạo Series với 9 giá trị ngẫu nhiên (thập phân) từ NumPy
                 index=[["a", "a", "a", "b", "b", "c", "c", "d", "d"], # Cấp index 1 (Nhóm chính: a, b, c, d)
                        [1, 2, 3, 1, 3, 1, 2, 2, 3]]) # Cấp index 2 (Nhóm con: 1, 2, 3). Cả 2 cấp tạo MultiIndex
data # Hiển thị Series (dữ liệu đã được tổ chức theo cấp bậc)

a  1    0.653570
   2    0.747715
   3    0.961307
b  1    0.008388
   3    0.106444
c  1    0.298704
   2    0.656411
d  2    0.809813
   3    0.872176
dtype: float64

In [4]:
data.index # Lệnh dùng để truy cập và hiển thị cấu trúc Index (chỉ mục) của Series 'data'

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

In [5]:
# data là Series MultiIndex (a, b, c, d) được tạo ở các bước trước
data["b"] # Lấy tất cả các giá trị thuộc nhóm/cấp chỉ mục ngoài (level 1) là "b"
data["b":"c"] # Lấy lát cắt (slice) dữ liệu từ nhóm "b" đến nhóm "c" (bao gồm cả "c")
data.loc[["b", "d"]] # Truy cập dữ liệu theo chỉ mục ngoài, lấy các nhóm cụ thể là "b" và "d"

b  1    0.008388
   3    0.106444
d  2    0.809813
   3    0.872176
dtype: float64

In [6]:
# data là Series MultiIndex (cấp 1 là chữ, cấp 2 là số: 1, 2, 3)
data.loc[:, 2] # Lấy tất cả các phần tử (:) mà chỉ mục cấp trong (level 2) của chúng là 2

a    0.747715
c    0.656411
d    0.809813
dtype: float64

In [7]:
# data là Series có MultiIndex
data.unstack() # CHUYỂN DỮ LIỆU: Biến đổi Series MultiIndex thành DataFrame.
               # Cấp index trong (Level 2) thành CỘT.
               # Cấp index ngoài (Level 1) thành INDEX HÀNG.

Unnamed: 0,1,2,3
a,0.65357,0.747715,0.961307
b,0.008388,,0.106444
c,0.298704,0.656411,
d,,0.809813,0.872176


In [8]:
# data.unstack() đã chuyển Series MultiIndex thành DataFrame (Index cấp 2 thành Cột)
data.unstack().stack() # HOÀN TÁC: Biến đổi DataFrame (kết quả của unstack) trở lại thành Series MultiIndex BAN ĐẦU.
                       # Các cột (Column) của DataFrame sẽ được chuyển trở lại thành Index cấp trong (Level 2).

a  1    0.653570
   2    0.747715
   3    0.961307
b  1    0.008388
   3    0.106444
c  1    0.298704
   2    0.656411
d  2    0.809813
   3    0.872176
dtype: float64

In [9]:
# Cần import pandas as pd và import numpy as np trước
frame = pd.DataFrame(np.arange(12).reshape((4, 3)), # Tạo DataFrame từ mảng 12 số (0-11) được reshape thành ma trận 4x3
                     index=[["a", "a", "b", "b"], [1, 2, 1, 2]], # Thiết lập MultiIndex (chỉ mục hàng) 2 cấp
                     columns=[["Ohio", "Ohio", "Colorado"], # Thiết lập MultiIndex (chỉ mục cột) cấp 1 (Tên Bang)
                              ["Green", "Red", "Green"]]) # Thiết lập MultiIndex (chỉ mục cột) cấp 2 (Màu sắc)
frame # Hiển thị DataFrame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [10]:
# frame là DataFrame có MultiIndex cho cả index hàng và cột
frame.index.names = ["key1", "key2"] # Gán tên nhãn cho các cấp độ của MultiIndex HÀNG
                                     # Cấp 1 ("a", "b") được gán tên là "key1"
                                     # Cấp 2 ("1", "2") được gán tên là "key2"
frame.columns.names = ["state", "color"] # Gán tên nhãn cho các cấp độ của MultiIndex CỘT
                                         # Cấp 1 ("Ohio", "Colorado") được gán tên là "state"
                                         # Cấp 2 ("Green", "Red") được gán tên là "color"
frame # Hiển thị DataFrame với tên nhãn mới đã được gán

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [11]:
# frame là DataFrame có MultiIndex cho index hàng
frame.index.nlevels # KIỂM TRA: Trả về số lượng cấp độ (levels) của MultiIndex HÀNG.
                    # Ví dụ: nếu có ['key1', 'key2'], kết quả sẽ là 2

2

In [12]:
# frame là DataFrame có MultiIndex Cột (state: Ohio, Colorado; color: Green, Red)
frame["Ohio"] # TRUY VẤN CỘT: Truy cập và trả về tất cả các cột con (sub-columns) nằm dưới chỉ mục cấp ngoài là "Ohio"
              # Kết quả trả về là một DataFrame mới với chỉ mục cột chỉ còn cấp "color"

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


In [13]:
# frame là DataFrame có MultiIndex hàng với tên là "key1" (cấp 1) và "key2" (cấp 2)
frame.swaplevel("key1", "key2") # HOÁN ĐỔI: Đảo vị trí của hai cấp độ index HÀNG có tên là "key1" và "key2" cho nhau.
                                # "key2" sẽ trở thành cấp index ngoài (outer level)
                                # "key1" sẽ trở thành cấp index trong (inner level)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [14]:
# frame là DataFrame có MultiIndex hàng với key1 (cấp 0) và key2 (cấp 1)

frame.sort_index(level=1) # SẮP XẾP: Sắp xếp các hàng dựa trên các giá trị của cấp index THỨ HAI (level 1, tên là 'key2').
                          # Cấp 0 ('key1') vẫn giữ nguyên vị trí, chỉ các phần tử bên trong nó được sắp xếp lại.

frame.swaplevel(0, 1).sort_index(level=0) # KẾT HỢP: Hoán đổi cấp 0 và 1, sau đó sắp xếp DataFrame theo index cấp MỚI THỨ NHẤT (trước đây là cấp 1).
                                          # Đây là cách hiệu quả để sắp xếp theo cấp index bên trong, sau đó nhóm lại theo cấp đó.

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


In [15]:
# frame là DataFrame có MultiIndex hàng (key1, key2) và cột (state, color)

frame.groupby(level="key2").sum() # TỔNG HỢP THEO HÀNG: Nhóm các hàng dựa trên chỉ mục cấp trong (level="key2") và tính TỔNG các giá trị.
                                  # Kết quả: DataFrame mới với Index là các giá trị duy nhất của key2 (1 và 2).

frame.groupby(level="color", axis="columns").sum() # TỔNG HỢP THEO CỘT: Nhóm các cột (axis="columns") dựa trên chỉ mục cấp trong (level="color")
                                                   # và tính TỔNG (cộng gộp) các cột có cùng màu (Green, Red).

  frame.groupby(level="color", axis="columns").sum() # TỔNG HỢP THEO CỘT: Nhóm các cột (axis="columns") dựa trên chỉ mục cấp trong (level="color")


Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


In [16]:
# Cần import pandas as pd trước đó
frame = pd.DataFrame({"a": range(7),        # Cột 'a': Chứa các số từ 0 đến 6 (tăng dần)
                      "b": range(7, 0, -1), # Cột 'b': Chứa các số từ 7 đến 1 (giảm dần)
                      "c": ["one", "one", "one", "two", "two", "two", "two"], # Cột 'c': Dữ liệu phân loại (chuỗi)
                      "d": [0, 1, 2, 0, 1, 2, 3]}) # Cột 'd': Dữ liệu phân loại/số thứ tự
frame # Hiển thị DataFrame vừa tạo

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [17]:
# frame là DataFrame được tạo ở bước trước (có các cột 'a', 'b', 'c', 'd')
frame2 = frame.set_index(["c", "d"]) # THIẾT LẬP INDEX: Tạo DataFrame mới (frame2) bằng cách sử dụng các cột "c" và "d"
                                     # làm MultiIndex (Chỉ mục đa cấp) HÀNG mới.
                                     # Các cột "c" và "d" bị loại bỏ khỏi dữ liệu cột.
frame2 # Hiển thị DataFrame mới với Index đa cấp.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [18]:
# frame là DataFrame có các cột 'a', 'b', 'c', 'd'
frame.set_index(["c", "d"], drop=False) # THIẾT LẬP INDEX (KHÔNG XÓA): Tạo DataFrame mới bằng cách sử dụng các cột "c" và "d"
                                       # làm MultiIndex (Chỉ mục đa cấp) HÀNG MỚI.
                                       # Tham số 'drop=False' đảm bảo các cột "c" và "d" VẪN ĐƯỢC GIỮ LẠI trong DataFrame như là các cột dữ liệu thông thường.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


In [19]:
# frame2 là DataFrame có MultiIndex (cấp 1 là 'c', cấp 2 là 'd')
frame2.reset_index() # HOÀN TÁC INDEX: Chuyển đổi MultiIndex (các nhãn 'c' và 'd') trở lại thành các cột dữ liệu thông thường.
                     # Index ban đầu (0, 1, 2,...) sẽ được tạo lại.
                     # Thao tác này tạo ra một DataFrame mới, không thay đổi frame2 gốc.

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


In [20]:
# Cần import pandas as pd trước đó

df1 = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "a", "b"], # DataFrame 1 (df1) với cột 'key' (khóa) và 7 hàng
                    "data1": pd.Series(range(7), dtype="Int64")}) # Cột 'data1': Chứa các số từ 0 đến 6 (Int64 là kiểu số nguyên có hỗ trợ NaN)

df2 = pd.DataFrame({"key": ["a", "b", "d"], # DataFrame 2 (df2) với cột 'key' (khóa) và 3 hàng
                    "data2": pd.Series(range(3), dtype="Int64")}) # Cột 'data2': Chứa các số từ 0 đến 2

df1 # Hiển thị DataFrame 1
df2 # Hiển thị DataFrame 2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [21]:
# df1 và df2 là hai DataFrame có chung cột "key"

pd.merge(df1, df2) # KẾT HỢP DỮ LIỆU: Thực hiện phép hợp nhất (merge/join) giữa df1 và df2.
                   # Mặc định:
                   # 1. 'how="inner"': Chỉ giữ lại các hàng có giá trị "key" XUẤT HIỆN CẢ HAI DataFrame.
                   # 2. 'on="key"': Tự động sử dụng cột chung "key" làm khóa kết hợp (join key).
                   # Kết quả: DataFrame mới chứa các cột 'key', 'data1', 'data2'.

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,a,2,0
3,a,4,0
4,a,5,0
5,b,6,1


In [22]:
# df1 và df2 là hai DataFrame có chung cột "key"

pd.merge(df1, df2, on="key") # KẾT HỢP DỮ LIỆU: Thực hiện phép hợp nhất (inner join mặc định) giữa df1 và df2.
                             # on="key": Chỉ định CỘT "key" là khóa kết hợp (join key) để liên kết các hàng.
                             # Kết quả: Chỉ các hàng có giá trị "key" trùng khớp ở CẢ HAI DataFrame mới được giữ lại.

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,a,2,0
3,a,4,0
4,a,5,0
5,b,6,1


In [23]:
df3 = pd.DataFrame({"lkey": ["b", "b", "a", "c", "a", "a", "b"],
                    "data1": pd.Series(range(7), dtype="Int64")})
df4 = pd.DataFrame({"rkey": ["a", "b", "d"],
                    "data2": pd.Series(range(3), dtype="Int64")})
pd.merge(df3, df4, left_on="lkey", right_on="rkey") # KẾT HỢP HAI DATAFRAME VỚI KHÓA KHÔNG CÙNG TÊN

Unnamed: 0,lkey,data1,rkey,data2
0,b,0,b,1
1,b,1,b,1
2,a,2,a,0
3,a,4,a,0
4,a,5,a,0
5,b,6,b,1


In [24]:
# df1 và df2 có khóa cùng tên là "key"
pd.merge(df1, df2, how="outer") # KẾT HỢP NGOÀI (OUTER JOIN): Ghép df1 và df2, giữ lại TẤT CẢ các hàng từ CẢ HAI bên.
                                # Các giá trị không khớp sẽ được điền bằng NaN (dữ liệu thiếu).

# df3 và df4 có khóa khác tên (lkey, rkey)
pd.merge(df3, df4, left_on="lkey", right_on="rkey", how="outer") # KẾT HỢP NGOÀI VỚI KHÓA KHÁC TÊN: Tương tự, giữ lại tất cả dữ liệu từ df3 và df4, khớp theo lkey/rkey.

Unnamed: 0,lkey,data1,rkey,data2
0,a,2.0,a,0.0
1,a,4.0,a,0.0
2,a,5.0,a,0.0
3,b,0.0,b,1.0
4,b,1.0,b,1.0
5,b,6.0,b,1.0
6,c,3.0,,
7,,,d,2.0


In [25]:
df1 = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "b"],
                    "data1": pd.Series(range(6), dtype="Int64")})
df2 = pd.DataFrame({"key": ["a", "b", "a", "b", "d"],
                    "data2": pd.Series(range(5), dtype="Int64")})
df1
df2
pd.merge(df1, df2, on="key", how="left")

Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,0,3.0
2,b,1,1.0
3,b,1,3.0
4,a,2,0.0
5,a,2,2.0
6,c,3,
7,a,4,0.0
8,a,4,2.0
9,b,5,1.0


In [26]:
# df1 và df2 là hai DataFrame có chung cột "key"
pd.merge(df1, df2, how="inner") # KẾT HỢP TRONG (INNER JOIN): Ghép df1 và df2, chỉ giữ lại các hàng có giá trị "key" TRÙNG KHỚP ở CẢ HAI bên.
                                # Đây là hành vi mặc định, nên "how='inner'" là tùy chọn chỉ định rõ.

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,a,2,0
5,a,2,2
6,a,4,0
7,a,4,2
8,b,5,1
9,b,5,3


In [27]:
left = pd.DataFrame({"key1": ["foo", "foo", "bar"],
                     "key2": ["one", "two", "one"],
                     "lval": pd.Series([1, 2, 3], dtype='Int64')})
right = pd.DataFrame({"key1": ["foo", "foo", "bar", "bar"],
                      "key2": ["one", "one", "one", "two"],
                      "rval": pd.Series([4, 5, 6, 7], dtype='Int64')})
pd.merge(left, right, on=["key1", "key2"], how="outer")

Unnamed: 0,key1,key2,lval,rval
0,bar,one,3.0,6.0
1,bar,two,,7.0
2,foo,one,1.0,4.0
3,foo,one,1.0,5.0
4,foo,two,2.0,


In [28]:
# left và right là hai DataFrames được tạo ở bước trước (có các cột key1, key2)
pd.merge(left, right, on="key1") # KẾT HỢP TRÊN MỘT KHÓA DUY NHẤT ("key1"): Ghép left và right dựa trên giá trị của cột "key1".
                                 # HÀNH VI ĐẶC BIỆT: Vì cột "key2" không được dùng làm khóa và tồn tại ở cả hai bên,
                                 # Pandas tự động ĐỔI TÊN chúng thành "key2_x" (từ left) và "key2_y" (từ right) để tránh xung đột.

Unnamed: 0,key1,key2_x,lval,key2_y,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [29]:
# left và right là hai DataFrames được tạo ở bước trước (có các cột key1, key2)
pd.merge(left, right, on="key1", suffixes=("_left", "_right")) # KẾT HỢP VÀ ĐỔI TÊN CỘT BỊ TRÙNG: Ghép left và right dựa trên "key1".
                                                               # Tham số 'suffixes' được dùng để TÙY CHỈNH hậu tố đổi tên cho các cột bị trùng tên.

Unnamed: 0,key1,key2_left,lval,key2_right,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [30]:
left1 = pd.DataFrame({"key": ["a", "b", "a", "a", "b", "c"],
                      "value": pd.Series(range(6), dtype="Int64")})
right1 = pd.DataFrame({"group_val": [3.5, 7]}, index=["a", "b"]) # right1 được tạo với cột index là 'a' và 'b'

left1
right1
pd.merge(left1, right1, left_on="key", right_index=True) # KẾT HỢP DỰA TRÊN CỘT KHÓA (left1) VÀ INDEX (right1)

Unnamed: 0,key,value,group_val
0,a,0,3.5
1,b,1,7.0
2,a,2,3.5
3,a,3,3.5
4,b,4,7.0


In [31]:
# left1 có cột khóa "key", right1 có Index là khóa
pd.merge(left1, right1, left_on="key", right_index=True, how="outer") # KẾT HỢP NGOÀI: Ghép left1 và right1, giữ lại TẤT CẢ các hàng.
                                                                     # left1 khớp bằng cột "key", right1 khớp bằng Index.

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0
5,c,5,


In [32]:
lefth = pd.DataFrame({"key1": ["Ohio", "Ohio", "Ohio",
                               "Nevada", "Nevada"],
                      "key2": [2000, 2001, 2002, 2001, 2002],
                      "data": pd.Series(range(5), dtype="Int64")}) # lefth: DataFrame có 3 cột dữ liệu thông thường (key1, key2 là các khóa kết hợp)

righth_index = pd.MultiIndex.from_arrays( # TẠO MULTIINDEX: Khởi tạo chỉ mục đa cấp 2 level từ 2 mảng: (State) và (Year)
    [
        ["Nevada", "Nevada", "Ohio", "Ohio", "Ohio", "Ohio"], # Level 1 (State)
        [2001, 2000, 2000, 2000, 2001, 2002] # Level 2 (Year)
    ]
)
righth = pd.DataFrame({"event1": pd.Series([0, 2, 4, 6, 8, 10], dtype="Int64",
                                          index=righth_index), # righth: DataFrame có MultiIndex được gán làm Index HÀNG
                      "event2": pd.Series([1, 3, 5, 7, 9, 11], dtype="Int64",
                                          index=righth_index)})
lefth # Hiển thị lefth (DF thông thường)
righth # Hiển thị righth (DF có MultiIndex)

Unnamed: 0,Unnamed: 1,event1,event2
Nevada,2001,0,1
Nevada,2000,2,3
Ohio,2000,4,5
Ohio,2000,6,7
Ohio,2001,8,9
Ohio,2002,10,11


In [33]:
# lefth có khóa là cột ["key1", "key2"], righth có khóa là MultiIndex
pd.merge(lefth, righth, left_on=["key1", "key2"], right_index=True) # KẾT HỢP TRONG (INNER JOIN): Khớp cột kép của lefth với MultiIndex của righth.
                                                                    # Chỉ giữ lại các hàng có tổ hợp ("key1", "key2") khớp với Index của righth.

pd.merge(lefth, righth, left_on=["key1", "key2"],
         right_index=True, how="outer") # KẾT HỢP NGOÀI (OUTER JOIN): Tương tự, nhưng giữ lại TẤT CẢ các hàng từ CẢ HAI bên.
                                        # Các giá trị không khớp sẽ được điền bằng NaN.

Unnamed: 0,key1,key2,data,event1,event2
4,Nevada,2000,,2.0,3.0
3,Nevada,2001,3.0,0.0,1.0
4,Nevada,2002,4.0,,
0,Ohio,2000,0.0,4.0,5.0
0,Ohio,2000,0.0,6.0,7.0
1,Ohio,2001,1.0,8.0,9.0
2,Ohio,2002,2.0,10.0,11.0


In [34]:
left2 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]],
                     index=["a", "c", "e"],
                     columns=["Ohio", "Nevada"]).astype("Int64") # left2: DF có Index tùy chỉnh ("a", "c", "e")

right2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],
                      index=["b", "c", "d", "e"],
                      columns=["Missouri", "Alabama"]).astype("Int64") # right2: DF có Index tùy chỉnh ("b", "c", "d", "e")

left2
right2
pd.merge(left2, right2, how="outer", left_index=True, right_index=True) # KẾT HỢP NGOÀI DỰA TRÊN INDEX HÀNG

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [35]:
# left2 và right2 là hai DataFrames có Index tùy chỉnh
left2.join(right2, how="outer") # KẾT HỢP NGOÀI DÙNG PHƯƠNG THỨC .JOIN(): Ghép left2 và right2 dựa trên Index HÀNG của chúng (hành vi mặc định của .join).
                                # Tham số how="outer" đảm bảo giữ lại TẤT CẢ các hàng từ CẢ HAI DF.

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [36]:
# left1 có cột "key", right1 có Index tùy chỉnh ("a", "b")
left1.join(right1, on="key") # KẾT HỢP DÙNG PHƯƠNG THỨC .JOIN() VÀ CỘT KHÓA: Ghép left1 và right1.
                             # Tham số on="key" chỉ định sử dụng CỘT "key" của left1 để khớp với INDEX của right1 (hành vi mặc định của join).
                             # Mặc định sử dụng Inner Join.

Unnamed: 0,key,value,group_val
0,a,0,3.5
1,b,1,7.0
2,a,2,3.5
3,a,3,3.5
4,b,4,7.0
5,c,5,


In [37]:
another = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [16., 17.]],
                       index=["a", "c", "e", "f"],
                       columns=["New York", "Oregon"]).astype("Int64") # another: DF thứ 3 có Index tùy chỉnh ("a", "c", "e", "f")

another # Hiển thị DataFrame thứ 3

# left2 (DF chính) có index: a, c, e. right2 có index: b, c, d, e. another có index: a, c, e, f.
left2.join([right2, another]) # GHÉP NHIỀU DF (LEFT JOIN MẶC ĐỊNH): Ghép right2 và another vào left2, sử dụng Index của left2 làm khóa.
                              # Chỉ giữ lại các hàng có Index trùng với left2 ("a", "c", "e"). Các Index khác bị loại bỏ.

left2.join([right2, another], how="outer") # GHÉP NHIỀU DF (OUTER JOIN): Ghép 3 DF, giữ lại TẤT CẢ các Index từ MỌI DF ("a", "b", "c", "d", "e", "f").

Unnamed: 0,Ohio,Nevada,Missouri,Alabama,New York,Oregon
a,1.0,2.0,,,7.0,8.0
c,3.0,4.0,9.0,10.0,9.0,10.0
e,5.0,6.0,13.0,14.0,11.0,12.0
b,,,7.0,8.0,,
d,,,11.0,12.0,,
f,,,,,16.0,17.0


In [38]:
# Cần import numpy as np trước đó
arr = np.arange(12).reshape((3, 4)) # arr: Tạo mảng NumPy 2D (ma trận) 3 hàng x 4 cột với các số từ 0 đến 11
arr # Hiển thị mảng arr (3x4)

np.concatenate([arr, arr], axis=1) # GHÉP MẢNG (CONCATENATION): Ghép mảng arr với CHÍNH NÓ theo trục cột (axis=1).
                                   # Kết quả: Mảng mới có kích thước 3 hàng x 8 cột.

array([[ 0,  1,  2,  3,  0,  1,  2,  3],
       [ 4,  5,  6,  7,  4,  5,  6,  7],
       [ 8,  9, 10, 11,  8,  9, 10, 11]])

In [40]:
s1 = pd.Series([0, 1], index=["a", "b"], dtype="Int64")    # Tạo Series s1: 2 phần tử, Index tùy chỉnh "a", "b"
s2 = pd.Series([2, 3, 4], index=["c", "d", "e"], dtype="Int64") # Tạo Series s2: 3 phần tử, Index tùy chỉnh "c", "d", "e"
s3 = pd.Series([5, 6], index=["f", "g"], dtype="Int64")    # Tạo Series s3: 2 phần tử, Index tùy chỉnh "f", "g"

In [41]:
s1
s2
s3
pd.concat([s1, s2, s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: Int64

In [42]:
# s1, s2, s3 là các Series riêng biệt với các Index khác nhau (a, b), (c, d, e), (f, g)
pd.concat([s1, s2, s3], axis="columns") # GHÉP DỌC THEO CỘT: Ghép 3 Series s1, s2, s3 lại với nhau, xem mỗi Series như là một cột riêng biệt.
                                        # Tham số axis="columns" (hoặc axis=1) chỉ định ghép NỐI NGANG.
                                        # Index của các Series sẽ được HỢP NHẤT (Union) và các giá trị thiếu (nếu có) sẽ điền bằng NaN.

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [43]:
# s1, s3 là các Series được tạo ở bước trước
s4 = pd.concat([s1, s3]) # GHÉP DỌC (APPEND): Ghép s1 và s3 lại với nhau theo trục Index (axis=0 mặc định).
                         # Index của s4 là sự kết hợp của Index s1 ("a", "b") và s3 ("f", "g").
s4 # Hiển thị Series s4

# s1 có Index: a, b. s4 có Index: a, b, f, g.
pd.concat([s1, s4], axis="columns") # GHÉP DỌC THEO CỘT (OUTER JOIN MẶC ĐỊNH): Ghép s1 và s4 thành DataFrame 2 cột.
                                    # Index HÀNG là hợp nhất (Union) của Index s1 và s4 (a, b, f, g).
                                    # Các giá trị Index f, g trong cột s1 và Index f, g trong cột s4 sẽ là NaN.

pd.concat([s1, s4], axis="columns", join="inner") # GHÉP DỌC THEO CỘT (INNER JOIN): Ghép s1 và s4 thành DataFrame 2 cột.
                                                  # Tham số join="inner" chỉ giữ lại các Index HÀNG XUẤT HIỆN Ở CẢ HAI bên.
                                                  # Kết quả: Chỉ giữ lại Index "a" và "b" (phần giao của Index s1 và s4).

Unnamed: 0,0,1
a,0,0
b,1,1


In [44]:
# s1 có Index: a, b. s3 có Index: f, g.
result = pd.concat([s1, s1, s3], keys=["one", "two", "three"]) # GHÉP VÀ GÁN KHÓA: Ghép 3 Series (s1, s1, s3) theo chiều dọc (axis=0 mặc định).
                                                              # Tham số 'keys' gán MultiIndex (Chỉ mục đa cấp) ở cấp ngoài ("one", "two", "three") cho Series kết quả.
result # Hiển thị Series MultiIndex (Index: one/a, one/b, two/a, two/b, three/f, three/g)

result.unstack() # CHUYỂN DẠNG: Biến đổi Series MultiIndex (result) thành DataFrame.
                 # Cấp Index ngoài ("one", "two", "three") thành CỘT.
                 # Cấp Index trong ("a", "b", "f", "g") thành INDEX HÀNG.

Unnamed: 0,a,b,f,g
one,0.0,1.0,,
two,0.0,1.0,,
three,,,5.0,6.0


In [45]:
pd.concat([s1, s2, s3], axis="columns", keys=["one", "two", "three"])

Unnamed: 0,one,two,three
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [46]:
# Cần import pandas as pd và import numpy as np trước đó
df1 = pd.DataFrame(np.arange(6).reshape(3, 2), index=["a", "b", "c"],
                   columns=["one", "two"]) # df1: DF 3x2 với Index "a, b, c" và Cột "one, two"
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=["a", "c"],
                   columns=["three", "four"]) # df2: DF 2x2 với Index "a, c" và Cột "three, four"

df1 # Hiển thị df1
df2 # Hiển thị df2

pd.concat([df1, df2], axis="columns", keys=["level1", "level2"]) # GHÉP NGANG VÀ GÁN KHÓA: Ghép df1 và df2 theo chiều ngang (cột).
                                                                # Tham số 'keys' gán MultiIndex CỘT ở cấp ngoài ("level1", "level2") cho DF kết quả.

Unnamed: 0_level_0,level1,level1,level2,level2
Unnamed: 0_level_1,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [47]:
pd.concat({"level1": df1, "level2": df2}, axis="columns")

Unnamed: 0_level_0,level1,level1,level2,level2
Unnamed: 0_level_1,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [48]:
# df1 và df2 là hai DataFrames được tạo ở bước trước
pd.concat([df1, df2], axis="columns", keys=["level1", "level2"],
          names=["upper", "lower"]) # GHÉP NGANG, GÁN KHÓA PHÂN CẤP VÀ ĐẶT TÊN CẤP ĐỘ:
                                     # Tương tự như trước, ghép df1 và df2 theo cột (axis="columns") và gán MultiIndex cột ("level1", "level2").
                                     # Tham số 'names' gán tên cho các cấp độ của MultiIndex CỘT ("upper" cho level1, "lower" cho level2).

upper,level1,level1,level2,level2
lower,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [49]:
# Cần import pandas as pd và import numpy as np trước đó
df1 = pd.DataFrame(np.random.standard_normal((3, 4)), # Tạo DF df1 (3 hàng x 4 cột) với dữ liệu phân phối chuẩn
                   columns=["a", "b", "c", "d"])    # Gán nhãn cột theo thứ tự a, b, c, d
df2 = pd.DataFrame(np.random.standard_normal((2, 3)), # Tạo DF df2 (2 hàng x 3 cột) với dữ liệu phân phối chuẩn
                   columns=["b", "d", "a"])    # Gán nhãn cột theo thứ tự KHÔNG TRÙNG KHỚP với df1
df1 # Hiển thị df1
df2 # Hiển thị df2

Unnamed: 0,b,d,a
0,0.302614,0.523772,0.00094
1,1.34381,-0.713544,-0.831154


In [50]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,a,b,c,d
0,1.352917,0.886429,-2.001637,-0.371843
1,1.669025,-0.43857,-0.539741,0.476985
2,3.248944,-1.021228,-0.577087,0.124121
3,0.00094,0.302614,,0.523772
4,-0.831154,1.34381,,-0.713544


In [51]:
# Cần import pandas as pd và import numpy as np trước đó
a = pd.Series([np.nan, 2.5, 0.0, 3.5, 4.5, np.nan],
              index=["f", "e", "d", "c", "b", "a"]) # Series a có giá trị NaN tại Index "f" và "a"
b = pd.Series([0., np.nan, 2., np.nan, np.nan, 5.],
              index=["a", "b", "c", "d", "e", "f"]) # Series b có giá trị NaN tại Index "b", "d", "e"
a # Hiển thị Series a
b # Hiển thị Series b

# HỢP NHẤT DỮ LIỆU (IMPUTATION):
# np.where(condition, value_if_true, value_if_false)
np.where(pd.isna(a), b, a) # TẠO SERIES MỚI:
                           # Nếu giá trị ở Series 'a' là NaN (pd.isna(a) là True), thì lấy giá trị tương ứng từ Series 'b'.
                           # Ngược lại (pd.isna(a) là False), thì giữ lại giá trị từ Series 'a'.
                           # Đây là cách để điền vào các giá trị bị thiếu trong 'a' bằng dữ liệu có sẵn trong 'b'.

array([0. , 2.5, 0. , 3.5, 4.5, 5. ])

In [52]:
a.combine_first(b)

a    0.0
b    4.5
c    3.5
d    0.0
e    2.5
f    5.0
dtype: float64

In [53]:
# Cần import pandas as pd và import numpy as np trước đó
df1 = pd.DataFrame({"a": [1., np.nan, 5., np.nan],
                    "b": [np.nan, 2., np.nan, 6.],
                    "c": range(2, 18, 4)}) # df1: 4 hàng x 3 cột, có giá trị NaN
df2 = pd.DataFrame({"a": [5., 4., np.nan, 3., 7.],
                    "b": [np.nan, 3., 4., 6., 8.]}) # df2: 5 hàng x 2 cột, có giá trị NaN và số hàng khác df1
df1 # Hiển thị df1
df2 # Hiển thị df2

# HỢP NHẤT DATAFRAME (IMPUTATION):
df1.combine_first(df2) # TẠO DATAFRAME MỚI: Ghép df1 và df2.
                       # Nếu giá trị trong df1 là NaN, thay thế bằng giá trị tương ứng từ df2 (sau khi căn chỉnh Index/Cột).
                       # Nếu df1 có cột không có trong df2 (cột 'c'), cột đó được giữ nguyên.
                       # Nếu df2 có Index/Cột không có trong df1, dữ liệu đó được thêm vào DF kết quả.

Unnamed: 0,a,b,c
0,1.0,,2.0
1,4.0,2.0,6.0
2,5.0,4.0,10.0
3,3.0,6.0,14.0
4,7.0,8.0,


In [54]:
data = pd.DataFrame(np.arange(6).reshape((2, 3)),
                    index=pd.Index(["Ohio", "Colorado"], name="state"),
                    columns=pd.Index(["one", "two", "three"],
                    name="number"))
data

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [55]:
result = data.stack()
result

state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int64

In [56]:
result.unstack()

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [57]:
result.unstack(level=0)
result.unstack(level="state")

state,Ohio,Colorado
number,Unnamed: 1_level_1,Unnamed: 2_level_1
one,0,3
two,1,4
three,2,5


In [58]:
s1 = pd.Series([0, 1, 2, 3], index=["a", "b", "c", "d"], dtype="Int64")
s2 = pd.Series([4, 5, 6], index=["c", "d", "e"], dtype="Int64")
data2 = pd.concat([s1, s2], keys=["one", "two"])
data2

one  a    0
     b    1
     c    2
     d    3
two  c    4
     d    5
     e    6
dtype: Int64

In [59]:
data2.unstack()
data2.unstack().stack()
data2.unstack().stack(dropna=False)

  data2.unstack().stack(dropna=False)


one  a       0
     b       1
     c       2
     d       3
     e    <NA>
two  a    <NA>
     b    <NA>
     c       4
     d       5
     e       6
dtype: Int64

In [60]:
df = pd.DataFrame({"left": result, "right": result + 5},
                  columns=pd.Index(["left", "right"], name="side"))
df
df.unstack(level="state")

side,left,left,right,right
state,Ohio,Colorado,Ohio,Colorado
number,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
one,0,3,5,8
two,1,4,6,9
three,2,5,7,10


In [61]:
df.unstack(level="state").stack(level="side")

  df.unstack(level="state").stack(level="side")


Unnamed: 0_level_0,state,Ohio,Colorado
number,side,Unnamed: 2_level_1,Unnamed: 3_level_1
one,left,0,3
one,right,5,8
two,left,1,4
two,right,6,9
three,left,2,5
three,right,7,10


In [60]:
data = pd.read_csv("examples/macrodata.csv")
data = data.loc[:, ["year", "quarter", "realgdp", "infl", "unemp"]]
data.head()

In [None]:
periods = pd.PeriodIndex(year=data.pop("year"),
                         quarter=data.pop("quarter"),
                         name="date")
periods
data.index = periods.to_timestamp("D")
data.head()

In [None]:
data = data.reindex(columns=["realgdp", "infl", "unemp"])
data.columns.name = "item"
data.head()

In [None]:
long_data = (data.stack()
             .reset_index()
             .rename(columns={0: "value"}))

In [None]:
long_data[:10]

In [None]:
pivoted = long_data.pivot(index="date", columns="item",
                          values="value")
pivoted.head()

In [None]:
long_data.index.name = None

In [67]:
long_data["value2"] = np.random.standard_normal(len(long_data))
long_data[:10]

In [68]:
pivoted = long_data.pivot(index="date", columns="item")
pivoted.head()
pivoted["value"].head()

In [69]:
unstacked = long_data.set_index(["date", "item"]).unstack(level="item")
unstacked.head()

In [71]:
df = pd.DataFrame({"key": ["foo", "bar", "baz"],
                   "A": [1, 2, 3],
                   "B": [4, 5, 6],
                   "C": [7, 8, 9]})
df

In [72]:
melted = pd.melt(df, id_vars="key")
melted

In [73]:
reshaped = melted.pivot(index="key", columns="variable",
                        values="value")
reshaped

In [74]:
reshaped.reset_index()

In [75]:
pd.melt(df, id_vars="key", value_vars=["A", "B"])

In [76]:
pd.melt(df, value_vars=["A", "B", "C"])
pd.melt(df, value_vars=["key", "A", "B"])