#  Lập chỉ mục nâng cao (Advanced or Multi-Level Indexing & Index Hierarchy) 

Trước khi bắt đầu, chúng ta cùng ôn lại về pandas Data Structure. Các khối thành phần chính của pandas data structure là:

1. Indexes: Có hai tính chất cơ bản là bất biến (Immutable) và các chỉ mục phải là cùng kiểu dữ liệu (Homogenous in data type).

2. Series: kiểu 1D array và có index

3. Dataframe: 2D array và mỗi cột của dataframe là kiểu Series.

Chỉ mục nâng cao hoặc đa cấp có sẵn cho cả Series và DataFrames. Đây là một cách thú vị để làm việc với dữ liệu nhiều chiều, sử dụng cấu trúc dữ liệu Pandas. Đây là một cách hiệu quả để lưu trữ và thao tác với dữ liệu nhiều chiều tùy ý trong cấu trúc dạng bảng 1 chiều (series) và 2 chiều (dataframe). Nói cách khác, chúng ta có thể làm việc với dữ liệu nhiều chiều hơn trong một dữ liệu có chiều thấp hơn

In [1]:
import pandas as pd
import numpy as np

### TH1:
**Thông tin về Dân số và GDP các nước Việt Nam, Hoa Kỳ, Trung Quốc hai năm 2016 và 2019**

In [2]:
country = ["Vietnam", "Vietnam", "US", "US","China", "China",]
infomation = ["Population (million people)", "GDP(billion dollars)", "Population (million people)", "GDP(billion dollars)", "Population (billion people)", "GDP(billion dollars)"]
hier_index = list(zip(country, infomation))
hier_index = pd.MultiIndex.from_tuples(hier_index)
hier_index

MultiIndex([('Vietnam', 'Population (million people)'),
            ('Vietnam',        'GDP(billion dollars)'),
            (     'US', 'Population (million people)'),
            (     'US',        'GDP(billion dollars)'),
            (  'China', 'Population (billion people)'),
            (  'China',        'GDP(billion dollars)')],
           )

In [3]:
dta = [[ 93.64, 96.208 ],
        [ 205.3, 266.5 ],
        [ 323.1, 328.2 ],
        [ 18710, 21430 ],
        [ 1.379, 1.436 ],
        [ 11140, 14342.9 ]]

df = pd.DataFrame(data = dta, index = hier_index, columns = [2016, 2019])
df

Unnamed: 0,Unnamed: 1,2016,2019
Vietnam,Population (million people),93.64,96.208
Vietnam,GDP(billion dollars),205.3,266.5
US,Population (million people),323.1,328.2
US,GDP(billion dollars),18710.0,21430.0
China,Population (billion people),1.379,1.436
China,GDP(billion dollars),11140.0,14342.9


### ------------------------------------------------------------------------------------------------------------------

Thêm chi tiết:

In [4]:
df.index.names

FrozenList([None, None])

In [5]:
df.index.names = ['Country', 'Info']
df

Unnamed: 0_level_0,Unnamed: 1_level_0,2016,2019
Country,Info,Unnamed: 2_level_1,Unnamed: 3_level_1
Vietnam,Population (million people),93.64,96.208
Vietnam,GDP(billion dollars),205.3,266.5
US,Population (million people),323.1,328.2
US,GDP(billion dollars),18710.0,21430.0
China,Population (billion people),1.379,1.436
China,GDP(billion dollars),11140.0,14342.9


--------------------------------

Now let's show how to index this! For index hierarchy we use df.loc[], if this was on the columns axis, you would just use normal bracket notation df[]. Calling one level of the index returns the sub-dataframe:

### ------------------------------------------------------------------------------------------------------------------

Đưa ra bảng thông tin của Việt Nam:

In [6]:
df.loc['Vietnam']

Unnamed: 0_level_0,2016,2019
Info,Unnamed: 1_level_1,Unnamed: 2_level_1
Population (million people),93.64,96.208
GDP(billion dollars),205.3,266.5


In [7]:
df.xs('Vietnam')

Unnamed: 0_level_0,2016,2019
Info,Unnamed: 1_level_1,Unnamed: 2_level_1
Population (million people),93.64,96.208
GDP(billion dollars),205.3,266.5


### ------------------------------------------------------------------------------------------------------------------

Đưa ra thông tin về dân số Việt Nam năm 2016 và 2019

In [8]:
df.iloc[0]

2016    93.640
2019    96.208
Name: (Vietnam, Population (million people)), dtype: float64

In [9]:
df.xs(['Vietnam','Population (million people)'])

2016    93.640
2019    96.208
Name: (Vietnam, Population (million people)), dtype: float64

### ------------------------------------------------------------------------------------------------------------------

Đưa ra thông tin về GDP Việt Nam năm 2016 và 2019

In [10]:
df.iloc[1]

2016    205.3
2019    266.5
Name: (Vietnam, GDP(billion dollars)), dtype: float64

In [11]:
df.xs(['Vietnam','GDP(billion dollars)'])

2016    205.3
2019    266.5
Name: (Vietnam, GDP(billion dollars)), dtype: float64

### ------------------------------------------------------------------------------------------------------------------

Đưa ra thông tin về dân số Hoa Kỳ năm 2016 và 2019

In [12]:
df.iloc[2]

2016    323.1
2019    328.2
Name: (US, Population (million people)), dtype: float64

In [13]:
df.xs(['US','Population (million people)'])

2016    323.1
2019    328.2
Name: (US, Population (million people)), dtype: float64

### ------------------------------------------------------------------------------------------------------------------

Đưa ra thông tin về GDP Hoa Kỳ năm 2016 và 2019

In [14]:
df.loc['US'].loc['GDP(billion dollars)']

2016    18710.0
2019    21430.0
Name: GDP(billion dollars), dtype: float64

In [15]:
df.xs('US').loc['GDP(billion dollars)']

2016    18710.0
2019    21430.0
Name: GDP(billion dollars), dtype: float64

In [16]:
df.xs('US').iloc[1]

2016    18710.0
2019    21430.0
Name: GDP(billion dollars), dtype: float64

In [17]:
df.loc['US'].loc['GDP(billion dollars)']

2016    18710.0
2019    21430.0
Name: GDP(billion dollars), dtype: float64

### ------------------------------------------------------------------------------------------------------------------

In [18]:
df.xs('GDP(billion dollars)', level='Info')

Unnamed: 0_level_0,2016,2019
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Vietnam,205.3,266.5
US,18710.0,21430.0
China,11140.0,14342.9


### TH2:
**Thông tin một số thành phố các nước Úc, Đức, Thụy Sĩ**

In [19]:
cities = ["Vienna", "Vienna", "Vienna","Hamburg", "Hamburg", "Hamburg","Berlin", "Berlin", "Berlin","Zurich", "Zurich", "Zurich"]
index = [cities, ["country", "area", "population","country", "area", "population","country", "area", "population","country", "area", "population"]]
print(index)

[['Vienna', 'Vienna', 'Vienna', 'Hamburg', 'Hamburg', 'Hamburg', 'Berlin', 'Berlin', 'Berlin', 'Zurich', 'Zurich', 'Zurich'], ['country', 'area', 'population', 'country', 'area', 'population', 'country', 'area', 'population', 'country', 'area', 'population']]


In [20]:
data = ["Austria", 414.60,     1805681,"Germany",   755.00,   1760433,"Germany",   891.85,     3562166,"Switzerland", 87.88, 378884]
city_series = pd.Series(data, index=index)
print(city_series)

Vienna   country           Austria
         area                414.6
         population        1805681
Hamburg  country           Germany
         area                  755
         population        1760433
Berlin   country           Germany
         area               891.85
         population        3562166
Zurich   country       Switzerland
         area                87.88
         population         378884
dtype: object


--------------------

### Truy cập dữ liệu

Ta có thể truy cập dữ liệu của một thành phố qua cách sau: **df [ index ] [ label ]** hoặc **df [ index, label ]**

In [21]:
city_series["Vienna"]

country       Austria
area            414.6
population    1805681
dtype: object

### ------------------------------------------------------------------------------------------------------------------

Ta cũng có thể truy cập thông tin về country, area hoặc population của một city. Chúng ta có thể làm điều này theo hai cách:

In [22]:
city_series["Vienna"]["area"]

414.6

In [23]:
city_series["Vienna", "area"]

414.6

### ------------------------------------------------------------------------------------------------------------------

Nếu chỉ mục được sắp xếp, ta cũng có thể áp dụng kĩ thuật slicing để truy cập:

In [24]:
city_series = city_series.sort_index()
print("city_series with sorted index:\n\n", city_series)

city_series with sorted index:

 Berlin   area               891.85
         country           Germany
         population        3562166
Hamburg  area                  755
         country           Germany
         population        1760433
Vienna   area                414.6
         country           Austria
         population        1805681
Zurich   area                87.88
         country       Switzerland
         population         378884
dtype: object


In [25]:
print("Slicing the city_series:\n\n", city_series["Berlin":"Vienna"])

Slicing the city_series:

 Berlin   area           891.85
         country       Germany
         population    3562166
Hamburg  area              755
         country       Germany
         population    1760433
Vienna   area            414.6
         country       Austria
         population    1805681
dtype: object


### ------------------------------------------------------------------------------------------------------------------

Nó là hoàn toàn có thể trong việc truy cập các key sâu hơn, như area:

In [26]:
print(city_series[:, "area"])

Berlin     891.85
Hamburg       755
Vienna      414.6
Zurich      87.88
dtype: object


------------------------

### Sử dụng multicolumn dataframe

Ví dụ ta tạo ra một multicolumn dataframe như sau:



In [27]:
columns = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
df = pd.DataFrame(np.random.randn(3, 8), index=['A', 'B', 'C'], columns=columns)
df

Unnamed: 0_level_0,bar,bar,baz,baz,foo,foo,qux,qux
Unnamed: 0_level_1,one,two,one,two,one,two,one,two
A,-2.512202,-0.405002,-0.168596,-0.581449,-2.271804,-0.133005,0.182259,-2.253677
B,-0.119976,-0.340025,0.944294,0.31487,-0.524278,-0.470337,-0.596035,-0.930523
C,-1.416366,1.460034,-0.475505,-0.827877,-1.409978,-1.301057,-0.212807,-0.631717


### ------------------------------------------------------------------------------------------------------------------

Truy cập vào từng cột như sau:

In [28]:
df.bar.one

A   -2.512202
B   -0.119976
C   -1.416366
Name: one, dtype: float64

In [29]:
df["bar","one"]

A   -2.512202
B   -0.119976
C   -1.416366
Name: (bar, one), dtype: float64

In [30]:
df['bar']['one']

A   -2.512202
B   -0.119976
C   -1.416366
Name: one, dtype: float64

### ------------------------------------------------------------------------------------------------------------------

Thực hiện chuyển vị bảng để có kết quả multiindex dataframe.



In [31]:
df = df.T
df

Unnamed: 0,Unnamed: 1,A,B,C
bar,one,-2.512202,-0.119976,-1.416366
bar,two,-0.405002,-0.340025,1.460034
baz,one,-0.168596,0.944294,-0.475505
baz,two,-0.581449,0.31487,-0.827877
foo,one,-2.271804,-0.524278,-1.409978
foo,two,-0.133005,-0.470337,-1.301057
qux,one,0.182259,-0.596035,-0.212807
qux,two,-2.253677,-0.930523,-0.631717


### ------------------------------------------------------------------------------------------------------------------

**Truy cập dựa trên chỉ mục hàng giống với bài trước, có thể dùng ix hoặc loc như sau:**

In [32]:
df.loc['bar','one']

A   -2.512202
B   -0.119976
C   -1.416366
Name: (bar, one), dtype: float64

In [33]:
df.xs(['bar','one'])

A   -2.512202
B   -0.119976
C   -1.416366
Name: (bar, one), dtype: float64

**Kết hợp với slicing ta có kết quả sau:**

In [34]:
df['baz':'foo']

Unnamed: 0,Unnamed: 1,A,B,C
baz,one,-0.168596,0.944294,-0.475505
baz,two,-0.581449,0.31487,-0.827877
foo,one,-2.271804,-0.524278,-1.409978
foo,two,-0.133005,-0.470337,-1.301057


In [35]:
df.loc['baz':'foo']

Unnamed: 0,Unnamed: 1,A,B,C
baz,one,-0.168596,0.944294,-0.475505
baz,two,-0.581449,0.31487,-0.827877
foo,one,-2.271804,-0.524278,-1.409978
foo,two,-0.133005,-0.470337,-1.301057


In [36]:
df['baz':'foo']

Unnamed: 0,Unnamed: 1,A,B,C
baz,one,-0.168596,0.944294,-0.475505
baz,two,-0.581449,0.31487,-0.827877
foo,one,-2.271804,-0.524278,-1.409978
foo,two,-0.133005,-0.470337,-1.301057


Như ta đã biết một tuple, ví dụ ('bar', 'two') là một key giúp ta truy xuất trong trường hợp multiindex/multicolumn dataframe, ta có thể truyền vào một list các tuples để có thể nhận được nhiều hàng hay cột tùy ý như ví dụ dưới đây:



In [37]:
df.loc[[('bar', 'two'), ('qux', 'one')]]

Unnamed: 0,Unnamed: 1,A,B,C
bar,two,-0.405002,-0.340025,1.460034
qux,one,0.182259,-0.596035,-0.212807


Chúng ta nhận thấy nhận thấy khó trong việc chỉ lấy ra các giá trị chỉ mục “one” ở layer thứ 2 của tất cả các chỉ mục của layer 1. Kĩ thuật sclicing và cụ thể lớp slicers sinh ra để giải quyết việc này.

Cú pháp tạo một slice là : **df.loc[(slice('A1','A3'),.....), :]**

Nếu slice(None) nghĩa là bạn lựa chọn hết các chỉ mục. Các ví dụ sau sẽ giúp bạn hiểu kĩ hơn.

Trường hợp này slice(None) tương ứng với ‘:’

In [38]:
df.loc[(slice(None)),:]

Unnamed: 0,Unnamed: 1,A,B,C
bar,one,-2.512202,-0.119976,-1.416366
bar,two,-0.405002,-0.340025,1.460034
baz,one,-0.168596,0.944294,-0.475505
baz,two,-0.581449,0.31487,-0.827877
foo,one,-2.271804,-0.524278,-1.409978
foo,two,-0.133005,-0.470337,-1.301057
qux,one,0.182259,-0.596035,-0.212807
qux,two,-2.253677,-0.930523,-0.631717


Slicing từ chỉ mục ‘bar’ đến ‘foo’.



In [39]:
df.loc[(slice("bar","foo")),:]

Unnamed: 0,Unnamed: 1,A,B,C
bar,one,-2.512202,-0.119976,-1.416366
bar,two,-0.405002,-0.340025,1.460034
baz,one,-0.168596,0.944294,-0.475505
baz,two,-0.581449,0.31487,-0.827877
foo,one,-2.271804,-0.524278,-1.409978
foo,two,-0.133005,-0.470337,-1.301057


Có 2 lớp indexes, ta muốn chọn tất cả các index có chứa “one”.



In [40]:
df.loc[(slice(None),slice("one")),:]

Unnamed: 0,Unnamed: 1,A,B,C
bar,one,-2.512202,-0.119976,-1.416366
baz,one,-0.168596,0.944294,-0.475505
foo,one,-2.271804,-0.524278,-1.409978
qux,one,0.182259,-0.596035,-0.212807


Sau ví dụ trên có thể hình dung cách slicing đối với dataframe. Còn cách khác tự nhiên hơn đó là dùng IndexSlice

In [41]:
idx = pd.IndexSlice
df.loc[idx[:,:],["B","C"]]

Unnamed: 0,Unnamed: 1,B,C
bar,one,-0.119976,-1.416366
bar,two,-0.340025,1.460034
baz,one,0.944294,-0.475505
baz,two,0.31487,-0.827877
foo,one,-0.524278,-1.409978
foo,two,-0.470337,-1.301057
qux,one,-0.596035,-0.212807
qux,two,-0.930523,-0.631717


In [42]:
print ("Select index 'one' of all index of 1st layer")
df.loc[idx[:,"one"],["B","C"]]

Select index 'one' of all index of 1st layer


Unnamed: 0,Unnamed: 1,B,C
bar,one,-0.119976,-1.416366
baz,one,0.944294,-0.475505
foo,one,-0.524278,-1.409978
qux,one,-0.596035,-0.212807


Kết hợp slicing với Filtering, hãy chọn ra cột ‘B’ và ‘C’ sao cho cột A không âm. Chỉ nhận giá trị của chỉ mục “one”



In [43]:
df.loc[idx[:,"one"],["B","C"]][df.A>0]

  """Entry point for launching an IPython kernel.


Unnamed: 0,Unnamed: 1,B,C
qux,one,-0.596035,-0.212807


**Hoặc:**

In [44]:
mask = df['A'] > 0
mask

bar  one    False
     two    False
baz  one    False
     two    False
foo  one    False
     two    False
qux  one     True
     two    False
Name: A, dtype: bool

In [45]:
df.loc[idx[mask,['one']],["B","C"]]

Unnamed: 0,Unnamed: 1,B,C
qux,one,-0.596035,-0.212807


## Kết luận

Có khá nhiều phương pháp để truy cập và thao tác dựa trên chỉ mục của các đối tượng series và dataframe trong Pandas. Ta hoàn toàn có thể áp dụng kĩ thuật slicing, ix, xs, loc đã biết hoặc slice, pd.IndexSlice để làm việc với các lớp chỉ mục hàng/cột linh hoạt hơn.

Như vậy chúng ta có thể tạo và tương tác với pandas data structure tương đối thoải mái.

1. Tạo Series, dataframe, panel

2. Selection, indexing, labeling

3. Filtering