In [1]:
"""Hierachical indexing(multi-indexing)"""
"""Kết hợp nhiều cấp độ index trong chỉ một single index"""
""" => higher-dimensional data có thể được thể hiện một cách gọn nhẹ trong Series hoặc DataFrame objects"""

import pandas 
import numpy 

"""Multiply indexed Series"""
"""Bad way"""
index = [
    ("California", 2000),("California", 2010),
    ("New York", 2000),("New York", 2010),
    ('Texas', 2000), ('Texas', 2010)
]
populations = [
    33871648, 37253956,
    18976457, 19378102,
    20851820, 25145561
]

pop = pandas.Series(populations, index = index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [2]:
pop[("California", 2010): ("Texas", 2000)]

(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

In [3]:
"""Nếu bạn muốn lựa chọn tất cả các values từ năm 2010 ?"""
pop[[index for index in pop.index if index[1] == 2010]]

(California, 2010)    37253956
(New York, 2010)      19378102
(Texas, 2010)         25145561
dtype: int64

In [4]:
"""Better way - Pandas MultiIndex"""
index = pandas.MultiIndex.from_tuples(index)
index


MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [5]:
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [6]:
"""Cùng truy xuất tất cả các values cho năm 2010"""
pop[:, 2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

In [7]:
"""MultiIndex as Extra Dimension"""

"""unstack() method chuyển multiply-indexed Series thành một DataFrame"""
popDataFrame = pop.unstack()
popDataFrame


Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [8]:
"""Ngược lại stack() method chuyển DataFrame thành Series multiply-indexed"""
popDataFrame.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [10]:
"""Multiply-indexed mang đến sự linh hoạt cho loại dữ liệu chúng ta có thể thể hiện"""
"""Ví dụ thêm một cột under18 cho mỗi quốc gia trong mỗi năm là vô cùng dễ dàng với một MultiIndex khi mà chúng ta chỉ cần thêm một cột vào DataFrame"""
popDataFrame = pandas.DataFrame({
    "total": pop,
    "under18": [
        9267089, 9284094,
        4687374, 4318033,
        5906301, 6879014
    ]
})

fractionUnder18 = popDataFrame["under18"] / popDataFrame["total"]
print(fractionUnder18)
fractionUnder18.unstack()

California  2000    0.273594
            2010    0.249211
New York    2000    0.247010
            2010    0.222831
Texas       2000    0.283251
            2010    0.273568
dtype: float64


Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


In [11]:
"""Tạo MultiIndex"""
"""Cách đơn giản nhất là truyền một danh sách một hoặc nhiều mảng index vào constructor """
dataFrame = pandas.DataFrame(
    numpy.random.rand(4, 2),
    index = [
        ["a", "a", "b", "b"],
        [1, 2, 1, 2]
    ],
    columns = ["data1", "data2"]
)
dataFrame

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.861978,0.22724
a,2,0.297605,0.839008
b,1,0.565915,0.023555
b,2,0.170159,0.317965


In [12]:
"""Hoặc nếu bạn truyền vào data là một dictionary với keys là các tuples thì pandas sẽ tự động nhận thức được và sử dụng MultiIndex"""
data = {
    ('California', 2000): 33871648,
    ('California', 2010): 37253956,
    ('Texas', 2000): 20851820,
    ('Texas', 2010): 25145561,
    ('New York', 2000): 18976457,
    ('New York', 2010): 19378102
}
pandas.Series(data)

"""Tạo MultiIndex một cách minh bạch"""
"""Bằng cách tạo đối tượng MultiIndex với một list các arrays chứa index values theo cấp độ"""
pandas.MultiIndex.from_arrays([
    ["a", "a", "b", "b"],
    [1, 2, 1, 2]
])


MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [13]:
"""Hoặc bạn có thể truyền vào một list tuples với mỗi tuple là các index values cho mỗi point"""

pandas.MultiIndex.from_tuples([
    ("a", 1),
    ("a", 2),
    ("b", 1),
    ("b", 2)
])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [14]:
"""Tạo MultiIndex bằng phép tích đề các"""

pandas.MultiIndex.from_product([
    ("a", "b"),
    ("1", "2")
])

MultiIndex([('a', '1'),
            ('a', '2'),
            ('b', '1'),
            ('b', '2')],
           )

In [16]:
"""Cách cọc cằn nhất là default constructor """
pandas.MultiIndex(
    levels = [
        ["a", "b"],
        [1, 2]
    ],
    labels = [
        [0, 1, 0, 1],
        [0, 0, 1, 1]
    ]
)

  if __name__ == '__main__':


MultiIndex([('a', 1),
            ('b', 1),
            ('a', 2),
            ('b', 2)],
           )

In [17]:
"""MultiIndex level names để cho dễ hiểu về cấu trúc MultiIndex"""
pop.index.names = ["state", "year"]
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [19]:
"""MultiIndex cho các columns - trong DataFrame"""
"""Với DataFrame thì columns với rows hoàn toàn tương tự nhau"""
index = pandas.MultiIndex.from_product([
    [2013, 2014],
    [1, 2]
], names = ["year", "visit"])
columns = pandas.MultiIndex.from_product([
    ["Bob", "Guido", "Sue"],
    ["HR", "Temp"]
], names = ["subject", "type"])

data = numpy.round(numpy.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

#4D data
healthData = pandas.DataFrame(
    data,
    index = index,
    columns = columns
)
healthData

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,38.0,36.6,41.0,38.3,23.0,38.4
2013,2,31.0,36.9,39.0,37.3,38.0,37.0
2014,1,49.0,35.4,37.0,36.8,43.0,37.7
2014,2,34.0,36.3,19.0,38.1,39.0,37.4


In [20]:
healthData["Guido"]

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,41.0,38.3
2013,2,39.0,37.3
2014,1,37.0,36.8
2014,2,19.0,38.1


In [21]:
"""Index và Slicing một MultiIndex"""

"""Multiply indexed series"""
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [22]:
""" Single element bằng tập indices"""
pop["California", 2000]


33871648

In [23]:
"""partial indexing"""
pop["California"]

year
2000    33871648
2010    37253956
dtype: int64

In [24]:
"""partial slicing miễn là MultiIndex được sắp xếp"""
pop.loc["California": "New York"]

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

In [25]:
pop[:, 2000]




state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

In [27]:
"""Boolean masks"""
pop[pop > 22000000]

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

In [28]:
"""Fancy indexing"""
pop[["California", "Texas"]]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

In [29]:
"""Multiply Indexed các DataFrames"""

healthData

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,38.0,36.6,41.0,38.3,23.0,38.4
2013,2,31.0,36.9,39.0,37.3,38.0,37.0
2014,1,49.0,35.4,37.0,36.8,43.0,37.7
2014,2,34.0,36.3,19.0,38.1,39.0,37.4


In [30]:
"""Cột là chính"""
healthData["Guido", "HR"]


year  visit
2013  1        41.0
      2        39.0
2014  1        37.0
      2        19.0
Name: (Guido, HR), dtype: float64

In [32]:
"""Loc, iloc, ix indexers đều hoạt động"""

healthData.iloc[:1, :1]

Unnamed: 0_level_0,subject,Bob
Unnamed: 0_level_1,type,HR
year,visit,Unnamed: 2_level_2
2013,1,38.0


In [33]:
"""Tên cột truyền theo chuỗi"""
healthData.loc[:, ("Bob", "HR")]

year  visit
2013  1        38.0
      2        31.0
2014  1        49.0
      2        34.0
Name: (Bob, HR), dtype: float64

In [34]:
"""Slices bằng index tuples gây lỗi"""
healthData.loc[(:, 1), (:, "HR")]

SyntaxError: invalid syntax (<ipython-input-34-b3d265eb5944>, line 2)

In [36]:
"""Giải pháp với IndexSlice"""
indexSlice = pandas.IndexSlice
healthData.loc[indexSlice[:, 1], indexSlice[:, "HR"]]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,38.0,41.0,23.0
2014,1,49.0,37.0,43.0
