In [1]:
"""Rearrange multiple indices"""
"""Nhiều MultiIndex slicing operations không thể thực hiện được nếu không được sorted"""
import pandas
import numpy
index = pandas.MultiIndex.from_product([
    ["a", "c", "b"],
    [1, 2]
])
data = pandas.Series(
    numpy.random.rand(6), index = index
)
data.index.names = ["char", "int"]
data

char  int
a     1      0.574358
      2      0.316528
c     1      0.457287
      2      0.543793
b     1      0.821084
      2      0.570945
dtype: float64

In [2]:
"""Thử partial slice xem sao"""
try:
    data["a": "b"]
except Exception as err:
    print(type(err))
    print(err)

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


In [3]:
"""Pandas cung cấp một số phương thức để sắp xếp"""

data = data.sort_index()
data

char  int
a     1      0.574358
      2      0.316528
b     1      0.821084
      2      0.570945
c     1      0.457287
      2      0.543793
dtype: float64

In [4]:
data["a": "b"]

char  int
a     1      0.574358
      2      0.316528
b     1      0.821084
      2      0.570945
dtype: float64

In [7]:
"""stacking và unstacking indices """

"""     convert một dataset từ một stacked multi-index thành một simple 2D representaition """
"""     Ngoài ra còn có option xác định level sử dụng"""

index = [
    ("California", 2000),("California", 2010),
    ("New York", 2000),("New York", 2010),
    ('Texas', 2000), ('Texas', 2010)
]

populations = [
    33871648, 37253956,
    18976457, 19378102,
    20851820, 25145561
]

pop = pandas.Series(populations, index = index)

index = pandas.MultiIndex.from_tuples(index, names = ["state", "year"])

pop = pop.reindex(index)
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [8]:

pop.unstack(level = 1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [9]:
"""Index setting và Resetting"""
"""Cũng là một cách rearrange hierarchical data"""
"""Bằng cách biến các index labels thành các columns"""
"""Bằng cách sử dụng reset_index method"""
popFlat = pop.reset_index(name = "population")
popFlat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


In [10]:
"""Phương thức set_index của DataFrame cho phép trả về một multiply indexed DataFrame"""
popFlat.set_index(["state", "year"])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


In [11]:
"""Data Aggregations trên Multi-Indices"""

index = pandas.MultiIndex.from_product([
    [2013, 2014],
    [1, 2]
], names = ["year", "visit"])
columns = pandas.MultiIndex.from_product([
    ["Bob", "Guido", "Sue"],
    ["HR", "Temp"]
], names = ["subject", "type"])

data = numpy.round(numpy.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

#4D data
healthData = pandas.DataFrame(
    data,
    index = index,
    columns = columns
)
healthData

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,30.0,37.3,46.0,35.8,34.0,37.3
2013,2,37.0,36.6,40.0,36.9,25.0,38.7
2014,1,32.0,35.7,32.0,37.2,33.0,37.0
2014,2,56.0,37.7,20.0,36.7,28.0,37.4


In [12]:
dataMean = healthData.mean(level = "year")
dataMean

subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,33.5,36.95,43.0,36.35,29.5,38.0
2014,44.0,36.7,26.0,36.95,30.5,37.2


In [13]:
dataMean.mean(axis = 1, level = "type")

type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,35.333333,37.1
2014,33.5,36.95
