In [25]:
import pandas as pd
import numpy as np

# **對資料框應用「分組摘要」的技巧在一些特殊情況之下我們會得到一個索引值比較複雜的 Series 輸出，例如在 .groupby() 方法之中傳入兩個以上的類別變數作為分組依據，這時我們將會得到一種名為 MultiIndex 的類別，所謂的多層索引值**

In [26]:
player_profile = pd.read_csv("https://python4ds.s3-ap-northeast-1.amazonaws.com/player_profile.csv")
groupby_object = player_profile.groupby(["pos", "country"]) #初始化這個groupby後
print(groupby_object["heightMeters"].mean()) # Average height by pos and country
print(type(groupby_object["heightMeters"].mean().index))

pos  country               
C    Austria                   2.130000
     Bahamas                   2.160000
     Bosnia and Herzegovina    2.130000
     Canada                    2.060000
     Croatia                   2.135000
                                 ...   
G-F  France                    2.006667
     Italy                     1.960000
     Japan                     2.060000
     Turkey                    2.010000
     USA                       1.993214
Name: heightMeters, Length: 88, dtype: float64
<class 'pandas.core.indexes.multi.MultiIndex'>


# **面對具有多層索引值的 Series ，數值部分同樣使用 .values 屬性即可拆解，至於索引值的拆解較為複雜，必須像是面對多維度陣列的索引，運用 [m, n, ...] 的方式選取所需資料，例如想知道前述例子中，聯盟中的美國（USA）後衛（G）平均身高，就可以運用 ["G", "USA"] 取值；假如想知道聯盟中的美國（USA）搖擺人（G-F、F-G）平均身高，就運用 [["G-F", "F-G"]][:, "USA"] 取值**

In [27]:
player_profile = pd.read_csv("https://python4ds.s3-ap-northeast-1.amazonaws.com/player_profile.csv")
groupby_object = player_profile.groupby(["pos", "country"])
ser_w_multi_index = groupby_object["heightMeters"].mean() # Average height by pos and country

print(ser_w_multi_index.values) # values attribute of a multi-index series


[2.13       2.16       2.13       2.06       2.135      2.06
 2.13333333 2.11       2.11       2.13       2.13       2.13
 2.2        2.17       2.135      2.18       2.08       2.11
 2.11961538 2.16       2.08       2.08       2.08       2.08
 2.13       2.09       2.06       2.08       2.055      2.06
 2.06       2.07       2.082      1.98       2.13       2.00666667
 2.06       2.07       2.06666667 2.06       2.11       2.07
 2.03       2.07       2.06       2.045      2.07       2.06
 2.085      2.06       2.06       2.055      2.03795455 1.995
 2.08       2.13       2.11       2.13       2.21       2.09933333
 2.02       2.03       2.01       1.98636364 1.92       1.93
 1.85       1.94142857 1.96       1.97       1.94       2.03
 1.93       1.98       1.9        1.93       1.9216763  2.03
 1.98       2.045      2.06       1.98       2.01       2.00666667
 1.96       2.06       2.01       1.99321429]


In [28]:
#平均值因為已經對這個object下mean() 這邊指的就是要找groupby後的G位置 美國的MEAN
print(ser_w_multi_index["G", "USA"]) # average height of USA's guards 

#多層次索引 這邊指的是要找 G-F跟 F-G，全部的資料，最後一個維度是USA
print(ser_w_multi_index[["G-F", "F-G"]][:, "USA"]) # average heights of USA's swingmen

1.9216763005780346
pos
G-F    1.993214
F-G    1.986364
Name: heightMeters, dtype: float64


In [29]:
ser_w_multi_index.index #他是一個series 可以用type查看 Index則是 MultiIndex

MultiIndex([(  'C',                          'Austria'),
            (  'C',                          'Bahamas'),
            (  'C',           'Bosnia and Herzegovina'),
            (  'C',                           'Canada'),
            (  'C',                          'Croatia'),
            (  'C', 'Democratic Republic of the Congo'),
            (  'C',                           'France'),
            (  'C',                          'Georgia'),
            (  'C',                          'Germany'),
            (  'C',                        'Lithuania'),
            (  'C',                       'Montenegro'),
            (  'C',                      'New Zealand'),
            (  'C',                          'Senegal'),
            (  'C',                           'Serbia'),
            (  'C',                            'Spain'),
            (  'C',                            'Sudan'),
            (  'C',                      'Switzerland'),
            (  'C',            