In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

- Series也可以创建多层索引和切片

In [2]:
index = [['一班', '一班', '一班', '二班', '二班', '二班'],['张三', '李四', '王五', '赵六', '钱七', '王八']]
s = Series(data=np.random.randint(0,150,size=6), index=index)
s

一班  张三     11
    李四     11
    王五     69
二班  赵六    104
    钱七    140
    王八     46
dtype: int32

In [5]:
# 索引推荐使用.loc或者隐式.iloc
s.loc['一班', '张三']  #*************************#

143

In [4]:
s.iloc[0]

143

In [6]:
# 切片,直接切片得到想要的结果只能用隐式.iloc
s.iloc[0:2]

一班  张三    143
    李四    145
dtype: int32

- product创建DataFrame,索引和切片

In [3]:
# product创建简单,但是缺失灵活性,也可以用列表,数组,元组
index = pd.MultiIndex.from_product([['一班', '二班'],['张三', '李四', '王五']])
columns = pd.MultiIndex.from_product([['期中', '期末'], ['语文', '数学', '英语']])
data = np.random.randint(0,150,size=(6,6))
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,30,36,42,112,64,91
一班,李四,114,139,137,145,36,142
一班,王五,85,123,55,60,147,52
二班,张三,48,141,125,98,28,129
二班,李四,74,149,34,147,21,31
二班,王五,144,43,3,20,97,110


In [11]:
# 索引一行
df.loc['一班'].loc[['张三']]
# 隐式索引不涉及外层索引
# df.iloc[[0]]

Unnamed: 0_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,语文,数学,英语,语文,数学,英语
张三,148,19,72,50,46,142


In [13]:
# 行索引单个数据
df.loc['一班', '张三'].loc['期中', '英语']    # 重要掌握

72

In [15]:
# 列索引单个数据
df['期中']['英语'].loc['一班','张三']

72

In [16]:
# 切片(隐式)
df.iloc[0:4]

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,148,19,72,50,46,142
一班,李四,88,140,25,76,53,147
一班,王五,93,58,135,49,34,78
二班,张三,69,120,9,39,28,46


In [97]:
df.loc['一班'].loc['张三'].loc['期中'].loc['英语'] = np.nan
# 直接给多级索引的DataFrame赋值NaN会失败
df = df.astype(np.float64)
df
# 类型转换才能成功    **************************

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,148.0,19.0,,50.0,46.0,142.0
一班,李四,88.0,140.0,25.0,76.0,53.0,147.0
一班,王五,93.0,58.0,135.0,49.0,34.0,78.0
二班,张三,69.0,120.0,9.0,39.0,28.0,46.0
二班,李四,33.0,89.0,59.0,59.0,148.0,84.0
二班,王五,44.0,106.0,2.0,109.0,115.0,17.0


- stack()与unstack()

In [149]:
# stack()就是默认(level=-1)把 列索引,变成最内层的行索引.从水平变成垂直.( level=0 代表是把最外层索引)
df.stack(level=0)
# df.unstack(fill_value=0) #fill_value=0给NaN值赋值为0
# unstack把最内层的行索引变成列索引.

Unnamed: 0,Unnamed: 1,Unnamed: 2,数学,英语,语文
一班,张三,期中,19.0,,148.0
一班,张三,期末,46.0,142.0,50.0
一班,李四,期中,140.0,25.0,88.0
一班,李四,期末,53.0,147.0,76.0
一班,王五,期中,58.0,135.0,93.0
一班,王五,期末,34.0,78.0,49.0
二班,张三,期中,120.0,9.0,69.0
二班,张三,期末,28.0,46.0,39.0
二班,李四,期中,89.0,59.0,33.0
二班,李四,期末,148.0,84.0,59.0


In [150]:
# 第一步先把期中期末放到行索引
# 第二步把一班,张三等弄到列索引去.
df.stack(level=0).unstack(level=0).unstack(level=0)

Unnamed: 0_level_0,数学,数学,数学,数学,数学,数学,英语,英语,英语,英语,英语,英语,语文,语文,语文,语文,语文,语文
Unnamed: 0_level_1,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班,一班,一班,一班,二班,二班,二班
Unnamed: 0_level_2,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五,张三,李四,王五
期中,19.0,140.0,58.0,120.0,89.0,106.0,,25.0,135.0,9.0,59.0,2.0,148.0,88.0,93.0,69.0,33.0,44.0
期末,46.0,53.0,34.0,28.0,148.0,115.0,142.0,147.0,78.0,46.0,84.0,17.0,50.0,76.0,49.0,39.0,59.0,109.0


- 聚合操作

#### 聚合操作的时候,默认算的是列的聚合.

In [5]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期中,期中,期末,期末,期末
Unnamed: 0_level_1,Unnamed: 1_level_1,语文,数学,英语,语文,数学,英语
一班,张三,30,36,42,112,64,91
一班,李四,114,139,137,145,36,142
一班,王五,85,123,55,60,147,52
二班,张三,48,141,125,98,28,129
二班,李四,74,149,34,147,21,31
二班,王五,144,43,3,20,97,110


In [4]:
df.sum()

期中  语文    495
    数学    631
    英语    396
期末  语文    582
    数学    393
    英语    555
dtype: int64

In [6]:
# 聚合操作的时候.axis=0表示列 就是默认的, axis=1表示行
df.sum(axis=0)

期中  语文    495
    数学    631
    英语    396
期末  语文    582
    数学    393
    英语    555
dtype: int64