In [9]:
import pandas as pd
import numpy as np

In [10]:
# 隐式创建:在生成创建DataFrame的时候手动传入索引，传入的索引个数需要和数据长度相对应，比如
# 
df = pd.DataFrame(
    # 生成数据
    np.random.randint(70,100,size=(2,4)),
    index=['girl','boy'],
    # 如果索引是嵌套数据，那么除了最内层外，其他层的数据在一定层度是可以合并的
    columns = [['English','English','Chinese','Chinese'],
              ['like','dislike','like','dislike']
              ]
)
df

Unnamed: 0_level_0,English,English,Chinese,Chinese
Unnamed: 0_level_1,like,dislike,like,dislike
girl,75,71,99,71
boy,92,79,95,71


In [15]:
# 显示创建：使用pandas, MultiIndex创建
# 自动调整以适应索引数，在构造的时候就不用每个都写
df1 = pd.DataFrame(
    # 生成数据
    np.random.randint(70,100,size=(2,4)),
    index=['girl','boy'],
    # 如果索引是嵌套数据，那么除了最内层外，其他层的数据在一定层度是可以合并的
    columns = pd.MultiIndex.from_product ([
            # 第一层索引
            ['English','Chinese'],
            # 第二层索引
            ['like','dislike']
              ])
)
df1

Unnamed: 0_level_0,English,English,Chinese,Chinese
Unnamed: 0_level_1,like,dislike,like,dislike
girl,71,74,93,86
boy,93,76,81,82


多级索引的检索  
Series

In [24]:
# 使用隐式创建
s = pd.Series(np.random.randint(0,100,size = 6),
             index= [['A','A','B','B','C','C'],
             ['期中','期末','期中','期末','期中','期末']]
             )
s


A  期中    50
   期末    27
B  期中    91
   期末    26
C  期中    99
   期末     8
dtype: int32

In [25]:
# 取第一层索引的数据
s['A']

期中    50
期末    27
dtype: int32

In [27]:
# 取多个第一层索引的数据
s[['A','B']]

A  期中    50
   期末    27
B  期中    91
   期末    26
dtype: int32

In [30]:
s['A']['期中']

50

In [31]:
# 使用iloc的时候索引的最大值为最内层索引个数
s.iloc[0]

50

DataFrame

In [39]:
df3 = pd.DataFrame([10,20,30,40,50,60,70,80,90],
                  index=[['小说','小说','小说','散文随笔','散文随笔','散文随笔','传记','传记','传记'],
                        ['高三上的邮局','失踪的总统','绿毛水怪','皮囊','浮生六记',
                        '自在独行','梅西','老舍自传','库里传']],
                  columns=['price'])
df3

Unnamed: 0,Unnamed: 1,price
小说,高三上的邮局,10
小说,失踪的总统,20
小说,绿毛水怪,30
散文随笔,皮囊,40
散文随笔,浮生六记,50
散文随笔,自在独行,60
传记,梅西,70
传记,老舍自传,80
传记,库里传,90


In [41]:
# loc['第一层行索引名称','第二层行索引名称']['列索引']
df3.loc['传记','梅西']['price']

70

In [42]:
df3.iloc[7]

price    80
Name: (传记, 老舍自传), dtype: int64

更改索引层级

In [43]:
# 使用swaplevel()交换分层顺序，交换内层和外层索引的位置
df3.swaplevel()

Unnamed: 0,Unnamed: 1,price
高三上的邮局,小说,10
失踪的总统,小说,20
绿毛水怪,小说,30
皮囊,散文随笔,40
浮生六记,散文随笔,50
自在独行,散文随笔,60
梅西,传记,70
老舍自传,传记,80
库里传,传记,90


 2.使用 sort_index()可以通过分层索引对数据进行排序  
 sort_index(axis = 0, level = None, ascending= True, inplace = False)  
 axis:轴  
 ascending:表示是否升序
 inplace：是否修改原数据

In [50]:
df_obj = pd.DataFrame({
    'word':['a','b','d','e','f','s','d','s','1'],
    'num':[1,2,4,5,3,2,6,2,3]},
    index = [['A','A','A','C','C','C','B','B','B',],
            [1,3,2,3,1,2,4,5,8]]
)
df_obj

Unnamed: 0,Unnamed: 1,word,num
A,1,a,1
A,3,b,2
A,2,d,4
C,3,e,5
C,1,f,3
C,2,s,2
B,4,d,6
B,5,s,2
B,8,1,3


In [51]:
# 按索引排序 从最外层开始排
df_obj.sort_index()

Unnamed: 0,Unnamed: 1,word,num
A,1,a,1
A,2,d,4
A,3,b,2
B,4,d,6
B,5,s,2
B,8,1,3
C,1,f,3
C,2,s,2
C,3,e,5


In [52]:
# 按值排序
df_obj.sort_values(['num'])

Unnamed: 0,Unnamed: 1,word,num
A,1,a,1
A,3,b,2
C,2,s,2
B,5,s,2
C,1,f,3
B,8,1,3
A,2,d,4
C,3,e,5
B,4,d,6


#### 算术运算

In [55]:
# nan和任何数据进行运算都会得到nan，nan的数据类型是float
s1 = pd.Series([8.,1,2,34],index = ['a','b','c','d'])
s1

a     8.0
b     1.0
c     2.0
d    34.0
dtype: float64

In [58]:
s2 = pd.Series([3.,2.5,10,15,2.364],index = ['a','b','c','d','e'])
s2

a     3.000
b     2.500
c    10.000
d    15.000
e     2.364
dtype: float64

In [59]:
s1+s2

a    11.0
b     3.5
c    12.0
d    49.0
e     NaN
dtype: float64

In [60]:
s1.add(s2)

a    11.0
b     3.5
c    12.0
d    49.0
e     NaN
dtype: float64

 DataFrame

In [68]:
df5 = pd.DataFrame(np.arange(9).reshape(3,3),columns = list('abd'),index =['bj','sh','sz'])
df5

Unnamed: 0,a,b,d
bj,0,1,2
sh,3,4,5
sz,6,7,8


In [72]:
df6 = pd.DataFrame(np.arange(12).reshape(4,3),columns = list('abd'),index = ['bj','sh','sz','cs'])
df6

Unnamed: 0,a,b,d
bj,0,1,2
sh,3,4,5
sz,6,7,8
cs,9,10,11


In [70]:
# 使用算术运算符
df5 + df6

Unnamed: 0,a,b,d
bj,0.0,2.0,4.0
cs,,,
sh,6.0,8.0,10.0
sz,12.0,14.0,16.0


#### 两种数据结构之间的运算

In [77]:
df7 = pd.DataFrame(np.arange(9).reshape(3,3),columns = list('abc'),index = ['bj','sh','sz'])
df7

Unnamed: 0,a,b,c
bj,0,1,2
sh,3,4,5
sz,6,7,8


In [78]:
s5 = pd.Series(range(3),index = list('abc'))
s5

a    0
b    1
c    2
dtype: int64

In [79]:
# Series和DataFrame在进行计算的时候，Series的索引可以理解为DataFrame中对应的列名
df7 + s5

Unnamed: 0,a,b,c
bj,0,2,4
sh,3,5,7
sz,6,8,10
