In [2]:
import pandas as pd

# pandas获取groupby分组里最大值所在的行

In [3]:
df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6], 'Count':[3,2,5,10,10,6]})

In [4]:
df

Unnamed: 0,Count,Mt,Sp,Value
0,3,s1,a,1
1,2,s1,b,2
2,5,s2,c,3
3,10,s2,d,4
4,10,s2,e,5
5,6,s3,f,6


## 方法1 使用apply

In [5]:
df.groupby(['Mt']).apply(lambda x: x[x.Count == x.Count.max()])

Unnamed: 0_level_0,Unnamed: 1_level_0,Count,Mt,Sp,Value
Mt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
s1,0,3,s1,a,1
s2,3,10,s2,d,4
s2,4,10,s2,e,5
s3,5,6,s3,f,6


## 方法2 使用transform

In [9]:
idx = df.groupby(['Mt']).Count.transform(max) == df.Count

In [11]:
df[idx]

Unnamed: 0,Count,Mt,Sp,Value
0,3,s1,a,1
3,10,s2,d,4
4,10,s2,e,5
5,6,s3,f,6


## 方法３使用idmax
- 上面的方法都有个问题是3、4行的值都是最大值，这样返回了多行，如果只要返回一行呢？

In [17]:
idx=df.groupby(['Mt']).Count.idxmax()

In [18]:
df.iloc[idx]

Unnamed: 0,Count,Mt,Sp,Value
0,3,s1,a,1
3,10,s2,d,4
5,6,s3,f,6


## 方法4 先排序然后取每组第一个

In [22]:
df.sort_values('Count', ascending=False).groupby('Mt', as_index=False).first()

Unnamed: 0,Mt,Count,Sp,Value
0,s1,3,a,1
1,s2,10,d,4
2,s3,6,f,6


# pandas选取指定索引的行

In [9]:
df = pd.DataFrame([[1,2,3,4],[5,6,7,8],[23,24,25,26]],columns=['a','b','c','d'])
df

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,5,6,7,8
2,23,24,25,26


In [10]:
# 选取index为1,2的行
df.loc[[1,2]]

Unnamed: 0,a,b,c,d
1,5,6,7,8
2,23,24,25,26


# pandas中的rank

- rank方法可以用在DataFrame和Series中 表示对数据进行排序 并返回排序后的序号
- 排序默认为升序 可指定ascending=False表示降序

In [1]:
a={'name': ['andy','yolk','bob','tom','guilichao'], 'chinese': [90,87,62,55,109],'math':[34,12,45,67,120]}

In [5]:
b=pd.DataFrame(a).set_index(['name'])

In [6]:
b

Unnamed: 0_level_0,chinese,math
name,Unnamed: 1_level_1,Unnamed: 2_level_1
andy,90,34
yolk,87,12
bob,62,45
tom,55,67
guilichao,109,120


In [8]:
b.rank(ascending=False)

Unnamed: 0_level_0,chinese,math
name,Unnamed: 1_level_1,Unnamed: 2_level_1
andy,2.0,4.0
yolk,3.0,5.0
bob,4.0,3.0
tom,5.0,2.0
guilichao,1.0,1.0


# dict -> Frame

 - dict的键对应于frame中的columns dict的值对应于row
 - 如果dict的value也是dict，则内层的dict的key会变成frame的index
 - 如果dict的value是一个字符或数字，则需要变成列表才能转化

## 形式1

In [9]:
a={'name': ['andy','yolk','bob','tom','guilichao'], 'chinese': [90,87,62,55,109],'math':[34,12,45,67,120]}

In [12]:
b=pd.DataFrame(a)

In [13]:
b.head(3)

Unnamed: 0,chinese,math,name
0,90,34,andy
1,87,12,yolk
2,62,45,bob


In [14]:
b.to_dict() 

{'chinese': {0: 90, 1: 87, 2: 62, 3: 55, 4: 109},
 'math': {0: 34, 1: 12, 2: 45, 3: 67, 4: 120},
 'name': {0: 'andy', 1: 'yolk', 2: 'bob', 3: 'tom', 4: 'guilichao'}}

## 形式2

In [15]:
a={'gui':{'sex':'m', 'age':12}, 'jia':{'sex':'f','age':'10'}}

In [16]:
pd.DataFrame(a)

Unnamed: 0,gui,jia
age,12,10
sex,m,f


## 形式3

In [38]:
c = {}
c['2014'] = 9.2
c['2015'] = 8.6
c['2016'] = 7.4
c['2017'] = 9.9
c

{'2014': 9.2, '2015': 8.6, '2016': 7.4, '2017': 9.9}

In [40]:
pd.DataFrame([[i, v] for i,v in c.items()], columns=['year', 'gdp'])

Unnamed: 0,year,gdp
0,2014,9.2
1,2015,8.6
2,2016,7.4
3,2017,9.9


# 多重索引
- 首先需要对多重索引进行排序
- 用.loc[] 方法进行定位 只不过第一部分的多重索引放在小括号里
- 多重索引中 如果选取某个索引的全部取值 用slice(None) 替代：， 如果选取某个索引的个别取值，可放在中括号内

In [25]:
df = pd.DataFrame({'class':['A','A','A','B','B','B','C','C'],
                   'id':['a','b','c','a','b','c','a','b'],
                   'value':[1,2,3,4,5,6,7,8]})
df = df.set_index(['class','id'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,value
class,id,Unnamed: 2_level_1
A,a,1
A,b,2
A,c,3
B,a,4
B,b,5
B,c,6
C,a,7
C,b,8


## 以索引排序

In [26]:
df = df.sort_index(level='class')

## 选取

In [35]:
print("选取class=A and id=a", df.loc[('A', 'a'), :]) # 注意多重索必须引用小括号
print("选取所有id=a的观测", df.loc[(slice(None), 'a'), :]) 
# slice(None), 是Python中的切片操作，这里用来选择任意的id，要注意！不能使用‘:’来指定任意index
print("选取所有class= ['A', 'B'] and id=a", df.loc[(['A', 'B'], 'a'), :]) 
print("选取所有class= ['A', 'B']", df.loc[(['A', 'B'], slice(None)), :]) 


选取class=A and id=a value    1
Name: (A, a), dtype: int64
选取所有id=a的观测           value
class id       
A     a       1
B     a       4
C     a       7
选取所有class= ['A', 'B'] and id=a           value
class id       
A     a       1
B     a       4
选取所有class= ['A', 'B']           value
class id       
A     a       1
      b       2
      c       3
B     a       4
      b       5
      c       6


In [27]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,value
class,id,Unnamed: 2_level_1
A,a,1
A,b,2
A,c,3
B,a,4
B,b,5
B,c,6
C,a,7
C,b,8


In [21]:
df_sorted

Unnamed: 0_level_0,Unnamed: 1_level_0,分值
课程,得分,Unnamed: 2_level_1
数学,最低,60
语文,最低,50
数学,最高,100
语文,最高,90
