### 写在前面

> 如果你做数据分析的工作，那么相信我Pandas是你离不开的模块，事实证明它也没有让我们失望，所以这篇文章只是知识的补充和工作用到的重点记录

#### 调换列的顺序的两种方法
> 在实际工作中常常需要对部分列的顺序进行调整

In [29]:
import pandas as pd
data = {'state': ['O', 'i', 'N', 'd'], 
        'year': [2000, 2001, 2002, 2003], 
        'pop': [1.5, 1.7, 3.6, 2.4]}

frame = pd.DataFrame(data)

frame

Unnamed: 0,state,year,pop
0,O,2000,1.5
1,i,2001,1.7
2,N,2002,3.6
3,d,2003,2.4


In [30]:
# 方法1：生成新的视图,需要函数接收，这种方法也可以对行进行操作，只不过列更加普遍
# reindex也可以扩充行列用method进行值的向前向后填充
df = frame.reindex(columns = ['year','state','pop'])
df

Unnamed: 0,year,state,pop
0,2000,O,1.5
1,2001,i,1.7
2,2002,N,3.6
3,2003,d,2.4


In [31]:
# 方法2 ；在元DF上进行修改
frame.columns = [['year','state','pop']]
frame

Unnamed: 0,year,state,pop
0,O,2000,1.5
1,i,2001,1.7
2,N,2002,3.6
3,d,2003,2.4


#### 删除行列的方法
> 实际工作中时长会有多余的字段或者行的生成，按筛选规则进行删除

In [33]:
import pandas as pd
data = {'state': ['O', 'i', 'N', 'd'], 
        'year': [2000, 2001, 2002, 2003], 
        'pop': [1.5, 1.7, 3.6, 2.4]}

df = pd.DataFrame(data)
# 删除行
df.drop([1,2])

Unnamed: 0,state,year,pop
0,O,2000,1.5
3,d,2003,2.4


In [37]:
# 删除列
df.drop(['year'],axis =1)

Unnamed: 0,state,pop
0,O,1.5
1,i,1.7
2,N,3.6
3,d,2.4


In [38]:
# 删除在源数据上也做相同的修改 inplace = True
# inplace的使用会销毁所有被删除的数据
df.drop([1],inplace = True)
df

Unnamed: 0,state,year,pop
0,O,2000,1.5
2,N,2002,3.6
3,d,2003,2.4


#### 对每一列的值进行筛选
> 比如说我们想要筛选每一列的最大值和最小值，形成一个DataFrame。df.describe()的方法并不够用，这里需要借助apply

In [40]:
import numpy as np
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), 
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.416603,-0.014248,-0.512669
Ohio,0.284969,0.220596,-0.759636
Texas,0.837533,-1.419805,0.673121
Oregon,-0.556383,0.64123,0.722122


In [42]:
def min_max(x):
    # 由于都是单列传入，需要Series的操作
    return pd.Series([x.min(),x.max()],index = ["min","max"])

frame.apply(min_max)

Unnamed: 0,b,d,e
min,-0.556383,-1.419805,-0.759636
max,0.837533,0.64123,0.722122


#### 利用索引或（多列值）进行排序
> 工作中按照时间日期或者额度的大小排序是十分常见的

In [45]:
frame = pd.DataFrame(np.arange(12).reshape((3, 4)),
                     index=['three', 'one','two'],
                     columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7
two,8,9,10,11


In [48]:
# 按照索引进行排序 --按照行
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3
two,8,9,10,11


In [51]:
# 按照索引进行排序 --按照列
frame.sort_index(axis = 1,ascending =False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5
two,8,11,10,9


In [56]:
# 按照值进行排序 by选项中进行填充
frame['a'] = [1,1,7]
frame['b'] = [1,5,7]
frame['c'] = [7,2,6]
frame.sort_values(by = ["a","b","c"])

Unnamed: 0,d,a,b,c
three,0,1,1,7
one,4,1,5,2
two,8,7,7,6
