In [4]:
import numpy as np
import pandas as pd
# help(sr1.fillna)
# help(df1.fillna)
# help(pd.DataFrame.fillna)
# help(pd.Series.fillna)

### 缺失值

In [None]:
"""notnull(), isnull(),dropna(),fillna()的判断结果一致
注意与bool判断的区别
"""
sr1 = pd.Series(['',0,None,np.nan,True,False])
sr1.notnull()  # T, T, F, F, T, T. same to dropna and fillna
sr1.map(bool)  # F, F, F, T, T, F. 
"""fillna可指定字典进行对应"""
df1.fillna({0:'a',1:'b',})
"""通用方法"""
pd.isnull(sr1)
pd.notnull(df1)

In [None]:
"""保留缺失值的行(np.nan或None)"""
df1[[any(i[1]) for i in df1.isnull().iterrows()]]
"""剔除缺失值的行(np.nan或None)"""
df1.dropna(axis=1,how='all',thresh=1) # how可取all或any,thresh只能用int
sr1.dropna()

### merge

In [None]:
"""merge后，原index丢失，从0开始生成新的index"""
"""merge字段有重复时，会进行笛卡尔积"""
d1 = pd.DataFrame([['a','p'],['a','q']])
d2 = pd.DataFrame([['a','s'],['a','t']])
pd.merge(d1,d2,on=[0], how='outer') # how可选inner, outer, left, right
pd.merge(df1,df2,left_on=[,,],right_on=[,,],suffixes=['l','r'])
"""left_index的层次数要与right_on个数相等，不要求标签名匹配。匹配后的索引列成为value的一部分，匹配后的列名以right_on为准"""
pd.merge(frame1,frame2,left_index=True,right_on=[,,],sort=False,copy=True)
"""两边层次索引要一模一样，包括索引列的标签也要一样。匹配后，索引列仍然为索引列"""
pd.merge(frame1,frame2,left_index=True,right_index=True)

### concat

In [5]:
"""df的"""
d1 = pd.DataFrame([['a','p'],['a','q']])
d2 = pd.DataFrame([['a','s'],['a','t']])
"""keys与frame个数一一对应，并成为层次化索引"""
pd.concat([d1,d2,],axis=0,keys=['x','y',])
"""传入字典，键会被当做keys选项的值，同上"""
pd.concat({'key1':d1,'key2':d2},axis=1)
"""不保留连接轴索引，产生一组新索引range(total_length)"""
pd.concat([d1,d2,],ignore_index=True)
"""sr的"""
s1 = pd.Series(list('abc'))
s2 = pd.Series(list('hij'), index=range(1,4))
"""纵向拼接返回series，keys用于层次索引"""
pd.concat([s1,s1,],axis=0,keys=['x','y',])
"""横向拼接返回dataframe, 按索引对齐，每个key对应一个列名，join可选inner,outer"""
pd.concat([s1,s2,], axis=1, keys=['x','y',], join='outer')
"""横向拼接返回dataframe, 指定索引"""
pd.concat([s1,s2,],axis=1,join_axes=[[1,3,5]])

### append

In [None]:
"""create new，索引不与源数据共享，这与slice切片不同"""
s3 = s1.append(s2)  
df3 = df1.append(df2)  # 只能纵向合并

### combine_first

In [None]:
"""规则同下"""
d1.combine_first(d2)
"""sr的按索引合并，sr1索引有的以sr1为准, sr1索引没有的sr2加入，sr1中的None和np.nan会被sr覆盖"""
s1 = pd.Series([0,'',True,False,None,np.nan,np.nan])
s2 = pd.Series(list('hijklm'))
s1.combine_first(s2)

### replace方法

In [77]:
"""replace时候的Falset和0等价，True和1等价"""
df1 = pd.DataFrame([[1,0],[True,False,],[None, np.nan,],['',2]])
df1.replace('','space')
df1.replace([False,True],'TrueOrFalse')
df1.replace([0,1],['0','1'])
df1.replace([False,True],{False:'False',True:'True'})

Unnamed: 0,0,1
0,True,False
1,True,False
2,,
3,,2


### sample随机抽样

In [25]:
"""
n： 要抽取的行数,需为整数值
frac：抽取的比列,需为小数值，比方说我们想随机抽取30%的数据，则设置frac=0.3即可。
replace：是否放回抽样，默认为False
weights：默认为等概率加权
random_state：随机种子，本质是一个控制器，设置此值为任意实数，则每次随机的结果是一样的
axis：抽取数据的行还是列，axis=0的时是抽取行，axis=1时是抽取列
"""
df = pd.DataFrame(np.arange(10).reshape(5,2), index=list('abcde'))
df.sample(n=3)
df.loc[df.index.difference(df.sample(n=3).index)]

Unnamed: 0,0,1
a,0,1
e,8,9


### 排序排名

In [42]:
"""是对value进行排名,method参数如下：
average:默认，在相等分组中，为各个值分配平均排名。
min:使用整个分组的最小排名
max:使用整个分组的最大排名
first:按值在原始数据中的出现顺序分配排名
dense:类似于min，但是排名间总是增加1，不会跳过并列排名
"""
s2 = pd.Series([5,5,-1,4,4,2,1])
s2.rank(method='average', ascending=True)

0    5.0
1    5.0
2    1.0
3    4.0
4    4.0
5    3.0
6    2.0
dtype: float64

In [76]:
s1 = pd.Series([3,1,2,5], index=list('dbca'))
s1.sort_index(ascending=True)
s1.sort_values(ascending=False)
"""argsort排序后，返回值对应的位置index，而不是值索引。这时原来的值索引已错位，应该丢弃"""
s1 = pd.Series([11,18,13,14], index=list('maxb'))
s1.argsort()
""""""
df = pd.DataFrame(zip([1,2,2],[8,8,3],[46,12,24]), columns=[3,1,2], index=list('aeb'))
df.sort_index(axis=0, ascending=True)
df.sort_values(axis=0,by=[2,1],ascending=True)  # 按by的顺序优先
df.rank(axis=0, method='average', ascending=True)  # 单独对每一列进行排名

Unnamed: 0,3,1,2
a,1.0,2.5,3.0
e,2.5,2.5,1.0
b,2.5,1.0,2.0


### iterrows, iteritems, itertuples

In [48]:
df1 = pd.DataFrame(np.arange(6).reshape(2,3), columns=list('xyz'), index=list('ab'), dtype='int')  # 好像所有列只能指定一种类型
"""return iterator by rows, (index, Series)"""
list(df1.iterrows())  
"""return iterator by columns, (column, Series)"""
list(df1.iteritems())
"""return iterator by rows, tuple"""
list(df1.itertuples())

# 其他

In [None]:
"""设置dataframe在jupyter中显示数据的大小"""
pd.set_option('display.width', 5)        #设置整体宽度
pd.set_option('display.max_rows',5)      #设置最大行数
pd.set_option('display.max_columns', 100)  #设置最大列数