# 第五章 pandas入门
pandas在进行数据清洗和分析时非常快捷，经常和其他数值计算工具比如Numpy和Scipy，以及可视化工具matplotlib一起使用。pandas支持大部分Numpy语言风格的数组计算，尤其是数组函数以及没有for循环的各种数据处理。pandas与numpy的最大不同在于pandas处理表格型或异质型数据，而Numpy则处理同质型数据的数值类数组

## 5.1数据结构介绍
pandas两个常用的工具数据结构：Series和DataFrame。

### 5.1.1 Sries
Series是一种一维的数组型对象，它包含了一个值序列，并包含了数值标签称为索引(值序列和索引序列可以理解为两个列表)。表示方法：序列名[]

In [165]:
import pandas as pd
import numpy as np

In [166]:
obj=pd.Series([4,7,-5,3])#最简单的序列
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [167]:
obj.values#获取序列对象的值

array([ 4,  7, -5,  3], dtype=int64)

In [168]:
obj.index#获取序列的标签

RangeIndex(start=0, stop=4, step=1)

In [169]:
obj1=pd.Series([4,7,-5,3],index=['a','s','d','f'])#创建一个索引序列，用标签表示每个数据点。
obj1

a    4
s    7
d   -5
f    3
dtype: int64

In [170]:
obj1['a']=6      #根据索引号访问序列并赋值
obj1[['a','s','d']]#根据索引列表来访问序列数据

a    6
s    7
d   -5
dtype: int64

In [171]:
obj1[obj1>0]#根据布尔数组访问序列

a    6
s    7
f    3
dtype: int64

In [172]:
obj1*2   #直接进行数学运算

a    12
s    14
d   -10
f     6
dtype: int64

In [173]:
np.exp(obj1)#使用数学运算将保存索引值连接

a     403.428793
s    1096.633158
d       0.006738
f      20.085537
dtype: float64

In [174]:
dict={'name':'chegahng','age':23,'number':[1,2,3]}
obj2=pd.Series(dict)   #使用字典生成一个序列
obj2

name       chegahng
age              23
number    [1, 2, 3]
dtype: object

In [175]:
states=['L','name','number']
obj3=pd.Series(dict,index=states)  #将字典按预期顺序传递给序列
obj3

L               NaN
name       chegahng
number    [1, 2, 3]
dtype: object

In [176]:
pd.isnull(obj3)  #使用isnull检查缺失值

L          True
name      False
number    False
dtype: bool

In [177]:
pd.notnull(obj3)#使用notnull检查缺失值

L         False
name       True
number     True
dtype: bool

In [178]:
obj3.name='population'    #Series本身可以有name属性
obj3.index.name='state'#Series的索引也可以有name属性
obj3.index=['a','b','c']  #重新对索引进行赋值
obj3

a          NaN
b     chegahng
c    [1, 2, 3]
Name: population, dtype: object

### 5.1.2 DataFrame
DataFrame表示的是矩阵的数据表，它包含已排序的列集合，每一列可以是不同的值类型（数值、字符串、布尔值等）DataFrame既有行索引也有列索引，可以被视为一个共享相同索引的Series的字典（Series里面存放多个字典）。<br><br>
DataFrame构造函数的有效输入：<br><br>
　　　　类型   　　　　　　　　　　　　　　　　　　　　　　　　注释<br>
　　　2D ndarray　　　　　　　　　　　　　　　　数据的矩阵，行和列的标签是可选参数<br>
数组、列表和元组构成的字典　　　　　　　每个序列构成DataFrame的一列，所有序列长度必须相等<br>
　　字典构成的字典       　　　　　　　　　　　　 键成为行索引，每个内部字典成为一列<br>
 　　Series构成的字典 　　　　　　　　　　　每个序列形成一列，每个序列的索引联合在一起成为行索引<br>

In [179]:
data={
    'name':['hang','li','ying','jun','min','zhen','tan'],
    'age':[23,23,46,48,52,22,51],
    'po':[1.1,1.2,1.3,1.4,1.5,1.6,1.7],
}
data

{'name': ['hang', 'li', 'ying', 'jun', 'min', 'zhen', 'tan'],
 'age': [23, 23, 46, 48, 52, 22, 51],
 'po': [1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7]}

In [180]:
frame=pd.DataFrame(data)

In [181]:
frame.head()#head方法只选出头部的五行

Unnamed: 0,name,age,po
0,hang,23,1.1
1,li,23,1.2
2,ying,46,1.3
3,jun,48,1.4
4,min,52,1.5


In [182]:
#将列按照指定顺序排列,如果某列不出现在字典中，结果中将出现缺失值
frame=pd.DataFrame(data,columns=['po','name','age','na'],index=['a','b','c','d','e','f','g'])
frame

Unnamed: 0,po,name,age,na
a,1.1,hang,23,
b,1.2,li,23,
c,1.3,ying,46,
d,1.4,jun,48,
e,1.5,min,52,
f,1.6,zhen,22,
g,1.7,tan,51,


In [183]:
frame.columns   #得到列索引值

Index(['po', 'name', 'age', 'na'], dtype='object')

In [184]:
frame['po']  #根据列名访问某一列
frame.po#访问某一列，只在列名为有效地python变量名时有效

a    1.1
b    1.2
c    1.3
d    1.4
e    1.5
f    1.6
g    1.7
Name: po, dtype: float64

In [185]:
frame.loc['c']#根据行名，访问某一行

po       1.3
name    ying
age       46
na       NaN
Name: c, dtype: object

In [186]:
frame['po']=np.arange(7)#给某一列赋值，可以是列表或者数组。长度必须匹配！！
frame['time']=pd.Series(np.arange(3),index=['a','c','f']) #Series序列给某一列赋值，被赋值的列不存在会生成新的列
frame

Unnamed: 0,po,name,age,na,time
a,0,hang,23,,0.0
b,1,li,23,,
c,2,ying,46,,1.0
d,3,jun,48,,
e,4,min,52,,
f,5,zhen,22,,2.0
g,6,tan,51,,


In [187]:
del frame['na']  #使用del语句删除某一列
frame

Unnamed: 0,po,name,age,time
a,0,hang,23,0.0
b,1,li,23,
c,2,ying,46,1.0
d,3,jun,48,
e,4,min,52,
f,5,zhen,22,2.0
g,6,tan,51,


In [188]:
pop={
    'neva':{2001:2.47,2002:2.9},
    'amy':{2000:1.2,2001:2.3,2002:2.6}
}

In [189]:
frame1=pd.DataFrame(pop)#传入数据为字典中嵌套字典，键值作为列名，内部键值作为行名
frame1

Unnamed: 0,neva,amy
2001,2.47,2.3
2002,2.9,2.6
2000,,1.2


In [190]:
frame1.T  #转置运算

Unnamed: 0,2001,2002,2000
neva,2.47,2.9,
amy,2.3,2.6,1.2


In [191]:
frame.index.name='year'
frame.columns.name='state'#行索引和列索引都有name属性
frame

state,po,name,age,time
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,0,hang,23,0.0
b,1,li,23,
c,2,ying,46,1.0
d,3,jun,48,
e,4,min,52,
f,5,zhen,22,2.0
g,6,tan,51,


In [192]:
frame.values  #将值以二维矩阵的形式返回

array([[0, 'hang', 23, 0.0],
       [1, 'li', 23, nan],
       [2, 'ying', 46, 1.0],
       [3, 'jun', 48, nan],
       [4, 'min', 52, nan],
       [5, 'zhen', 22, 2.0],
       [6, 'tan', 51, nan]], dtype=object)

### 5.1.3索引对象（index,columns）
pandas的索引对象是用于存储轴标签和其他元数据的（例如轴名称或标签）。索引对象是不可变的，因此用户是无法修改索引对象的。<br>
一些索引对象的方法和属性：<br>
　　方法　　　　　　　　　　　　　　　　描述<br>
　　append　　　　　　　　　　　将额外的索引对象粘贴到原索引后<br>
　difference 　　　　　　　　　　　计算两个索引的差集<br>
intersection 　　　　　　　　　　　计算两个索引的交集<br>
　is_unique 　　　　　　　　　　　　如果索引序列唯一则返回true<br>
　　unique　　　　　　　　　　　　计算索引的唯一值序列<br>

In [193]:
frame.index.unique()

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object', name='year')

## 5.2基本功能
### 5.2.1重建索引
reindex是pandas对象的重要方法。

In [194]:
obj=pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'],name="name")
obj

d    4.5
b    7.2
a   -5.3
c    3.6
Name: name, dtype: float64

In [195]:
#使用reindex（）将数据按照新的索引进行排列，如果某个索引之前并不存在则会引入缺失值
obj=obj.reindex(['a','b','c','d','e'])
obj

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
Name: name, dtype: float64

In [196]:
frame=pd.DataFrame(np.arange(9).reshape(3,3),index=['a','c','d'],columns=['cheng','ren','meng'])
frame.index.name='rows_name'
frame.columns.name='columns_name'
frame

columns_name,cheng,ren,meng
rows_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0,1,2
c,3,4,5
d,6,7,8


In [197]:
frame=frame.reindex(index=['a','b','c'],columns=['cheng','ren','me'])#要注明向哪个形参传递实参
frame

columns_name,cheng,ren,me
rows_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.0,1.0,
b,,,
c,3.0,4.0,


In [198]:
frame=frame.loc[['a','b','c','d'],['cheng','ren','me']]#使用loc[]方法进行更为简洁的标签索引
frame

columns_name,cheng,ren,me
rows_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.0,1.0,
b,,,
c,3.0,4.0,
d,,,


### 5.2.2轴向上（行或者列）删除条目    
使用drop（）方法,直接在原对象上操作不返回新对象

In [199]:
obj=pd.Series(np.arange(4),index=['a','b','c','d'])
obj

a    0
b    1
c    2
d    3
dtype: int32

In [200]:
obj.drop(['b','c'])

a    0
d    3
dtype: int32

In [201]:
data=pd.DataFrame(np.random.randn(16).reshape(4,4),index=['a','b','c','d'],columns=[0,1,2,3])
data

Unnamed: 0,0,1,2,3
a,1.570669,1.352446,0.296252,0.586238
b,-0.661356,-0.354225,1.222328,-1.33275
c,0.544065,-0.135651,0.356525,1.523206
d,0.075428,1.636845,-0.066197,-0.655674


In [202]:
data.drop(index='b',columns=1)#注明实参的键值

Unnamed: 0,0,2,3
a,1.570669,0.296252,0.586238
c,0.544065,0.356525,1.523206
d,0.075428,-0.066197,-0.655674


### 5.2.3索引选择和过滤
Series的索引ob[]与numpy数组索引的功能类似，只不过Series的索引值可以不仅仅是整数。

In [203]:
obj=pd.Series(np.arange(4),index=['a','b','c','d'])
obj[['c','a']]  #根据行名访问

c    2
a    0
dtype: int32

In [204]:
obj[[1,3]]#根据行号访问

b    1
d    3
dtype: int32

In [205]:
obj[1:3]   #使用行号切片访问

b    1
c    2
dtype: int32

In [206]:
obj['b':'d']#使用行名切片访问

b    1
c    2
d    3
dtype: int32

In [207]:
data=pd.DataFrame(np.random.randn(16).reshape(4,4),index=['a','b','c','d'],columns=['l','m','n','o'])
data

Unnamed: 0,l,m,n,o
a,1.404837,-0.812903,1.33632,0.563073
b,-0.308913,0.849477,-0.411822,0.33943
c,-0.931051,0.250088,-0.286086,0.260467
d,0.186825,0.635897,0.795576,0.879164


In [208]:
data[['l','m']]#根据列号访问

Unnamed: 0,l,m
a,1.404837,-0.812903
b,-0.308913,0.849477
c,-0.931051,0.250088
d,0.186825,0.635897


In [209]:
data[data<0]=0  #使用布尔数组进行访问
data

Unnamed: 0,l,m,n,o
a,1.404837,0.0,1.33632,0.563073
b,0.0,0.849477,0.0,0.33943
c,0.0,0.250088,0.0,0.260467
d,0.186825,0.635897,0.795576,0.879164


#### 5.2.3.1 使用loc和iloc选择数据

介绍特殊的索引符号loc和iloc。他们允许使用轴标签（loc）或整数标签（iloc）以numpy风格的语法从DataFrame中选出数组行和列的子集。<br>
DataFrame索引选项：<br>
　类型　　　　　　　　　　描述<br>
df[val]　　　　从DataFrame中选的单列或列序列<br>
df.loc[val]　　　根据标签选择单行或者多行<br>
df.loc[:,val]　　根据标签选的单列或者多列<br>
df.loc[val,val]　根据标签选择行和列的一部分<br><br>
df.iloc[where]　　根据整数位置选的单行或者多行<br>
df.iloc[:,where]　　根据整数位置选的单列或者多列<br>
df.iloc[where_i,where_j]　　根据整数位置选择行和列<br><br>
df.at[i,j]　　　　　　根据行列位置选择单个标签值<br>

In [210]:
data.loc[['a','c'],['l','m']]

Unnamed: 0,l,m
a,1.404837,0.0
c,0.0,0.250088


In [211]:
data.iloc[[2,1],[3,0,1]]

Unnamed: 0,o,l,m
c,0.260467,0.0,0.250088
b,0.33943,0.0,0.849477


In [212]:
data.iloc[2,1]#取出单个元素

0.2500882568578779

In [213]:
data.iloc[:,:2]

Unnamed: 0,l,m
a,1.404837,0.0
b,0.0,0.849477
c,0.0,0.250088
d,0.186825,0.635897


### 5.2.4算数和数据对齐
不同索引的对象之间的算数行为，返回结果的索引将是索引对的并集。没有交叠的标签位置上产生缺失值用NaN表示。
#### 5.2.4.1使用填充值的算数方法
当两个不同的索引对象进行算术化操作时，可能会使用特殊值填充，比如当轴标签值在一个对象中存在，另一个对象中不存在时，你想要填充为0。<br>
算数方法：<br>
add,radd(+)<br>
sub,rsub(-)<br>
div,rdiv(/)<br>
mul,rmul(*)<br>
pow,rpow(**)<br>

In [214]:
df1=pd.DataFrame(np.arange(12).reshape(3,4),columns=list('abcd'))
df2=pd.DataFrame(np.arange(20).reshape(4,5),columns=list('abcde'))
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [215]:
df2.iloc[1,1]=np.nan

In [216]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [217]:
df1.mul(df2,fill_value=0)#先将原来的对象的索引对进行扩充，缺失值全部赋值为0，之后再进行相加。

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,4.0,9.0,0.0
1,20.0,0.0,42.0,56.0,0.0
2,80.0,99.0,120.0,143.0,0.0
3,0.0,0.0,0.0,0.0,0.0


#### 5.2.5.2 DataFrame和Series间的操作
DataFrame 与Series间的操作与Numpy中不同维度数组间操作类似。

In [218]:
frame=pd.DataFrame(np.random.randn(12).reshape(4,3),columns=list('abc'))
frame


Unnamed: 0,a,b,c
0,0.260679,0.559954,0.208667
1,1.019635,-0.425757,0.60327
2,-1.503925,1.319332,-0.885572
3,-0.034601,0.296801,1.414003


In [219]:
series=frame.iloc[1]
series

a    1.019635
b   -0.425757
c    0.603270
Name: 1, dtype: float64

In [220]:
frame.add(series,axis='columns')  #默认情况下DataFrame和Series的数学操作中会将Series的索引和DataFrame的列索引进行匹配，并广播到各行

Unnamed: 0,a,b,c
0,1.280314,0.134197,0.811937
1,2.039269,-0.851514,1.206539
2,-0.48429,0.893575,-0.282302
3,0.985034,-0.128956,2.017272


In [221]:
series1=pd.Series(np.arange(3),index=list('bvc'))    #重建索引并形成联合
frame.add(series1,axis='columns')  #对列进行匹配

Unnamed: 0,a,b,c,v
0,,0.559954,2.208667,
1,,-0.425757,2.60327,
2,,1.319332,1.114428,
3,,0.296801,3.414003,


In [222]:
series2=frame.iloc[:,0]   
frame.sub(series2,axis='index')   #对行进行匹配

Unnamed: 0,a,b,c
0,0.0,0.299275,-0.052012
1,0.0,-1.445392,-0.416365
2,0.0,2.823257,0.618353
3,0.0,0.331401,1.448603


### 5.2.6函数应用和映射
Numpy的通用函数(逐元素数组方法)对pandas对象也有效。常用apply方法实现，但大部分的数组统计（比如sum、mean）都是DataFrame的方法，因此apply并不是必须的

In [223]:
frame=pd.DataFrame(np.random.randn(12).reshape(4,3),columns=list('abc'))
frame

Unnamed: 0,a,b,c
0,0.260478,-0.340242,1.112183
1,0.114326,0.140874,0.876988
2,0.378107,-1.160582,-0.551998
3,-0.376637,0.331301,1.590198


In [224]:
f=lambda x: x.max()-x.min()

In [225]:
frame.apply(f,axis=0)  #为apply函数选择轴向axis=0，表示函数f的输出轴向为行，则f函数的输入为每一列的数值

a    0.754743
b    1.491882
c    2.142196
dtype: float64

In [226]:
def f(x):
    return pd.Series([x.max(),x.min()],index=['max','min'])  #传递给apply的函数的返回值不一定为
frame.apply(f,axis=1)


Unnamed: 0,max,min
0,1.112183,-0.340242
1,0.876988,0.114326
2,0.378107,-1.160582
3,1.590198,-0.376637


In [227]:
f=lambda x: x**2
frame.applymap(f)   #逐元素使用python函数

Unnamed: 0,a,b,c
0,0.067849,0.115765,1.23695
1,0.013071,0.019846,0.769108
2,0.142965,1.34695,0.304702
3,0.141855,0.10976,2.52873


In [228]:
series=frame.iloc[:,1]
series.map(f)   #使用map函数  

0    0.115765
1    0.019846
2    1.346950
3    0.109760
Name: b, dtype: float64

### 5.2.7 排序和排名
Series和DataFrame的索引使用sort_index()进行排序，可选择轴向参数进行升序或者降序。<br>
sort_values()根据值进行排序。rank()函数实现排名，其中method='average' 分配组内平均排名，method='max'分配组内最大排名，method='min'分配组内最小排名，method='first'按照数组在数据中出现的次序进行排名。

In [229]:
frame=pd.DataFrame(np.random.rand(12).reshape(4,3),columns=list('cba'))
frame

Unnamed: 0,c,b,a
0,0.283469,0.685108,0.90793
1,0.268625,0.372821,0.681981
2,0.988876,0.863004,0.788641
3,0.60605,0.069509,0.807696


In [230]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c
0,0.90793,0.685108,0.283469
1,0.681981,0.372821,0.268625
2,0.788641,0.863004,0.988876
3,0.807696,0.069509,0.60605


In [231]:
frame['a'].sort_values() 

1    0.681981
2    0.788641
3    0.807696
0    0.907930
Name: a, dtype: float64

In [232]:
frame.sort_values(by='a')

Unnamed: 0,c,b,a
1,0.268625,0.372821,0.681981
2,0.988876,0.863004,0.788641
3,0.60605,0.069509,0.807696
0,0.283469,0.685108,0.90793


In [233]:
frame.rank() # 默认使用method='average',axis=0

Unnamed: 0,c,b,a
0,2.0,3.0,4.0
1,1.0,2.0,1.0
2,4.0,4.0,2.0
3,3.0,1.0,3.0


In [234]:
frame.rank(method='max',axis=1)

Unnamed: 0,c,b,a
0,1.0,2.0,3.0
1,1.0,2.0,3.0
2,3.0,2.0,1.0
3,2.0,1.0,3.0


### 5.2.8 含有重复标签的轴索引
obj.index.is_unique判定标签是否唯一


In [235]:
frame=pd.DataFrame(np.arange(12).reshape(3,4),index=[0,1,2],columns=list('aabc'))
frame

Unnamed: 0,a,a.1,b,c
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [236]:
frame.index.is_unique

True

In [237]:
frame.columns.is_unique

False

## 5.3描述性统计的概述与计算
pandas对象装配了一个常用数字、统计学方法的集合。这些方法从DataFrame的行和列中抽取一个series或一系列值得单个值（如总和和平均值）。与Numpy数组中的类似方法相比，他们内建了处理缺失值的功能。<br>
描述性统计和汇总统计：<br>
方法 　　　　　　　　　　　 描述<br>
count　　　　　　　   统计非NA值的个数<br>
describe　　　　计算series或DataFrame各列的汇总集合<br>
min,max      　　　　　　计算各列的最小值、最大值<br>
argmin,argmax  　　返回最小值、最大值标签的位置,适用于series<br>
idmin,idmax   　返回最小最大值的所在的索引标签<br>
sum 　　　　　　　　　　　 加和(按列)<br>
mean  　　　　　　　　　　　均值(按列)<br>
median  　　　　　　　　　 中位数(按列)<br>
prod   　　　　　　　　　所有值的积(按列)<br>
var   　　　　　　　　　值的样本方差(按列)<br>
std  　　　　　　　　　值的样本标准差（按列）<br>
cumsum   　　　　　　　　　累计值<br>

归约方法可选参数：<br>
axis： 归约轴，0为行向，1位列向<br>
skipna:排除缺失值，默认为True<br>


In [238]:
frame.sum()

a    12
a    15
b    18
c    21
dtype: int64

In [239]:
frame.mean()

a    4.0
a    5.0
b    6.0
c    7.0
dtype: float64

In [240]:
frame.median(axis=1)

0    1.5
1    5.5
2    9.5
dtype: float64

In [241]:
frame.prod()

a      0
a     45
b    120
c    231
dtype: int32

In [242]:
frame.var()

a    16.0
a    16.0
b    16.0
c    16.0
dtype: float64

In [243]:
frame.cumsum()

Unnamed: 0,a,a.1,b,c
0,0,1,2,3
1,4,6,8,10
2,12,15,18,21


### 5.3.1相关性和协方差
一些汇总统计，比如相关性和协方差，是由多个参数计算出来的。<br><br>
协方差：给定两个随机变量X,Y，则它们协方差的值为COV(X,Y)=E(XY)-E(X)E(Y)，协方差可以用来衡量两个变量间的相似性，如果协方差越大（正数）两个变量越相似，如果协方差越小（负数），两个变量越相反，如果协方差为0，说明两个变量不相关。<br>
相关系数：$\alpha_X=\frac{COV(X,Y)}{\sqrt{var(X)var(Y)}}$相关系数实际上也是用来衡量两个变量之间的变化趋势是否相似，只是相关系数的值限定到<1。<br>

In [251]:
import numpy as np
import pandas as pd
a = np.random.randn(9).reshape(3,3)
data = pd.DataFrame(a,index=["a","b","c"],columns=["one","two","three"])
print(data)

        one       two     three
a -0.552468 -0.749866 -2.139968
b  0.984148  0.605147 -0.328343
c -0.996510 -0.387739  1.446008


In [252]:
print(data.one.corr(data.two))#计算第一列和第二列的相关系数

0.8886874407561174


In [253]:
#返回一个相关系数矩阵
print(data.corr())

            one       two     three
one    1.000000  0.888687 -0.207751
two    0.888687  1.000000  0.263884
three -0.207751  0.263884  1.000000


In [254]:
#计算第一列和第二列的协方差
print(data.one.cov(data.one))

1.0802281123499489


In [255]:
#返回一个协方差矩阵
print(data.cov())

            one       two     three
one    1.080228  0.647984 -0.387156
two    0.647984  0.492170  0.331937
three -0.387156  0.331937  3.214923


### 5.2.3唯一值、计数和成员属性
unique()、value_counts()、isin()

In [257]:
obj=pd.Series(list('vdtyedfyaedetedaxd'))
obj.unique()   #使用此函数给出序列的唯一值

array(['v', 'd', 't', 'y', 'e', 'f', 'a', 'x'], dtype=object)

In [259]:
obj.value_counts(sort=False)#统计序列包含的值的个数，按降序排列（可选）。

x    1
t    2
f    1
a    2
y    2
v    1
d    5
e    4
dtype: int64

In [262]:
mask=obj.isin(['a','e'])形成一个布尔值序列
mask

0     False
1     False
2     False
3     False
4      True
5     False
6     False
7     False
8      True
9      True
10    False
11     True
12    False
13     True
14    False
15     True
16    False
17    False
dtype: bool

In [264]:
obj[mask]   #实现序列中相关值的抽取

4     e
8     a
9     e
11    e
13    e
15    a
dtype: object