# Pandas——Series操作

Series的定义：Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。

Series对象本质上是一个NumPy的数组，因此NumPy的数组处理函数可以直接对Series进行处理。但是Series除了可以使用位置作为下标存取元素之外，还可以使用标签下标存取元素，这一点和字典相似。每个Series对象实际上都由两个数组组成：

index: 它是从NumPy数组继承的Index对象，保存标签信息。

values: 保存值的NumPy数组。

注意三点：

1. Series是一种类似于一维数组（数组：ndarray）的对象
2. 它的数据类型没有限制（各种NumPy数据类型）
3. 它有索引，把索引当做数据的标签（key）看待，这样就类似字典了（只是类似，实质上是数组
4. Series同时具有数组和字典的功能，因此它也支持一些字典的方法

创建一个空的Series。

In [9]:
import pandas as pd
s = pd.Series()
print(s)

Series([], dtype: float64)


  


从ndarray创建一个Series，并规定索引为[100,101,102,103]。

In [12]:
import pandas as pd
import numpy as np
data = np.array(['a', 'b', 'c', 'd'])
print(data)
s = pd.Series(data, index = [100, 101, 102, 103])
print(s)

['a' 'b' 'c' 'd']
100    a
101    b
102    c
103    d
dtype: object


从ndarray创建一个Series，并规定索引为[100,101,102,103]

In [14]:
import pandas as pd  
s=pd.Series(5,index=[0,1,2,3])  
print(s) 

0    5
1    5
2    5
3    5
dtype: int64


从具体位置的Series中访问数据。

In [31]:
import pandas as pd   
s=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])  
# 检索Series中的第一个元素。
print(s[0])  

1


In [32]:
# 检索Series中的前三个元素。
print(s[:3])
# 检索Series中最后三个元素。
print(s[-3:])
# 如果不包含标签，检索会出现异常。
# print(s['f'])

a    1
b    2
c    3
dtype: int64
c    3
d    4
e    5
dtype: int64


简单运算

在pandas的Series中，会保留NumPy的数组操作（用布尔数组过滤数据，标量乘法，以及使用数学函数），并同时保持引用的使用

In [22]:
import numpy as np  
import pandas as pd  
ser2 = pd.Series(range(4),index = ["a","b","c","d"])  
ser2[ser2 > 2]    

d    3
dtype: int64

In [23]:
ser2 * 2  

a    0
b    2
c    4
d    6
dtype: int64

In [29]:
np.exp(ser2) # 打印e的对应所有值的幂次方

a     1.000000
b     2.718282
c     7.389056
d    20.085537
dtype: float64

In [30]:
np.sqrt(ser2) # 打印所有值的开方 

a    0.000000
b    1.000000
c    1.414214
d    1.732051
dtype: float64

Series的自动对齐

Series的一个重要功能就是自动对齐（不明觉厉），看看例子就明白了。 差不多就是不同Series对象运算的时候根据其索引进行匹配计算。

In [33]:
# 创建两个Series名为ser3与ser4.
import pandas as pd  
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}  
ser3 = pd.Series(sdata)  
states = ['California', 'Ohio', 'Oregon', 'Texas']  
ser4 = pd.Series(sdata,index = states)  
print(ser3)  

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


In [35]:
print(ser4)

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


In [36]:
ser3+ser4 

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Series增删改

增：Series的add()方法是加法计算不是增加Series元素用的，使用append连接其他Series。

In [37]:
import pandas as pd  
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}  
ser3 = pd.Series(sdata)  
states = ['California', 'Ohio', 'Oregon', 'Texas']  
ser4 = pd.Series(sdata,index = states)  
print(ser3)  

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


In [38]:
print(ser4)  

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


In [39]:
ser3.append(ser4)  

Ohio          35000.0
Texas         71000.0
Oregon        16000.0
Utah           5000.0
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

删：Series的drop()方法可以对Series进行删除操作，返回一个被删除后的Series，原来的Series不改变。

In [41]:
import pandas as pd  
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])  
s.drop('a') 

b    2
c    3
d    4
e    5
dtype: int64

In [42]:
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

改：通过索引的方式查找到某个元素，然后通过“=”赋予新的值。

In [43]:
import pandas as pd  
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])  
s['a']=5  
print(s)  

a    5
b    2
c    3
d    4
e    5
dtype: int64
