In [1]:
import numpy as np
import pandas as pd
from pandas import Series

### Series数据
pandas采用了很多NumPy的代码风格，但最大的不同在于pandas是用来处理表格型或异质型数据的，而NumPy更适合处理同质型的数值类数组数据。

In [2]:
obj = Series([1, -2, 3, -4])
obj1 = Series([1, -2, 3, -4], index = ['a', 'b', 'c', 'd'])     # 指定索引
print(obj)
print('------------')
print(obj1)

0    1
1   -2
2    3
3   -4
dtype: int64
------------
a    1
b   -2
c    3
d   -4
dtype: int64


In [3]:
obj1.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [4]:
obj1.values

array([ 1, -2,  3, -4], dtype=int64)

Series运算都会保留索引和值之间的链接:

In [5]:
obj1['a']      # 等价于obj[0]，Series的索引与NumPy数组索引的功能类似，只不过Series的索引值可以不仅仅是整数

1

In [6]:
obj1[['a', 'c']]    

a    1
c    3
dtype: int64

In [7]:
obj1['a'] = 8
obj1

a    8
b   -2
c    3
d   -4
dtype: int64

In [8]:
obj1[obj1 > 0]

a    8
c    3
dtype: int64

In [9]:
obj1 * 2

a    16
b    -4
c     6
d    -8
dtype: int64

In [10]:
np.abs(obj1)

a    8
b    2
c    3
d    4
dtype: int64

In [11]:
print('b' in obj1)
print('f' in obj1)

True
False


### 索引对象和常见方法

In [12]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
print(index[1:])

try:
    index[1] = 'd'
except TypeError:
    print("Index does not support mutable operations!")     # 索引对象是不可变的，使得在多种数据结构中分享索引对象更为安全

Index(['b', 'c'], dtype='object')
Index does not support mutable operations!


In [13]:
index_a = pd.Index([1, 2, 3, 4])    # 生成索引
index_b = pd.Index([3, 4, 5, 6])
index_a.append(index_b)   # 将额外的索引对象粘贴到原索引后，产生一个新的索引

Int64Index([1, 2, 3, 4, 3, 4, 5, 6], dtype='int64')

In [14]:
index_a.difference(index_b)   # 计算两个索引的差集

Int64Index([1, 2], dtype='int64')

In [15]:
index_a.intersection(index_b)   # 计算两个索引的交集

Int64Index([3, 4], dtype='int64')

In [16]:
index_a.union(index_b)     # 计算两个索引的并集

Int64Index([1, 2, 3, 4, 5, 6], dtype='int64')

In [17]:
index_a.isin(index_b)       # 计算表示每一个值是否在传值容器

array([False, False,  True,  True])

In [18]:
index_a.is_unique      # 如果索引列唯一则返回True

True

In [19]:
index_b.unique        # 计算索引列的唯一值序列

<bound method Index.unique of Int64Index([3, 4, 5, 6], dtype='int64')>

### 通过字典创建Series

In [20]:
scores = {'leon': 92, 'sandy': 78, 'faye': 96, 'tom': 88}
names = ['leon', 'faye', 'sandy', 'joe']
obj2 = Series(scores)    # 不指定索引
obj3 = Series(scores, index=names)    # 指定索引，在字典中不存在的键的值为NaN
print(obj2)
print('-------------')
print(obj3)

leon     92
sandy    78
faye     96
tom      88
dtype: int64
-------------
leon     92.0
faye     96.0
sandy    78.0
joe       NaN
dtype: float64


In [21]:
obj3.isnull()

leon     False
faye     False
sandy    False
joe       True
dtype: bool

在数学操作中，自动对齐索引是Series的一个非常有用的特性:

In [22]:
obj2 + obj3

faye     192.0
joe        NaN
leon     184.0
sandy    156.0
tom        NaN
dtype: float64

Series对象自身和其索引都有name属性:

In [23]:
obj2.name = 'scores'
obj2.index.name = 'names'
obj2

names
leon     92
sandy    78
faye     96
tom      88
Name: scores, dtype: int64

### 唯一值、计数和成员属性

In [24]:
obj = Series(list('cadaabbcc'))
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [25]:
obj.value_counts()           # 默认降序排列, 等价于pd.value_counts(obj, sort=False)

a    3
c    3
b    2
d    1
dtype: int64

In [26]:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [27]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object