In [3]:
from pandas import Series,DataFrame
import pandas as pd
import numpy as np

#pandas中主要有两种数据结构：分别是：series和DataFrame

# 一维数据结构：Series

`Series` 是一维带标记的数组结构，可以存储任意类型的数据（整数，浮点数，字符串，`Python` 对象等等）。

作为一维结构，它的索引叫做 `index`，基本调用方法为

    s = pd.Series(data, index=index)
    
其中，`data` 可以是以下结构：

- 字典
- `ndarray`
- 标量，例如 `5`

`index` 是一维坐标轴的索引列表。

In [4]:
arr = np.array([1,2,3,np.NaN,10])
arr

array([  1.,   2.,   3.,  nan,  10.])

In [5]:
series01=Series(arr)
series01

0     1.0
1     2.0
2     3.0
3     NaN
4    10.0
dtype: float64

In [6]:
ser01 = pd.Series(np.array([1,2,3,4]))
ser01

0    1
1    2
2    3
3    4
dtype: int32

In [7]:
print(ser01.dtype)

int32


In [8]:
print(ser01.index)

RangeIndex(start=0, stop=4, step=1)


In [9]:
print(ser01.values)

[1 2 3 4]


In [10]:
print(ser01.keys)

<bound method Series.keys of 0    1
1    2
2    3
3    4
dtype: int32>


In [11]:
#设置索引
ser01.index=['a','b','c','d']

In [12]:
ser01

a    1
b    2
c    3
d    4
dtype: int32

从ndarray构建

如果data是个ndarray，那么index的长度必须跟data一致：

In [15]:
ser01 = pd.Series(np.random.randn(5),index=['a','b','c','d','e'])
ser01

a    0.035540
b    0.430822
c   -0.051002
d   -0.011986
e    0.531916
dtype: float64

In [18]:
ser01.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

如果 index 为空，那么 index 会使用 [0, ..., len(data) - 1]：

In [19]:
pd.Series(np.random.randn(5))

0   -0.381159
1    0.481795
2    0.404621
3    0.429711
4   -0.391706
dtype: float64

# 通过字典的方式创建

如果 data 是个 dict，如果不给定 index，那么 index 将使用 dict 的 key 排序之后的结果：

In [20]:
d = {'a':0.,'b':1.,'c':2.}
pd.Series(d)

a    0.0
b    1.0
c    2.0
dtype: float64

如果给定了 index，那么将会按照 index 给定的值作为 key 从字典中读取相应的 value，如果 key 不存在，对应的值为 NaN（not a number, Pandas 中的缺失默认值）：

In [21]:
pd.Series(d,index=['b','d','a'])

b    1.0
d    NaN
a    0.0
dtype: float64

In [26]:
ser02 = pd.Series(
{
    'a':10,
    'b':20,
    'c':30
})
ser02

a    10
b    20
c    30
dtype: int64

#获取Series

In [28]:
print(ser02['a'])
print(ser02[0])

10
10


# Series的运算

In [29]:
ser02[ser02>10]

b    20
c    30
dtype: int64

In [30]:
ser02/10
ser02+10
ser02*10

a    100
b    200
c    300
dtype: int64

# Series缺失值检测

In [47]:
ser03 = pd.Series({
    'a':10,
    'b':20,
    'c':30
})
ser04=pd.Series(ser03,index=['a','b','c','d'])
ser04

a    10.0
b    20.0
c    30.0
d     NaN
dtype: float64

In [52]:
ser04[pd.isnull(ser04)]

d   NaN
dtype: float64

In [51]:
ser04[pd.notnull(ser04)]   #过滤缺失值

a    10.0
b    20.0
c    30.0
dtype: float64

In [50]:
ser01=pd.Series([1,2,3,4],index=['a','b','c','d'])
ser02=pd.Series([10,20,30,40],index=['e','b','c','f'])
print(ser01+ser02)

a     NaN
b    22.0
c    33.0
d     NaN
e     NaN
f     NaN
dtype: float64


# series的name属性

In [53]:
ser01.name='aaa'
ser01.index.name='hello'
ser01

hello
a    1
b    2
c    3
d    4
Name: aaa, dtype: int64

In [58]:
ser01.isin(['a','f','10.0'])

hello
a    False
b    False
c    False
d    False
Name: aaa, dtype: bool

In [59]:
ser01[ser01.isin(['a','b','10.0'])]

Series([], Name: aaa, dtype: int64)