## pandas数据结构：Series

pandas中常用的数据结构有：`Series`和`DataFrame`。

`Series`是一种一维数组，它包含：
- `values`: 值序列，类似于`NumPy`中的`ndarray`
- `index`: 索引、数据标签，实例化的时候不传入，默认是：0 -- N-1

In [1]:
import pandas as pd
# from pandas import Series, DataFrame

### 1. Series示例

#### 1.1 使用默认的index

In [2]:
# 先实例化第一个Series
obj = pd.Series([11, 22, 33, 44, 55, 66])
obj

0    11
1    22
2    33
3    44
4    55
5    66
dtype: int64

In [3]:
# 查看值序列
obj.values

array([11, 22, 33, 44, 55, 66])

In [4]:
# 查看索引
obj.index

RangeIndex(start=0, stop=6, step=1)

In [5]:
# 修改数据
obj[2] =  333333
print(obj)

0        11
1        22
2    333333
3        44
4        55
5        66
dtype: int64


In [6]:
# 使用索引
obj[2]

333333

In [7]:
# 使用索引：传入多个索引
obj[[0,2,4]]

0        11
2    333333
4        55
dtype: int64

In [8]:
# 传入多个索引，且打乱顺序
obj[[2, 4, 0]]

2    333333
4        55
0        11
dtype: int64

#### 1.2 指定索引序列

In [9]:
obj2 = pd.Series([11, 22, 33], index=["aa", "bb", "cc"])
obj2

aa    11
bb    22
cc    33
dtype: int64

In [10]:
# 查看索引/标签
obj2.index

Index(['aa', 'bb', 'cc'], dtype='object')

In [11]:
# 使用标签来进行索引
obj2[["cc","bb"]]

cc    33
bb    22
dtype: int64

In [12]:
# 通过值判断，是否在Series中
22 in obj2

False

In [13]:
# 通过数据标签，判断某个标签是否在Series中
"bb" in obj2

True

In [14]:
"ee" in obj2

False

### 1.3 数值计算

In [15]:
obj2

aa    11
bb    22
cc    33
dtype: int64

In [16]:
obj2 * 2

aa    22
bb    44
cc    66
dtype: int64

In [17]:
obj2>=22

aa    False
bb     True
cc     True
dtype: bool

In [18]:
obj2[obj2 >= 22]

bb    22
cc    33
dtype: int64

In [19]:
obj2 + 5

aa    16
bb    27
cc    38
dtype: int64

In [20]:
obj2 - 10

aa     1
bb    12
cc    23
dtype: int64

In [21]:
# 创建一个新的obj来和obj2相乘
obj3 = pd.Series([1, 2, 3, 4], index=["aa", "bb", "cc", "dd"])
obj3

aa    1
bb    2
cc    3
dd    4
dtype: int64

In [22]:
# 在obj2中没有`dd`，相乘后`dd`是NaN
obj2 * obj3

aa    11.0
bb    44.0
cc    99.0
dd     NaN
dtype: float64

#### 1.4 通过map实例化Series

通过`Python`字典生产`pd.Series`，`key`会作为`Series`的索引，`value`作为`Series`的值。

In [23]:
data = {
    "zhangshan": 100,
    "lisi": 99,  
    "wangwu": 89,
    "wanger": 91
}
obj4 = pd.Series(data)
obj4

zhangshan    100
lisi          99
wangwu        89
wanger        91
dtype: int64

**我们也可以指定索引的顺序：**

In [24]:
obj5 = pd.Series(data, index=["wanger", "wangsan", "wangwu", "lisi"])
obj5

wanger     91.0
wangsan     NaN
wangwu     89.0
lisi       99.0
dtype: float64

> 上面中`wangsan`不在`data`中，会填充为`NaN`。
> `pandas`中使用`isnull`和`notnull`函数来检查缺失数据。

In [25]:
# 检查确实数据
pd.isnull(obj5)

wanger     False
wangsan     True
wangwu     False
lisi       False
dtype: bool

In [26]:
# notnull：选出不为NaN的为True
pd.notnull(obj5)

wanger      True
wangsan    False
wangwu      True
lisi        True
dtype: bool

In [27]:
# 过滤出是NaN的值
obj5[obj5.isnull()]

wangsan   NaN
dtype: float64

In [28]:
# 过滤出不是NaN的值
obj5[pd.notnull(obj5)]

wanger    91.0
wangwu    89.0
lisi      99.0
dtype: float64