# Series 基础

- 对象可以用来表示一维数据结构，跟数组非常类似，但是多了一些额外的功能。
- Series 的内部结构包含了两个数组，其中一个用来保存数据，另一个用来保存数据的索引。


In [1]:
import numpy as np
import pandas as pd

## 创建


### 通过列表


In [2]:
ser_by_array = pd.Series(data=[320, 180, 300, 405], index=["一季度", "二季度", "三季度", "四季度"])
ser_by_array

一季度    320
二季度    180
三季度    300
四季度    405
dtype: int64

### 通过字典


In [3]:
ser_by_dict = pd.Series({"一季度": 320, "二季度": 180, "三季度": 300, "四季度": 405})
ser_by_dict

一季度    320
二季度    180
三季度    300
四季度    405
dtype: int64

## 访问


### 整数索引


In [4]:
ser_by_dict.iloc[0]

320

In [5]:
ser_by_dict.iloc[2]

300

In [6]:
print(ser_by_dict.iloc[-1])

405


In [7]:
ser_by_dict.iloc[0], ser_by_dict.iloc[-1] = 350, 360
ser_by_dict

一季度    350
二季度    180
三季度    300
四季度    360
dtype: int64

### 自定义标签索引


In [8]:
ser_by_dict["一季度"]

350

In [9]:
ser_by_dict["三季度"]

300

In [10]:
ser_by_dict["二季度":"四季度"]

二季度    180
三季度    300
四季度    360
dtype: int64

### 切片


In [11]:
ser_by_dict[1:3]

二季度    180
三季度    300
dtype: int64

### 花式索引 Fancy index


In [12]:
ser_by_dict[["二季度", "四季度"]]

二季度    180
四季度    360
dtype: int64

## 计算


In [13]:
# boolean 索引
ser_by_dict[ser_by_dict >= 500]

Series([], dtype: int64)

In [14]:
# 求和
ser_by_dict.sum()

1190

In [15]:
# 求均值
ser_by_dict.mean()

297.5

In [16]:
# 求最大
ser_by_dict.max()

360

In [17]:
# 求最小
ser_by_dict.min()

180

In [18]:
# 计数
ser_by_dict.count()

4

In [19]:
# 求标准差
ser_by_dict.std()

82.61355820929153

In [20]:
# 求方差
ser_by_dict.var()

6825.0

In [21]:
# 中位数
ser_by_dict.median()

325.0

In [22]:
# 获取上述所有方法的信息
ser_by_dict.describe()

count      4.000000
mean     297.500000
std       82.613558
min      180.000000
25%      270.000000
50%      325.000000
75%      352.500000
max      360.000000
dtype: float64

## 去重


In [23]:
ser3 = pd.Series(
    data=["apple", "banana", "apple", "pitaya", "apple", "pitaya", "durian"]
)
# 统计重复的次数
ser3.value_counts()

apple     3
pitaya    2
banana    1
durian    1
Name: count, dtype: int64

In [24]:
# 去重展示
ser3.unique()

array(['apple', 'banana', 'pitaya', 'durian'], dtype=object)

In [25]:
# 找出重复项
ser3.duplicated()

0    False
1    False
2     True
3    False
4     True
5     True
6    False
dtype: bool

In [26]:
ser3.drop_duplicates()

0     apple
1    banana
3    pitaya
6    durian
dtype: object

## 判空/填充


In [27]:
ser4 = pd.Series(data=[10, 20, np.NaN, 30, np.NaN])

In [28]:
ser4.isnull()

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [29]:
ser4.notnull()

0     True
1     True
2    False
3     True
4    False
dtype: bool

### dropna()和 fillna()


In [30]:
# 删除空值
ser4.dropna()

0    10.0
1    20.0
3    30.0
dtype: float64

In [31]:
ser6 = pd.Series(data=[10, 20, np.NaN, 30, np.NaN])
ser6

0    10.0
1    20.0
2     NaN
3    30.0
4     NaN
dtype: float64

In [32]:
# inplace False(默认)不改原Series对象，返回一个新的Series对象
ser7 = ser6.fillna(value=40, inplace=False)
ser6 is ser7

False

In [33]:
# inplace True修改原Series对象,返回值是None
ser8 = ser6.fillna(value=40, inplace=True)
print(ser8)
print(ser6)

None
0    10.0
1    20.0
2    40.0
3    30.0
4    40.0
dtype: float64


## 查找/替换


In [34]:
where_test = pd.Series(range(5))
where_test

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [35]:
where_test.where(where_test > 2)

0    NaN
1    NaN
2    NaN
3    3.0
4    4.0
dtype: float64

In [36]:
# 把'不满足'条件的项替换为10
where_test.where(where_test > 2, 10)

0    10
1    10
2    10
3     3
4     4
dtype: int64

In [37]:
# 把'满足'条件的项替换为10
where_test.mask(where_test > 2, 10)

0     0
1     1
2     2
3    10
4    10
dtype: int64

## 映射/转换


In [38]:
# list映射为series
ser9 = pd.Series(["cat", "dog", np.nan, "rabbit"])
ser9

0       cat
1       dog
2       NaN
3    rabbit
dtype: object

In [47]:
# 映射到字符串中
ser9.map("I am a {}".format, na_action="ignore")

0       I am a cat
1       I am a dog
2              NaN
3    I am a rabbit
dtype: object

In [40]:
ser10 = pd.Series([20, 21, 12], index=["London", "New York", "Helsinki"])
ser10

London      20
New York    21
Helsinki    12
dtype: int64

In [41]:
# 对Series中的所有元素做平方
ser10.apply(np.square)

London      400
New York    441
Helsinki    144
dtype: int64

In [42]:
# 对Series中的所有元素做减法
ser10.apply(lambda x, value: x - value, args=(5,))

London      15
New York    16
Helsinki     7
dtype: int64

## 排序

- sort_index()/sort_values()方法用于对索引/数据的排序
- ascending 布尔类型参数,控制升序/降序
- kind 参数控制排序算法，默认 quicksort ,另有 mergesort 或 heapsort
- na_position 参数控制空值放在最前/最后，默认 last\*


In [48]:
ser11 = pd.Series(
    data=[35, 96, 12, 57, 25, 89],
    index=["grape", "banana", "pitaya", "apple", "peach", "orange"],
)
ser11.sort_values()

pitaya    12
peach     25
grape     35
apple     57
orange    89
banana    96
dtype: int64

In [44]:
ser11.sort_index(ascending=False)

pitaya    12
peach     25
orange    89
grape     35
banana    96
apple     57
dtype: int64

In [45]:
# 找出元素中最大或最小的“Top - N”,不需要进行排序
# 找出值最大的3个
ser11.nlargest(3)

banana    96
orange    89
apple     57
dtype: int64

In [46]:
ser11.nsmallest(3)

pitaya    12
peach     25
grape     35
dtype: int64