In [2]:
import pandas as pd

## 创建Series
1. 通过传入列表创建Series
2. 通过传入字典创建Series，指定index
3. 通过传入字典创建Series，指定index，没有的index对应值为NaN

In [2]:
# 创建Series方法1：传入数据，index默认为数字

s1 = pd.Series([5,6,45,48,61,4,64])
s1

0     5
1     6
2    45
3    48
4    61
5     4
6    64
dtype: int64

In [4]:
# 创建Series方法2：传入数据，指定index为可迭代对象

s2 = pd.Series([5,6,45,48,61,4,64], index=list("abcdefg"))
s2

a     5
b     6
c    45
d    48
e    61
f     4
g    64
dtype: int64

In [5]:
# 创建Series方法3：传入字典，key为index，value为值

s3 = pd.Series({'name': 'xiaohong', 'age': 15, 'tel': 10086})
s3

name    xiaohong
age           15
tel        10086
dtype: object

In [7]:
# 创建Series方法4：传入字典，指定index取交，没有的index对应值为NaN
# NaN类型为float

s4 = pd.Series({'name': 'xiaohong', 'age': 15, 'tel': 10086}, index=['name', 'age', 'sex'])
s4

name    xiaohong
age           15
sex          NaN
dtype: object

## Series的切片与索引
1. `s1[0:5:2]`：切片使用方法与列表一致，左闭右开
2. `s3[[0,1,2]]`：索引，使用数字序号列表
3. `s3[['name', 'tel']]`：索引，使用index列表

In [4]:
# 切片使用方法与列表一致，左闭右开
s1[0:5:2]

0     5
2    45
4    61
dtype: int64

In [10]:
# 索引，使用数字序号列表
s3[[0,1,2]]

  s3[[0,1,2]]


name    xiaohong
age           15
tel        10086
dtype: object

In [11]:
# 索引，使用index列表
s3[['name', 'tel']]

name    xiaohong
tel        10086
dtype: object

## Series的逻辑索引
1. `s1>10`：逻辑表达式，返回一个布尔值的Series
2. `s1[s1>10]`：索引，使用逻辑表达式

In [13]:
# 索引，使用逻辑表达式
# 本质上内层s1>10得到的结果是一个7个布尔值的列表，满足的位置为True，不满足为False
# 所以这种写法等价于
# s1[False, False, True, True, True, False, True]

s1[s1>10]

2    45
3    48
4    61
6    64
dtype: int64

In [14]:
s1>10

0    False
1    False
2     True
3     True
4     True
5    False
6     True
dtype: bool

## Series 的基本属性

1. `s1.index`：返回index
2. `s1.values`：返回values
3. `s1.dtype`：返回数据类型

In [15]:
print(s2.index)
print(s2.values)
print(s2.dtype)
print(type(s2.index))
print(type(s2.values))

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object')
[ 5  6 45 48 61  4 64]
int64
<class 'pandas.core.indexes.base.Index'>
<class 'numpy.ndarray'>


## Series 的基本操作

1. `s1.unique()`：返回唯一值
2. `s1.nunique()`：返回唯一值的个数
3. `s1.value_counts()`：返回每个值出现的次数
4. `s1.fillna()`：填充缺失值
5. `s1.dropna()`：删除缺失值
6. `s1.isnull()`：判断是否为缺失值
7. `s1.notnull()`：判断是否不为缺失值
8. `s1.isin([5,6])`：判断是否在给定的列表中
9. `s1.sort_values()`：排序
10. `s1.sort_index()`：按index排序

# 数学运算
1. `s1.idxmax()`：返回最大值的index
2. `s1.idxmin()`：返回最小值的index
3. `s1.describe()`：返回描述性统计
4. `s1.mean()`：均值
5. `s1.median()`：中位数
6. `s1.sum()`：求和
7. `s1.cumsum()`：累加
8. `s1.diff()`：差分
9. `s1.pct_change()`：百分比变化

# 自定义函数
1. `s1.apply()`：自定义函数
2. `s1.map()`：映射

In [8]:
# 返回唯一值
s5 = pd.Series([1,2,3,4,5,1,2,3,4,5,1,2,3,4,5])
s5.unique()

array([1, 2, 3, 4, 5])

In [9]:
# 返回唯一值的个数
s5.nunique()

5

In [10]:
# 返回每个值出现的次数
s5.value_counts()

1    3
2    3
3    3
4    3
5    3
Name: count, dtype: int64

In [11]:
# 判断是否在给定的列表中
s5.isin([5,6])

0     False
1     False
2     False
3     False
4      True
5     False
6     False
7     False
8     False
9      True
10    False
11    False
12    False
13    False
14     True
dtype: bool

## Series 根据逻辑判断进行掩码

1. `s1.where(s1>10)`：只显示符合逻辑的部分，其他部位默认设为NaN
2. `s1.where(s1>10, 10)`：设置其他内容为特定值
3. `s1.mask(s1>10)`：遮盖掉符合逻辑的部分
4. `s1.mask(s1>10, 10)`：mask 设置遮盖内容为特定值

In [16]:
# where 只显示符合逻辑的部分，其他部位默认设为NaN
s1.where(s1>10)

0     NaN
1     NaN
2    45.0
3    48.0
4    61.0
5     NaN
6    64.0
dtype: float64

In [17]:
# where 设置其他内容为特定值
s1.where(s1>10, 10)

0    10
1    10
2    45
3    48
4    61
5    10
6    64
dtype: int64

In [21]:
# mask 遮盖掉符合逻辑的部分
s1.mask(s1>10)

0    5.0
1    6.0
2    NaN
3    NaN
4    NaN
5    4.0
6    NaN
dtype: float64

In [22]:
# mask 设置遮盖内容为特定值
s1.mask(s1>10, 10)

0     5
1     6
2    10
3    10
4    10
5     4
6    10
dtype: int64

## Series.str 字符串处理

1. cat：使用指定的间隔符连接每个元素
2. contains：判断是否包含某个字符串
3. count：统计某个字符串出现的次数
4. endswith, startswith：判断是否以某个字符串结尾或开头
5. findall：找到所有匹配的字符串
6. get：获取索引位置的字符串
7. join：元素如果为列表，将列表中的元素用指定的字符串连接
8. len：字符串长度
9. lower, upper：大小写转换
10. match：判断是否匹配正则表达式
11. pad：字符串左右填充
12. center：字符串居中
13. repeat：重复
14. replace：替换
15. slice：对每个元素进行切片
16. split：分割
17. strip, rstrip, lstrip：去除空格

## 按位取反`~`符号
[0, 1, 0, 1, 0, 1]按位取反后为[1, 0, 1, 0, 1, 0]

In [6]:
s6 = pd.Series(list("ABCBDEF"))
s6.str.startswith("B")

0    False
1     True
2    False
3     True
4    False
5    False
6    False
dtype: bool

In [7]:
~s6.str.startswith("B")

0     True
1    False
2     True
3    False
4     True
5     True
6     True
dtype: bool

In [8]:
s6[~s6.str.startswith("B")]

0    A
2    C
4    D
5    E
6    F
dtype: object

## Series.tolist()：将Series转换为列表

In [6]:
# 将Series转换为列表
s1.tolist()

[5, 6, 45, 48, 61, 4, 64]