# 这是pandas中Series的学习笔记

In [20]:
import numpy as np
import pandas as pd

In [4]:
s = pd.Series([1, 2, 3, 4, 5, 6])
print('注意打印的数据，左边是索引，右边是实际值\n', s)
# 自定义索引index
print('索引是可以自定义的')
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s)
# 定义name
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'], name='月份')
print(s)

注意打印的数据，左边是索引，右边是实际值
 0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
索引是可以自定义的
a    1
b    2
c    3
d    4
e    5
dtype: int64
a    1
b    2
c    3
d    4
e    5
Name: 月份, dtype: int64


In [5]:
# 通过字典创建
s = pd.Series({"a": 1, "b": 2, "c": 3, "d": 4, "e": 5})
print(s)

s1 = pd.Series(s, index=['a', 'c'])
print(s1)

a    1
b    2
c    3
d    4
e    5
dtype: int64
a    1
c    3
dtype: int64


"### Series常见属性
- Series只是一维的

| 属性 / 方法 | 说明 |
|-------------|------|
| index | Series 的索引对象 |
| values | Series 的值（数组形式） |
| dtype / dtypes | Series 的元素数据类型 |
| shape | Series 的形状 |
| ndim | Series 的维度 |
| size | Series 的元素个数 |
| name | Series 的名称 |
| loc[] | 显式索引：按标签索引或切片 |
| iloc[] | 隐式索引：按位置索引或切片 |
| at[] | 使用标签访问单个元素 |
| iat[] | 使用位置访问单个元素 |

In [14]:
# Series属性
s = pd.Series([1, 2, 3, 4, 5, 6, 7], index=['a', 'b', 'c', 'd', 'e', 'f', 'g'], name='尚硅谷')
print('索引', s.index)
print('数值', s.values)
print('形状', s.shape)
print('维度', s.ndim)
print('名称', s.name)
print('数据类型', s.dtype)

# 和索引相关
print('显式索引', s.loc['a'])
print('显式索引,支持切片\n', s.loc['a':'c'])
print('隐式索引', s.iloc[0])

print('直接获取单个的数值(显式)，不支持切片', s.at['a'])
print('直接获取单个的数值(隐式)', s.iat[0])


索引 Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object')
数值 [1 2 3 4 5 6 7]
形状 (7,)
维度 1
名称 尚硅谷
数据类型 int64
显式索引 1
显式索引,支持切片
 a    1
b    2
c    3
Name: 尚硅谷, dtype: int64
隐式索引 1
直接获取单个的数值(显式)，不支持切片 1
直接获取单个的数值(隐式) 1


### 访问数据的方式

| 函数 | 说明 |
|------|------|
| `head(n)` | 查看前 n 行数据，默认 5 行 |
| `tail(n)` | 查看后 n 行数据，默认 5 行 |
| `max()` | 最大值 |
| `min()` | 最小值 |
| `sum()` | 求和，自动忽略缺失值 |
| `mean()` | 平均值 |
| `median()` | 中位数 |
| `mode()` | 众数（可返回多个） |
| `var()` | 方差 |
| `std()` | 标准差 |
| `quantile(q)` | 分位数，q 取 0~1 之间 |
| `isin()` | 判断元素是否包含在参数集合中 |
| `isna()` | 判断是否为缺失值（如 NaN 或 None） |
| `describe()` | 常见统计信息（count、mean、std、min、25%、50%、75%、max） |
| `value_counts()` | 每个唯一值的出现次数 |
| `count()` | 非缺失值数量 |
| `nunique()` | 唯一值个数（去重） |
| `unique()` | 获取去重后的值数组 |
| `drop_duplicates()` | 去除重复项 |
| `sample()` | 随机抽样 |
| `sort_index()` | 按索引排序 |
| `sort_values()` | 按值排序 |
| `replace()` | 替换值 |
| `keys()` | 返回 Series 的索引对象 |

In [17]:
# 直接访问数据的方式
print(s['a'])
print(s[s < 3])  # 用布尔索引值进行访问
print(s.head())  # 默认展示前5行，可以设置参数选择展示几个数
print(s.tail(2))  # 默认展示后5行，可以设置参数选择展示几个数

1
a    1
b    2
Name: 尚硅谷, dtype: int64
a    1
b    2
c    3
d    4
e    5
Name: 尚硅谷, dtype: int64
f    6
g    7
Name: 尚硅谷, dtype: int64


### Notes: 注意在pandas中缺失值的统一处理为**NaN**

In [24]:
# 常见函数设置
s = pd.Series([10, 2, np.nan, None, 3, 4, 5], index=['A', 'B', 'C', 'D', 'E', 'F', 'G'], name='尚硅谷')
print(s)

A    10.0
B     2.0
C     NaN
D     NaN
E     3.0
F     4.0
G     5.0
Name: 尚硅谷, dtype: float64


In [26]:
s.head(3)
s.tail(2)

F    4.0
G    5.0
Name: 尚硅谷, dtype: float64

In [29]:
# 查看所有的描述性信息
# 25%,50%,75% 代表的是分位数
s.describe()

count     5.000000
mean      4.800000
std       3.114482
min       2.000000
25%       3.000000
50%       4.000000
75%       5.000000
max      10.000000
Name: 尚硅谷, dtype: float64

In [38]:
# 获取元素个数
print('获取元素个数，是忽略缺失值的', s.count())
# 获取索引对象
print(s.keys())  # 方法
print(s.index)  # 属性
# 判断是否是缺失值
print(s.isna())
# 是否在参数集合中
print('是否参数在集合中？', s.isin([4, 5]))  # 可以检查每个元素是否在参数集合中

获取元素个数，是忽略缺失值的 5
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
A    False
B    False
C     True
D     True
E    False
F    False
G    False
Name: 尚硅谷, dtype: bool
是否参数在集合中？ A    False
B    False
C    False
D    False
E    False
F     True
G     True
Name: 尚硅谷, dtype: bool


In [39]:
# 常见的统计函数
print(s.mean())
print(s.std())
print(s.sum())
print(s.var())
print(s.min())
print(s.max())
print(s.median())  # 去掉缺失值然后在取中位数

4.8
3.1144823004794877
24.0
9.700000000000001
2.0
10.0
4.0


In [43]:
# 排序函数
s.sort_values()
# 分位数，给0.25,0.5等任意数据进行分位
s.quantile(0.25)

np.float64(3.0)

In [52]:
# 众数
print('众数是：', s.mode())
# 计算出现数据的频次
print('数据出现的频次', s.value_counts())
# 数据去重处理
print('去重操作', s.drop_duplicates())
print('去重操作后返回数组', s.unique())
print('去重操作后的元素个数', s.nunique())


众数是： 0     2.0
1     3.0
2     4.0
3     5.0
4    10.0
Name: 尚硅谷, dtype: float64
数据出现的频次 尚硅谷
10.0    1
2.0     1
3.0     1
4.0     1
5.0     1
Name: count, dtype: int64
去重操作 A    10.0
B     2.0
C     NaN
E     3.0
F     4.0
G     5.0
Name: 尚硅谷, dtype: float64
去重操作后返回数组 [10.  2. nan  3.  4.  5.]
去重操作后的元素个数 5


In [53]:
# 排序函数
print('按照数值排序', s.values)
print('按照索引排序', s.index)

按照数值排序 [10.  2. nan nan  3.  4.  5.]
按照索引排序 Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
