# 1. Series

## 1.1 创建

In [None]:
import pandas as pd
import numpy as np

Series创建 `pd.Series(arr)`

In [2]:
series = pd.Series([1, 3, 5,  6, 8])
series

0    1
1    3
2    5
3    6
4    8
dtype: int64

自定义索引 `pd.Series(arr,index=[...])`

In [3]:
series = pd.Series([1,3,5,6,8],index=['A','B','C','D','E'])
series

A    1
B    3
C    5
D    6
E    8
dtype: int64

定义该 Series的名字，再写一个参数 `name`

In [8]:
series = pd.Series([1,3,5,6,8],index=['A','B','C','D','E'],name='month')
series

A    1
B    3
C    5
D    6
E    8
Name: month, dtype: int64

也可通过字典来创建 Series

In [9]:
dictionary = {'a':1, 'b':2, 'c':3}
series2 = pd.Series(dictionary)
series2

a    1
b    2
c    3
dtype: int64

从一个 Series 中提取一部分

In [10]:
series3 = pd.Series(series,index=['A','C','E'])
series3

A    1
C    5
E    8
Name: month, dtype: int64

## 1.2 属性

`index`索引， `values`值， `shape`形状， `ndim`维度， `size`元素个数，`name`Series名字，`dtype`元素类型

In [22]:
print('索引',series.index)
print('值',series.values)
print('形状',series.shape)
print('维度',series.ndim)
print('元素个数',series.size)
print('名字',series.name)
print('元素类型',series.dtype)

索引 Index(['A', 'B', 'C', 'D', 'E'], dtype='object')
值 [1 3 5 6 8]
形状 (5,)
维度 1
元素个数 5
名字 month
元素类型 int64


## 1.3 索引
- 显式索引（利用自定义的索引值）`loc[]`
- 隐式索引（利用默认的0，1，2）`iloc[]`
- 查找标签在索引中的位置的方法 `get_loc()` 简单说，就是“这个标签在索引里的第几行/第几列”

In [10]:
print(series.loc['A':'C']) # 显式
print(series['B']) # 直接访问
print(series.iloc[0]) # 隐式
print(series.index.get_loc('A'))

A    1
B    3
C    5
dtype: int64
3
1
0


## 1.4 查看 Series 的头尾
括号也可填写数字
- 前五个数据 `head()`
- 末尾五个数据 `tail()`

In [10]:
series.head()
series.tail(2)

3    6
4    8
dtype: int64

## 1.5 常用统计方法

In [30]:
# 示例 Series
exam_series = pd.Series([12, 2.3, np.nan, None, 6.4, 10], index = ['A', 'B', 'C', 'D', 'E', 'F'], name = 'exam')

统计描述
|方法|说明|方法|说明|
|---|---|---|---|
|`sum()`|求和（忽略缺失值）|`median()`|中位数|
|`mean()`|平均值|`quantile(num)`|分位数（`q`取0~1之间）|
|`min()`|最小值|`mode()`|众数|
|`max()`|最大值|`count()`|非缺失值数量|
|`var()`|方差|`describe()`|常见统计信息罗列 <br/>（`count` `mean` `std` `min` `25%` `50%` `75%` `max`）|
|`std()`|标准差|

In [29]:
print(exam_series,'\n') # 输出 Series
print(exam_series.describe()) # 输出该 Series 统计描述

A    12.0
B     2.3
C     NaN
D     NaN
E     6.4
F    10.0
Name: exam, dtype: float64 

count     4.00000
mean      7.67500
std       4.26722
min       2.30000
25%       5.37500
50%       8.20000
75%      10.50000
max      12.00000
Name: exam, dtype: float64


去重与排序
|方法|说明|方法|说明|
|---|---|---|---|
|`unique()`|获得去重后的数组|`sort_index()`|按索引排序|
|`nunique()`|唯一值的个数（去重，且不包括 NaN）|`sort_values()`|按值排序|
|`value_count()`|每个唯一值的出现次数|`keys()`|返回 Series 的索引数组|
|`drop_duplicates()`|去除重复项|`replace()`|替换值|
|||`idxmax()`|返回最大值的标签|

In [None]:
print('唯一值数组：', exam_series.unique(), ' ', '唯一值个数：', exam_series.nunique())
print('每个唯一值的出现次数：', exam_series.value_counts())

唯一值数组： [12.   2.3  nan  6.4 10. ]   唯一值个数： 4
每个唯一值的出现次数： exam
12.0    1
2.3     1
6.4     1
10.0    1
Name: count, dtype: int64


In [44]:
print(exam_series.sort_index(),'\n')
print(exam_series.sort_values())

A    12.0
B     2.3
C     NaN
D     NaN
E     6.4
F    10.0
Name: exam, dtype: float64 

B     2.3
E     6.4
F    10.0
A    12.0
C     NaN
D     NaN
Name: exam, dtype: float64


判断
|方法|说明|
|---|---|
|`isin()`|判断元素是否包含在参数集合中|
|`isna()`|判断是否为缺失值（如 NaN 或 None）|

In [None]:
print(exam_series.isin([12,np.nan]),'\n')
print(exam_series.isna())

A     True
B    False
C     True
D     True
E    False
F    False
Name: exam, dtype: bool 

A    False
B    False
C     True
D     True
E    False
F    False
Name: exam, dtype: bool


- `diff()` 计算 Series 中相邻元素的变化值
- `pct_change()` 计算相邻元素百分比的变化
- `resample()` 重新采样
- `rolling()` 窗口函数
- `nlargest()` 获取最大的几个值

- `pd.date_range('2025-10-01',periods=10)` Pandas中生成日期序列的方法
- `between_time(start,end)` 切取时间区间