# CDA行业探索组  Lab 1

---

## 实验简介

欢迎！这是第一次workshop后两个项目的配套lab，旨在通过轻松的引导帮你掌握量化中基本的数据处理操作和算法设计。

## 第一部分：小贴士
---
### 查看文档
要查看某个函数的文档，可以
- 在VsCode中，将光标悬停在该函数上
- 使用 **`help`** 函数
- 查询官网文档。

好的文档足够严谨，覆盖足够多的使用情况。但是，文档几乎都是全英文的，通常会夹杂一些奇怪的术语，对于刚使用陌生库函数者并不友好。

In [6]:
help(print)

Help on built-in function print in module builtins:

print(...)
    print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)
    
    Prints the values to a stream, or to sys.stdout by default.
    Optional keyword arguments:
    file:  a file-like object (stream); defaults to the current sys.stdout.
    sep:   string inserted between values, default a space.
    end:   string appended after the last value, default a newline.
    flush: whether to forcibly flush the stream.



### 导入库
我们将使用一些常见的Python库来处理数据。按惯例，我们在notebook的最顶部导入所有库。以下是你在课程中可能会遇到的一些库及其常用的别名：
- `pandas`：我们很快详细介绍
- `datetime`：时间序列处理中不可或缺
- `math`：Python自带的数学计算库
- `numpy`：我们晚些详细介绍
- `typing`：不涉及量化的核心。这里引用其`Union`函数，仅仅只是因为Python低版本不支持用`|`表示函数参数多种可能的类型

In [15]:
import pandas as pd
import datetime as dt
from math import ceil
import numpy as np
from typing import Union

### **Python**

**Python** 是本系列的主要编程语言。我们推荐你们学习 **CS 61A**、**Data 8** 或等价的课程。由于时间有限，我们不会详细讲解 Python 的语法。如果以下练习让你感到有难度，请参阅以下资料：

- [Python 教程](https://docs.python.org/zh-cn/3/tutorial/index.html)：Python 官方教程
- [Composing Programs 第一章](http://composingprograms.com/pages/11-getting-started.html)：Python 编程入门



### **pandas简介**

**pandas** 是一个用于数据处理和分析的强大 Python 库。它提供了简单易用的数据结构和操作工具，特别适合处理结构化数据（如表格或时间序列）。pandas 的核心数据结构是 **Series** 和 **DataFrame**，这使得它在数据清理、变换和分析中非常有效。

- **Series**: 一维带标签的数组，类似于 Excel 中的一列。
- **DataFrame**: 二维表格数据，具有行和列，类似于 Excel 表格。

pandas 还具备处理丢失数据、支持强大的分组和合并操作、时间序列功能等特性。它能够从多种数据源中读取数据，例如 CSV、Excel等。

- [pandas 官方文档](https://pandas.pydata.org/docs/)：pandas 文档与教程。


In [8]:
s = pd.Series(["welcome", "to", "CDA"]) 
# 输出为一维的（不考虑左边的index标签），类似于excel的一列
s

0    welcome
1         to
2        CDA
dtype: object

In [9]:
df_list = pd.DataFrame([[1, "one"], [2, "two"]], columns = ["Number", "Description"])
# DataFrame是二维的，有了DateFrame我们就可以做类似excel的操作了
df_list

Unnamed: 0,Number,Description
0,1,one
1,2,two


在很多课程和比赛中，数据通常以 CSV（逗号分隔值）文件格式存储（大家可以点开左边的csv问价看看）。我们可以通过将数据路径作为参数传递给以下函数，将 CSV 文件导入到 **pandas** 的 **DataFrame** 中：


### **pandas库中的读取数据函数**

`pandas` 库是一个强大的数据分析工具，其中 `read_csv` 函数用于读取 CSV 文件并将其转换为 `DataFrame` 对象，其中 `read_excel` 函数用于读取 Excel 文件并将其转换为 `DataFrame` 对象。 有了 `DataFrame` 对象，你可以轻松地加载数据，进行分析和处理。

### 使用示例

以下是一个使用 `read_csv` 函数的示例，读取一个名为 `000300.SH_1min.csv` 的 CSV 文件并将其存储为 `DataFrame` 对象。请尝试修改文件名，并加载你自己的 CSV 文件。
有关 `read_csv` 函数的更多信息，请访问 [pandas read_csv Documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)。


从 000300.SH_1min.csv 中加载分钟级股票数据。


In [11]:
minute_data = pd.read_csv('000300.SH_1min.csv', index_col=0)
# index_col = 0 表示将第一列作为索引，本文件中第一列是时间，是良好的索引
minute_data.head() 

Unnamed: 0_level_0,stkcd,open,high,low,close,amt,vol,change,pct_change
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2023-12-01 09:30:00,000300.SH,3494.223,3494.223,3489.802,3489.802,3781209000.0,2438419.0,-6.4,-0.001831
2023-12-01 09:31:00,000300.SH,3490.11,3490.11,3486.528,3486.742,2109907000.0,1284972.0,-3.06,-0.000877
2023-12-01 09:32:00,000300.SH,3486.547,3486.687,3483.136,3483.137,1914009000.0,1264113.0,-3.61,-0.001034
2023-12-01 09:33:00,000300.SH,3483.012,3483.012,3479.707,3480.291,2020878000.0,1278262.0,-2.85,-0.000817
2023-12-01 09:34:00,000300.SH,3480.582,3480.582,3478.625,3479.675,1751711000.0,983094.0,-0.62,-0.000177


## 第二部分：验证沪深300在2024年9月27日和2024年9月30日的数值之比
---

### 问题1：数据准备
任务：用 pd.read_excel 读取左边的 000300_weight_20240927.xlsx 和 000300_weight_20241003.xlsx 的 Excel 表格。这是沪深300在2024年9月27日和10月3日成分股权重。

In [8]:
d0927 = 'TODO'
d0930 = 'TODO'
# NOTE: 建议用 pd.DataFrame.describe(), pd.DataFrame.info() 来查看数据的基本信息
# 并且用 pd.DataFrame.head() 来查看数据的前几行

<details>
<summary>点击展开查看答案</summary>

```python
d0927 = pd.read_excel('000300_weight_20240927.xlsx', index_col=0)
d0930 = pd.read_excel('000300_weight_20241003.xlsx', index_col=0)
```
</details>


这里我们略过了数据清洗步骤。数据来自于Wind，相对整洁。
但是实际研究中数据清洗很有可能是很花费精力的步骤——尤其是你面对生成规则未知的数据时——每一次看似成功的清洗以后都会出现全新的错误。

有一条简单的建议：
- 在读取数据并查看其基本信息后，用`pd.DataFrame.unique()`, `pd.DataFrame.value_counts()`方法查看数据的取值

### 问题2：数据处理
**任务1**——完成分级靠档函数 

**任务2**——完成 `pandas` 的矢量运算

我们先实现分级靠档的`rank` 函数。根据PPT中沪深300分级靠档表填充`rank`函数。

In [28]:
# TODO: 你可能会用到 round()和ceil()两个函数，假设你并不知道它们的用法，怎么快速了解？

In [16]:
def rank(r: Union[float, np.float64]) -> np.float64:
    '''
    分级靠档
    '''
    if r <= 0.15:
        return 'TODO'
    if r >= 0.8:
        return 'TODO'
    return 'TODO'

<details>
<summary>点击展开查看答案</summary>

```python
def rank(r: Union[float, np.float64]) -> np.float64:
    if r <= 0.15:
        return round(r, 2)  # 保留两位小数
    if r >= 0.8:
        return 1  # 最高档次       
    return ceil(r * 10) / 10  # 其他情况，向上取整到最近的0.1
```

### 解释

- **`def rank(r: Union[float, np.float64])`**：
  - `def` 是定义函数的关键字。
  - `rank` 是函数的名称。
  - `r` 是函数的参数。
  - `: Union[float, np.float64]` 指定参数 `r` 的类型可以是 Python 的 `float` 或 `numpy` 的 `np.float64` 类型。

- **`-> np.float64`**：
  - 这是返回值的类型注释，表示该函数的返回值将是 `numpy` 的 `np.float64` 类型。
</details>


接下来我们补充一下矢量化计算（在本Project中体现为整列运算）

首先介绍一下如何计算沪深300指数：
- 先计算成分股的自由流通股比例：自由流通比例 = 样本总股本 / 自由流通量
- 再计算分级靠档：根据自由流通比例，按照分级靠档表设定加权比例
- 随后计算调整的股本数：调整股本数 = 样本总股本 × 加权比例
- 最后就得到调整的市值数：调整市值 = ∑ (证券价格 × 调整股本数) 
- 但是此时我们的市值还是一列，所以我们把它们相加
- 参照指数的运算公式：报告期指数 = 调整市值 × 1000 / 除数，我们只需要用调整后的市值相除就能得到指数的比值了！
​

具体什么是“除数”并不重要。在量化研究中，我们一般关心指数的涨跌幅，而不是绝对数值，所以这个Project仅仅只是引导你验证指数的比值。你可以在[中证指数官网](https://csi-web-dev.oss-cn-shanghai-finance-1-pub.aliyuncs.com/static/html/csindex/public/uploads/indices/detail/files/zh_CN/000300_Index_Methodology_cn.pdf)找到沪深300指数的编制方案，并详细了解什么是除数。


**任务：补全以下代码**

In [None]:
# TODO: 这里为你留空了一个代码块，你需要通过之前提到过的一些方法查看成分股原始数据的信息，然后决定使用哪些数据。

In [None]:
def process(df: pd.DataFrame) -> pd.DataFrame:
    #先计算自由流通比例
    df['free_ratio'] = 'TODO'
    #根据自由流通比例分级靠档得到权重
    df['w_ratio'] = df['free_ratio'].apply(rank)
    #根据权重，我们对股本和市值调整
    df['adj_stk_cap'] = 'TODO'
    df['adj_mkt_cap'] = df['adj_stk_cap'] * 'TODO'
    return df
d0927 = process(d0927)
d0930 = process(d0930)
#这样我们就得到了2024年9月27日和2024年10月3日的调整后市值总和
idx0927 = d0927['adj_mkt_cap'].sum() 
idx0930 = d0930['adj_mkt_cap'].sum()

print(idx0927/idx0930) #比较这两天的表现

<details>
<summary>点击展开查看答案</summary>

```python
def process(df: pd.DataFrame) -> pd.DataFrame:
    df['free_ratio'] = df['自由流通股本(亿)'] / df['总股本(亿)']
    df['w_ratio'] = df['free_ratio'].apply(rank)
    df['adj_stk_cap'] = df['总股本(亿)'] * df['w_ratio']
    df['adj_mkt_cap'] = df['adj_stk_cap'] * df['收盘价(原始币种)']
    return df
```
</details> 


## 第三部分：寻找沪深300收盘价史上最大回撤
---
### 问题1：数据准备
该excel表格存储了沪深300的收盘价：

In [17]:
price = pd.read_excel('000300.SH.xlsx') 

### **问题2：数据清洗**
 
**任务：删除price收盘价里面的缺失值**

#### 2.1 查看缺失值数量

在实际情境下，如果缺失值少，我们一般选择填充；缺失值多，我们可以考虑删除。本次lab为了帮助大家快速入门，选择了删除缺失值这一种最简单的方法.

In [20]:
close=price['收盘价'].copy() #先提取price的收盘价
close.isnull().sum()

np.int64(2)

可见，close缺失了2个数据类型为int64的值.
#### 2.2 处理缺失值
这里的处理方法为删除，采用了`dropna`函数.

在 `pandas` 中，`inplace=True` 是一个参数，用来控制操作是否直接在原数据框上执行。
- **inplace=True**：表示操作会在原数据框上进行修改，且不会返回修改后的新对象。
- **inplace=False**（默认）：表示操作不会改变原数据框，而是返回一个修改后的新对象。

In [21]:
close.dropna(inplace=True)

**任务：用inplace=False的默认情况改写**

In [None]:
close='TODO'

<details>
<summary>点击展开查看答案</summary>

```python
close=close.dropna(inplace=False)
```
</details>

- `close.shape` 返回一个元组，包含数据框的行数和列数。
- `close.shape[0]` 提取的是行数，即有效收盘价的数量，赋值给变量 `n`。

In [23]:
close.shape
n=close.shape[0]
n

5518

思考：n此时代表什么呢？

<details>
<summary>点击展开查看答案</summary>
收盘价的条数

</details>


在下面代码中，`drawdown = np.zeros(n)` 用于创建一个长度为 `n` 的数组，初始值全为零。这样可以为后续计算回撤（drawdown）准备一个存储空间。

### 解释：
- `np.zeros(n)` 创建一个包含 `n` 个元素的数组，所有元素均为 `0.0`。
- 这个数组可以用来存储每一天的回撤值，方便后续的数据分析和可视化


In [24]:
drawdown = np.zeros(n)
drawdown

array([0., 0., 0., ..., 0., 0., 0.])

### **问题3：数据处理**
我们有了清洗后的收盘价，接下来就需要计算最大回撤了。我们的直观想法可能是……暴力遍历！

In [25]:
daymax, daymin = 0, 0

for i in range(n):
    high = 0  # 重置每一天的最大值
    for j in range(i + 1):  # 从第 0 天到第 i 天寻找最大值
        high = max(high, close[j])
    drawdown[i] = (high - close[i]) / high

drawdown.max()

np.float64(0.7230381814469474)

上述的算法复杂度很高，由于有两个循环，所以跑了很长时间！你有什么优化的头绪吗？这里给出了一个经典的方法：

记收盘价数列为$\{c_n\}$，从第$k$天的视角来看，收盘价的最大值（峰顶）$h_k$是
$$
h_k = \max{\{c_1, c_2, \ldots, c_k\}}
$$
刚才的暴力算法，对于每一个$k$都要遍历以下前$k$天所有的收盘价数据才能找到最大值。事实上这毫无必要。我们可以利用最大值的**递推**性质：
$$
h_k = \max \{h_{k-1}, c_k\}
$$
如果我们存储了前$k-1$天的最大值，那么我们很快就能计算$h_k$。实际上，这就是最简单的**动态规划**算法。动态规划（Dynamic Programming）是一种将复杂问题分解为更简单的子问题的算法设计方法。它通过存储子问题的解来避免重复计算，从而提高效率。动态规划通常适用于具有重叠子问题和最优子结构性质的问题。
在本案例中，计算前$k$天的最大值的子问题就是计算前$k-1$天的最大值。这一子问题具有**递归**性质。

如果本次任务未能完成，也请不要气馁。本题的目的在于让同学们了解这种方法，并鼓励大家前往 LeetCode 网站进行练习——毕竟量化求职的面试必定会涉及算法题，而动态规划的算法题是其中最难的类型之一。后续我们还会介绍一种不使用循环的机制，这种机制用于在实际业务中处理大量数据。

**任务：利用动态规划的方式完成下面的算法。**

In [29]:
# %%time是一个魔法命令，用于计算代码运行时间
%%time
daymax, daymin = 0, 0
high = close[0]
for i in range(1, n):
    # TODO

drawdown.max()

CPU times: user 20.8 ms, sys: 415 µs, total: 21.3 ms
Wall time: 22.2 ms


np.float64(0.7230381814469474)

<details>
<summary>点击展开查看答案</summary>

```python

    high = max(high, close[i])
    drawdown[i] = (high - close[i]) / high
```
</details>


### 拓展：NumPy 的效率优势

在数据处理和数值计算中，使用 `for` 循环往往会导致时间复杂度的增加，特别是在处理大型数据集时。NumPy 库提供了并行运算和广播机制，能够显著提高计算效率。

#### 1. 并行运算

NumPy 使用底层的 C 和 Fortran 代码，能够充分利用现代计算机的多核处理能力。通过在数组操作中进行并行计算，NumPy 可以减少计算时间。

#### 2. 广播机制

广播是一种在不同形状的数组之间进行操作的方式。NumPy 可以自动扩展较小的数组，以便它们能够与较大的数组进行元素级运算，而无需显式的循环。这不仅简化了代码，还能显著提高性能。

In [30]:
%%time
high = np.maximum.accumulate(close)  # 计算累计最大值 
drawdown = (high - close) / high   ##无需循环
drawdown.max()

CPU times: user 1.14 ms, sys: 407 µs, total: 1.55 ms
Wall time: 1.46 ms


np.float64(0.7230381814469474)

In [31]:
# 计算最大回撤和对应日期
max_drawdown = max(drawdown)  # 最大回撤
daymin = price['日期'][np.argmax(drawdown)]  # 最大回撤发生的日期
daymax = price['日期'][np.argmax(close[:np.argmax(drawdown)])]  # 最大回撤前的最高点日期

# 输出结果
print(max_drawdown, daymin, daymax)

0.7230381814469474 2008-11-04 00:00:00 2007-10-16 00:00:00


## 第四部分
---
欢迎您反馈建议到邮箱：wangyv123@sjtu.edu.cn


借鉴到的工作：

--*UCB data100的note，lab设计*

--*Stanford CS231n的lab设计*

--*Kaggle处理数据的一些课程*

--*中证指数关于沪深300的介绍*

可能要改进的方向：

--*采用data100的otter设计lab*

--*进一步强化lab的连贯性，把真实的流程完全呈现出来*

--*引入git等现代化工具，让工作流程完全记录下来并且可以随时返回*



鸣谢：ZincWolf (Zincwolf@outlook.com)、CDA行业探索组