# Python程序设计与数据处理 Class 1
Author: Cheng Hang

Date: September 7, 2025

# 准备工作
大家已经配置好了Python的开发环境，以及Git仓库的建立。我们以后每次课的代码和数据，要求大家在课后同步上传到自己的Git仓库里。



In [1]:
import pandas as pd
import numpy as np
#设置列不限制数量
pd.set_option('display.max_columns', None)
# pd.set_option('display.max_rows',None)

# 下载数据
下载上证综指000001的日度频度的数据到自己的电脑上，把该数据和你的代码文件放在同一个文件夹下面保存。

当然更好的方式，推荐大家在自己的电脑上配置数据库，例如MySql等。

需要强调：
1. 注意这里的路径，要用“/”，而不能用“\”
2. 文件路径的问题，使用绝对路径和相对路径都没有问题，但是使用**相对路径，一定要和代码在同一个文件夹下面**
3. 注意导入数据的格式，导入的代码要和数据格式保持一致
4. 数据的命名规则：
   - 使用 =
   - 第一个字符必须是英文字母、下划线或中文，其余字符可以是英文字母、数字、下划线或中文，**不能以数字开头**。
   - 区分大小写
   - 不能与关键字重名
5. 注意直接使用data和print(data)的区别
   - data 是对象本身。在脚本里单独写一行 data，什么也不会输出。
   - 在交互环境（Python REPL、IPython、Jupyter）里，单独写 data 会显示它的 repr(data)（“开发者友好”的表示）。
   - print(data) 是调用函数把 str(data) 写到标准输出（屏幕），并且返回 None。
6. Python代码中的注释，一定要和Jupyter Notebook中的Markdown结合起来使用
   - Python中使用#表示单行注释。单行注释可以作为单独的一行放在被注释代码行之上，也可以放在语句或表达式之后
   - 当单行注释作为单独的一行放在被注释代码行之上时，为了保证代码的可读性，建议在#后面添加一个空格，再添加注释内容。
   - 当注释内容过多，导致一行无法显示时，就可以使用多行注释。Python中使用三个单引号或三个双引号表示多行注释（英文输入法）。
     - 注释不是越多越好。对于一目了然的代码，不需要添加注释。
     - 对于复杂的操作，应该在操作开始前写上相应的注释。
     - 对于不是一目了然的代码，应该在代码之后添加注释。
     - 绝对不要描述代码。一般阅读代码的人都了解Python的语法，只是不知道代码要干什么。
7. 在VS code中按住Ctrl，点击函数能够看到函数的源代码
8. 使用help函数查看函数的功能、帮助等，或者在函数后面加上？

# 查看数据的编码

In [2]:
import chardet

def check_encoding(filename):
    rawdata = open(filename, 'rb').read()
    result = chardet.detect(rawdata)
    encoding = result['encoding']
    confidence = result['confidence']
    return encoding, confidence

file_path = 'datasets/000001.csv'# 添加文件路径
encoding, confidence = check_encoding(file_path)
print(f"Encoding: {encoding}, Confidence: {confidence}")

Encoding: ascii, Confidence: 1.0


In [3]:
# 本单元格是导入数据的代码
data = pd.read_csv('datasets/000001.csv') # 这一句是导入CSV文件的命令
data # 让我看看数据是什么样子

Unnamed: 0,Day,Preclose,Open,Highest,Lowest,Close
0,1990/12/19,,96.050,99.980,95.790,99.980
1,1990/12/20,99.98,104.300,104.390,99.980,104.390
2,1990/12/21,104.39,109.070,109.130,103.730,109.130
3,1990/12/24,109.13,113.570,114.550,109.130,114.550
4,1990/12/25,114.55,120.090,120.250,114.550,120.250
...,...,...,...,...,...,...
8468,2025/8/25,3825.759,3848.163,3883.562,3839.972,3883.562
8469,2025/8/26,3883.562,3871.471,3888.599,3859.758,3868.382
8470,2025/8/27,3868.382,3869.612,3887.198,3800.350,3800.350
8471,2025/8/28,3800.35,3796.711,3845.087,3761.422,3843.597


# 需要注意的是
Jupyter Notebook默认只输出或者打印最后一行命令，如果你需要所有中间步骤的结果都输出的话，需要添加如下的代码

In [4]:
from IPython.core.interactiveshell import InteractiveShell  # 导入Jupyter交互式Shell的核心模块

# 设置Jupyter Notebook的输出模式为'all'，这样每个单元格中所有语句的结果都会被依次输出（默认只输出最后一个表达式的结果）
InteractiveShell.ast_node_interactivity = 'all'

In [5]:
data = pd.read_csv('datasets/000001.csv') # 这一句是导入CSV文件的命令
data
print(data)

Unnamed: 0,Day,Preclose,Open,Highest,Lowest,Close
0,1990/12/19,,96.050,99.980,95.790,99.980
1,1990/12/20,99.98,104.300,104.390,99.980,104.390
2,1990/12/21,104.39,109.070,109.130,103.730,109.130
3,1990/12/24,109.13,113.570,114.550,109.130,114.550
4,1990/12/25,114.55,120.090,120.250,114.550,120.250
...,...,...,...,...,...,...
8468,2025/8/25,3825.759,3848.163,3883.562,3839.972,3883.562
8469,2025/8/26,3883.562,3871.471,3888.599,3859.758,3868.382
8470,2025/8/27,3868.382,3869.612,3887.198,3800.350,3800.350
8471,2025/8/28,3800.35,3796.711,3845.087,3761.422,3843.597


             Day  Preclose      Open   Highest    Lowest     Close
0     1990/12/19              96.050    99.980    95.790    99.980
1     1990/12/20     99.98   104.300   104.390    99.980   104.390
2     1990/12/21    104.39   109.070   109.130   103.730   109.130
3     1990/12/24    109.13   113.570   114.550   109.130   114.550
4     1990/12/25    114.55   120.090   120.250   114.550   120.250
...          ...       ...       ...       ...       ...       ...
8468   2025/8/25  3825.759  3848.163  3883.562  3839.972  3883.562
8469   2025/8/26  3883.562  3871.471  3888.599  3859.758  3868.382
8470   2025/8/27  3868.382  3869.612  3887.198  3800.350  3800.350
8471   2025/8/28   3800.35  3796.711  3845.087  3761.422  3843.597
8472   2025/8/29  3843.597  3842.823  3867.606  3839.206  3857.927

[8473 rows x 6 columns]


# 了解变量的格式
数据框 dataframe 是金融数据处理中最常用的数据格式

In [6]:
type(data)

pandas.core.frame.DataFrame

# 打印数据框的列名

In [7]:
print(data.columns)

Index(['Day', 'Preclose', 'Open', 'Highest', 'Lowest', 'Close'], dtype='object')


In [8]:
print(data.columns.values)

['Day' 'Preclose' 'Open' 'Highest' 'Lowest' 'Close']


# 时间序列数据的格式 Time-Series Data 以及 数据框 Dataframe的基本知识
需要特别注意的是，这个时候一般我们的数据里面的日期那一列是文本格式


## 选择某一列
注意以下两行代码的区别

In [9]:
data['Day']

0       1990/12/19
1       1990/12/20
2       1990/12/21
3       1990/12/24
4       1990/12/25
           ...    
8468     2025/8/25
8469     2025/8/26
8470     2025/8/27
8471     2025/8/28
8472     2025/8/29
Name: Day, Length: 8473, dtype: object

In [10]:
data.Day

0       1990/12/19
1       1990/12/20
2       1990/12/21
3       1990/12/24
4       1990/12/25
           ...    
8468     2025/8/25
8469     2025/8/26
8470     2025/8/27
8471     2025/8/28
8472     2025/8/29
Name: Day, Length: 8473, dtype: object

In [11]:
data[['Day']]

Unnamed: 0,Day
0,1990/12/19
1,1990/12/20
2,1990/12/21
3,1990/12/24
4,1990/12/25
...,...
8468,2025/8/25
8469,2025/8/26
8470,2025/8/27
8471,2025/8/28


In [12]:
type(data['Day'])

pandas.core.series.Series

In [13]:
type(data[['Day']])

pandas.core.frame.DataFrame

In [14]:
data[['Day']]

Unnamed: 0,Day
0,1990/12/19
1,1990/12/20
2,1990/12/21
3,1990/12/24
4,1990/12/25
...,...
8468,2025/8/25
8469,2025/8/26
8470,2025/8/27
8471,2025/8/28


## 如何选择多列？

In [15]:
data[['Day','Close']]

Unnamed: 0,Day,Close
0,1990/12/19,99.980
1,1990/12/20,104.390
2,1990/12/21,109.130
3,1990/12/24,114.550
4,1990/12/25,120.250
...,...,...
8468,2025/8/25,3883.562
8469,2025/8/26,3868.382
8470,2025/8/27,3800.350
8471,2025/8/28,3843.597


## 如何选择行？

### 按照行数

In [16]:
# 该代码用于选择data数据框中的第0行到第6行（共7行），即通过切片操作选取前7行数据。
data[0:7]

Unnamed: 0,Day,Preclose,Open,Highest,Lowest,Close
0,1990/12/19,,96.05,99.98,95.79,99.98
1,1990/12/20,99.98,104.3,104.39,99.98,104.39
2,1990/12/21,104.39,109.07,109.13,103.73,109.13
3,1990/12/24,109.13,113.57,114.55,109.13,114.55
4,1990/12/25,114.55,120.09,120.25,114.55,120.25
5,1990/12/26,120.25,125.27,125.27,120.25,125.27
6,1990/12/27,125.27,125.27,125.28,125.27,125.28


In [17]:
# 该代码使用 iloc 按照行号和列号进行数据选择。
# data.iloc[0:5, 0:6] 表示选取 data 数据框的第 0 行到第 4 行（共 5 行），
# 以及第 0 列到第 5 列（共 6 列）的数据。
data.iloc[0:5,0:6] #按行列号访问

Unnamed: 0,Day,Preclose,Open,Highest,Lowest,Close
0,1990/12/19,,96.05,99.98,95.79,99.98
1,1990/12/20,99.98,104.3,104.39,99.98,104.39
2,1990/12/21,104.39,109.07,109.13,103.73,109.13
3,1990/12/24,109.13,113.57,114.55,109.13,114.55
4,1990/12/25,114.55,120.09,120.25,114.55,120.25


In [18]:
# 该代码通过 data.at[2, 'Open'] 实现了对 DataFrame 中第 2 行（索引为 2）且列名为 'Open' 的单元格的访问，返回该位置的具体数值。at 适用于通过“行标签+列标签”快速定位单个元素，效率较高。
data.at[2,'Open'] # 按行索引，列名访问

np.float64(109.07)

In [19]:
# 使用条件筛选来获取特定日期的开盘价
# data[data['Day'] == "1990/12/21"] 先筛选出日期为"1990/12/21"的行
# .Open 然后从筛选结果中提取'Open'列（开盘价）
data[data['Day'] == "1990/12/21"].Open

2    109.07
Name: Open, dtype: float64

### 按照时间

In [20]:
# 将'Day'列从字符串格式转换为日期时间格式
# pd.to_datetime() 函数用于将字符串转换为datetime对象
# format='%Y/%m/%d' 指定了输入日期的格式：年/月/日（如1990/12/19）
data['Day'] = pd.to_datetime(data['Day'],format = '%Y/%m/%d')
data

Unnamed: 0,Day,Preclose,Open,Highest,Lowest,Close
0,1990-12-19,,96.050,99.980,95.790,99.980
1,1990-12-20,99.98,104.300,104.390,99.980,104.390
2,1990-12-21,104.39,109.070,109.130,103.730,109.130
3,1990-12-24,109.13,113.570,114.550,109.130,114.550
4,1990-12-25,114.55,120.090,120.250,114.550,120.250
...,...,...,...,...,...,...
8468,2025-08-25,3825.759,3848.163,3883.562,3839.972,3883.562
8469,2025-08-26,3883.562,3871.471,3888.599,3859.758,3868.382
8470,2025-08-27,3868.382,3869.612,3887.198,3800.350,3800.350
8471,2025-08-28,3800.35,3796.711,3845.087,3761.422,3843.597


In [21]:
# 按照'Day'这一列对数据进行降序排序（即日期从新到旧）
data = data.sort_values(by=['Day'], axis=0, ascending=False)
data

Unnamed: 0,Day,Preclose,Open,Highest,Lowest,Close
8472,2025-08-29,3843.597,3842.823,3867.606,3839.206,3857.927
8471,2025-08-28,3800.35,3796.711,3845.087,3761.422,3843.597
8470,2025-08-27,3868.382,3869.612,3887.198,3800.350,3800.350
8469,2025-08-26,3883.562,3871.471,3888.599,3859.758,3868.382
8468,2025-08-25,3825.759,3848.163,3883.562,3839.972,3883.562
...,...,...,...,...,...,...
4,1990-12-25,114.55,120.090,120.250,114.550,120.250
3,1990-12-24,109.13,113.570,114.550,109.130,114.550
2,1990-12-21,104.39,109.070,109.130,103.730,109.130
1,1990-12-20,99.98,104.300,104.390,99.980,104.390


In [22]:
# 使用help()函数查看sort_values方法的详细帮助信息
# help()函数可以显示任何Python对象、函数或方法的文档字符串
# 这对于初学者了解函数参数和用法非常有用
help(data.sort_values)

Help on method sort_values in module pandas.core.frame:

sort_values(
    by: 'IndexLabel',
    *,
    axis: 'Axis' = 0,
    ascending: 'bool | list[bool] | tuple[bool, ...]' = True,
    inplace: 'bool' = False,
    kind: 'SortKind' = 'quicksort',
    na_position: 'str' = 'last',
    ignore_index: 'bool' = False,
    key: 'ValueKeyFunc | None' = None
) -> 'DataFrame | None' method of pandas.core.frame.DataFrame instance
    Sort by the values along either axis.

    Parameters
    ----------
    by : str or list of str
        Name or list of names to sort by.

        - if `axis` is 0 or `'index'` then `by` may contain index
          levels and/or column labels.
        - if `axis` is 1 or `'columns'` then `by` may contain column
          levels and/or index labels.
    axis : "{0 or 'index', 1 or 'columns'}", default 0
         Axis to be sorted.
    ascending : bool or list of bool, default True
         Sort ascending vs. descending. Specify list for multiple sort
         orders

In [23]:
# 按照'Day'列对数据进行升序排序（即日期从旧到新）
# by=['Day'] 指定按'Day'列排序
# ascending=True 表示升序排列（False表示降序）
data = data.sort_values(by=['Day'],ascending=True)
data

Unnamed: 0,Day,Preclose,Open,Highest,Lowest,Close
0,1990-12-19,,96.050,99.980,95.790,99.980
1,1990-12-20,99.98,104.300,104.390,99.980,104.390
2,1990-12-21,104.39,109.070,109.130,103.730,109.130
3,1990-12-24,109.13,113.570,114.550,109.130,114.550
4,1990-12-25,114.55,120.090,120.250,114.550,120.250
...,...,...,...,...,...,...
8468,2025-08-25,3825.759,3848.163,3883.562,3839.972,3883.562
8469,2025-08-26,3883.562,3871.471,3888.599,3859.758,3868.382
8470,2025-08-27,3868.382,3869.612,3887.198,3800.350,3800.350
8471,2025-08-28,3800.35,3796.711,3845.087,3761.422,3843.597


In [24]:
# 将'Day'列设置为数据框的索引
# set_index() 函数用于将指定列设置为DataFrame的索引
# inplace=True 表示直接在原数据框上进行修改，不创建新的数据框
# 设置索引后，可以通过日期直接访问对应的行数据
data.set_index('Day', inplace = True)
data

Unnamed: 0_level_0,Preclose,Open,Highest,Lowest,Close
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1990-12-19,,96.050,99.980,95.790,99.980
1990-12-20,99.98,104.300,104.390,99.980,104.390
1990-12-21,104.39,109.070,109.130,103.730,109.130
1990-12-24,109.13,113.570,114.550,109.130,114.550
1990-12-25,114.55,120.090,120.250,114.550,120.250
...,...,...,...,...,...
2025-08-25,3825.759,3848.163,3883.562,3839.972,3883.562
2025-08-26,3883.562,3871.471,3888.599,3859.758,3868.382
2025-08-27,3868.382,3869.612,3887.198,3800.350,3800.350
2025-08-28,3800.35,3796.711,3845.087,3761.422,3843.597


In [25]:
# 使用时间范围筛选数据，获取1995年12月到2000年4月的数据
# 当'Day'列被设置为索引后，可以直接使用日期范围进行筛选
# '1995-12':'2000-04' 表示从1995年12月开始到2000年4月结束的时间范围
# 这种筛选方式对于时间序列数据分析非常有用
data['1995-12':'2000-04']

Unnamed: 0_level_0,Preclose,Open,Highest,Lowest,Close
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1995-12-01,641.14,631.55,639.49,624.93,633.81
1995-12-04,633.81,632.72,635.73,632.24,634.92
1995-12-05,634.92,636.43,638.76,635.59,637.22
1995-12-06,637.22,637.30,637.32,627.85,628.43
1995-12-07,628.43,628.63,632.37,627.06,631.84
...,...,...,...,...,...
2000-04-24,1841.06,1844.69,1848.97,1827.17,1837.40
2000-04-25,1837.4,1838.05,1841.86,1815.63,1833.47
2000-04-26,1833.47,1835.67,1842.89,1826.39,1832.78
2000-04-27,1832.78,1835.60,1840.57,1803.58,1806.83
