In [1]:
import pandas as pd  # 将pandas作为第三方库导入，我们一般为pandas取一个别名叫做pd

pd.set_option('expand_frame_repr', False)  # 当列太多时显示完整

In [2]:
# =====导入数据
df = pd.read_csv(
    # 该参数为数据在电脑中的路径，
    # 要注意字符串转义符号 \ ，可以使用加r变为raw string或者每一个进行\\转义
    filepath_or_buffer=r'E:\project\stockA_coding\data\sh600000.csv',
    # 编码格式，不同的文件有不同的编码方式，一般文件中有中文的，编码是gbk，默认是utf8
    # ** 大家不用去特意记住很多编码，我们常用的就是gbk和utf8，切换一下看一下程序不报错就好了
    encoding='gbk',
    nrows=15,
    # 该参数代表跳过数据文件的的第1行不读入
    skiprows=1,
    # 将指定列设置为index。若不指定，index默认为0, 1, 2, 3, 4...
    # index_col=['交易日期'],
)

In [3]:
# =====列操作
# 行列加减乘除
print(df['交易日期'] + ' 15:00:00')  # 字符串列可以直接加上字符串，对整列进行操作
print(df['收盘价'] * 100)  # 数字列直接加上或者乘以数字，对整列进行操作。
print(df[['收盘价', '成交量']])
print(df['收盘价'] * df['成交量'])  # 两列之间可以直接操作。收盘价*成交量计算出的是什么？

0     1999-11-10 15:00:00
1     1999-11-11 15:00:00
2     1999-11-12 15:00:00
3     1999-11-15 15:00:00
4     1999-11-16 15:00:00
5     1999-11-17 15:00:00
6     1999-11-18 15:00:00
7     1999-11-19 15:00:00
8     1999-11-22 15:00:00
9     1999-11-23 15:00:00
10    1999-11-24 15:00:00
11    1999-11-25 15:00:00
12    1999-11-26 15:00:00
13    1999-11-29 15:00:00
14    1999-11-30 15:00:00
Name: 交易日期, dtype: object
0     2775.0
1     2771.0
2     2805.0
3     2775.0
4     2655.0
5     2718.0
6     2702.0
7     2688.0
8     2645.0
9     2645.0
10    2643.0
11    2640.0
12    2645.0
13    2633.0
14    2640.0
Name: 收盘价, dtype: float64
      收盘价          成交量
0   27.75  174085100.0
1   27.71   29403500.0
2   28.05   15008000.0
3   27.75   11921100.0
4   26.55   23223100.0
5   27.18   10052600.0
6   27.02    8446500.0
7   26.88    5375000.0
8   26.45    5535400.0
9   26.45    3844000.0
10  26.43    4098000.0
11  26.40    5725300.0
12  26.45    2282700.0
13  26.33    2681200.0
14  26.40    23714

In [4]:
# 新增一列
df['交易日期2'] = df['交易日期'] + ' 00:00:00'
df['交易所'] = '上交所'

In [5]:
# =====统计函数
print(df['收盘价'].mean())  # 求一整列的均值，返回一个数。会自动排除空值。
print(df[['收盘价', '成交量']].mean())  # 求两列的均值，返回两个数，Series
print(df[['收盘价', '成交量']])
print(df[['收盘价', '成交量']].mean(axis=1))  # 求两列的均值，返回DataFrame。axis=0或者1要搞清楚。

26.919999999999998
收盘价    2.692000e+01
成交量    2.027019e+07
dtype: float64
      收盘价          成交量
0   27.75  174085100.0
1   27.71   29403500.0
2   28.05   15008000.0
3   27.75   11921100.0
4   26.55   23223100.0
5   27.18   10052600.0
6   27.02    8446500.0
7   26.88    5375000.0
8   26.45    5535400.0
9   26.45    3844000.0
10  26.43    4098000.0
11  26.40    5725300.0
12  26.45    2282700.0
13  26.33    2681200.0
14  26.40    2371400.0
0     8.704256e+07
1     1.470176e+07
2     7.504014e+06
3     5.960564e+06
4     1.161156e+07
5     5.026314e+06
6     4.223264e+06
7     2.687513e+06
8     2.767713e+06
9     1.922013e+06
10    2.049013e+06
11    2.862663e+06
12    1.141363e+06
13    1.340613e+06
14    1.185713e+06
dtype: float64


In [6]:
print(df['最高价'].max())  # 最大值
print(df['最低价'].min())  # 最小值
print(df['收盘价'].std())  # 标准差
print(df['收盘价'].count())  # 非空的数据的数量
print(df['收盘价'].median())  # 中位数
print(df['收盘价'].quantile(0.25))  # 25%分位数

29.8
26.01
0.6145032837294576
15
26.55
26.439999999999998


In [7]:
df['下周期收盘价'] = df['收盘价'].shift(-1)  # 读取上一行的数据，若参数设定为3，就是读取上三行的数据；若参数设定为-1，就是读取下一行的数据；
del df['下周期收盘价']  # 删除某一列的方法

In [8]:
df['涨跌'] = df['收盘价'].diff(1)  # 求本行数据和上一行数据相减得到的值
df.drop(['涨跌'], axis=1, inplace=True)  # 删除某一列的另外一种方式，inplace参数指是否替代原来的df
df['涨跌幅'] = df['收盘价'].pct_change(1)  # 类似于diff，但是求的是两个数直接的比例，相当于求涨跌幅


In [9]:
# =====cum(cumulative)类函数
df['累计成交量'] = df['成交量'].cumsum()  # 该列的累加值
print(df[['交易日期', '成交量', '累计成交量','涨跌幅']])
print((df['涨跌幅'] + 1.0).cumprod())  # 该列的累乘值，此处计算的就是资金曲线，假设初始1元钱。

          交易日期          成交量        累计成交量       涨跌幅
0   1999-11-10  174085100.0  174085100.0       NaN
1   1999-11-11   29403500.0  203488600.0 -0.001441
2   1999-11-12   15008000.0  218496600.0  0.012270
3   1999-11-15   11921100.0  230417700.0 -0.010695
4   1999-11-16   23223100.0  253640800.0 -0.043243
5   1999-11-17   10052600.0  263693400.0  0.023729
6   1999-11-18    8446500.0  272139900.0 -0.005887
7   1999-11-19    5375000.0  277514900.0 -0.005181
8   1999-11-22    5535400.0  283050300.0 -0.015997
9   1999-11-23    3844000.0  286894300.0  0.000000
10  1999-11-24    4098000.0  290992300.0 -0.000756
11  1999-11-25    5725300.0  296717600.0 -0.001135
12  1999-11-26    2282700.0  299000300.0  0.001894
13  1999-11-29    2681200.0  301681500.0 -0.004537
14  1999-11-30    2371400.0  304052900.0  0.002659
0          NaN
1     0.998559
2     1.010811
3     1.000000
4     0.956757
5     0.979459
6     0.973694
7     0.968649
8     0.953153
9     0.953153
10    0.952432
11    0.951351
12  

In [10]:
# =====其他列函数
df['收盘价_排名'] = df['收盘价'].rank(ascending=True, pct=False)  # 输出排名。ascending参数代表是顺序还是逆序。pct参数代表输出的是排名还是排名比例
print(df[['收盘价', '收盘价_排名']])
del df['收盘价_排名']
print(df['收盘价'].value_counts())  # 计数。统计该列中每个元素出现的次数。返回的数据是Series

      收盘价  收盘价_排名
0   27.75    13.5
1   27.71    12.0
2   28.05    15.0
3   27.75    13.5
4   26.55     8.0
5   27.18    11.0
6   27.02    10.0
7   26.88     9.0
8   26.45     6.0
9   26.45     6.0
10  26.43     4.0
11  26.40     2.5
12  26.45     6.0
13  26.33     1.0
14  26.40     2.5
26.45    3
26.40    2
27.75    2
28.05    1
27.02    1
26.43    1
26.55    1
27.71    1
26.33    1
27.18    1
26.88    1
Name: 收盘价, dtype: int64
