### 导入全部沪指（不包括深）历史月线数据，并进行筛选

In [1]:
import pandas as pd
import numpy as np

pd.set_option('expand_frame_repr', False)

df = pd.read_csv(filepath_or_buffer='stock_data.csv',
                encoding='gbk',
                 parse_dates=['交易日期']
                )
print(df)

             交易日期      股票代码    开盘价     最高价    最低价    收盘价       涨跌幅          成交量           成交额          流通市值  ...  交易天数  是否交易  是否涨停  是否跌停        报告类型        报告日期     市盈率TTM     市销率TTM     市现率TTM       市净率
0      1999-11-30  sh600000  29.50   29.80  26.01  26.40  1.640005  304052752.0  8.408725e+09  8.448000e+09  ...  15.0   1.0   0.0   0.0         NaN         NaN        NaN        NaN        NaN       NaN
1      1999-12-30  sh600000  26.31   26.90  24.50  24.75 -0.062499   73628171.0  1.889149e+09  7.920000e+09  ...  21.0   1.0   0.0   0.0         NaN         NaN        NaN        NaN        NaN       NaN
2      2000-01-28  sh600000  24.98   27.85  23.75  25.04  0.011716  196511184.0  4.966621e+09  1.001600e+10  ...  19.0   1.0   0.0   0.0         NaN         NaN        NaN        NaN        NaN       NaN
3      2000-02-29  sh600000  26.00   27.48  24.20  25.17  0.005191  175549032.0  4.468977e+09  1.006800e+10  ...  12.0   1.0   0.0   0.0         NaN         NaN        NaN        NaN  

### 去除不需要用的数据

1. 去除多余指标
2. 选定特定时间（2018年整年数据）
3. 算出前收盘价

### 去除多余指标

In [2]:
df = df[['交易日期', '股票代码', '开盘价', '最高价', '最低价', '收盘价', '成交量', '成交额']]
print(df)

             交易日期      股票代码    开盘价     最高价    最低价    收盘价          成交量           成交额
0      1999-11-30  sh600000  29.50   29.80  26.01  26.40  304052752.0  8.408725e+09
1      1999-12-30  sh600000  26.31   26.90  24.50  24.75   73628171.0  1.889149e+09
2      2000-01-28  sh600000  24.98   27.85  23.75  25.04  196511184.0  4.966621e+09
3      2000-02-29  sh600000  26.00   27.48  24.20  25.17  175549032.0  4.468977e+09
4      2000-03-31  sh600000  25.20   27.49  24.28  25.22  248913432.0  6.434739e+09
5      2000-04-28  sh600000  25.20   26.20  24.65  25.00   90306478.0  2.292784e+09
6      2000-05-31  sh600000  24.90   24.90  23.00  23.45   59747216.0  1.417179e+09
7      2000-06-30  sh600000  23.50   24.69  23.23  23.55   62945324.0  1.498973e+09
8      2000-07-31  sh600000  23.50   25.70  23.01  24.05   64482834.0  1.545929e+09
9      2000-08-31  sh600000  24.06   24.50  23.20  23.25   45406312.0  1.082658e+09
10     2000-09-29  sh600000  23.24   23.50  21.00  21.60   32726520.0  7.248

### 筛选时间

In [3]:
df = df[df['交易日期'] > pd.to_datetime('20171201')]
df = df[df['交易日期'] < pd.to_datetime('20190101')]
print(df)

             交易日期      股票代码     开盘价     最高价     最低价     收盘价           成交量           成交额
216    2017-12-29  sh600000   12.93   13.27   12.51   12.59  6.303353e+08  8.100475e+09
217    2018-01-31  sh600000   12.61   14.00   12.60   13.17  2.529676e+09  3.333193e+10
218    2018-02-28  sh600000   13.14   13.90   12.24   12.46  1.469635e+09  1.920696e+10
219    2018-03-30  sh600000   12.40   12.60   11.45   11.65  6.003535e+08  7.307852e+09
220    2018-04-27  sh600000   11.68   12.02   11.49   11.61  3.847188e+08  4.498217e+09
221    2018-05-31  sh600000   11.33   11.33   10.39   10.55  5.580226e+08  6.058957e+09
222    2018-06-29  sh600000   10.60   10.83    9.32    9.56  4.446820e+08  4.475076e+09
223    2018-07-31  sh600000    9.55   10.20    9.17   10.17  4.329690e+08  4.183506e+09
224    2018-08-31  sh600000   10.26   10.43    9.66   10.33  4.445087e+08  4.491287e+09
225    2018-09-28  sh600000   10.27   10.75    9.95   10.62  3.751380e+08  3.864051e+09
226    2018-10-31  sh600000   10

### 算出前收盘价

In [4]:
df['前收盘价'] = df.groupby('股票代码')['收盘价'].shift(1) 
'''
以股票代码为一组进行操作，相当于将表按股票代码切割后操作，之后再拼接。这样做避免了2017-12-29日接收到来自另外股票收盘价从而得到错误前收盘价信息，而用NaN表示
'''
print(df.head(100))

           交易日期      股票代码    开盘价    最高价    最低价    收盘价           成交量           成交额   前收盘价
216  2017-12-29  sh600000  12.93  13.27  12.51  12.59  6.303353e+08  8.100475e+09    NaN
217  2018-01-31  sh600000  12.61  14.00  12.60  13.17  2.529676e+09  3.333193e+10  12.59
218  2018-02-28  sh600000  13.14  13.90  12.24  12.46  1.469635e+09  1.920696e+10  13.17
219  2018-03-30  sh600000  12.40  12.60  11.45  11.65  6.003535e+08  7.307852e+09  12.46
220  2018-04-27  sh600000  11.68  12.02  11.49  11.61  3.847188e+08  4.498217e+09  11.65
221  2018-05-31  sh600000  11.33  11.33  10.39  10.55  5.580226e+08  6.058957e+09  11.61
222  2018-06-29  sh600000  10.60  10.83   9.32   9.56  4.446820e+08  4.475076e+09  10.55
223  2018-07-31  sh600000   9.55  10.20   9.17  10.17  4.329690e+08  4.183506e+09   9.56
224  2018-08-31  sh600000  10.26  10.43   9.66  10.33  4.445087e+08  4.491287e+09  10.17
225  2018-09-28  sh600000  10.27  10.75   9.95  10.62  3.751380e+08  3.864051e+09  10.33
226  2018-10-31  sh60

### 删掉每个股票第一个数据，即删掉NaN数据所在行

In [5]:
df.drop(df[np.isnan(df['前收盘价'])].index, inplace=True) # 定位NaN所在的index后删除行
print(df)

             交易日期      股票代码     开盘价     最高价     最低价     收盘价           成交量           成交额    前收盘价
217    2018-01-31  sh600000   12.61   14.00   12.60   13.17  2.529676e+09  3.333193e+10   12.59
218    2018-02-28  sh600000   13.14   13.90   12.24   12.46  1.469635e+09  1.920696e+10   13.17
219    2018-03-30  sh600000   12.40   12.60   11.45   11.65  6.003535e+08  7.307852e+09   12.46
220    2018-04-27  sh600000   11.68   12.02   11.49   11.61  3.847188e+08  4.498217e+09   11.65
221    2018-05-31  sh600000   11.33   11.33   10.39   10.55  5.580226e+08  6.058957e+09   11.61
222    2018-06-29  sh600000   10.60   10.83    9.32    9.56  4.446820e+08  4.475076e+09   10.55
223    2018-07-31  sh600000    9.55   10.20    9.17   10.17  4.329690e+08  4.183506e+09    9.56
224    2018-08-31  sh600000   10.26   10.43    9.66   10.33  4.445087e+08  4.491287e+09   10.17
225    2018-09-28  sh600000   10.27   10.75    9.95   10.62  3.751380e+08  3.864051e+09   10.33
226    2018-10-31  sh600000   10.39   11

### 至此完成所需表的构建


### 数据筛选操作

In [6]:
print(df['股票代码'] == 'sh600000')

217        True
218        True
219        True
220        True
221        True
222        True
223        True
224        True
225        True
226        True
227        True
228        True
765       False
766       False
767       False
768       False
769       False
770       False
771       False
772       False
773       False
774       False
775       False
776       False
1210      False
1211      False
1212      False
1213      False
1214      False
1215      False
          ...  
489226    False
489233    False
489234    False
489235    False
489236    False
489237    False
489238    False
489239    False
489246    False
489247    False
489248    False
489249    False
489250    False
489251    False
489258    False
489259    False
489260    False
489267    False
489268    False
489269    False
489276    False
489277    False
489278    False
489279    False
489280    False
489281    False
489288    False
489295    False
489333    False
489334    False
Name: 股票代码, Length: 4074

In [7]:
print(df[df['股票代码'] == 'sh600000'])

          交易日期      股票代码    开盘价    最高价    最低价    收盘价           成交量           成交额   前收盘价
217 2018-01-31  sh600000  12.61  14.00  12.60  13.17  2.529676e+09  3.333193e+10  12.59
218 2018-02-28  sh600000  13.14  13.90  12.24  12.46  1.469635e+09  1.920696e+10  13.17
219 2018-03-30  sh600000  12.40  12.60  11.45  11.65  6.003535e+08  7.307852e+09  12.46
220 2018-04-27  sh600000  11.68  12.02  11.49  11.61  3.847188e+08  4.498217e+09  11.65
221 2018-05-31  sh600000  11.33  11.33  10.39  10.55  5.580226e+08  6.058957e+09  11.61
222 2018-06-29  sh600000  10.60  10.83   9.32   9.56  4.446820e+08  4.475076e+09  10.55
223 2018-07-31  sh600000   9.55  10.20   9.17  10.17  4.329690e+08  4.183506e+09   9.56
224 2018-08-31  sh600000  10.26  10.43   9.66  10.33  4.445087e+08  4.491287e+09  10.17
225 2018-09-28  sh600000  10.27  10.75   9.95  10.62  3.751380e+08  3.864051e+09  10.33
226 2018-10-31  sh600000  10.39  11.12   9.71  10.98  5.646983e+08  5.919033e+09  10.62
227 2018-11-30  sh600000  11.05 

In [8]:
print(df[df['股票代码'] == 'sh600000'].index)

Int64Index([217, 218, 219, 220, 221, 222, 223, 224, 225, 226, 227, 228], dtype='int64')


In [9]:
print(df[df['股票代码'].isin(['sh600000', 'sh600723'])])

             交易日期      股票代码    开盘价    最高价    最低价    收盘价           成交量           成交额   前收盘价
217    2018-01-31  sh600000  12.61  14.00  12.60  13.17  2.529676e+09  3.333193e+10  12.59
218    2018-02-28  sh600000  13.14  13.90  12.24  12.46  1.469635e+09  1.920696e+10  13.17
219    2018-03-30  sh600000  12.40  12.60  11.45  11.65  6.003535e+08  7.307852e+09  12.46
220    2018-04-27  sh600000  11.68  12.02  11.49  11.61  3.847188e+08  4.498217e+09  11.65
221    2018-05-31  sh600000  11.33  11.33  10.39  10.55  5.580226e+08  6.058957e+09  11.61
222    2018-06-29  sh600000  10.60  10.83   9.32   9.56  4.446820e+08  4.475076e+09  10.55
223    2018-07-31  sh600000   9.55  10.20   9.17  10.17  4.329690e+08  4.183506e+09   9.56
224    2018-08-31  sh600000  10.26  10.43   9.66  10.33  4.445087e+08  4.491287e+09  10.17
225    2018-09-28  sh600000  10.27  10.75   9.95  10.62  3.751380e+08  3.864051e+09  10.33
226    2018-10-31  sh600000  10.39  11.12   9.71  10.98  5.646983e+08  5.919033e+09  10.62

### 条件联用

筛选出股票代码为sh600006，收盘价 < 5，的交易日期，收盘价信息

& |

In [10]:
print(df[(df['收盘价'] < 5) & (df['股票代码'] == 'sh600006')][['交易日期', '收盘价']])

           交易日期   收盘价
1212 2018-03-30  4.92
1213 2018-04-27  4.33
1214 2018-05-31  4.36
1215 2018-06-29  4.09
1216 2018-07-31  4.08
1217 2018-08-31  3.87
1218 2018-09-28  3.96
1219 2018-10-31  3.49
1220 2018-11-30  3.83
1221 2018-12-28  3.60
