### 导入数据

In [1]:
import pandas as pd
import numpy as np

pd.set_option('expand_frame_repr', False)

df = pd.read_csv(filepath_or_buffer='stock_data.csv',
                encoding='gbk',
                 parse_dates=['交易日期']
                )

df = df[['交易日期', '股票代码', '开盘价', '最高价', '最低价', '收盘价', '成交量', '成交额']]
df = df[df['交易日期'] > pd.to_datetime('20171201')]
df = df[df['交易日期'] < pd.to_datetime('20190101')]
df['前收盘价'] = df.groupby('股票代码')['收盘价'].shift(1) 

df.drop(df[np.isnan(df['前收盘价'])].index, inplace=True) # 定位NaN所在的index后删除行
print(df)

             交易日期      股票代码     开盘价     最高价     最低价     收盘价           成交量           成交额    前收盘价
217    2018-01-31  sh600000   12.61   14.00   12.60   13.17  2.529676e+09  3.333193e+10   12.59
218    2018-02-28  sh600000   13.14   13.90   12.24   12.46  1.469635e+09  1.920696e+10   13.17
219    2018-03-30  sh600000   12.40   12.60   11.45   11.65  6.003535e+08  7.307852e+09   12.46
220    2018-04-27  sh600000   11.68   12.02   11.49   11.61  3.847188e+08  4.498217e+09   11.65
221    2018-05-31  sh600000   11.33   11.33   10.39   10.55  5.580226e+08  6.058957e+09   11.61
222    2018-06-29  sh600000   10.60   10.83    9.32    9.56  4.446820e+08  4.475076e+09   10.55
223    2018-07-31  sh600000    9.55   10.20    9.17   10.17  4.329690e+08  4.183506e+09    9.56
224    2018-08-31  sh600000   10.26   10.43    9.66   10.33  4.445087e+08  4.491287e+09   10.17
225    2018-09-28  sh600000   10.27   10.75    9.95   10.62  3.751380e+08  3.864051e+09   10.33
226    2018-10-31  sh600000   10.39   11

### 字符串处理

In [4]:
print(df['股票代码'].head())

217    sh600000
218    sh600000
219    sh600000
220    sh600000
221    sh600000
Name: 股票代码, dtype: object


In [6]:
print('sh600000'[:2])

sh


In [7]:
print(df['股票代码'].str[:2])

217       sh
218       sh
219       sh
220       sh
221       sh
222       sh
223       sh
224       sh
225       sh
226       sh
227       sh
228       sh
765       sh
766       sh
767       sh
768       sh
769       sh
770       sh
771       sh
772       sh
773       sh
774       sh
775       sh
776       sh
1210      sh
1211      sh
1212      sh
1213      sh
1214      sh
1215      sh
          ..
489226    sz
489233    sz
489234    sz
489235    sz
489236    sz
489237    sz
489238    sz
489239    sz
489246    sz
489247    sz
489248    sz
489249    sz
489250    sz
489251    sz
489258    sz
489259    sz
489260    sz
489267    sz
489268    sz
489269    sz
489276    sz
489277    sz
489278    sz
489279    sz
489280    sz
489281    sz
489288    sz
489295    sz
489333    sz
489334    sz
Name: 股票代码, Length: 40747, dtype: object


In [11]:
print(df['股票代码'].str.upper().head()) # 全部大写 lower 全部小写

217    SH600000
218    SH600000
219    SH600000
220    SH600000
221    SH600000
Name: 股票代码, dtype: object


In [10]:
print(df['股票代码'].str.len().head()) # 字符串长度

217    8
218    8
219    8
220    8
221    8
Name: 股票代码, dtype: int64


In [13]:
print(df['股票代码'].str.contains('sh')) # 判断是否包含字符串

217        True
218        True
219        True
220        True
221        True
222        True
223        True
224        True
225        True
226        True
227        True
228        True
765        True
766        True
767        True
768        True
769        True
770        True
771        True
772        True
773        True
774        True
775        True
776        True
1210       True
1211       True
1212       True
1213       True
1214       True
1215       True
          ...  
489226    False
489233    False
489234    False
489235    False
489236    False
489237    False
489238    False
489239    False
489246    False
489247    False
489248    False
489249    False
489250    False
489251    False
489258    False
489259    False
489260    False
489267    False
489268    False
489269    False
489276    False
489277    False
489278    False
489279    False
489280    False
489281    False
489288    False
489295    False
489333    False
489334    False
Name: 股票代码, Length: 4074

In [14]:
print(df['股票代码'].str.replace('sz', 'sh'))  # sz替换成sh

217       sh600000
218       sh600000
219       sh600000
220       sh600000
221       sh600000
222       sh600000
223       sh600000
224       sh600000
225       sh600000
226       sh600000
227       sh600000
228       sh600000
765       sh600004
766       sh600004
767       sh600004
768       sh600004
769       sh600004
770       sh600004
771       sh600004
772       sh600004
773       sh600004
774       sh600004
775       sh600004
776       sh600004
1210      sh600006
1211      sh600006
1212      sh600006
1213      sh600006
1214      sh600006
1215      sh600006
            ...   
489226    sh300745
489233    sh300746
489234    sh300746
489235    sh300746
489236    sh300746
489237    sh300746
489238    sh300746
489239    sh300746
489246    sh300747
489247    sh300747
489248    sh300747
489249    sh300747
489250    sh300747
489251    sh300747
489258    sh300748
489259    sh300748
489260    sh300748
489267    sh300749
489268    sh300749
489269    sh300749
489276    sh300750
489277    sh