In [1]:
import pandas as pd  # 将pandas作为第三方库导入，我们一般为pandas取一个别名叫做pd

pd.set_option('expand_frame_repr', False)  # 当列太多时清楚展示

In [6]:
df = pd.read_csv(
    r'E:\project\stockA_coding\data\a_stock_201903.csv',
    encoding='gbk',
    #skiprows=1
)

In [7]:
df.head()

Unnamed: 0,股票代码,股票名称,交易日期,开盘价,最高价,最低价,收盘价,前收盘价,成交量,成交额
0,sh600000,浦发银行,2019-03-01,11.81,12.06,11.6,12.02,11.74,63254621.0,747753300.0
1,sh600000,浦发银行,2019-03-04,12.12,12.38,11.95,12.02,12.02,85024777.0,1030562000.0
2,sh600000,浦发银行,2019-03-05,12.01,12.04,11.87,11.98,12.02,54564202.0,652552200.0
3,sh600000,浦发银行,2019-03-06,11.99,12.15,11.86,12.02,11.98,53693164.0,644243000.0
4,sh600000,浦发银行,2019-03-07,12.03,12.04,11.87,11.88,12.02,52618824.0,628390900.0


In [8]:
# ===== 缺失值处理：原始数据中存在缺失值，如何处理？
# 0.创建缺失值
index = df[df['交易日期'].isin(['2019-03-01', '2019-03-15'])].index
df.loc[index, '月头'] = df['交易日期']

In [9]:
# 1.删除缺失值
print(df.dropna(how='any'))  # 将带有空值的行删除。how='any'意味着，该行中只要有一个空值，就会删除，可以改成all。
print(df.dropna(subset=['月头', '收盘价'], how='all'))  # subset参数指定在特定的列中判断空值。
# all代表全部为空，才会删除该行；any只要一个为空，就删除该行。

           股票代码  股票名称        交易日期     开盘价     最高价     最低价     收盘价    前收盘价         成交量           成交额          月头
0      sh600000  浦发银行  2019-03-01   11.81   12.06   11.60   12.02   11.74  63254621.0  7.477533e+08  2019-03-01
10     sh600000  浦发银行  2019-03-15   11.47   11.60   11.43   11.43   11.46  33769320.0  3.882445e+08  2019-03-15
21     sh600004  白云机场  2019-03-01   12.44   13.17   12.36   13.15   12.32  29721436.0  3.805480e+08  2019-03-01
31     sh600004  白云机场  2019-03-15   13.33   13.46   13.09   13.30   13.17  11160652.0  1.486232e+08  2019-03-15
42     sh600006  东风汽车  2019-03-01    4.36    4.41    4.26    4.35    4.36  16291473.0  7.020395e+07  2019-03-01
...         ...   ...         ...     ...     ...     ...     ...     ...         ...           ...         ...
74889  sz300760  迈瑞医疗  2019-03-01  129.00  131.00  124.81  128.39  127.30   5811638.0  7.446308e+08  2019-03-01
74899  sz300760  迈瑞医疗  2019-03-15  131.20  138.88  131.20  135.30  130.45   5391508.0  7.352895e+08  201

In [10]:
# 2.补全缺失值
print(df.fillna(value='N'))  # 直接将缺失值赋值为固定的值
df['月头'].fillna(value=df['收盘价'], inplace=True)  # 直接将缺失值赋值其他列的数据
print(df.fillna(method='ffill'))  # 向上寻找最近的一个非空值，以该值来填充缺失的位置，全称forward fill，非常有用
print(df.fillna(method='bfill'))  # 向下寻找最近的一个非空值，以该值来填充确实的位置，全称backward fill


           股票代码  股票名称        交易日期    开盘价    最高价    最低价    收盘价   前收盘价         成交量           成交额          月头
0      sh600000  浦发银行  2019-03-01  11.81  12.06  11.60  12.02  11.74  63254621.0  7.477533e+08  2019-03-01
1      sh600000  浦发银行  2019-03-04  12.12  12.38  11.95  12.02  12.02  85024777.0  1.030562e+09           N
2      sh600000  浦发银行  2019-03-05  12.01  12.04  11.87  11.98  12.02  54564202.0  6.525522e+08           N
3      sh600000  浦发银行  2019-03-06  11.99  12.15  11.86  12.02  11.98  53693164.0  6.442430e+08           N
4      sh600000  浦发银行  2019-03-07  12.03  12.04  11.87  11.88  12.02  52618824.0  6.283909e+08           N
...         ...   ...         ...    ...    ...    ...    ...    ...         ...           ...         ...
74959  sz300766  每日互动  2019-03-26  20.72  20.72  20.72  20.72  18.84      8426.0  1.745860e+05           N
74960  sz300766  每日互动  2019-03-27  22.79  22.79  22.79  22.79  20.72      8795.0  2.004380e+05           N
74961  sz300766  每日互动  2019-03-28  25

In [11]:
# 3.找出缺失值
print(df.notnull())  # 判断是否为空值，反向函数为isnull()
print(df[df['月头'].notnull()])  # 将'月头'列为空的行输出

       股票代码  股票名称  交易日期   开盘价   最高价   最低价   收盘价  前收盘价   成交量   成交额    月头
0      True  True  True  True  True  True  True  True  True  True  True
1      True  True  True  True  True  True  True  True  True  True  True
2      True  True  True  True  True  True  True  True  True  True  True
3      True  True  True  True  True  True  True  True  True  True  True
4      True  True  True  True  True  True  True  True  True  True  True
...     ...   ...   ...   ...   ...   ...   ...   ...   ...   ...   ...
74959  True  True  True  True  True  True  True  True  True  True  True
74960  True  True  True  True  True  True  True  True  True  True  True
74961  True  True  True  True  True  True  True  True  True  True  True
74962  True  True  True  True  True  True  True  True  True  True  True
74963  True  True  True  True  True  True  True  True  True  True  True

[74964 rows x 11 columns]
           股票代码  股票名称        交易日期    开盘价    最高价    最低价    收盘价   前收盘价         成交量           成交额          月头
0 