In [4]:
import pandas as pd
pd.set_option('expand_frame_repr', False)  # 当列太多时显示不清楚

In [5]:
# =====导入数据
df = pd.read_csv(
    # 该参数为数据在电脑中的路径，
    # 要注意字符串转义符号 \ ，可以使用加r变为raw string或者每一个进行\\转义
    filepath_or_buffer=r'E:\project\stockA_coding\data\sh600000.csv',
    # 编码格式，不同的文件有不同的编码方式，一般文件中有中文的，编码是gbk，默认是utf8
    # ** 大家不用去特意记住很多编码，我们常用的就是gbk和utf8，切换一下看一下程序不报错就好了
    encoding='gbk',
    # 该参数代表数据的分隔符，csv文件默认是逗号。其他常见的是'\t'
    sep=',',
    # 该参数代表跳过数据文件的的第1行不读入
    skiprows=1,
    # nrows，只读取前n行数据，若不指定，读入全部的数据
    #nrows=15,
    # 将指定列的数据识别为日期格式。若不指定，时间数据将会以字符串形式读入。一开始先不用。
    parse_dates=['交易日期'],
    # 将指定列设置为index。若不指定，index默认为0, 1, 2, 3, 4...
    index_col=['交易日期'],
    # 读取指定的这几列数据，其他数据不读取。若不指定，读入全部列
    # usecols=['交易日期', '收盘价'],
    # 当某行数据有问题时，报错。设定为False时即不报错，直接跳过该行。当数据比较脏乱的时候用这个。
    # error_bad_lines=False,
    # 将数据中的null识别为空值
    # na_values='NULL',

    # 更多其他参数，请直接在搜索引擎搜索"pandas read_csv"，要去逐个查看一下。比较重要的，header等
)

In [6]:
print(df)

                股票代码  股票名称    开盘价    最高价    最低价    收盘价   前收盘价          成交量           成交额
交易日期                                                                                    
1999-11-10  sh600000  浦发银行  29.50  29.80  27.00  27.75  10.00  174085100.0  4.859102e+09
1999-11-11  sh600000  浦发银行  27.58  28.38  27.53  27.71  27.75   29403500.0  8.215822e+08
1999-11-12  sh600000  浦发银行  27.86  28.30  27.77  28.05  27.71   15008000.0  4.215916e+08
1999-11-15  sh600000  浦发银行  28.20  28.25  27.70  27.75  28.05   11921100.0  3.329528e+08
1999-11-16  sh600000  浦发银行  27.88  27.97  26.48  26.55  27.75   23223100.0  6.289083e+08
...              ...   ...    ...    ...    ...    ...    ...          ...           ...
2019-03-29  sh600000  浦发银行  10.98  11.30  10.98  11.28  11.03   60526266.0  6.784365e+08
2019-04-01  sh600000  浦发银行  11.36  11.52  11.29  11.44  11.28   70637405.0  8.086575e+08
2019-04-02  sh600000  浦发银行  11.50  11.52  11.41  11.44  11.44   46714710.0  5.348968e+08
2019-04-03  sh600000 

In [7]:
# =====看数据
print(df.shape)  # 输出dataframe有多少行、多少列。

(4582, 9)


In [8]:
print(df.shape[0])  # 取行数量，相应的列数量就是df.shape[1]

4582


In [9]:
print(df.columns)  # 顺序输出每一列的名字，演示如何for语句遍历。

Index(['股票代码', '股票名称', '开盘价', '最高价', '最低价', '收盘价', '前收盘价', '成交量', '成交额'], dtype='object')


In [10]:
print(df.index)  # 顺序输出每一行的名字，可以for语句遍历。

DatetimeIndex(['1999-11-10', '1999-11-11', '1999-11-12', '1999-11-15',
               '1999-11-16', '1999-11-17', '1999-11-18', '1999-11-19',
               '1999-11-22', '1999-11-23',
               ...
               '2019-03-22', '2019-03-25', '2019-03-26', '2019-03-27',
               '2019-03-28', '2019-03-29', '2019-04-01', '2019-04-02',
               '2019-04-03', '2019-04-04'],
              dtype='datetime64[ns]', name='交易日期', length=4582, freq=None)


In [11]:
print(df.dtypes)  # 数据每一列的类型不一样，比如数字、字符串、日期等。该方法输出每一列变量类型

股票代码     object
股票名称     object
开盘价     float64
最高价     float64
最低价     float64
收盘价     float64
前收盘价    float64
成交量     float64
成交额     float64
dtype: object


In [12]:
print(df.head(3))  # 看前3行的数据，默认是5。与自然语言很接近

                股票代码  股票名称    开盘价    最高价    最低价    收盘价   前收盘价          成交量           成交额
交易日期                                                                                    
1999-11-10  sh600000  浦发银行  29.50  29.80  27.00  27.75  10.00  174085100.0  4.859102e+09
1999-11-11  sh600000  浦发银行  27.58  28.38  27.53  27.71  27.75   29403500.0  8.215822e+08
1999-11-12  sh600000  浦发银行  27.86  28.30  27.77  28.05  27.71   15008000.0  4.215916e+08


In [13]:
df.tail(3)  # 看最后3行的数据，默认是5。

Unnamed: 0_level_0,股票代码,股票名称,开盘价,最高价,最低价,收盘价,前收盘价,成交量,成交额
交易日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2019-04-02,sh600000,浦发银行,11.5,11.52,11.41,11.44,11.44,46714710.0,534896810.0
2019-04-03,sh600000,浦发银行,11.37,11.54,11.34,11.5,11.44,50271029.0,575799446.0
2019-04-04,sh600000,浦发银行,11.55,11.71,11.54,11.71,11.5,75232527.0,876099547.0


In [14]:
df.head(3)  # 看前3行的数据，默认是5。与自然语言很接近

Unnamed: 0_level_0,股票代码,股票名称,开盘价,最高价,最低价,收盘价,前收盘价,成交量,成交额
交易日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1999-11-10,sh600000,浦发银行,29.5,29.8,27.0,27.75,10.0,174085100.0,4859102000.0
1999-11-11,sh600000,浦发银行,27.58,28.38,27.53,27.71,27.75,29403500.0,821582200.0
1999-11-12,sh600000,浦发银行,27.86,28.3,27.77,28.05,27.71,15008000.0,421591600.0


In [15]:

df.describe()  # 非常方便的函数，对每一列数据有直观感受；只会对数字类型的列有效

Unnamed: 0,开盘价,最高价,最低价,收盘价,前收盘价,成交量,成交额
count,4582.0,4582.0,4582.0,4582.0,4582.0,4582.0,4582.0
mean,15.635415,15.909773,15.395792,15.650061,15.640426,56920920.0,815471900.0
std,8.721635,8.980982,8.501645,8.741688,8.737362,92477120.0,1331689000.0
min,6.46,6.65,6.41,6.48,6.48,271120.0,3964432.0
25%,9.76,9.88,9.66,9.75,9.75,7460875.0,89244170.0
50%,13.025,13.25,12.89,13.05,13.04,25776070.0,392786900.0
75%,18.3,18.67,18.0275,18.4,18.3875,66597540.0,963105300.0
max,61.0,61.97,59.0,61.59,61.59,1198024000.0,13833640000.0


In [16]:
df.sample(n=3)  # 随机抽取3行，想要去固定比例的话，可以用frac参数

Unnamed: 0_level_0,股票代码,股票名称,开盘价,最高价,最低价,收盘价,前收盘价,成交量,成交额
交易日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2010-02-24,sh600000,浦发银行,19.35,19.68,19.24,19.66,19.49,38978358.0,758532890.0
2007-01-31,sh600000,浦发银行,26.28,26.28,23.7,24.99,26.33,28116984.0,706809066.0
2018-11-19,sh600000,浦发银行,10.86,10.9,10.77,10.88,10.76,21384793.0,231999662.0


In [18]:
# 对print出的数据格式进行修正
pd.set_option('expand_frame_repr', False)  # 当列太多时显示不清楚
pd.set_option("display.max_rows", 1000)  # 设定显示最大的行数
pd.set_option('precision', 1)  # 浮点数的精度
print(df.head())

                股票代码  股票名称   开盘价   最高价   最低价   收盘价  前收盘价      成交量      成交额
交易日期                                                                      
1999-11-10  sh600000  浦发银行  29.5  29.8  27.0  27.8  10.0  1.7e+08  4.9e+09
1999-11-11  sh600000  浦发银行  27.6  28.4  27.5  27.7  27.8  2.9e+07  8.2e+08
1999-11-12  sh600000  浦发银行  27.9  28.3  27.8  28.1  27.7  1.5e+07  4.2e+08
1999-11-15  sh600000  浦发银行  28.2  28.2  27.7  27.8  28.1  1.2e+07  3.3e+08
1999-11-16  sh600000  浦发银行  27.9  28.0  26.5  26.6  27.8  2.3e+07  6.3e+08


In [19]:
df.head()

Unnamed: 0_level_0,股票代码,股票名称,开盘价,最高价,最低价,收盘价,前收盘价,成交量,成交额
交易日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1999-11-10,sh600000,浦发银行,29.5,29.8,27.0,27.8,10.0,170000000.0,4900000000.0
1999-11-11,sh600000,浦发银行,27.6,28.4,27.5,27.7,27.8,29000000.0,820000000.0
1999-11-12,sh600000,浦发银行,27.9,28.3,27.8,28.1,27.7,15000000.0,420000000.0
1999-11-15,sh600000,浦发银行,28.2,28.2,27.7,27.8,28.1,12000000.0,330000000.0
1999-11-16,sh600000,浦发银行,27.9,28.0,26.5,26.6,27.8,23000000.0,630000000.0


In [20]:
# =====如何选取指定的行、列
df['开盘价']  # 根据列名称来选取，读取的数据是Series类型


交易日期
1999-11-10    29.5
1999-11-11    27.6
1999-11-12    27.9
1999-11-15    28.2
1999-11-16    27.9
              ... 
2019-03-29    11.0
2019-04-01    11.4
2019-04-02    11.5
2019-04-03    11.4
2019-04-04    11.6
Name: 开盘价, Length: 4582, dtype: float64

In [26]:
print(df['交易日期', '收盘价'])  # 同时选取多列，需要两个括号，读取的数据是DataFrame类型


KeyError: ('交易日期', '收盘价')

In [27]:
print(df[['开盘价']])

             开盘价
交易日期            
1999-11-10  29.5
1999-11-11  27.6
1999-11-12  27.9
1999-11-15  28.2
1999-11-16  27.9
...          ...
2019-03-29  11.0
2019-04-01  11.4
2019-04-02  11.5
2019-04-03  11.4
2019-04-04  11.6

[4582 rows x 1 columns]


In [28]:
# print(df.loc[['1999-11-11', '1999-11-25']])
# loc操作：通过label（columns和index的名字）来读取数据
print(df.loc['1999-11-11'])  # 选取指定的某一行，读取的数据是Series类型
print(df.loc[['2000-03-30', '2000-07-31']])  # 选取指定的两行
print(df.loc['2000-03-30': '2000-04-30'])  # 选取在此范围内的多行，和在list中slice操作类似，读取的数据是DataFrame类型
print(df.loc[:, '开盘价':'最低价'])  # 选取在此范围内的多列，读取的数据是DataFrame类型
print(df.loc['2000-03-30': '2000-07-31', '开盘价':'收盘价'])  # 读取指定的多行、多列。逗号之前是行的范围，逗号之后是列的范围。读取的数据是DataFrame类型
print(df.loc[:, :])  # 读取所有行、所有列，读取的数据是DataFrame类型
print(df.at['2000-03-30', '开盘价'])  # 使用at读取指定的某个元素。loc也行，但是at更高效。
print(df.loc['2000-03-30', '开盘价'])

股票代码    sh600000
股票名称        浦发银行
开盘价        3e+01
最高价        3e+01
最低价        3e+01
收盘价        3e+01
前收盘价       3e+01
成交量        3e+07
成交额        8e+08
Name: 1999-11-11 00:00:00, dtype: object
                股票代码  股票名称   开盘价   最高价   最低价   收盘价  前收盘价      成交量      成交额
交易日期                                                                      
2000-03-30  sh600000  浦发银行  25.2  25.7  25.2  25.4  25.2  4.4e+06  1.1e+08
2000-07-31  sh600000  浦发银行  24.0  24.4  24.0  24.1  24.0  3.0e+06  7.1e+07
                股票代码  股票名称   开盘价   最高价   最低价   收盘价  前收盘价      成交量      成交额
交易日期                                                                      
2000-03-30  sh600000  浦发银行  25.2  25.7  25.2  25.4  25.2  4.4e+06  1.1e+08
2000-03-31  sh600000  浦发银行  25.4  25.6  25.1  25.2  25.4  4.3e+06  1.1e+08
2000-04-03  sh600000  浦发银行  25.2  25.5  25.1  25.2  25.2  3.5e+06  8.8e+07
2000-04-04  sh600000  浦发银行  25.2  25.2  24.9  24.9  25.2  4.3e+06  1.1e+08
2000-04-05  sh600000  浦发银行  24.9  25.5  24.9  25.1  24.9

In [29]:
# iloc操作：通过position来读取数据
print(df.iloc[0])  # 以index选取某一行，读取的数据是Series类型
print(df.iloc[1:3])  # 选取在此范围内的多行，读取的数据是DataFrame类型
print(df.iloc[:, 1:3])  # 选取在此范围内的多列，读取的数据是DataFrame类型
print(df.iloc[1:3, 1:3])  # 读取指定的多行、多列，读取的数据是DataFrame类型
print(df.iloc[:, :])  # 读取所有行、所有列，读取的数据是DataFrame类型
print(df.iat[1, 3])  # 使用iat读取指定的某个元素。使用iloc也行，但是iat更高效。

股票代码    sh600000
股票名称        浦发银行
开盘价        3e+01
最高价        3e+01
最低价        3e+01
收盘价        3e+01
前收盘价       1e+01
成交量        2e+08
成交额        5e+09
Name: 1999-11-10 00:00:00, dtype: object
                股票代码  股票名称   开盘价   最高价   最低价   收盘价  前收盘价      成交量      成交额
交易日期                                                                      
1999-11-11  sh600000  浦发银行  27.6  28.4  27.5  27.7  27.8  2.9e+07  8.2e+08
1999-11-12  sh600000  浦发银行  27.9  28.3  27.8  28.1  27.7  1.5e+07  4.2e+08
            股票名称   开盘价
交易日期                  
1999-11-10  浦发银行  29.5
1999-11-11  浦发银行  27.6
1999-11-12  浦发银行  27.9
1999-11-15  浦发银行  28.2
1999-11-16  浦发银行  27.9
...          ...   ...
2019-03-29  浦发银行  11.0
2019-04-01  浦发银行  11.4
2019-04-02  浦发银行  11.5
2019-04-03  浦发银行  11.4
2019-04-04  浦发银行  11.6

[4582 rows x 2 columns]
            股票名称   开盘价
交易日期                  
1999-11-11  浦发银行  27.6
1999-11-12  浦发银行  27.9
                股票代码  股票名称   开盘价   最高价   最低价   收盘价  前收盘价      成交量      成交额
交易日期           