# 波士顿房价数据集数据类型分析

In [11]:
from sklearn.datasets import load_boston
boston = load_boston() # 加载sklearn包里提供的波士顿房价数据集
print('boston对象的数据类型：',type(boston)) # 输出boston对象的数据类型
print('boston.data的数据类型：',type(boston.data)) # 输出boston.data的数据类型
print('boston.target的数据类型：',type(boston.target)) # 输出boston.target的数据类型

boston对象的数据类型： <class 'sklearn.utils.Bunch'>
boston.data的数据类型： <class 'numpy.ndarray'>
boston.target的数据类型： <class 'numpy.ndarray'>


In [42]:
dir(boston)

['DESCR', 'data', 'data_module', 'feature_names', 'filename', 'target']

In [44]:
print(boston.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

# 列表和ndarray排序和求和时间比较

In [12]:
import random # 导入random模块
from time import perf_counter # 从time模块导入perf_counter
import numpy as np # 导入numpy模块并通过as将其重命名为np

n=100000 # 待处理的元素数量
repeats = 10 # 实验重复次数（重复多次实验取平均计算时间以使结果更加稳定）

ls_sort_total_seconds = 0 # 记录列表repeats次排序所需要的总时间
arr_sort_total_seconds = 0 # 记录ndarray数组repeats次排序所需要的总时间
ls_sum_total_seconds = 0 # 记录列表repeats次求和所需要的总时间
arr_sum_total_seconds = 0 # 记录ndarray数组repeats次求和所需要的总时间
for i in range(repeats): # 重复repeats次排序
    ls = random.sample(range(1,200000),n) # 随机生成n个整数（不重复），生成随机数的计算时间未统计在内
    arr = np.array(ls) # 根据列表ls创建ndarray数组arr，arr中元素与ls中元素相同
    
    # 列表元素排序时间统计
    start = perf_counter() # 排序前记录一个时间点
    ls.sort(reverse=False) # 调用列表的sort方法进行元素升序排序
    end = perf_counter() # 排序后记录一个时间点
    ls_sort_total_seconds += end-start # 两个时间点的差即为列表排序所用时间
    
    # ndarray数组元素排序时间统计
    start = perf_counter() # 排序前记录一个时间点
    np.sort(arr) # 调用numpy的sort函数进行ndarray数组元素升序排序
    end = perf_counter() # 排序后记录一个时间点
    arr_sort_total_seconds += end-start # 两个时间点的差即为ndarray数组排序所用时间

    # 列表元素求和时间统计
    start = perf_counter() # 排序前记录一个时间点
    ls_sum = sum(ls) # 调用sum函数进行列表元素求和
    end = perf_counter() # 排序后记录一个时间点
    ls_sum_total_seconds += end-start # 两个时间点的差即为列表元素求和所用时间
    
    # ndarray数组元素求和时间统计
    start = perf_counter() # 排序前记录一个时间点
    arr_sum = np.sum(arr) # 调用numpy的sum函数进行ndarray数组元素求和
    end = perf_counter() # 排序后记录一个时间点
    arr_sum_total_seconds += end-start # 两个时间点的差即为数组元素求和所用时间
    
print('列表%6d个元素平均排序时间：%.8f秒'%(n,ls_sort_total_seconds/repeats)) # 输出列表n个元素的平均排序时间
print('数组%6d个元素平均排序时间：%.8f秒'%(n,arr_sort_total_seconds/repeats)) # 输出ndarray数组n个元素的平均排序时间
print('列表%6d个元素平均求和时间：%.8f秒'%(n,ls_sum_total_seconds/repeats)) # 输出列表n个元素的平均求和时间
print('数组%6d个元素平均求和时间：%.8f秒'%(n,arr_sum_total_seconds/repeats)) # 输出ndarray数组n个元素的平均求和时间

列表100000个元素平均排序时间：0.03460977秒
数组100000个元素平均排序时间：0.00822174秒
列表100000个元素平均求和时间：0.00402762秒
数组100000个元素平均求和时间：0.00024721秒


# 波士顿房价数据集中的ndarray类对象常用属性示例

In [13]:
from sklearn.datasets import load_boston
boston = load_boston() # 加载sklearn包里提供的波士顿房价数据集
data = boston.data # 获取特征数据
target = boston.target # 获取目标房价
print('data的ndim属性值是：',data.ndim)
print('data的shape属性值是：',data.shape)
print('data的size属性值是：',data.size)
print('data的dtype属性值是：',data.dtype)
print('data的itemsize属性值是：',data.itemsize)
print('target的ndim属性值是：',target.ndim)
print('target的shape属性值是：',target.shape)
print('target的size属性值是：',target.size)
print('target的dtype属性值是：',target.dtype)
print('target的itemsize属性值是：',target.itemsize)

data的ndim属性值是： 2
data的shape属性值是： (506, 13)
data的size属性值是： 6578
data的dtype属性值是： float64
data的itemsize属性值是： 8
target的ndim属性值是： 1
target的shape属性值是： (506,)
target的size属性值是： 506
target的dtype属性值是： float64
target的itemsize属性值是： 8


# ndarray.reshape方法使用示例

In [None]:
import numpy as np
x = np.linspace(1,12,12,dtype=int)
y = np.reshape(x,(3,4)) # 得到一维数组x的3行4列二维数组表示形式
z = x.reshape((4,-1)) # 得到一维数组x的4行3列二维数组表示形式
w = z.reshape(-1) # 得到二维数组z的一维数组表示形式
print('x:\n', x) # 输出x
print('y:\n', y) # 输出y
print('z:\n', z) # 输出z
print('w:\n', w) # 输出w

x:
 [ 1  2  3  4  5  6  7  8  9 10 11 12]
y:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
z:
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
w:
 [ 1  2  3  4  5  6  7  8  9 10 11 12]


In [55]:
help(x.flat)

Help on flatiter object:

class flatiter(builtins.object)
 |  Flat iterator object to iterate over arrays.
 |  
 |  A `flatiter` iterator is returned by ``x.flat`` for any array `x`.
 |  It allows iterating over the array as if it were a 1-D array,
 |  either in a for-loop or by calling its `next` method.
 |  
 |  Iteration is done in row-major, C-style order (the last
 |  index varying the fastest). The iterator can also be indexed using
 |  basic slicing or advanced indexing.
 |  
 |  See Also
 |  --------
 |  ndarray.flat : Return a flat iterator over an array.
 |  ndarray.flatten : Returns a flattened copy of an array.
 |  
 |  Notes
 |  -----
 |  A `flatiter` iterator can not be constructed directly from Python code
 |  by calling the `flatiter` constructor.
 |  
 |  Examples
 |  --------
 |  >>> x = np.arange(6).reshape(2, 3)
 |  >>> fl = x.flat
 |  >>> type(fl)
 |  <class 'numpy.flatiter'>
 |  >>> for item in fl:
 |  ...     print(item)
 |  ...
 |  0
 |  1
 |  2
 |  3
 |  4
 |  

# 股票数据获取及文件读写示例

In [56]:
import tushare as ts # 导入tushare
import numpy as np # 导入numpy
from datetime import datetime # 导入datetime

def datestr2num(s): # 根据日期获取一周的第几天（0表示周一，1表示周二，…）
    return datetime.strptime(s.decode('utf-8'),'%Y-%m-%d').date().weekday()

df = ts.get_k_data('600848', '2020-03-01', '2020-03-31') # 获取股票代码为600848在2020年3月的日k线数据
arr = df.values # 获取ndarray类形式的股票数据
print('所有列数据：')
print(arr) # 输出股票数据
np.savetxt('./stock_600848_202003.csv', arr, fmt='%s', delimiter=',') # 将股票数据写入CSV文件，注意各列数据用逗号分隔
data = np.loadtxt('./stock_600848_202003.csv', delimiter=',', converters={0:datestr2num}, usecols=(0,1,3)) # 从CSV文件读取股票数据
print('读取的第1、2、4列数据：')
print(data)
open_price,close_price=np.loadtxt('./stock_600848_202003.csv', delimiter=',', usecols=(1,3), unpack=True) # 从CSV文件读取股票数据（每列数据单独存储）
print('开盘价：\n', open_price)
print('收盘价：\n', close_price)

本接口即将停止更新，请尽快使用Pro版接口：https://tushare.pro/document/2


  data = data.append(_get_k_data(url, dataflag,


所有列数据：
[['2020-03-02' 16.35 16.817 16.833 16.35 51902.0 '600848']
 ['2020-03-03' 16.983 17.0 17.392 16.833 62690.0 '600848']
 ['2020-03-04' 16.858 17.142 17.2 16.725 52519.0 '600848']
 ['2020-03-05' 17.475 17.283 17.475 17.167 63113.0 '600848']
 ['2020-03-06' 17.25 17.133 17.258 17.067 44897.0 '600848']
 ['2020-03-09' 17.0 16.592 17.008 16.592 70047.0 '600848']
 ['2020-03-10' 16.25 16.658 16.742 16.092 67789.0 '600848']
 ['2020-03-11' 16.675 16.775 17.167 16.667 66715.0 '600848']
 ['2020-03-12' 16.583 16.467 16.65 16.358 48113.0 '600848']
 ['2020-03-13' 15.792 16.067 16.217 15.567 72370.0 '600848']
 ['2020-03-16' 16.175 15.75 16.425 15.667 65307.0 '600848']
 ['2020-03-17' 15.917 15.417 15.975 15.233 52294.0 '600848']
 ['2020-03-18' 15.567 15.25 15.733 15.125 48094.0 '600848']
 ['2020-03-19' 15.175 15.25 15.292 14.8 61516.0 '600848']
 ['2020-03-20' 15.25 15.283 15.358 15.092 29620.0 '600848']
 ['2020-03-23' 14.833 14.792 15.0 14.767 30648.0 '600848']
 ['2020-03-24' 14.95 15.0 15.233 14.

In [20]:
pip install tushare -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simpleNote: you may need to restart the kernel to use updated packages.



# 索引和切片示例

In [22]:
import numpy as np # 导入numpy
from datetime import datetime # 导入datetime

def datestr2num(s): # 根据日期获取一周的第几天（0表示周一，1表示周二，…）
    return datetime.strptime(s.decode('utf-8'),'%Y-%m-%d').date().weekday()

data = np.loadtxt('./stock_600848_202003.csv', delimiter=',', converters={0:datestr2num}, usecols=range(5)) # 从CSV文件读取前5列股票数据
print('输出前5行元素：\n',data[0:5,:])
print('输出前5行的第2列和第3列元素：\n',data[0:5,1:3])
print('输出前5行的第2列和第4列元素：\n',data[0:5,(1,3)])
print('输出前5行的第2列元素：\n',data[0:5,1])
print('输出第3行和第5行的第2列和第4列元素：\n',data[(2,4),:][:,(1,3)])
print('输出倒数第2、3行的第2列和第4列元素：\n',data[(-2,-3),:][:,(1,3)])
print('输出第3行的第2列元素：\n',data[2,1])
data[2,(1,3)]=-1 # 将第3行的第2列元素和第4列元素置为-1
print('部分元素赋值为-1后输出前5行元素：\n',data[0:5,:])
print('输出第3行元素：\n',data[2])

输出前5行元素：
 [[ 0.    16.35  16.817 16.833 16.35 ]
 [ 1.    16.983 17.    17.392 16.833]
 [ 2.    16.858 17.142 17.2   16.725]
 [ 3.    17.475 17.283 17.475 17.167]
 [ 4.    17.25  17.133 17.258 17.067]]
输出前5行的第2列和第3列元素：
 [[16.35  16.817]
 [16.983 17.   ]
 [16.858 17.142]
 [17.475 17.283]
 [17.25  17.133]]
输出前5行的第2列和第4列元素：
 [[16.35  16.833]
 [16.983 17.392]
 [16.858 17.2  ]
 [17.475 17.475]
 [17.25  17.258]]
输出前5行的第2列元素：
 [16.35  16.983 16.858 17.475 17.25 ]
输出第3行和第5行的第2列和第4列元素：
 [[16.858 17.2  ]
 [17.25  17.258]]
输出倒数第2、3行的第2列和第4列元素：
 [[14.767 16.167]
 [15.083 15.217]]
输出第3行的第2列元素：
 16.858
部分元素赋值为-1后输出前5行元素：
 [[ 0.    16.35  16.817 16.833 16.35 ]
 [ 1.    16.983 17.    17.392 16.833]
 [ 2.    -1.    17.142 -1.    16.725]
 [ 3.    17.475 17.283 17.475 17.167]
 [ 4.    17.25  17.133 17.258 17.067]]
输出第3行元素：
 [ 2.    -1.    17.142 -1.    16.725]


# 数组对象copy方法使用示例

In [23]:
a = np.arange(1,13).reshape(3,4) # 创建一个3行4列的二维数组对象a
print('a:\n',a) # 输出a
b = a.copy() # 调用copy方法生成a的副本并赋给b
print('b is a:',b is a) # 使用is判断b和a是否对应同一个数组对象
a[2,1] = -1 # 将a中第3行第2列的元素修改为-1
print('a:\n',a) # 输出a
print('b:\n',b) # 输出b

a:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
b is a: False
a:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 -1 11 12]]
b:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


# 数组对象直接赋值和浅拷贝程序示例

In [57]:
a = np.arange(1,13).reshape(3,4) # 创建一个3行4列的二维数组对象a
print('a:\n',a) # 输出a
b = a
print('b is a:',b is a) # 使用is判断b和a是否对应同一个数组对象
c = a[:,:] # 将对a切片操作的返回结果赋给c
print('c is a:',c is a) # 使用is判断c和a是否对应同一个数组对象
d = a.reshape(4,3) # 将a.reshape返回的4行3列二维数组对象赋给d
print('d is a:',d is a) # 使用is判断d和a是否对应同一个数组对象
e = a.T # 将a.T返回的a的转置结果赋给e
print('e is a:',e is a) # 使用is判断e和a是否对应同一个数组对象
a[2,1] = -1 # 将a中第3行第2列的元素修改为-1
print('a:\n',a) # 输出a
print('b:\n',b) # 输出b
print('c:\n',c) # 输出c
print('d:\n',d) # 输出d
print('e:\n',e) # 输出e

a:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
b is a: True
c is a: False
d is a: False
e is a: False
a:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 -1 11 12]]
b:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 -1 11 12]]
c:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 -1 11 12]]
d:
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [-1 11 12]]
e:
 [[ 1  5  9]
 [ 2  6 -1]
 [ 3  7 11]
 [ 4  8 12]]


# ndarray类对象基础运算示例

In [25]:
import numpy as np
x=np.arange(1,7).reshape(2,3)
y=np.arange(7,13).reshape(2,3)
z=x.T # z为x的转置
w=np.array([[1,2,3],[3,2,1]])
print('x:\n',x)
print('y:\n',y)
print('z:\n',z)
print('w:\n',w)
print('x+y:\n',x+y) # 输出x和y的逐元素加法结果（x和y的值均不变）
print('x+2:\n',x+2) # 输出x逐元素加2的运算结果（x的值不变）
print('x**2:\n',x**2) # 输出x的逐元素乘方运算结果（x的值不变）
print('x*y:\n',x*y) # 输出x和y的逐元素乘法结果（x和y的值均不变）
print('x@z:\n',x@z) # 输出x和z的矩阵乘法结果（x和z的值均不变）
print('x**w:\n',x**w) # 输出x与w的逐元素幂运算结果（x和w的值均不变）
print('x before x+=y:\n',x) # 输出x+=y运算前的x值
x+=y # 将y逐元素加到x上（x的值改变、y的值不变）
print('x after x+=y:\n',x) # 输出x+=y运算后的x值
print('y>10:\n',y>10) # 输出y与10逐元素比较的结果

x:
 [[1 2 3]
 [4 5 6]]
y:
 [[ 7  8  9]
 [10 11 12]]
z:
 [[1 4]
 [2 5]
 [3 6]]
w:
 [[1 2 3]
 [3 2 1]]
x+y:
 [[ 8 10 12]
 [14 16 18]]
x+2:
 [[3 4 5]
 [6 7 8]]
x**2:
 [[ 1  4  9]
 [16 25 36]]
x*y:
 [[ 7 16 27]
 [40 55 72]]
x@z:
 [[14 32]
 [32 77]]
x**w:
 [[ 1  4 27]
 [64 25  6]]
x before x+=y:
 [[1 2 3]
 [4 5 6]]
x after x+=y:
 [[ 8 10 12]
 [14 16 18]]
y>10:
 [[False False False]
 [False  True  True]]


# 计算股票各项数据的平均值

In [27]:
import numpy as np # 导入numpy

data = np.loadtxt('./stock_600848_202003.csv', delimiter=',', usecols=range(1,6)) # 从CSV文件读取第2-6列股票数据（分别对应股票每日的开盘价、最高价、收盘价、最低价和成交量）
print('data.shape:',data.shape)
avg = np.zeros(5) # 用于保存平均值
print('每日的开盘价、最高价、收盘价、最低价和成交量数据：')
for d in data: # 循环获取每日的股票数据
    print(d) # 输出每日的股票数据
    avg += d # 将每日数据直接加到avg中
avg /= data.shape[0] # 除以数据条数（即天数）得到各项数据平均值
print('开盘价、最高价、收盘价、最低价和成交量的平均值：\n', avg)

data.shape: (22, 5)
每日的开盘价、最高价、收盘价、最低价和成交量数据：
[1.6350e+01 1.6817e+01 1.6833e+01 1.6350e+01 5.1902e+04]
[1.6983e+01 1.7000e+01 1.7392e+01 1.6833e+01 6.2690e+04]
[1.6858e+01 1.7142e+01 1.7200e+01 1.6725e+01 5.2519e+04]
[1.7475e+01 1.7283e+01 1.7475e+01 1.7167e+01 6.3113e+04]
[1.7250e+01 1.7133e+01 1.7258e+01 1.7067e+01 4.4897e+04]
[1.7000e+01 1.6592e+01 1.7008e+01 1.6592e+01 7.0047e+04]
[1.6250e+01 1.6658e+01 1.6742e+01 1.6092e+01 6.7789e+04]
[1.6675e+01 1.6775e+01 1.7167e+01 1.6667e+01 6.6715e+04]
[1.6583e+01 1.6467e+01 1.6650e+01 1.6358e+01 4.8113e+04]
[1.5792e+01 1.6067e+01 1.6217e+01 1.5567e+01 7.2370e+04]
[1.6175e+01 1.5750e+01 1.6425e+01 1.5667e+01 6.5307e+04]
[1.5917e+01 1.5417e+01 1.5975e+01 1.5233e+01 5.2294e+04]
[1.5567e+01 1.5250e+01 1.5733e+01 1.5125e+01 4.8094e+04]
[1.5175e+01 1.5250e+01 1.5292e+01 1.4800e+01 6.1516e+04]
[1.5250e+01 1.5283e+01 1.5358e+01 1.5092e+01 2.9620e+04]
[1.4833e+01 1.4792e+01 1.5000e+01 1.4767e+01 3.0648e+04]
[1.4950e+01 1.5000e+01 1.5233e+01 1.4767e+

# 广播机制示例

In [60]:
import numpy as np
x=np.arange(1,7).reshape(2,3)
y=np.arange(7,10)
z=np.arange(7,9).reshape(2,1)
print('x:\n',x)
print('y:\n',y)
print('z:\n',z)
print('x*2:\n',x*2) # 输出x逐元素乘2的运算结果
print('x*y:\n',x*y) # 输出x和y逐元素相乘的运算结果
print('x*z:\n',x*z) # 输出x和z逐元素相乘的运算结果

x:
 [[1 2 3]
 [4 5 6]]
y:
 [7 8 9]
z:
 [[7]
 [8]]
x*2:
 [[ 2  4  6]
 [ 8 10 12]]
x*y:
 [[ 7 16 27]
 [28 40 54]]
x*z:
 [[ 7 14 21]
 [32 40 48]]


# 计算股票各项数据的最大值和最小值

In [33]:
import numpy as np # 导入numpy

data = np.loadtxt('./stock_600848_202003.csv', delimiter=',', usecols=range(1,6)) # 从CSV文件读取第2-6列股票数据（分别对应股票每日的开盘价、最高价、收盘价、最低价和成交量）
print('data.shape:',data.shape)
print('每日的开盘价、最高价、收盘价、最低价和成交量数据：')
maxval = data[0] # 用于保存最大值（先假设第1天的股票各数据项为最大值）
minval = data[0] # 用于保存最小值（先假设第1天的股票各数据项为最小值）
print(data[0]) # 输出第1天的股票数据
for i in range(1,data.shape[0]): # 循环获取每日的股票数据
    print(data[i]) # 输出每日的股票数据
    maxval = np.maximum(maxval, data[i]) # 用当前股票数据更新当前保存的各数据项最大值
    minval = np.minimum(minval, data[i]) # 用当前股票数据更新当前保存的各数据项最小值
print('开盘价、最高价、收盘价、最低价和成交量的最大值：\n', maxval)
print('开盘价、最高价、收盘价、最低价和成交量的最小值：\n', minval)

data.shape: (22, 5)
每日的开盘价、最高价、收盘价、最低价和成交量数据：
[1.6350e+01 1.6817e+01 1.6833e+01 1.6350e+01 5.1902e+04]
[1.6983e+01 1.7000e+01 1.7392e+01 1.6833e+01 6.2690e+04]
[1.6858e+01 1.7142e+01 1.7200e+01 1.6725e+01 5.2519e+04]
[1.7475e+01 1.7283e+01 1.7475e+01 1.7167e+01 6.3113e+04]
[1.7250e+01 1.7133e+01 1.7258e+01 1.7067e+01 4.4897e+04]
[1.7000e+01 1.6592e+01 1.7008e+01 1.6592e+01 7.0047e+04]
[1.6250e+01 1.6658e+01 1.6742e+01 1.6092e+01 6.7789e+04]
[1.6675e+01 1.6775e+01 1.7167e+01 1.6667e+01 6.6715e+04]
[1.6583e+01 1.6467e+01 1.6650e+01 1.6358e+01 4.8113e+04]
[1.5792e+01 1.6067e+01 1.6217e+01 1.5567e+01 7.2370e+04]
[1.6175e+01 1.5750e+01 1.6425e+01 1.5667e+01 6.5307e+04]
[1.5917e+01 1.5417e+01 1.5975e+01 1.5233e+01 5.2294e+04]
[1.5567e+01 1.5250e+01 1.5733e+01 1.5125e+01 4.8094e+04]
[1.5175e+01 1.5250e+01 1.5292e+01 1.4800e+01 6.1516e+04]
[1.5250e+01 1.5283e+01 1.5358e+01 1.5092e+01 2.9620e+04]
[1.4833e+01 1.4792e+01 1.5000e+01 1.4767e+01 3.0648e+04]
[1.4950e+01 1.5000e+01 1.5233e+01 1.4767e+

# 对股票数据进行基本的统计分析

In [34]:
import numpy as np # 导入numpy

data = np.loadtxt('./stock_600848_202003.csv', delimiter=',', usecols=range(1,6)) # 从CSV文件读取第2-6列股票数据（分别对应股票每日的开盘价、最高价、收盘价、最低价和成交量）
data_amax = np.amax(data, axis=0) # 分列计算各数据项最大值
data_amin = np.amin(data, axis=0) # 分列计算各数据项最小值
data_ptp = np.ptp(data, axis=0) # 分列计算各数据项波动幅度
data_median = np.median(data, axis=0) # 分列计算各数据项中值
data_p25 = np.percentile(data, q=25, axis=0) # 分列计算各数据项25百分位数
data_p75 = np.percentile(data, q=75, axis=0) # 分列计算各数据项75百分位数
data_mean = np.mean(data, axis=0) # 分列计算各数据项均值
data_var = np.var(data, axis=0) # 分列计算各数据项方差
data_std = np.std(data, axis=0) # 分列计算各数据项标准差
print('最大值：\n',data_amax)
print('最小值：\n',data_amin)
print('波动幅度：\n',data_ptp)
print('最大值-最小值：\n',data_amax-data_amin)
print('中值：\n',data_median)
print('25百分位数：\n',data_p25)
print('75百分位数：\n',data_p75)
print('均值：\n',data_mean)
print('方差：\n',data_var)
print('根据均值计算方差：\n',np.mean((data-data_mean)**2, axis=0))
print('标准差：\n',data_std)
price = data[:,(0,2)] # 取第1列和第3列的开盘价和收盘价数据
volume = data[:,4] # 取第5列成交量数据
data_avg = np.average(price, weights=volume, axis=0) # 计算开盘价和收盘价的加权平均值（以成交量作为权值）
print('加权（成交量）平均收盘价：\n',data_avg)

最大值：
 [1.74750e+01 1.72830e+01 1.74750e+01 1.71670e+01 1.15167e+05]
最小值：
 [1.4767e+01 1.4792e+01 1.5000e+01 1.4400e+01 2.9620e+04]
波动幅度：
 [2.7080e+00 2.4910e+00 2.4750e+00 2.7670e+00 8.5547e+04]
最大值-最小值：
 [2.7080e+00 2.4910e+00 2.4750e+00 2.7670e+00 8.5547e+04]
中值：
 [1.58545e+01 1.58750e+01 1.62250e+01 1.54125e+01 5.25335e+04]
25百分位数：
 [1.522500e+01 1.525625e+01 1.536225e+01 1.500200e+01 4.569625e+04]
75百分位数：
 [1.665200e+01 1.674575e+01 1.696425e+01 1.653350e+01 6.636300e+04]
均值：
 [1.59492273e+01 1.59772727e+01 1.62360000e+01 1.57053636e+01
 5.64524091e+04]
方差：
 [6.88753994e-01 6.71217380e-01 6.55329455e-01 7.25565504e-01
 3.93459881e+08]
根据均值计算方差：
 [6.88753994e-01 6.71217380e-01 6.55329455e-01 7.25565504e-01
 3.93459881e+08]
标准差：
 [8.29912040e-01 8.19278573e-01 8.09524215e-01 8.51801329e-01
 1.98358232e+04]
加权（成交量）平均收盘价：
 [15.99990009 16.35559021]


# 对股票数据进行排序

In [35]:
import numpy as np # 导入numpy

data = np.loadtxt('./stock_600848_202003.csv', delimiter=',', usecols=range(1,6)) # 从CSV文件读取第2-6列股票数据（分别对应股票每日的开盘价、最高价、收盘价、最低价和成交量）
dt=np.dtype({'names':['open','high','close','low','volume'], 'formats':[np.float64]*5}) # 生成np.dtype对象，用于指定ndarray类数组对象的字段（即每一列）名称
data.dtype = dt
data_sorted = np.sort(data,axis=0,order=['volume'])
print('排序结果：\n',data_sorted)

排序结果：
 [[(15.25 , 15.283, 15.358, 15.092,  29620.)]
 [(15.083, 14.958, 15.217, 14.933,  29820.)]
 [(14.833, 14.792, 15.   , 14.767,  30648.)]
 [(14.95 , 15.   , 15.233, 14.767,  34618.)]
 [(15.225, 15.008, 15.242, 14.975,  34692.)]
 [(17.25 , 17.133, 17.258, 17.067,  44897.)]
 [(15.567, 15.25 , 15.733, 15.125,  48094.)]
 [(16.583, 16.467, 16.65 , 16.358,  48113.)]
 [(16.35 , 16.817, 16.833, 16.35 ,  51902.)]
 [(15.917, 15.417, 15.975, 15.233,  52294.)]
 [(16.858, 17.142, 17.2  , 16.725,  52519.)]
 [(15.225, 15.275, 15.375, 15.083,  52548.)]
 [(15.175, 15.25 , 15.292, 14.8  ,  61516.)]
 [(16.983, 17.   , 17.392, 16.833,  62690.)]
 [(17.475, 17.283, 17.475, 17.167,  63113.)]
 [(16.175, 15.75 , 16.425, 15.667,  65307.)]
 [(16.675, 16.775, 17.167, 16.667,  66715.)]
 [(16.25 , 16.658, 16.742, 16.092,  67789.)]
 [(17.   , 16.592, 17.008, 16.592,  70047.)]
 [(15.792, 16.067, 16.217, 15.567,  72370.)]
 [(14.767, 15.583, 16.167, 14.4  ,  87474.)]
 [(15.5  , 16.   , 16.233, 15.258, 115167.)]]


# 计算股票收益率

In [37]:
import numpy as np # 导入numpy
import math

close_price = np.loadtxt('./stock_600848_202003.csv', delimiter=',', usecols=(3,), unpack=True) # 从CSV文件读取第4列股票数据（对应股票收盘价）
print('收盘价：\n', close_price)
returns = np.diff(close_price)/close_price[:-1] # 计算普通收益率，计算方法：(后一天收盘价-前一天收盘价)/(前一天收盘价)
logreturns = np.diff(np.log(close_price)) # 计算对数收益率，计算方法：ln(后一天收盘价)-ln(前一天收盘价)
print('普通收益率：\n', returns)
print('对数收益率：\n', logreturns)
posret_indices = np.where(returns>0) # 找出正收益率的数据位置
print('正收益率数据索引：\n', posret_indices)
print('正收益率详细信息：')
for i in range(posret_indices[0].shape[0]):
    print('第%d组：'%(i+1))
    idx = posret_indices[0][i]
    print('当日收盘价：%f，下一日收盘价：%f'%(close_price[idx],close_price[idx+1]))
    print('普通收益率：%f'%((close_price[idx+1]-close_price[idx])/close_price[idx]))
    print('对数收益率：%f'%(math.log(close_price[idx+1])-math.log(close_price[idx])))

收盘价：
 [16.833 17.392 17.2   17.475 17.258 17.008 16.742 17.167 16.65  16.217
 16.425 15.975 15.733 15.292 15.358 15.    15.233 15.375 15.242 15.217
 16.167 16.233]
普通收益率：
 [ 0.03320858 -0.01103956  0.01598837 -0.01241774 -0.01448604 -0.0156397
  0.02538526 -0.03011592 -0.02600601  0.01282605 -0.02739726 -0.01514867
 -0.02803025  0.00431598 -0.02331033  0.01553333  0.00932187 -0.00865041
 -0.0016402   0.06243018  0.00408239]
对数收益率：
 [ 0.03266908 -0.01110095  0.0158619  -0.01249548 -0.01459198 -0.01576329
  0.0250684  -0.03057872 -0.02635014  0.01274449 -0.02777956 -0.01526458
 -0.0284306   0.0043067  -0.02358631  0.01541393  0.00927869 -0.00868804
 -0.00164155  0.0605589   0.00407408]
正收益率数据索引：
 (array([ 0,  2,  6,  9, 13, 15, 16, 19, 20], dtype=int64),)
正收益率详细信息：
第1组：
当日收盘价：16.833000，下一日收盘价：17.392000
普通收益率：0.033209
对数收益率：0.032669
第2组：
当日收盘价：17.200000，下一日收盘价：17.475000
普通收益率：0.015988
对数收益率：0.015862
第3组：
当日收盘价：16.742000，下一日收盘价：17.167000
普通收益率：0.025385
对数收益率：0.025068
第4组：
当日收盘价：16.217000，下

# 将股票数据由日均线转换为周线

In [38]:
import numpy as np # 导入numpy
from datetime import datetime # 导入datetime

np.set_printoptions(suppress=True) # 输出ndarray类数组对象时不用科学计数法

def datestr2num(s): # 获取该日期属于一年中的第几周
    return datetime.strptime(s.decode('utf-8'),'%Y-%m-%d').date().isocalendar()[1]

data = np.loadtxt('./stock_600848_202003.csv', delimiter=',', converters={0:datestr2num}, usecols=range(6)) # 从CSV文件读取前6列股票数据（分别对应股票日期及每日的开盘价、最高价、收盘价、最低价和成交量，其中股票日期会被转换为一年中的第几周）
print('原始股票数据：\n',data)
split_idx = np.unique(data[:,0],return_index=True) # 获取周起始数据索引
print('周起始数据索引：\n',split_idx)
week_split = np.split(data, split_idx[1][1:]) # 根据周起始数据索引进行数据划分（第一个周起始数据索引不用于划分）
print('按周分组的数据：\n',week_split)
for idx in range(len(week_split)): # 依次访问每周的数据
    w = week_split[idx] # 获取当前周数据（二维ndarray类数组对象）
    w_open = w[0, 1] # 第一天的开盘价作为当前周的开盘价
    w_close = w[-1, 3] # 最后一天的收盘价作为当前周的收盘价
    w_high = np.amax(w[:, 2]) # 最高价的最大值作为当前周的最高价
    w_low = np.amin(w[:, 4]) # 最低价的最小值作为当前周的最低价
    w_volume = np.sum(w[:, 5]) # 成交量的总和作为当前周的成交量
    w_no = w[0, 0] # 一年中的第几周
    w_days = w.shape[0] # 当前周的天数
    w_data = np.array([w_no, w_open, w_high, w_close, w_low, w_volume, w_days]) # 根据当前周数据生成一维ndarray类数组对象
    if idx==0: # 如果是第一个周数据，则直接赋给week_data
        week_data = w_data
    else: # 否则，通过垂直堆叠将当前周数据放在已有周数据后面
        week_data = np.vstack((week_data, w_data))
print('周线数据：\n',week_data)

原始股票数据：
 [[    10.        16.35      16.817     16.833     16.35   51902.   ]
 [    10.        16.983     17.        17.392     16.833  62690.   ]
 [    10.        16.858     17.142     17.2       16.725  52519.   ]
 [    10.        17.475     17.283     17.475     17.167  63113.   ]
 [    10.        17.25      17.133     17.258     17.067  44897.   ]
 [    11.        17.        16.592     17.008     16.592  70047.   ]
 [    11.        16.25      16.658     16.742     16.092  67789.   ]
 [    11.        16.675     16.775     17.167     16.667  66715.   ]
 [    11.        16.583     16.467     16.65      16.358  48113.   ]
 [    11.        15.792     16.067     16.217     15.567  72370.   ]
 [    12.        16.175     15.75      16.425     15.667  65307.   ]
 [    12.        15.917     15.417     15.975     15.233  52294.   ]
 [    12.        15.567     15.25      15.733     15.125  48094.   ]
 [    12.        15.175     15.25      15.292     14.8    61516.   ]
 [    12.        15.25   

# 高级索引程序示例

In [39]:
import numpy as np
a = np.array([ # 创建3行3列的二维数组
    [1.1, 2.3, 1.5],
    [2.1, 1.9, 0.7],
    [1.5, 3.5, 0.9]
])
x = np.array([2,1,2])
print('a[x]:\n',a[x])
y = np.array([[0,1,1],[2,1,0]])
print('a[y]:\n',a[y])
m = np.array([1,2])
n = np.array([0,1])
print('a[m,n]:\n',a[m,n])
print('a[(1,2),(0,1)]:\n',a[(1,2),(0,1)])
i = np.array([[1,2],[0,1]])
j = np.array([[0,1],[1,2]])
print('a[i,j]:\n',a[i,j])
w = a>1.5
print('w:\n',w)
print('a[w]:\n',a[w])
a[w] = 0
print('a:\n',a)

a[x]:
 [[1.5 3.5 0.9]
 [2.1 1.9 0.7]
 [1.5 3.5 0.9]]
a[y]:
 [[[1.1 2.3 1.5]
  [2.1 1.9 0.7]
  [2.1 1.9 0.7]]

 [[1.5 3.5 0.9]
  [2.1 1.9 0.7]
  [1.1 2.3 1.5]]]
a[m,n]:
 [2.1 3.5]
a[(1,2),(0,1)]:
 [2.1 3.5]
a[i,j]:
 [[2.1 3.5]
 [2.3 0.7]]
w:
 [[False  True False]
 [ True  True False]
 [False  True False]]
a[w]:
 [2.3 2.1 1.9 3.5]
a:
 [[1.1 0.  1.5]
 [0.  0.  0.7]
 [1.5 0.  0.9]]


# 根据收盘价和开盘价大小关系获取股票数据

In [40]:
import numpy as np # 导入numpy

open_price,close_price = np.loadtxt('./stock_600848_202003.csv', delimiter=',', usecols=(1,3), unpack=True) # 从CSV文件读取第2列和第4列股票数据（分别对应股票每日的开盘价和收盘价）
boolidx = close_price>open_price # 收盘价大于开盘价
print('收盘价大于开盘价判断结果：\n',boolidx)
price = np.hstack((open_price.reshape(-1,1), close_price.reshape(-1,1))) # 将open_price和close_price水平堆叠
print('开盘价和收盘价水平堆叠结果：\n',price)
raise_data = price[boolidx] # 获取收盘价大于开盘价的数据
print('收盘价大于开盘价的数据：\n',raise_data)
print('收盘价大于开盘价的比例：%.2f'%(len(raise_data)/len(price)))
print('收盘价小于等于开盘价的比例：%.2f'%(len(price[close_price<=open_price])/len(price)))

收盘价大于开盘价判断结果：
 [ True  True  True False  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True]
开盘价和收盘价水平堆叠结果：
 [[16.35  16.833]
 [16.983 17.392]
 [16.858 17.2  ]
 [17.475 17.475]
 [17.25  17.258]
 [17.    17.008]
 [16.25  16.742]
 [16.675 17.167]
 [16.583 16.65 ]
 [15.792 16.217]
 [16.175 16.425]
 [15.917 15.975]
 [15.567 15.733]
 [15.175 15.292]
 [15.25  15.358]
 [14.833 15.   ]
 [14.95  15.233]
 [15.225 15.375]
 [15.225 15.242]
 [15.083 15.217]
 [14.767 16.167]
 [15.5   16.233]]
收盘价大于开盘价的数据：
 [[16.35  16.833]
 [16.983 17.392]
 [16.858 17.2  ]
 [17.25  17.258]
 [17.    17.008]
 [16.25  16.742]
 [16.675 17.167]
 [16.583 16.65 ]
 [15.792 16.217]
 [16.175 16.425]
 [15.917 15.975]
 [15.567 15.733]
 [15.175 15.292]
 [15.25  15.358]
 [14.833 15.   ]
 [14.95  15.233]
 [15.225 15.375]
 [15.225 15.242]
 [15.083 15.217]
 [14.767 16.167]
 [15.5   16.233]]
收盘价大于开盘价的比例：0.95
收盘价小于等于开盘价的比例：0.05


# 按周序号进行股票数据分组

In [41]:
import numpy as np # 导入numpy
from datetime import datetime # 导入datetime

np.set_printoptions(suppress=True) # 输出ndarray类数组对象时不用科学计数法

def datestr2num(s): # 获取该日期属于一年中的第几周
    return datetime.strptime(s.decode('utf-8'),'%Y-%m-%d').date().isocalendar()[1]

data = np.loadtxt('./stock_600848_202003.csv', delimiter=',', converters={0:datestr2num}, usecols=range(6)) # 从CSV文件读取前6列股票数据（分别对应股票日期及每日的开盘价、最高价、收盘价、最低价和成交量，其中股票日期会被转换为一年中的第几周）
week_no = np.unique(data[:,0]) # 获取所有周序号（即一年中的第几周，滤除重复的周序号）
print('周序号：\n',week_no)
week_data = [data[data[:,0]==x] for x in week_no]
print('按周序号分组的数据：\n',week_data)

周序号：
 [10. 11. 12. 13. 14.]
按周序号分组的数据：
 [array([[   10.   ,    16.35 ,    16.817,    16.833,    16.35 , 51902.   ],
       [   10.   ,    16.983,    17.   ,    17.392,    16.833, 62690.   ],
       [   10.   ,    16.858,    17.142,    17.2  ,    16.725, 52519.   ],
       [   10.   ,    17.475,    17.283,    17.475,    17.167, 63113.   ],
       [   10.   ,    17.25 ,    17.133,    17.258,    17.067, 44897.   ]]), array([[   11.   ,    17.   ,    16.592,    17.008,    16.592, 70047.   ],
       [   11.   ,    16.25 ,    16.658,    16.742,    16.092, 67789.   ],
       [   11.   ,    16.675,    16.775,    17.167,    16.667, 66715.   ],
       [   11.   ,    16.583,    16.467,    16.65 ,    16.358, 48113.   ],
       [   11.   ,    15.792,    16.067,    16.217,    15.567, 72370.   ]]), array([[   12.   ,    16.175,    15.75 ,    16.425,    15.667, 65307.   ],
       [   12.   ,    15.917,    15.417,    15.975,    15.233, 52294.   ],
       [   12.   ,    15.567,    15.25 ,    15.733,    