## numpy的基本对象numpy.ndarray & func

In [1]:
import numpy as np

# 创建ndarray
score = np.array([[80, 89, 86, 67, 79],
[78, 97, 89, 67, 81],
[90, 94, 78, 67, 74],
[91, 91, 90, 67, 69],
[76, 87, 75, 67, 86],
[70, 79, 84, 67, 84],
[94, 92, 93, 67, 64],
[86, 85, 83, 67, 80]])

print(f"对象类型：{type(score)}\n多维数组{score}")

对象类型：<class 'numpy.ndarray'>
多维数组[[80 89 86 67 79]
 [78 97 89 67 81]
 [90 94 78 67 74]
 [91 91 90 67 69]
 [76 87 75 67 86]
 [70 79 84 67 84]
 [94 92 93 67 64]
 [86 85 83 67 80]]


### 一维数组：ndarray与Python原生list运算效率对比

In [2]:
import random
import time
import numpy as np

a = []
for i in range(100000000):
    a.append(random.random())
t1 = time.time()
sum1=sum(a)
t2=time.time()

b=np.array(a)
t4=time.time()
sum3=np.sum(b)
t5=time.time()
print(t2-t1, t5-t4)  # ndarray的速度非常快

2.496142864227295 33.3729088306427


### ndarray的优越性
- **1 内存块风格**
    - ndarray中的所有元素的类型都是相同的，而Python列表中的元素类型是任意的，所以ndarray在存储元素时内存可以连续，而python原生lis就t只能通过寻址方式找到下一个元素，这虽然也导致了在通用性能方面Numpy的ndarray不及Python原生list，但在科学计算中，Numpy的ndarray就可以省掉很多循环语句，代码使用方面比Python原生list简单的多。
- **2 ndarray支持并行化运算（向量化运算）**
- **3 Numpy底层使用C语言编写，内部解除了GIL（全局解释器锁），其对数组的操作速度不受Python解释器的限制，效率远高于纯Python代码。**

In [3]:
# ndarray的形状
import numpy as np

a = np.array([[1,2,3], [4,5,6]])
b = np.array([1,2,3,4])
c = np.array([[[1,2,3],[4,5,6]],[[1,2,3],[4,5,6]]])

print(a.shape,
b.shape,
c.shape)

(2, 3) (4,) (2, 2, 3)


In [4]:
# ndarray的类型
type(score.dtype)

numpy.dtype

In [5]:
score.dtype  # numpy中的描述类型的属性

dtype('int32')

### 生成各种ndarray数组的方法

***1 生成0和1的数组***

In [6]:
zero = np.zeros([3, 4])
zero

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [7]:
one = np.ones([3, 4])
one

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

***2、从现有的数据中创建***

In [8]:
a = np.array([[1,2,3],[4,5,6]])
# 从现有的数组当中创建
a1 = np.array(a)
# 相当于索引的形式，并没有真正的创建一个新的
a2 = np.asarray(a)

* **2.1、关于array和asarray的不同**

In [9]:
print(f"{a1}\n{a2}")

[[1 2 3]
 [4 5 6]]
[[1 2 3]
 [4 5 6]]


In [10]:
a[1] = 2

In [11]:
a1  # 分配的新的id地址

array([[1, 2, 3],
       [4, 5, 6]])

In [12]:
a2  # 对a的id地址的引用

array([[1, 2, 3],
       [2, 2, 2]])

In [13]:
id(a),id(a1),id(a2)

(122417520, 122352304, 122417520)

***3、创建固定范围的数组***
- **3.1、生成等间隔的数组**
    - np.linspace (start, stop, num, endpoint, retstep, dtype)
- **3.2、创建等差数组**
    - numpy.arange(start,stop, step, dtype)
- **3.3、创建等比数组**
    - numpy.logspace(start,stop, num, endpoint, base, dtype)

In [14]:
"""
生成等间隔的数组:

np.linspace (start, stop, num, endpoint, retstep, dtype)
    start 序列的起始值
    stop 序列的终止值，
    如果endpoint为true，该值包含于序列中
    num 要生成的等间隔样例数量，默认为50
    endpoint 序列中是否包含stop值，默认为ture
    retstep 如果为true，返回样例，
    以及连续数字之间的步长
    dtype 输出ndarray的数据类型
"""
# 生成等间隔的数组
np.linspace(0, 100, 10)

array([  0.        ,  11.11111111,  22.22222222,  33.33333333,
        44.44444444,  55.55555556,  66.66666667,  77.77777778,
        88.88888889, 100.        ])

In [15]:
# 生成等比数组
np.arange(10, 50, 2)

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48])

***4、创建随机数组***
> - np.random模块
    - **均匀分布**
        - np.random.rand(10)
        - np.random.uniform(0,100)
        - np.random.randint(100)
    - **正态分布？(给定均值／标准差／维度的正态分布)**
        - np.random.normal(1.75, 0.2, (3,4))
        - np.random.standard_normal(size=(3,4))

In [16]:
# 创建均匀分布的数组
# 0~1
np.random.rand(10)

# 默认范围一个数
np.random.uniform(0, 100)

# 随机整数
np.random.randint(10)

# 正态分布(尽可能的拟合正态分布函数)
np.random.normal(1.75, 0.1, (10, 10))

array([[1.8845772 , 1.64536285, 1.67374306, 1.66709845, 1.66283135,
        1.92456195, 1.69019376, 1.77105979, 1.84582352, 1.89422086],
       [1.95246806, 1.59622018, 1.78012925, 1.63468615, 1.58848525,
        1.81684221, 1.652643  , 1.72307032, 1.6087323 , 1.64269829],
       [1.69884716, 1.64393739, 1.86981442, 1.90811133, 1.98341294,
        1.8080138 , 1.87170029, 1.76026961, 1.65480561, 1.58960902],
       [1.72969057, 1.70797398, 1.74677323, 1.63633263, 1.76407953,
        1.82440579, 1.78310456, 1.82595969, 1.60004477, 1.58901816],
       [1.63851908, 1.58603042, 1.54454596, 1.85080877, 1.78086191,
        1.64653734, 1.73861373, 1.75223131, 1.71180747, 1.712893  ],
       [1.8045603 , 1.88011935, 1.8499743 , 1.64607031, 1.76547965,
        1.84445397, 1.81294822, 1.90494781, 1.57951238, 1.55505943],
       [1.8073189 , 1.67778742, 1.97363473, 1.65523641, 2.00245889,
        1.66601735, 1.98155493, 1.50998108, 1.81708064, 1.65802113],
       [1.7569223 , 1.76552351, 1.6962998

### 综合api使用
- **随机生成500个股票两年的交易日涨幅数据**
> 两年的交易日数量为：2 X 252 = 504
>> 随机生成涨跌幅在某个正态分布内，比如均值0，方差1

***1、股票涨跌幅数据的创建***

In [17]:
# 创建一个符合正太分布的500个股票504天的涨跌幅数据
stock_day_rise = np.random.normal(0, 1, (500, 504))
stock_day_rise.shape

(500, 504)

***2、数组的索引***

In [18]:
# 二维的数组，两个维度 
stock_day_rise[0, 0:10]

array([-0.25223493,  0.82979083, -0.86017872, -0.10494755,  0.35381554,
       -0.61013138,  1.96358735, -2.24031621, -0.07088358, -0.39959541])

In [19]:
# 三维，一维
a1 = np.array([[[1,2,3],[4,5,6]], [[12,3,34],[5,6,7]]])
a1[0, 0, 1]

2

***3、数组形状与类型变化***
- **3.1修改形状**

In [20]:
# 在转换形状的时候，一定要注意数组的元素匹配
stock_day_rise.reshape([504, 500])  # 改变数组形状，让刚才的股票行、日期列反过来，变成日期行，股票列

array([[-0.25223493,  0.82979083, -0.86017872, ..., -0.28123341,
        -0.00424964, -1.11398176],
       [ 1.2860969 , -0.52643197,  0.02689389, ..., -0.7584092 ,
         0.78962852,  0.09843484],
       [ 0.66511592,  1.10764923,  0.67214777, ...,  0.45244561,
         0.07592763, -0.06332597],
       ...,
       [-0.33641779,  1.20747354,  0.83674362, ..., -1.19177192,
        -1.44817332, -1.46191188],
       [-0.02447261,  0.12099922, -0.44684776, ...,  0.27365185,
         0.38642897, -0.53163144],
       [ 0.25526792,  0.3599213 ,  1.23749669, ...,  1.91812233,
         0.92249912,  0.37985828]])

In [21]:
stock_day_rise.resize([504,500]  # 改变数组大小

In [22]:
stock_day_rise.flatten()  # 即返回一个折叠成一维的数组

array([-0.25223493,  0.82979083, -0.86017872, ...,  1.91812233,
        0.92249912,  0.37985828])

- **3.2修改类型**

In [23]:
stock_day_rise.reshape([504, 500]).astype(np.int32)

array([[ 0,  0,  0, ...,  0,  0, -1],
       [ 1,  0,  0, ...,  0,  0,  0],
       [ 0,  1,  0, ...,  0,  0,  0],
       ...,
       [ 0,  1,  0, ..., -1, -1, -1],
       [ 0,  0,  0, ...,  0,  0,  0],
       [ 0,  0,  1, ...,  1,  0,  0]])

- **3.3修改小数位数**

In [24]:
np.round(stock_day_rise[:2, :20], 4)

array([[-0.2522,  0.8298, -0.8602, -0.1049,  0.3538, -0.6101,  1.9636,
        -2.2403, -0.0709, -0.3996,  0.6799,  0.1793, -0.5644, -1.5933,
         0.3189, -1.3458, -0.0039,  0.0025,  0.0906,  0.2598],
       [ 1.2861, -0.5264,  0.0269,  2.0323, -0.6239, -0.0484, -0.7328,
         0.5073, -0.0274,  1.2761, -1.74  ,  0.6488,  1.1693,  0.3387,
        -1.6547, -0.8698,  0.1748,  0.1509, -0.6276,  0.2117]])

***4、数组转换***
- **ndarray.T 数组的转置**
    - 将数组的行、列进行互换

In [25]:
stock_day_rise.shape
(500, 504)
stock_day_rise.T.shape
(504, 500)

(504, 500)

In [26]:
# 转换成bytes
arr = np.array([ [[1,2,3],[4,5,6]], [[12,3,34],[5,6,7]]])
arr.tostring()

b'\x01\x00\x00\x00\x02\x00\x00\x00\x03\x00\x00\x00\x04\x00\x00\x00\x05\x00\x00\x00\x06\x00\x00\x00\x0c\x00\x00\x00\x03\x00\x00\x00"\x00\x00\x00\x05\x00\x00\x00\x06\x00\x00\x00\x07\x00\x00\x00'

In [28]:
# ndarray.copy([order]) Return a copy of the array.
# 先从两年stock_day_rise拷贝一些数据
temp = stock_day_rise[:4, :4].copy()

In [29]:
temp

array([[-0.25223493,  0.82979083, -0.86017872, -0.10494755],
       [ 1.2860969 , -0.52643197,  0.02689389,  2.03227513],
       [ 0.66511592,  1.10764923,  0.67214777, -0.41660277],
       [ 1.15417292,  1.57901676,  1.51461805, -0.54424864]])

### numpy逻辑运算

In [30]:
# 逻辑判断
temp > 0.5

# 赋值
temp[temp > 0.5] = 1

In [31]:
# 通用判断函数 np.all()

# 判断stock_day_rise[0:2,0:5]是否全是上涨的
np.all(stock_day_rise[0:2,0:5] > 0)  # bool

False

In [32]:
# 返回新的数组的数值，不存在重复的值 np.unique()

#将序列中数值值唯一且不重复的值组成新的序列
change_int = stock_day_rise[0:2,0:5].astype(int)  # 修改类型
np.unique(change_int)

array([0, 1, 2])

In [33]:
# np.where（三元运算符）
# 通过使用np.where能够进行更加复杂的运算

np.where(temp > 0, 1, 0)

array([[0, 1, 0, 0],
       [1, 0, 1, 1],
       [1, 1, 1, 0],
       [1, 1, 1, 0]])

> **复合逻辑需要结合np.logical_and和np.logical_or使用**

In [35]:
# 判断前四个股票前四天的涨跌幅 大于0.5并且小于1的，换为1，否则为0
np.where(np.logical_and(temp > 0.5, temp < 1), 1, 0)

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [36]:
# 判断前四个股票前四天的涨跌幅 大于0.5或者小于-0.5的，换为1，否则为0
np.where(np.logical_or(temp > 0.5, temp < -0.5), 1, 0)

array([[0, 1, 1, 0],
       [1, 1, 0, 1],
       [1, 1, 1, 0],
       [1, 1, 1, 1]])

## 统计计算

### 统计指标
- 在数据挖掘/机器学习领域，统计指标的值也是我们分析问题的一种方式。常用的指标如下：
    - min(a[, axis, out, keepdims]) Return the minimum of an array or minimum along an axis.
    - max(a[, axis, out, keepdims]) Return the maximum of an array or maximum along an axis.
    - median(a[, axis, out, overwrite_input, keepdims]) Compute the median along the specified axis.
    - mean(a[, axis, dtype, out, keepdims]) Compute the arithmetic mean along the specified axis.
    - std(a[, axis, dtype, out, ddof, keepdims]) Compute the standard deviation along the specified axis.
    - var(a[, axis, dtype, out, ddof, keepdims]) Compute the variance along the specified axis.

### 综合api使用案例
**三、股票涨跌幅统计运算**
* 使用np.max完成最大值计算
* 使用np.min完成最小值计算
* 使用np.mean完成平均值计算
- 使用np.std完成标准差计算
- 使用np.argmax、np.argmin完成最大值最小值的索引

In [18]:
# 创建一个符合正太分布的500个股票504天的涨跌幅数据
stock_day_rise = np.random.normal(0, 1, (500, 504))
stock_day_rise.shape

(500, 504)

In [19]:
# 先从两年stock_day_rise拷贝一些数据
temp = stock_day_rise[:4, :4].copy()

In [20]:
# 接下来对于这4只股票的4天数据，进行一些统计运算
# 指定行 去统计
print("所有四只股票前四天的最大涨幅{}".format(np.max(temp, axis=1)))
# 使用min, std, mean
print("所有四只股票前100天的最大跌幅{}".format(np.min(temp, axis=1)))
print("所有四只股票前100天的振幅幅度{}".format(np.std(temp, axis=1)))
print("所有四只股票前100天的平均涨跌幅{}".format(np.mean(temp, axis=1)))

所有四只股票前四天的最大涨幅[-0.11128534  1.4526285   1.16612188  1.45670194]
所有四只股票前100天的最大跌幅[-1.16692983 -1.19299231  0.21370305 -1.37616199]
所有四只股票前100天的振幅幅度[0.44332061 1.01242229 0.37050886 1.05335303]
所有四只股票前100天的平均涨跌幅[-0.40135336  0.02522087  0.70784655  0.25862467]


In [21]:
# 获取股票指定哪一天的涨幅最大
print("前四只股票在100天内涨幅最大{}".format(np.argmax(temp, axis=1)))
print("前100天在天内涨幅最大的股票{}".format(np.argmax(temp, axis=0)))

前四只股票在100天内涨幅最大[3 3 3 2]
前100天在天内涨幅最大的股票[1 3 3 1]


## 数组间的运算
- 说明数组间运算的广播机制
- 知道数组与数之间的运算
- 知道数组与数组之间的运算
- 理解矩阵的特点以及运算规则
- 应用np.matmul实现矩阵运算

### 二、数组与数的运算

In [24]:
# numpy.ndarray的运算
arr = np.array([[1,2,3,2,1,4], [5,6,1,2,3,1]])
arr + 1
arr / 2

array([[0.5, 1. , 1.5, 1. , 0.5, 2. ],
       [2.5, 3. , 0.5, 1. , 1.5, 0.5]])

In [25]:
# 可以对比python列表的运算，看出区别
a = [1,2,3,4,5]
a * 3

[1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5]

### 三、数组与数组的运算
- 矩阵乘法运算
    - 将array数组转换成矩阵运算

In [26]:
arr1 = np.array([[1,2,3,2,1,4], [5,6,1,2,3,1]])
arr2 = np.array([[1, 2, 3, 4], [3, 4, 5, 6]])

**矩阵，英文matrix，和array的区别矩阵必须是2维的,但是array可以是多维的。**
- np.mat()
    - 将数组转换成矩阵类型

In [27]:
a = np.array([[80,86],
[82,80],
[85,78],
[90,90],
[86,82],
[82,90],
[78,80],
[92,94]])
b = np.array([[0.7],[0.3]])

np.mat(a)  # 将数组转换成矩阵类型matrix

matrix([[80, 86],
        [82, 80],
        [85, 78],
        [90, 90],
        [86, 82],
        [82, 90],
        [78, 80],
        [92, 94]])

**矩阵乘法运算(叉乘)&点乘**
- np.matmul(a, b) 乘法运算API

In [28]:
a = np.array([[80,86],
[82,80],
[85,78],
[90,90],
[86,82],
[82,90],
[78,80],
[92,94]])
b = np.array([[0.7],[0.3]])

np.matmul(a, b)  # 矩阵乘法运算(叉乘)

array([[81.8],
       [81.4],
       [82.9],
       [90. ],
       [84.8],
       [84.4],
       [78.6],
       [92.6]])

### array合并、分割

**数组合并**
- numpy.concatenate((a1, a2, ...), axis=0)
- numpy.hstack(tup) Stack arrays in sequence horizontally (column wise).
- numpy.vstack(tup) Stack arrays in sequence vertically (row wise).

In [35]:
# 将两部分股票合并在一起
a = stock_day_rise[:2, 0:4]
b = stock_day_rise[10:12, 0:4]

# axis=1时候，按照数组的列方向拼接在一起
# axis=0时候，按照数组的行方向拼接在一起
np.concatenate([a, b], axis=0)

np.array([[-2.59680892, -2.44345152, -2.15348934, -1.86554389],
       [-1.04230807,  1.33132386,  0.52063143,  0.49936452],
       [-1.3083418 , -1.08059664,  0.60855154,  0.1262362 ],
       [ 0.87602641,  0.07077588, -0.44194904,  0.87074559]])

array([[-2.59680892, -2.44345152, -2.15348934, -1.86554389],
       [-1.04230807,  1.33132386,  0.52063143,  0.49936452],
       [-1.3083418 , -1.08059664,  0.60855154,  0.1262362 ],
       [ 0.87602641,  0.07077588, -0.44194904,  0.87074559]])

In [44]:
ba = np.hstack([a,b])
ba

array([[-1.16692983, -0.1259712 , -0.20122707, -0.11128534, -0.28365589,
        -0.72236121, -0.55205425, -0.43459655],
       [ 0.44815493, -1.19299231, -0.60690765,  1.4526285 , -1.44377355,
        -0.35278875,  1.55803893,  0.47928061]])

In [43]:
ab = np.vstack([a,b])
ab

array([[-1.16692983, -0.1259712 , -0.20122707, -0.11128534],
       [ 0.44815493, -1.19299231, -0.60690765,  1.4526285 ],
       [-0.28365589, -0.72236121, -0.55205425, -0.43459655],
       [-1.44377355, -0.35278875,  1.55803893,  0.47928061]])

**数组分割**
- numpy.split(ary, indices_or_sections, axis=0) Split an array into multiple sub-arrays.

In [46]:
np.split(ab, 4, axis=0)

[array([[-1.16692983, -0.1259712 , -0.20122707, -0.11128534]]),
 array([[ 0.44815493, -1.19299231, -0.60690765,  1.4526285 ]]),
 array([[-0.28365589, -0.72236121, -0.55205425, -0.43459655]]),
 array([[-1.44377355, -0.35278875,  1.55803893,  0.47928061]])]

### IO操作与数据处理
- numpy读取处理数据
- 缺失值处理

***数据读取***

In [None]:
# 读取数据
test = np.genfromtxt("./data/numpy_test/test.csv", delimiter=',')

***缺失值处理***
- 一般的处理方式是把缺失的数值替换为均值（中值）
- 或者是直接删除有缺失值的一行

In [51]:
# t中存在nan值，如何操作把其中的nan填充为每一列的均值
nan = None
t = np.array([[  0.,   1.,   2.,   3.,   4.,   5.],
       [  6.,   7.,  nan,   9.,  10.,  11.],
       [ 12.,  13.,  14.,  nan,  16.,  17.],
       [ 18.,  19.,  20.,  21.,  22.,  23.]])

In [54]:
nan_num = 1

In [55]:
def fill_nan_by_column_mean(t):
    for i in range(t.shape[1]):
        if nan_num > 0:  # 存在nan值
            now_col = t[:, i]
            now_col_not_nan = now_col[np.isnan(now_col) == False].sum()  # 求和
            now_col_mean = now_col_not_nan / (t.shape[0] - nan_num)  # 求和 / 个数
            now_col[np.isnan(now_col)] = now_col_mean  # 赋值给n
            t[:, i] = now_col  # 赋值给t，即更新t的当前列
fill_nan_by_column_mean(t)

TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

### 实现sigmoid function(激活函数(逻辑回归有用到)), 利用np.exp()

In [56]:
import numpy as np
def sigmoid(x):
    """
    定义一个sigmoid函数
    x is input: An array
    This function is to compute the sigmoid function value
    """
    s = 1.0 / (1 + (1/np.exp(x)))
    return s
m = np.array([1,2,3])
print(sigmoid(m))

[0.73105858 0.88079708 0.95257413]
