# NumPy Basics: Arrays and Vectorized Computation

Numerical Python 的简称，是Python科学计算的基础包,广泛应用于数学运算，矩阵计算以及数值分析等。 

NumPy的主要对象是**同类型**元素的多维数组。

其所有的元素都是一种类型、通过一个正整数元组索引的元素表格。
本节的内容包括array数据的：
+ 生成
+ 选取
+ 数据处理
+ 运算等

Remark:
> 所有元素都是同一个类型

+ 导入numpy, 设置数据显示的格式，设置在notebook中显示图形

In [2]:
from numpy.random import randn  #导出：产生随机数的函数
""" Return a sample (or samples) from the "standard normal" distribution.

If positive int_like arguments are provided, randn generates an array of shape (d0, d1, ..., dn), filled with random floats sampled from a univariate "normal" (Gaussian) distribution of mean 0 and variance 1. A single float randomly sampled from the distribution is returned if no argument is provided. """
import numpy as np

# 设置NumPy对象的显示的格式,
np.set_printoptions(precision=4, suppress=True) #四位小数的显示

%matplotlib inline 
#图形得是内嵌式的显示方式

> %matplotlib inline #???这个是什么意思？？

In [3]:
a=np.array([34.23534,0.1**30])
a


array([34.2353,  0.    ])

输出：
> array([34.2353,  0.    ])
因为0.1**30 太小了，直接为0了

##  NumPy 多维数值

在NumPy中维度(dimensions)叫做轴(axes)。

+   [1, 2, 3] 是1$\times$3的数组 

+ [[ 1., 0., 0.], [ 0., 1., 2.]]是2$\times$3的数组， 它有两个维度，第一个维度长度为2,第二个维度长度为3. 



In [None]:
a=[1,2,3]
b=[[1,]]

+ 下面的例子抽取一个$2\times 3$的数组，并进行计算。 randn函数从标准正态分布抽取随机数。 
> rand 随机， n Normal 正态

In [7]:
data = randn(2, 3) 
#data
data

array([[-0.5893,  0.3153,  0.1905],
       [ 1.3242,  1.3873, -1.626 ]])

In [8]:
print(data * 10,end="\n\n")#每个变量都去乘10
print(data + data)#对应变量相加

[[ -5.8935   3.1535   1.9049]
 [ 13.2422  13.8728 -16.2603]]

[[-1.1787  0.6307  0.381 ]
 [ 2.6484  2.7746 -3.2521]]


In [9]:
data.shape 

(2, 3)

In [14]:
data.dtype

dtype('float64')

### 产生数组变量

+ min和max之间的等差数列，np.arange,np.linspace,
  + 前者根据每一步的差(step)产生数列，不包含max，
  + 后者根据数列的元素个数(num)产生数列，包含max.

In [10]:
print(np.arange(15),end="\n\n")#不包含max，步长默认default为1
print(np.arange(2,15),end="\n\n")
print(np.arange(2,15,2),end="\n\n")
print(np.arange(2,15,1.5),end="\n\n")

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]

[ 2  3  4  5  6  7  8  9 10 11 12 13 14]

[ 2  4  6  8 10 12 14]

[ 2.   3.5  5.   6.5  8.   9.5 11.  12.5 14. ]



In [11]:
print(np.linspace(0,1,11),end="\n\n")#指定个数
print(np.linspace(0,1,11,endpoint=False),end="\n\n")#可以确定是否包含最后一个
print(np.linspace(0,1,12),end="\n\n")

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

[0.     0.0909 0.1818 0.2727 0.3636 0.4545 0.5455 0.6364 0.7273 0.8182
 0.9091]

[0.     0.0909 0.1818 0.2727 0.3636 0.4545 0.5455 0.6364 0.7273 0.8182
 0.9091 1.    ]



+ 用list产生

In [17]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)#转化为numpy支持的array类型
print(arr1)
print(arr1.shape)

[6.  7.5 8.  0.  1. ]
(5,)


In [None]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

In [None]:
arr2.shape

In [None]:
# reshape可以改变维度
arr2.reshape((1, 8)).reshape(4,2)# reshape((1, 8))和reshape(1, 8)都可以

+ 一些常用的矩阵和向量

In [18]:
np.zeros(10,dtype="int")#产生全零的array
#np.empty(10)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [20]:
np.ones((2,3))#产生全部时1的array

array([[1., 1., 1.],
       [1., 1., 1.]])

In [21]:
np.identity(2)
np.eye(2,3)

array([[1., 0., 0.],
       [0., 1., 0.]])

### 多维数组的类型 

+ np.array的数据类型可以指定，如果没有指定，会自动推断

In [22]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr = np.array([1, 2, 3, 4, 5])
arr1.dtype,arr2.dtype,arr.dtype

(dtype('float64'), dtype('int32'), dtype('int32'))

+ 转换数据类型

In [23]:
# 整数转换为浮点 astype
float_arr = arr.astype(np.float64)

float_arr.dtype,float_arr

(dtype('float64'), array([1., 2., 3., 4., 5.]))

In [24]:
# 浮点转换为整数
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

In [25]:
# 字符转浮点，实际上，python程序读取文件的时候都读入的时字符串
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=str)
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

###  数组和标量的运算
数组的+，-，*,/为对应位置的点对点运算

In [None]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr * arr

In [None]:
arr - arr

In [None]:
1 / arr

In [None]:
arr ** 0.5

###  索引和切片

In [28]:
arr = np.arange(10)
print(np.arange(10))
arr[5]

[0 1 2 3 4 5 6 7 8 9]


5

In [30]:
arr[5:8]#5,6,7 切片，不包含8

array([5, 6, 7])

+ 5:8表示[5,6,7]

+  而list,array等python对象位置索引从0开始的，其实是引用第6，7，8个元素。

In [31]:
arr[5:8] = 12  #切片传到的地址
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

+ 切片传地址; 
> 注意这里和list有区别,一般数列list的切片拷贝生成新的对象

In [35]:
arr=np.arange(10)
arr_slice = arr[5:8] 
""" print(arr_slice is arr[5:8])   ???????"""
arr_slice[1] = 12345
arr

False


array([    0,     1,     2,     3,     4,     5, 12345,     7,     8,
           9])

In [None]:
arr_slice[:] = 64
arr

In [None]:
arr_slice=6400
arr

+ list 切片拷贝生成新的对象

In [None]:
a_list=list(range(10))
list_slice = a_list[5:8]
list_slice[1] = 12345
a_list 

In [36]:
a=[1,2,3,[1,2]]
b=a[3]
b[1]=1000
# 但这里传地址
#嵌套的list这里传输了地址！！！

In [38]:
a[3] is b #可以通过is来测试

True

In [41]:
import copy
c = copy.deepcopy(a)###深度拷贝！
print( a is c, a == c)

False True


In [37]:
a

[1, 2, 3, [1, 1000]]

+ 二维数组的引用和切片

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d)
"几种不同的引用方式:",arr2d[2],arr2d[:][1],arr2d[:,1],arr2d[0][2],arr2d[0, 2]
#比较 arr2d[:][1] 和 arr2d[:,1]

In [None]:
# 二维数组切片也传地址
b=arr2d[2]
b1=arr2d[0][:2]
b2=arr2d[0][:1]

b1[:]=1000
b2[:]=999
b[:]=30
arr2d

+ 3维数组的引用和切片

+ 三层嵌套[],每层一个维度

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

In [None]:
arr3d.shape

In [None]:
"第一维：",arr3d[0],"第二维：",arr3d[0][0],"第三维：",arr3d[0][0][0]

+ 数组拷贝
> 要生成新的对象(传递数值)，而不是传递地址，需要用到copy函数

In [42]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d)
old_values=arr2d.copy()
old_values 

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
arr2d[0][:] =999
print(arr2d)
print("copy:",old_values)

+ 利用切片索引

In [None]:
arr[1:6]

In [None]:
arr2d
arr2d[:2]

In [None]:
#arr2d[1, :2]
arr2d

In [None]:
arr2d[:2, 1:] = 0
arr2d

###  利用布尔值索引

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = randn(7, 4)
print(names,end="\n\n")
data

In [None]:
names == 'Bob'

In [None]:
data[names == 'Bob']

In [None]:
data[names == 'Bob', 2:]

In [None]:
data[names == 'Bob', 3]

In [None]:
names != 'Bob'
data[names != 'Bob']

In [None]:
mask = (names == 'Bob') | (names == 'Will')
mask 

In [None]:
data[mask]

In [None]:
data

In [None]:
data<0

In [None]:
data[data < 0] = 0
#data
data

In [None]:
data[names != 'Joe'] = 7
data

###   花式索引

利用整数数组进行索引，该引用拷贝数据。

In [None]:
np.empty((8, 4))

In [None]:
a=np.empty([2, 2])
a[1,1]

In [None]:
?np.empty

In [None]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr 

In [None]:
arr[[4, 3, 0, 6]]

In [None]:
arr[[-3, -5, -7]]
#- 表示倒序

In [None]:
arr = np.arange(32).reshape((8, 4))
arr

In [None]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

In [None]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

###  转置

In [None]:
arr = np.arange(15).reshape((3, 5)) 
arr
arr.T

In [None]:
arr = np.random.randn(6, 3)
np.dot(arr.T, arr)

In [None]:
arr =np.arange(16).reshape((2, 2, 4))
arr

##  通用函数，快速的元素级数组函数
 

In [None]:
arr = np.arange(10)
np.sqrt(arr)
np.exp(arr)

In [None]:
x = randn(8)
y = randn(8)
print(x)
print(y)
np.maximum(x, y) #  x,y生成一个2维元组，对应位置取x,y的最大值

In [None]:
arr = randn(7) * 5
print(arr)
np.modf(arr)

## 使用数组处理数据

In [None]:
#meshgrid生成网格
points = np.arange(-5, 5, 0.01) # 1000 equally spaced points
xs, ys = np.meshgrid(points, points)

ys

In [None]:
xs

In [None]:
from matplotlib.pyplot import imshow, title

In [None]:
import matplotlib.pyplot as plt
z = np.sqrt(xs ** 2 + ys ** 2)
z
plt.imshow(z, cmap=plt.cm.gray); plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")

In [None]:
#import skimage
from skimage import io, color, filters
import matplotlib.pyplot as plt

#p=io.imread("E:\\teaching\\2017datafin\\notebook\\data\\new sheet_002.jpg")
image=io.imread("https://www.math.pku.edu.cn/images/content/2018-06/20180627113001257500.png")
plt.imshow(image)

In [None]:
image[0,0,:]

In [None]:
image.shape

### 条件表达式,np.where

In [None]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

In [None]:
result = np.where(cond, xarr, yarr)  ## if cond return xarr else return yarr
result

In [None]:
arr = randn(4, 4)
arr
np.where(arr > 0, 2, -2)
np.where(arr > 0, 2, arr) # set only positive values to 2#

###  数学及统计函数

包括函数 sum, mean, std,var, min, max, argmin,argmax,cumsum,cumprod

In [None]:
arr = np.random.randn(5, 4) # normally-distributed data
arr.mean()
np.mean(arr)
arr.sum()

In [None]:
print(arr)
print(arr.mean())
print(arr.mean(axis=0))
arr.sum(0)

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr.cumsum(1)
arr.cumprod(1)

### Methods for boolean arrays

In [None]:
arr = randn(100)
(arr > 0).sum() # Number of positive values

In [None]:
bools = np.array([False, False, True, False])
bools.any()
bools.all()

### Sorting

In [None]:
arr = randn(8)
arr
x=arr.sort()
arr
print(x)

In [None]:
arr = randn(5, 3)
print(arr)
arr.sort(0) ## 0每列排序，1，每行
arr

In [None]:
arr = randn(5, 3)
print(arr)
arr.sort(1) ## 0每列排序，1，每行排序
arr


### Unique and other set logic

函数包括：unique(x),intersect1d(x,y),union1d(x,y),in1d(x,y),setdiff1d(x,y),setxor1d(x,y)

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
print(np.unique(names))
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

In [None]:
sorted(set(names))

In [None]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.in1d(values, [2, 3, 6])

## 数组的输入和输出

In [None]:
arr = np.arange(10)
np.save('some_array', arr)

In [None]:
a=np.load('some_array.npy')

In [None]:
a

In [None]:
#np.savez,多个数组
arch = np.load('D:\\teaching\\金融数据分析datafin\\data\\array_archive.npz')
arch['b']

### Saving and loading text files

In [None]:
!type data\array_ex.txt

In [None]:
arr = np.loadtxt('data/array_ex.txt', delimiter=',')
arr

## Linear algebra

函数包括：diag,dot,trace,det,eig,inv,pinv,qr,svd,solve,lstsq

In [None]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
print(x)
print(y)
x.dot(y)  # equivalently np.dot(x, y)

In [None]:
print(np.ones(3))
np.dot(x, np.ones(3))

numpy.linalg中有更多矩阵函数。

In [None]:
from numpy.linalg import inv, qr
X = randn(5, 5)
mat = X.T.dot(X)
inv(mat)
mat.dot(inv(mat))
q, r = qr(mat)
r

## Random number generation

seed,permutation,shuffle,rand,randit,randn,vinomial,normal,beta,chisquare,gamma,uniform等

In [None]:
samples = np.random.normal(size=(4, 4))
samples


## 其它常用函数
+ np.repeat
+ np.digitize
+ np.random.randint,np.random.choice,np.random.binomial,
+ np.polyfit
+ np.plyval
+ np.nan
+ np.argmax
+ np.squeeze
+ np.histogram


## 作业

1.  给定一个二维数组，每行是一个向量。找出所有不同的行。
比如： 

```x = np.array([[1., 2., 3.], [4., 5., 6.],[1., 2., 3.], [4., 5., 6.]]),则
x[:2]，即x的第0,1行，array([[ 1.,  2.,  3.],[ 4.,  5.,  6.]])就是要找到行。
```

备注：请不要直接调用numpy.unique

2.  a).产生正态数据数据向量 Z,长度为T， 建立一个二维数组，使其第一行为 (Z[0],Z[1],Z[2])，然后每一行都后移一位 （因此最后一行为 (Z[T-3],Z[T-2],Z[T-1] );b). 计算每列数据的样本均值，方差，各列之间的协方差。
 
3. a). 随机生成一个1000行50列二维数组，每个元素等概率取值0，1，2，并将该数组按第1列递增和第2列递减对每行排序，即先按第一列递增排序，然后在第一列每组中， 按第二列递减排序。 b). 编一个函数sortbycols(data,cols,descending)，实现行排序。给定参数 data是二维数值，cols是数或list,给出需要排序的列，descending是布尔值或布尔向量，如果是一个布尔值，则所有列都按该顺序排，如果descending是和cols等长的list，则各列按descending给定的顺序排。
4.  熟悉学习numpy中的现金流函数, np.pv,np.fv,np.nper,np.pmt,np.rate, 然后编制一个函数，计算给定现金流(array)，利率(array),任意时刻(t)的现金价值。

 
 
