# 第1节：数据的CSV文件存取
### CSV文件简介
CSV (Comma‐Separated Value, 逗号分隔值文件)

**例如**：源数据及其CSV格式
![avatar](./image/day2-img1.PNG)
![avatar](./image/day2-img2.PNG)

---
### 存入数据至CSV中（也可以是其他文件格式）

np.savetxt(frame, array, fmt='%.18e', delimiter=None)

+ frame : 文件、字符串或产生器，可以是.gz或.bz2的压缩文件
+ array : 存入文件的数组
+ fmt : 写入文件的格式，例如：%d %.2f %.18e
+ delimiter : 分割字符串，默认是任何空格

### 从CSV文件中读取数据

np.loadtxt(frame, dtype=np.float, delimiter=None， unpack=False)

+ frame : 文件、字符串或产生器，可以是.gz或.bz2的压缩文件
+ dtype : 数据类型，可选
+ delimiter : 分割字符串，默认是任何空格
+ unpack :False，即将数据逐行输出，当设置为True时，数据将逐列输出

In [3]:
import numpy as np
a = np.arange(100).reshape(5, 20)
np.savetxt('a.csv', a, fmt="%d", delimiter=',')

# np.savetxt('a.csv', a, fmt="%.2f", delimiter=',')#保留2位小数

---
**可以看到已经生成了一个CSV文件**
![avatar](./image/day2-img3.PNG)

In [5]:
b = np.loadtxt('a.csv', dtype=np.int32, delimiter=',', unpack=False)
print(b)
# 注意unpack参数的区别
b = np.loadtxt('a.csv', dtype=np.int32, delimiter=',', unpack=True)
b

[[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99]]


array([[ 0, 20, 40, 60, 80],
       [ 1, 21, 41, 61, 81],
       [ 2, 22, 42, 62, 82],
       [ 3, 23, 43, 63, 83],
       [ 4, 24, 44, 64, 84],
       [ 5, 25, 45, 65, 85],
       [ 6, 26, 46, 66, 86],
       [ 7, 27, 47, 67, 87],
       [ 8, 28, 48, 68, 88],
       [ 9, 29, 49, 69, 89],
       [10, 30, 50, 70, 90],
       [11, 31, 51, 71, 91],
       [12, 32, 52, 72, 92],
       [13, 33, 53, 73, 93],
       [14, 34, 54, 74, 94],
       [15, 35, 55, 75, 95],
       [16, 36, 56, 76, 96],
       [17, 37, 57, 77, 97],
       [18, 38, 58, 78, 98],
       [19, 39, 59, 79, 99]])

----
**局限**
+ CSV只能有效存储一维和二维数组
+ np.savetxt() np.loadtxt()只能有效存取一维和二维数组

----
# 第2节：多维数据的存取
+ a.tofile()方法
+ np.fromfile()方法

In [6]:
# a.tofile(frame, sep='', format='%s')
# frame：文件名
# seg：分隔符，一般使用‘，’。如果sep是空串，则默认储存为二进制文件
# format：写入文件的格式

a = np.arange(100).reshape(5, 10, 2)

a.tofile("b.dat", sep=',', format='%d') #以数字存放
a.tofile("c.dat",sep='',format='%d') #存为二进制文件，复杂的二进制编码

In [7]:
# np.fromfile(frame, dtype=float, count=‐1, sep='')

# frame：文件名
# dtype：数据类型
# count：读取数据的个数。-1表示全部读入
# seg: 数据分割字符串，如果是空串，写入文件为二进制
c = np.fromfile('b.dat', dtype=np.int32, count=-1, sep=',')
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [8]:
d = np.fromfile('c.dat', dtype=np.int32, count=-1, sep='') #从二进制读取
d
# 必须知道原来数据的维度才可以还原
# 该方法需要读取时知道存入文件时数组的维度和元素类型
# 可以通过元数据文件（建立一个文件，专门存放维度信息、类型）来存储额外信息

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [9]:
# NumPy快捷数据存取
# np.save(fname, array) #拓展名.npy
# np.savez(fname, array) #存取为压缩文件.npyz
# np.load(fname)

a = np.arange(100).reshape(5, 10, 2)
np.save('a.npy', a)
b = np.load('a.npy')
b
# .npy文件中储存了数据的类型、维度等基本信息

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]],

       [[20, 21],
        [22, 23],
        [24, 25],
        [26, 27],
        [28, 29],
        [30, 31],
        [32, 33],
        [34, 35],
        [36, 37],
        [38, 39]],

       [[40, 41],
        [42, 43],
        [44, 45],
        [46, 47],
        [48, 49],
        [50, 51],
        [52, 53],
        [54, 55],
        [56, 57],
        [58, 59]],

       [[60, 61],
        [62, 63],
        [64, 65],
        [66, 67],
        [68, 69],
        [70, 71],
        [72, 73],
        [74, 75],
        [76, 77],
        [78, 79]],

       [[80, 81],
        [82, 83],
        [84, 85],
        [86, 87],
        [88, 89],
        [90, 91],
        [92, 93],
        [94, 95],
        [96, 97],
        [98, 99]]])

---
# 第3节：NumPy随机数函数


In [11]:
# Python自带的随机数复习
import random

a = random.random()  # 随机生成一个 [0,1) 的浮点数
b = random.uniform(1, 2)  # 随机生成一个 [a,b) 的浮点数
c = random.randint(1, 3)  # 随机生成一个 [a,b] 的整数
a,b,c

(0.20780454119874414, 1.8997910743962043, 2)

In [12]:
# NumPy随机数函数1

# rand(d0,d1,..,dn)
# 根据维度(d0‐dn)创建随机数数组，[0,1)的浮点数，均匀分布
a = np.random.rand(2, 3)

# randn(d0,d1,..,dn)
# 根据维度(d0‐dn)创建随机数数组，服从标准正态分布
b = np.random.randn(2, 3)

a,b

(array([[0.28655304, 0.17702409, 0.9277644 ],
        [0.70396259, 0.40298429, 0.87453533]]),
 array([[-0.23375802,  1.51635497,  0.75664759],
        [-0.43996581,  0.63096035,  0.98091583]]))

In [15]:
# randint(low,high,shape)
# 根据shape创建随机整数或整数数组，范围是[low, high)
# .seed设置随机数种子，一个随机数种子对应一种随机数情况

np.random.seed(10)
a = np.random.randint(-1, 5, (2, 3))

np.random.seed(10)
b = np.random.randint(-1, 5, (2, 3))

c = np.random.randint(-1, 5, (2, 3))

a,b,c#可见a和b的随机种子都是10，他们的结果一样，而c不一样

(array([[ 0,  4,  3],
        [-1,  0,  2]]),
 array([[ 0,  4,  3],
        [-1,  0,  2]]),
 array([[ 3,  0,  4],
        [-1,  4,  0]]))

In [16]:
# NumPy随机数函数2

# shuffle(a) 根据数组a的第1维度进行随排列，改变原数组

# permutation(a) 根据数组a的第1维度产生一个新的乱序数组，不改变原数组

a = np.arange(8).reshape(4, 2)
np.random.shuffle(a)
a

# 只对<第一维>进行打乱顺序，<第一维中>的顺序并不会打乱

'''
原理：a = [
    [0,1],
    [2,3],
    [4,5],
    [6,7]
]
进行随机排列
获得
    [6, 7],
    [2, 3],
    [0, 1],
    [4, 5]
'''

array([[6, 7],
       [2, 3],
       [0, 1],
       [4, 5]])

In [18]:
a = np.arange(8).reshape(4,2)
b = np.random.permutation(a)
a,b #原理一致，但是 a 不变

(array([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7]]),
 array([[2, 3],
        [6, 7],
        [0, 1],
        [4, 5]]))

In [26]:
# 从【一维数组a】中以概率 p 抽取元素，形成 shape 形状新数组 replace表示是否可以重用元素，默认为False

#np.random.choice(a, size=None, replace=True, p=None)

b = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

# replace=True是放回采样，False则为非放回采样

x = np.random.choice(b, (3, 2), replace = False)
y = np.random.choice(b, (3, 2), replace = True)

# p是概率，p的和必须为1，p的每一个元素代表b中对应元素取到的概率
# p的大小必须跟b一致
z = np.random.choice(b, (3, 2), replace = False,p = b/np.sum(b) )

x,y,z # 注意x无重复，y有重复

(array([[5, 2],
        [1, 8],
        [7, 6]]),
 array([[2, 4],
        [7, 6],
        [6, 2]]),
 array([[7, 9],
        [3, 6],
        [8, 5]]))

In [27]:
import numpy as np

# uniform(low,high,size) 产生具有均匀分布的数组,low起始值,high结束值,size形状
# normal(loc,scale,size) 产生具有正态分布的数组,loc均值,scale标准差,size形状
# poisson(lam,size) 产生具有泊松分布的数组,lam随机事件发生率,size形状

a = np.random.uniform(1, 10, (2, 3))
b = np.random.normal(0, 1, (2, 3))
c = np.random.poisson(0.5, (2, 3))

a, b, c

(array([[6.27419782, 1.33384972, 4.15590752],
        [6.06871616, 3.69756885, 5.61100738]]),
 array([[-0.92290926,  0.46975143, -0.14436676],
        [-0.40013835, -0.29598385,  0.84820861]]),
 array([[0, 1, 1],
        [0, 0, 0]]))

---
# 第4节：NumPy统计函数

In [31]:
# sum(a, axis=None) 根据给定轴axis计算数组a相关元素之和，axis整数或元组

a = np.arange(8).reshape(2, 4)
print("a = ",a)
print("np.sum(a)默认是a所有元素的和 = ",np.sum(a))

Sum = np.sum(a, axis = 1)#计算第2维度的和
print(Sum)

a =  [[0 1 2 3]
 [4 5 6 7]]
np.sum(a)默认是a所有元素的和 =  28
[ 6 22]


In [32]:
# mean(a, axis=None) 根据给定轴axis计算数组a相关元素的期望，axis整数或元组
a = np.arange(8).reshape(2, 4)
print(a)
np.mean(a, axis=1)

[[0 1 2 3]
 [4 5 6 7]]


array([1.5, 5.5])

In [33]:
# average(a,axis=None,weights=None) 根据给定轴axis计算数组a相关元素的加权平均值
a = np.array([1, 2, 3])

np.average(a, weights=[0.3, 0.3, 0.4])

2.1

In [34]:
# std(a, axis=None) 根据给定轴axis计算数组a相关元素的标准差
# var(a, axis=None) 根据给定轴axis计算数组a相关元素的方差
a = np.arange(15).reshape(3,5)
np.std(a),np.var(a)

(4.320493798938574, 18.666666666666668)

In [36]:
#min(a) max(a) 计算数组a中元素的最小值、最大值
#argmin(a) argmax(a) 计算数组a中元素最小值、最大值的下标（不管是一维数组还是多维数组，都给他降成一维数组下标）
a = np.array([
    [3, 5],
    [-6, 1]
])

np.max(a),np.min(a)#直接获取最大最小值

(5, -6)

In [37]:
np.argmax(a) #最大的数下标(0,1)如果把数组a看作一维数组，5的下标就是1
#np.argmin(a) 同理 

1

In [39]:
#unravel_index(index, shape) 根据shape将一维下标index转换成多维下标

# 转化为多维下标了

np.unravel_index(1,(2,2))

(0, 1)

In [40]:
#ptp(a) 计算数组a中元素最大值与最小值的差
#median(a) 计算数组a中元素的中位数（中值）

a = np.array([1,2,3,4,5,6])
np.ptp(a),np.median(a)

(5, 3.5)

---
# 第5讲：梯度函数

梯度也叫变化率

梯度：连续值之间的变化率，即斜率

XY坐标轴连续三个X坐标对应的Y轴值：a, b, c，其中，b的梯度是： (c‐a)/2

In [48]:
import numpy as np

# 以一维数组为例
a = [1, 2, 4, 7, 8]

# 计算方法
# 第一个元素1：  梯度 = （第二个元素-第一个元素）/ 1
# 最后一个元素8：梯度 = （最后一个元素 - 倒数第二个元素）/ 1
# 其他元素(第i个) 梯度 = （a[i+1] - a[i-1]) / 2

b = []
for i in range(0, len(a)):
    if i == 0:
        b.append(a[1] - a[0])
    elif i == len(a)-1:
        b.append(a[-1]-a[-2])
    else:
        b.append((a[i+1]-a[i-1])/2)

b

[1, 1.5, 2.5, 2.0, 1]

In [50]:
a = np.array(a)
np.gradient(a)
#二者是一致的

array([1. , 1.5, 2.5, 2. , 1. ])

In [52]:
# 多维数组的梯度
import numpy as np

c = np.random.randint(0,50,(3,5))
np.gradient(c)

[array([[ -4. ,  -2. ,  -5. , -30. , -17. ],
        [  7. ,  -4. ,  -5.5, -12. ,  -2.5],
        [ 18. ,  -6. ,  -6. ,   6. ,  12. ]]),
 array([[ 40. ,   6.5,   1.5,  13. ,  -4. ],
        [ 42. ,   6. , -12.5,   7. ,   9. ],
        [ 18. ,  -6. ,  -6.5,  16. ,  15. ]])]