In [1]:
import numpy as np

## 深拷贝和浅拷贝
- 在操作数组的时候，它们的数据有时候拷贝进一个新的数组，有时候又不是。这经常是初学者感到困惑。下面有三种情况：

In [2]:
# 1. 不拷贝：如果只是简单的赋值，那么不会进行拷贝。
a = np.arange(12)
b = a #这种情况不会进行拷贝
print(b is a) #返回True，说明b和a是相同的
print(id(a))
print(id(b))

True
139856156797008
139856156797008


In [3]:
# 2. View或者浅拷贝：有些情况，会进行变量的拷贝，但是他们所指向的内存空间都是一样的，那么这种情况叫做浅拷贝，或者叫做 View(视图)。
print(a)
c = a.view()
print(c)
print(c is a)
print(id(a))
print(id(c))

c[0] = 100
print(a)# ！！！！

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
False
139856156797008
139856156797408
[100   1   2   3   4   5   6   7   8   9  10  11]


In [4]:
# 3. 深拷贝：将之前数据完完整整的拷贝一份放到另外一块内存空间中，这样就是两个完全不同的值了。
print(a)
d = a.copy()
print(d is a)
print(id(a))
print(id(d))

d[0] = 1000
print(d)
print(a)# ！！！！

[100   1   2   3   4   5   6   7   8   9  10  11]
False
139856156797008
139856156797088
[1000    1    2    3    4    5    6    7    8    9   10   11]
[100   1   2   3   4   5   6   7   8   9  10  11]


In [5]:
# 像之前讲到的 flatten 和 ravel 就是这种情况， ravel 返回的就是View，而 flatten 返回的就是深拷贝。
a1 = np.random.randint(0,9, size=(2,4))
print(a1)
print("==" * 20)

a2 = a1.flatten()
a2[0] = 100
print(a2)
print(a1)# a1的值不变
print("==" * 20)

a3 = a1.ravel()
a3[0] = 100
print(a3)
print(a1)# a1的值也会被修改，即ravel()返回的是浅拷贝

[[0 4 2 1]
 [5 1 2 2]]
[100   4   2   1   5   1   2   2]
[[0 4 2 1]
 [5 1 2 2]]
[100   4   2   1   5   1   2   2]
[[100   4   2   1]
 [  5   1   2   2]]


# 文件操作
- 操作CSV文件：
- 文件保存：
    - 有时候我们有了一个数组，需要保存到文件中，那么可以使用 np.savetxt 来实现。
    - np.savetxt(frame, array, fmt='%.18e', delimiter=None)
        * frame : 文件、字符串或产生器，可以是.gz或.bz2的压缩文件
        * array : 存入文件的数组
        * fmt : 写入文件的格式，例如：%d %.2f %.18e
        * delimiter : 分割字符串，默认是任何空格

- 读取文件：
    - 有时候我们的数据是需要从文件中读取出来的，那么可以使用 np.loadtxt 来实现。
    - np.loadtxt(frame, dtype=np.float, delimiter=None, unpack=False)
        * frame：文件、字符串或产生器，可以是.gz或.bz2的压缩文件。
        * dtype：数据类型，可选。
        * delimiter：分割字符串，默认是任何空格。
        * skiprows：跳过前面x行。
        * usecols：读取指定的列，用元组组合。
        * unpack：如果True，读取出来的数组是转置后的。


In [6]:
scores = np.random.randint(0,101, size=(20,2))
print(scores)

[[84 97]
 [88 90]
 [93 23]
 [86 38]
 [50 21]
 [11 37]
 [57 78]
 [13 12]
 [66 55]
 [79 67]
 [91 13]
 [45 68]
 [22 16]
 [55 88]
 [88 82]
 [89 15]
 [34 12]
 [94 19]
 [10 58]
 [39 76]]


In [7]:
help(np.savetxt)

Help on function savetxt in module numpy.lib.npyio:

savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='\n', header='', footer='', comments='# ')
    Save an array to a text file.
    
    Parameters
    ----------
    fname : filename or file handle
        If the filename ends in ``.gz``, the file is automatically saved in
        compressed gzip format.  `loadtxt` understands gzipped files
        transparently.
    X : array_like
        Data to be saved to a text file.
    fmt : str or sequence of strs, optional
        A single format (%10.5f), a sequence of formats, or a
        multi-format string, e.g. 'Iteration %d -- %10.5f', in which
        case `delimiter` is ignored. For complex `X`, the legal options
        for `fmt` are:
            a) a single specifier, `fmt='%.4e'`, resulting in numbers formatted
                like `' (%s+%sj)' % (fmt, fmt)`
            b) a full string specifying every real and imaginary part, e.g.
                `' %.4e %+.4ej %.4e %+.4ej 

In [8]:
# 文件保存
np.savetxt("score.csv", scores, fmt='%d', delimiter=",", header="chinese,math", comments="")

In [9]:
# 文件读取
s = np.loadtxt("score.csv", dtype=np.int, delimiter=",", skiprows=1)
print(s)

[[84 97]
 [88 90]
 [93 23]
 [86 38]
 [50 21]
 [11 37]
 [57 78]
 [13 12]
 [66 55]
 [79 67]
 [91 13]
 [45 68]
 [22 16]
 [55 88]
 [88 82]
 [89 15]
 [34 12]
 [94 19]
 [10 58]
 [39 76]]


## np独有的存储解决方案：

- numpy 中还有一种独有的存储解决方案。文件名是以 .npy 或者 npz 结尾的。
- 以下是存储和加载的函数: 
    - 存储： np.save(fname,array) 或 np.savez(fname,array) 。 
        - 其中，np.save函数的扩展名是 .npy ，np.savez的扩展名是 .npz ，np.savez是经过压缩的。 
    - 加载： np.load(fname) 。


In [10]:
c = np.random.randint(0,10, size=(2,3))
np.save('c', c)

In [11]:
c1 = np.load("c.npy")
print(c1)

[[6 2 9]
 [1 1 0]]


In [12]:
d = np.random.randint(0,10, size=(2,3,4))
#np.savetxt("d.csv", d)#只能保存一维或二维数组
np.save('d', d)

In [13]:
d1 = np.load('d.npy')
print(d1)

[[[0 8 2 6]
  [2 1 1 4]
  [2 9 8 6]]

 [[9 1 9 7]
  [6 6 8 9]
  [2 0 0 2]]]


# 总结：
1. 在数组操作中分成三种拷贝：
    - 不拷贝：直接赋值，呢么栈区没有拷贝，只是用同一个栈区定义了不同的名称
    - 浅拷贝：只拷贝栈区，栈区指定的堆区并没有拷贝
    - 深拷贝：栈区和堆区都拷贝
 
2. np.savetxt 和 np.loadtxt 一般用来操作csv文件，他可以设置header，但是不能存储三维及以上的数组。
3. np.save 和 np.load 一般用来存储非文本类型的文件他不可以设置header，但是可以存储三维及以上的数组。
4. 如果想专门操作csv文件，还有另外一个模块，叫做 csv 。这个模块是python内置的，不需要安装，具体操作见 demo1.py 和 demo2.py 。

# 数组操作和文件操作作业
- 1.数组 a = np.random.rand(3,2,3) 能和 b = np.random.rand(3,2,2) 进行运算吗？能和 c = np.random.rand(3,1,1) 进行运算吗？请说明结果的原因。
- 2.将数组 a = np.random.rand(3,5) 和 b = np.random.rand(6,4) 叠加在一起，其中 a 在 b 的上面，并且在 b 的第2列（下标从0开始）新增一列，用0来填充。
- 3.将数组 a = np.random.rand(4,5) 扁平化成一维数组，可以使用 flatten 和 ravel ，对两者的返回值进行操作，哪个会影响到数组 a ？对会影响到 a 数组的那个函数，请说明详细的原因。
- 4.使用 numpy 自带的 csv 方法读取出 stock.csv 文件中 preClosePrice 、 openPrice 、 highestPrice 、 lowestPrice 的数据（提示：使用skiprows和usecols参数）。


In [14]:
# 1.数组 a = np.random.rand(3,2,3) 能和 b = np.random.rand(3,2,2) 进行运算吗？
#能和 c = np.random.rand(3,1,1) 进行运算吗？请说明结果的原因。
import numpy as np

a = np.random.rand(3,2,3)
b = np.random.rand(3,2,2)
c = np.random.rand(3,1,1)
#print(a+b)
print(a+c)
print("==" * 30)
print(b+c)
# 数组a和数组b不可以进行运算，数组a可以和数组c进行运算，b可以和c进行运算
# 造成以上结果的原因是因为数组的广播原则是看两个数组是否从末尾的维度开始判断其轴长度是否相等或其中一方等于一，才可以兼容
# a的末尾轴长度是3，b末尾轴长度是2，所以a，b不能兼容；c的末尾轴长度是1，中间也是1，开头和ab一样都是3，所以c可以和a或b兼容

[[[ 0.39081538  0.80057991  0.60178444]
  [ 0.62556314  0.4383818   0.98898784]]

 [[ 1.49750991  0.95794824  1.10096572]
  [ 1.66403645  0.74644246  0.7166377 ]]

 [[ 0.43625274  0.8450375   1.28303868]
  [ 1.13817038  0.74985924  0.6916932 ]]]
[[[ 0.86044294  0.48165006]
  [ 0.65943375  0.55687402]]

 [[ 1.38966457  0.88657038]
  [ 1.39224072  0.73782559]]

 [[ 0.34482363  0.96521319]
  [ 1.21250813  1.24112379]]]


In [15]:
# 2.将数组 a = np.random.rand(3,5) 和 b = np.random.rand(6,4) 叠加在一起，
#其中 a 在 b 的上面，并且在 b 的第2列（下标从0开始）新增一列，用0来填充。
import numpy as np

a = np.random.rand(3,5)
b = np.random.rand(6,4)
print(a)
print(b)
print("===" * 30)

c = np.zeros((6,1))
print(c)
print("===" * 30)

d, e = np.hsplit(b, (2))
print(d)
print(e)
print("===" * 30)

b = np.concatenate([d,c,e], axis=1)
print(b)
print("===" * 30)

print(np.vstack([a,b]))

[[ 0.20686139  0.88552708  0.23690103  0.88916738  0.7962272 ]
 [ 0.4328922   0.67658396  0.9019317   0.36731198  0.74828796]
 [ 0.14685788  0.33444494  0.15660804  0.75707148  0.34217701]]
[[ 0.56313143  0.81982051  0.99189184  0.68273709]
 [ 0.9197482   0.52846284  0.91731227  0.20833258]
 [ 0.30805323  0.92765813  0.20136304  0.41189006]
 [ 0.94811331  0.20301044  0.00308053  0.34844724]
 [ 0.81832214  0.31624638  0.55677474  0.98435641]
 [ 0.34660701  0.44865918  0.09343125  0.48084566]]
[[ 0.]
 [ 0.]
 [ 0.]
 [ 0.]
 [ 0.]
 [ 0.]]
[[ 0.56313143  0.81982051]
 [ 0.9197482   0.52846284]
 [ 0.30805323  0.92765813]
 [ 0.94811331  0.20301044]
 [ 0.81832214  0.31624638]
 [ 0.34660701  0.44865918]]
[[ 0.99189184  0.68273709]
 [ 0.91731227  0.20833258]
 [ 0.20136304  0.41189006]
 [ 0.00308053  0.34844724]
 [ 0.55677474  0.98435641]
 [ 0.09343125  0.48084566]]
[[ 0.56313143  0.81982051  0.          0.99189184  0.68273709]
 [ 0.9197482   0.52846284  0.          0.91731227  0.20833258]
 [ 0.308

In [16]:
# 3.将数组 a = np.random.rand(4,5) 扁平化成一维数组，可以使用 flatten 和 ravel ，对两者的返回值进行操作，
#哪个会影响到数组 a ？对会影响到 a 数组的那个函数，请说明详细的原因。
import numpy as np

a = np.random.rand(4,5)
print(a)
print("===" * 30)

af = a.flatten()
af[0:5] = 0
print(a)
print("===" * 30)

ar = a.ravel()
ar[0:5] = 0
print(a)
# 以上结果是flatten()没有影响到原数组，而ravel() 对原数组的返回值产生影响。
# 原因是flatten()是深拷贝，堆区和栈区全都拷贝了；
# 而ravel()是浅拷贝，只拷贝栈区的变量，对其指向的堆区的数组并没有拷贝，还是指向同一个数组

[[ 0.00171783  0.22028824  0.29963977  0.3802325   0.83572257]
 [ 0.46115556  0.19623829  0.56938633  0.2283597   0.70465926]
 [ 0.91986106  0.39412838  0.27268411  0.09756007  0.57166627]
 [ 0.10457225  0.44214674  0.80763982  0.21959469  0.56097181]]
[[ 0.00171783  0.22028824  0.29963977  0.3802325   0.83572257]
 [ 0.46115556  0.19623829  0.56938633  0.2283597   0.70465926]
 [ 0.91986106  0.39412838  0.27268411  0.09756007  0.57166627]
 [ 0.10457225  0.44214674  0.80763982  0.21959469  0.56097181]]
[[ 0.          0.          0.          0.          0.        ]
 [ 0.46115556  0.19623829  0.56938633  0.2283597   0.70465926]
 [ 0.91986106  0.39412838  0.27268411  0.09756007  0.57166627]
 [ 0.10457225  0.44214674  0.80763982  0.21959469  0.56097181]]


In [75]:
# 4.3 
# encoding:utf-8
import numpy as np

dp = np.loadtxt("stock.csv", dtype=np.float, delimiter=',', skiprows=1, usecols=(6,10))
print(dp)

UnicodeEncodeError: 'latin-1' codec can't encode characters in position 16-19: ordinal not in range(256)

In [None]:
# 4.1 使用 numpy 自带的 csv 方法读取出 stock.csv 文件中 
#preClosePrice 、 openPrice 、 highestPrice 、 lowestPrice 的数据（提示：使用skiprows和usecols参数）。
import numpy as np
import csv

with open('stock.csv', 'r', encoding='utf-8') as fp:
    reader = csv.reader(fp)
    next(reader)
    for r in reader:
        preClosePrice = r[6]
        openPrice = r[7]
        highestPrice = r[8]
        lowestPrice = r[9]
        print({'preClosePrice':preClosePrice, 'openPrice':openPrice, 
               'highestPrice':highestPrice, 'lowestPrice':lowestPrice})
    

In [None]:
# 4.2 使用 numpy 自带的 csv 方法读取出 stock.csv 文件中 
#preClosePrice 、 openPrice 、 highestPrice 、 lowestPrice 的数据（提示：使用skiprows和usecols参数）。
import numpy as np
import csv

with open('stock.csv', 'r', encoding='utf-8') as fp:
    reader = csv.DictReader(fp)
    for r in reader:
        print({'preClosePrice':r["preClosePrice"], 'openPrice':r["openPrice"],
              'highestPrice':r["highestPrice"], 'lowestPrice':r["lowestPrice"]})
        

In [62]:
help(np.loadtxt)

Help on function loadtxt in module numpy.lib.npyio:

loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)
    Load data from a text file.
    
    Each row in the text file must have the same number of values.
    
    Parameters
    ----------
    fname : file, str, or pathlib.Path
        File, filename, or generator to read.  If the filename extension is
        ``.gz`` or ``.bz2``, the file is first decompressed. Note that
        generators should return byte strings for Python 3k.
    dtype : data-type, optional
        Data-type of the resulting array; default: float.  If this is a
        structured data-type, the resulting array will be 1-dimensional, and
        each row will be interpreted as an element of the array.  In this
        case, the number of columns used must match the number of fields in
        the data-type.
    comments : str or sequence, optional
        The characters or list o