<h2>数据科学导论Numpy学习要点</h2>
<h3>1. 学习内容：NumPy基础</h3>
<h3>2. 参考资料：</h3>

* 教材：《利用Python进行数据分析（第二版）》第4章

* 扩展阅读：https://docs.scipy.org/doc/numpy/user/quickstart.html

<h3>3. 学习要点</h3>

* NumPy核心数据结构`ndarray`的基本概念
 * 注意`ndarray`与Python内置数据类型`list`的区别
* `ndarray`的创建
 * 相关函数：`np.array()`、`np.ones()`、`np.zeros()`、`np.empty()`等，更多参考<font color='blue'>教材表4-1</font>
 * 相关属性：`ndim`、`shape`、`dtype`等
* `ndarray`的类型与类型转换
 * 数据类型描述：<font color='blue'>教材表4-2</font>
 * 类型转换函数：`astype()`，应特别注意转换过程中的数据截断问题（浮点数与整数之间、字符串与数字之间）
* `ndarray`的代数运算
 * 采用与标量元素类似的方式完成多维数组的元素（element-wise）操作
 * 与传统Python代码的区别：通过向量化（vectorization）的方式避免了`for`循环
 * 更多内容参考<font color='blue'>扩展阅读的"Basic Operations"章节</font>
* 数据基本的索引和切片
 * 与Python列表的<font color='red'>重要区别</font>：数据切片是原数据的一个视图<font color='red'>view</font>，而非拷贝<font color='red'>copy</font>对于切片上的任何操作都会反映在原数据上。在实际的编程实践中，非常容易在这一点上出错。如果希望数据切片是原数据上的一份拷贝，应显式地调用`copy()`函数。有关view和copy的区别可以参考<font color='blue'>扩展阅读的”Copies and Views“章节</font>。下面考虑一个例子：

In [1]:
import numpy as np
arr = np.arange(10)
print(arr)

arr_slice = arr[5:8] # 选取一个切片，注意该切片为原数据的视图
arr_slice[0] = 1234
print(arr) # 原数据索引为5的值发生了改变

arr_slice1 = arr[1:3].copy() # 拷贝出一个切片
arr_slice1[0] = 1234
print(arr) # 原数据索引为1的值没有发生了改变


[0 1 2 3 4 5 6 7 8 9]
[   0    1    2    3    4 1234    6    7    8    9]
[   0    1    2    3    4 1234    6    7    8    9]


 * 数据切片的方式1：与Python的列表类型类似，可以通过索引进行切片，<font color='blue'>教材图4-2</font>给出了一个直观的例子
 * 数据切片的方式2：布尔型索引，即通过布尔型数组对数据进行切片，详见下例：

In [2]:
names = np.array(['Bob','Joe','Bob','Alice'])
data = np.random.randn(4,5)
print(names=='Bob') # names=='Bob'会返回一个布尔型的数组
print(data[names == 'Bob']) # 通过布尔型的数组进行切片

print(names!='Bob') # names!='Bob'会返回一个布尔型的数组
print(data[names != 'Bob']) # 通过布尔型的数组进行切片

print((names=='Bob')|(names=='Alice')) # 可以考虑多个条件
print(data[(names=='Bob')|(names=='Alice')]) # 通过布尔型的数组进行切片

data[data<0] = 0 # 通过布尔型切片选出所有的负数，统一置为0
print(data)

[ True False  True False]
[[-0.87356846 -1.56019124  0.28805775 -1.87254403  0.33722311]
 [-1.78132957 -1.03470904  0.76506304  1.27691865  0.58142612]]
[False  True False  True]
[[ 0.76794596  0.01763971 -0.56944901  0.75426453 -0.19420798]
 [ 1.0039539   1.18384964  0.13061749 -1.6348156  -2.97175181]]
[ True False  True  True]
[[-0.87356846 -1.56019124  0.28805775 -1.87254403  0.33722311]
 [-1.78132957 -1.03470904  0.76506304  1.27691865  0.58142612]
 [ 1.0039539   1.18384964  0.13061749 -1.6348156  -2.97175181]]
[[0.         0.         0.28805775 0.         0.33722311]
 [0.76794596 0.01763971 0.         0.75426453 0.        ]
 [0.         0.         0.76506304 1.27691865 0.58142612]
 [1.0039539  1.18384964 0.13061749 0.         0.        ]]


 * 花式索引（Fancy Indexing）:直接传入整数数组进行切片
 * 转置、坐标轴交换与改变`ndarray`的shape
  * 转置操作`T`
  * `reshape()`函数经常被用到，注意与前面的slice类似，它也返回一个view而非copy
  * 注意`reshape()`函数与`resize()`函数的区别

In [3]:
arr = np.random.rand(12)
print('arr', arr)

arr1 = arr.reshape(3,4)
print('arr1',arr1)

arr1[2,3] = 1234
print('arr', arr) # 原数组也会修改

arr.resize(6,2)
print('arr', arr) 

arr [0.95088256 0.93728875 0.47028985 0.84094376 0.59467076 0.9184984
 0.84038449 0.46458383 0.13187802 0.36075205 0.67341511 0.74001759]
arr1 [[0.95088256 0.93728875 0.47028985 0.84094376]
 [0.59467076 0.9184984  0.84038449 0.46458383]
 [0.13187802 0.36075205 0.67341511 0.74001759]]
arr [9.50882555e-01 9.37288749e-01 4.70289845e-01 8.40943760e-01
 5.94670762e-01 9.18498402e-01 8.40384487e-01 4.64583834e-01
 1.31878021e-01 3.60752055e-01 6.73415114e-01 1.23400000e+03]
arr [[9.50882555e-01 9.37288749e-01]
 [4.70289845e-01 8.40943760e-01]
 [5.94670762e-01 9.18498402e-01]
 [8.40384487e-01 4.64583834e-01]
 [1.31878021e-01 3.60752055e-01]
 [6.73415114e-01 1.23400000e+03]]


* 通用函数（`ufunc`）：对`ndarray`进行元素级操作的函数，调用方式上与标量数据上函数的方式类似，可以简单理解为对数组元素执行批量操作
 * 一元函数与二元函数列表分别参考<font color='blue'>教材表4-3和表4-4</font>
* <font color='red'>面向数组编程（Array-Oriented Programming）</font>：编程思路的转变
 * 将逻辑操作转换为数组运算：`np.where(cond, x, y)`函数
 * 基于`ndarray`计算统计量，详细的函数参考<font color='blue'>教材表4-5</font>
 * 布尔型数组附加的函数`any()`和`all()`
 * `ndarray`中元素的排序：`sort()`与`np.sort()`。应注意：与数据切片不同，`np.sort()`返回原数据的一份<font color='red'>拷贝</font>，而非视图，详见下例：

In [4]:
arr = np.random.randn(10)
print(arr)

arr_sorted = np.sort(arr)
arr_sorted[0]=1234

print(arr_sorted)
print(arr)

[ 0.43338477  0.60348633 -0.85250381  1.58256709 -0.48309982  1.01272342
 -0.72463265 -0.34869179  0.94861747  0.95997497]
[ 1.23400000e+03 -7.24632649e-01 -4.83099821e-01 -3.48691788e-01
  4.33384775e-01  6.03486332e-01  9.48617467e-01  9.59974965e-01
  1.01272342e+00  1.58256709e+00]
[ 0.43338477  0.60348633 -0.85250381  1.58256709 -0.48309982  1.01272342
 -0.72463265 -0.34869179  0.94861747  0.95997497]


 * 集合操作：`unique()`、`intersect1d()`、`union1d()`，详细参考<font color='blue'>教材表4-6</font>
* `ndarray`的文件操作，掌握函数`save()`、`savez()`和`load()`
* 矩阵运算函数参考<font color='blue'>教材表4-7</font>
* 生成由随机数构成的`ndarray`，相关函数在机器学习参数初始化的过程中被广泛应用

<h3>4. 课后练习</h3>

* __第1题：创建一个8*8的二维ndarray 对象`A`（即为一个矩阵）。要求：`A`为上三角矩阵，矩阵每一行的非0元素形成一步长为2的递增等差数列，且对角线上元素从上到下为1, 19, 37, 55, 73, 91, 109, 127。__

In [5]:
# 请在此处写第1题的代码

# 覃雄派，仅供参考
a = np.arange(1,129,2)
print(a)

b = np.zeros((8,8))
print(b)

b[0, :] = np.arange(1,17,2)
b[1,1:] = np.arange(19,33,2)
b[2,2:] =  np.arange(37,49,2)
b[3,3:] =  np.arange(55,65,2)
b[4,4:] =  np.arange(73,81,2)
b[5,5:] =  np.arange(91,97,2)
b[6,6:] =  np.arange(109,113,2)
b[7,7:] =  np.arange(127,129,2)
print(b)


[  1   3   5   7   9  11  13  15  17  19  21  23  25  27  29  31  33  35
  37  39  41  43  45  47  49  51  53  55  57  59  61  63  65  67  69  71
  73  75  77  79  81  83  85  87  89  91  93  95  97  99 101 103 105 107
 109 111 113 115 117 119 121 123 125 127]
[[0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]]
[[  1.   3.   5.   7.   9.  11.  13.  15.]
 [  0.  19.  21.  23.  25.  27.  29.  31.]
 [  0.   0.  37.  39.  41.  43.  45.  47.]
 [  0.   0.   0.  55.  57.  59.  61.  63.]
 [  0.   0.   0.   0.  73.  75.  77.  79.]
 [  0.   0.   0.   0.   0.  91.  93.  95.]
 [  0.   0.   0.   0.   0.   0. 109. 111.]
 [  0.   0.   0.   0.   0.   0.   0. 127.]]


* __第2题：针对下面给出的8*9的 ndarray 对象`P`做如下操作：首先，对`P`右上角8*8的子矩阵`Q`的第1行的第1个元素赋值为3；然后，将该子矩阵`Q`的各行根据最后一列的元素从小到大进行排序；最后，将矩阵`Q`与矩阵`P`左上角8*8的子矩阵相加得到矩阵`B`，并打印出来。__

In [6]:
P = np.array([[3,6,9,11,5,2,6,99,1],
              [2,4,8,10,1,3,5,7,65],
              [1,5,7,9,2,4,6,8,10],
              [4,5,3,1,7,45,7,2,0], 
              [32,5,4,8,1,7,2,0,23], 
              [5,3,8,1,4,33,62,4,9], 
              [3,6,7,1,9,47,39,1,2],
              [3,5,7,2,5,9,1,1,5]])
P

array([[ 3,  6,  9, 11,  5,  2,  6, 99,  1],
       [ 2,  4,  8, 10,  1,  3,  5,  7, 65],
       [ 1,  5,  7,  9,  2,  4,  6,  8, 10],
       [ 4,  5,  3,  1,  7, 45,  7,  2,  0],
       [32,  5,  4,  8,  1,  7,  2,  0, 23],
       [ 5,  3,  8,  1,  4, 33, 62,  4,  9],
       [ 3,  6,  7,  1,  9, 47, 39,  1,  2],
       [ 3,  5,  7,  2,  5,  9,  1,  1,  5]])

In [7]:
# 请在此处写第2题的代码

# 覃雄派，仅供参考
Q= P.copy()
Q = Q[:, 1:]
print(Q)

Q[0,0] = 3
print(Q)



Q = Q[Q[:,7].argsort()] #按照第7列对行排序
print(Q)

P_plus = P[:,:8]
print(P_plus)
P_add_Q = P_plus +Q
print(P_add_Q)


[[ 6  9 11  5  2  6 99  1]
 [ 4  8 10  1  3  5  7 65]
 [ 5  7  9  2  4  6  8 10]
 [ 5  3  1  7 45  7  2  0]
 [ 5  4  8  1  7  2  0 23]
 [ 3  8  1  4 33 62  4  9]
 [ 6  7  1  9 47 39  1  2]
 [ 5  7  2  5  9  1  1  5]]
[[ 3  9 11  5  2  6 99  1]
 [ 4  8 10  1  3  5  7 65]
 [ 5  7  9  2  4  6  8 10]
 [ 5  3  1  7 45  7  2  0]
 [ 5  4  8  1  7  2  0 23]
 [ 3  8  1  4 33 62  4  9]
 [ 6  7  1  9 47 39  1  2]
 [ 5  7  2  5  9  1  1  5]]
[[ 5  3  1  7 45  7  2  0]
 [ 3  9 11  5  2  6 99  1]
 [ 6  7  1  9 47 39  1  2]
 [ 5  7  2  5  9  1  1  5]
 [ 3  8  1  4 33 62  4  9]
 [ 5  7  9  2  4  6  8 10]
 [ 5  4  8  1  7  2  0 23]
 [ 4  8 10  1  3  5  7 65]]
[[ 3  6  9 11  5  2  6 99]
 [ 2  4  8 10  1  3  5  7]
 [ 1  5  7  9  2  4  6  8]
 [ 4  5  3  1  7 45  7  2]
 [32  5  4  8  1  7  2  0]
 [ 5  3  8  1  4 33 62  4]
 [ 3  6  7  1  9 47 39  1]
 [ 3  5  7  2  5  9  1  1]]
[[  8   9  10  18  50   9   8  99]
 [  5  13  19  15   3   9 104   8]
 [  7  12   8  18  49  43   7  10]
 [  9  12   5   6  16  46  

* __第3题：求上面得到的矩阵`A`和矩阵`B`的积，得到矩阵`C`，请打印出矩阵`C`。然后，对矩阵C的每一列做正则化，得到矩阵`D`并打印出来。__
 * 正则的概念：假设a是数组中的一个元素，max/min分别是数组元素的最大最小值，则正则化后a = (a - min)/(max - min)）。

In [8]:
# 请在此处写第3题的代码

# 覃雄派，仅供参考
a = np.array([[3,5,9],
              [11,7,9],
              [11,12,4]])
b = np.array([[11,12,4],
              [3,5,9],
              [7,16,38]])
c = a@b
print(c)

mymin = c.min(0)
mymax = c.max(0)
print(mymin)
print(mymax)

c = c-mymin
print(c)

myrange = mymax - mymin
c= c/myrange
print(c)

[[111 205 399]
 [205 311 449]
 [185 256 304]]
[111 205 304]
[205 311 449]
[[  0   0  95]
 [ 94 106 145]
 [ 74  51   0]]
[[0.         0.         0.65517241]
 [1.         1.         1.        ]
 [0.78723404 0.48113208 0.        ]]


* __第4题：对于下列ndarray对象`students`，每一列的含义分别是：名，姓，年龄，入学日期。请打印出姓`Smith`并且年龄大于`14`岁的同学的入学日期。__

In [9]:
data = np.array([['Bob', 'Smith', '12', '2019-02-01'], 
                ['Joe', 'Lawrence', '13', '2018-03-07'], 
                ['Roy', 'Ratner', '12', '2019-02-05'],
                ['Rita', 'Smith', '14', '2017-02-16'],
                ['Alice', 'Holmes', '11', '2020-02-29'], 
                ['Wool', 'Smith', '15', '2016-02-14']])
data

array([['Bob', 'Smith', '12', '2019-02-01'],
       ['Joe', 'Lawrence', '13', '2018-03-07'],
       ['Roy', 'Ratner', '12', '2019-02-05'],
       ['Rita', 'Smith', '14', '2017-02-16'],
       ['Alice', 'Holmes', '11', '2020-02-29'],
       ['Wool', 'Smith', '15', '2016-02-14']], dtype='<U10')

In [10]:
# 请在此处写第4题的代码

# 覃雄派，仅供参考
index_1_column = data[:,1]
print(index_1_column)

true_false_list = index_1_column == 'Smith'
print(true_false_list)

data_subset = data[true_false_list]
print(data_subset)
print(data_subset[:,3])

['Smith' 'Lawrence' 'Ratner' 'Smith' 'Holmes' 'Smith']
[ True False False  True False  True]
[['Bob' 'Smith' '12' '2019-02-01']
 ['Rita' 'Smith' '14' '2017-02-16']
 ['Wool' 'Smith' '15' '2016-02-14']]
['2019-02-01' '2017-02-16' '2016-02-14']


* __第5题：利用numpy数组实现Game of Life。用一个15*15的矩阵表示225个细胞：元素取值为`1`表示活细胞，取值为`0`表示死细胞。Game of Life的过程如下：初始矩阵为`K`(如下所示)，表示细胞的初始状态；进而按照以下规则进行迭代，更新细胞状态。请你打印出迭代`100`次之后得到的矩阵__
 * 每个细胞死或活的状态由它周围的八个细胞，称为__邻居__，所决定。
 * “人口过少”：任何活细胞如果活邻居少于2个，则死掉。
 * “正常”：任何活细胞如果活邻居为2个或3个，则继续活。
 * “人口过多”：任何活细胞如果活邻居大于3个，则死掉。
 * “繁殖”：任何死细胞如果活邻居正好是3个，则活过来。

In [11]:
K = np.array([[0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1],
              [1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0],
              [0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0],
              [0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1],
              [1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0],
              [1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0],
              [1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
              [1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
              [0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0],
              [0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0],
              [0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1],
              [0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1],
              [1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1],
              [0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0],
              [1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0]]) 
K

array([[0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1],
       [1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0],
       [0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1],
       [1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0],
       [1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0],
       [1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0],
       [0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1],
       [0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1],
       [1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1],
       [0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0],
       [1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0]])

In [12]:
# 请在此处写第5题的代码

# 覃雄派，仅供参考

# 1.从K复制出P
# 2.循环P的每个元素，查看K里面对应的位置的周围位置，为P的该位置设定0/1
# 3.把P复制给K，进入下一轮迭代