<h2>数据科学导论第四周学习要点</h2>
<h3>1. 学习内容：NumPy基础</h3>
<h3>2. 参考资料：</h3>

* 教材：《利用Python进行数据分析（第二版）》第4章

* 扩展阅读：https://docs.scipy.org/doc/numpy/user/quickstart.html

<h3>3. 学习要点</h3>

* NumPy核心数据结构`ndarray`的基本概念
 * 注意`ndarray`与Python内置数据类型`list`的区别
* `ndarray`的创建
 * 相关函数：`np.array()`、`np.ones()`、`np.zeros()`、`np.empty()`等，更多参考<font color='blue'>教材表4-1</font>
 * 相关属性：`ndim`、`shape`、`dtype`等
* `ndarray`的类型与类型转换
 * 数据类型描述：<font color='blue'>教材表4-2</font>
 * 类型转换函数：`astype()`，应特别注意转换过程中的数据截断问题（浮点数与整数之间、字符串与数字之间）
* `ndarray`的代数运算
 * 采用与标量元素类似的方式完成多维数组的元素（element-wise）操作
 * 与传统Python代码的区别：通过向量化（vectorization）的方式避免了`for`循环
 * 更多内容参考<font color='blue'>扩展阅读的"Basic Operations"章节</font>
* 数据基本的索引和切片
 * 与Python列表的<font color='red'>重要区别</font>：数据切片是原数据的一个视图<font color='red'>view</font>，而非拷贝<font color='red'>copy</font>对于切片上的任何操作都会反映在原数据上。在实际的编程实践中，非常容易在这一点上出错。如果希望数据切片是原数据上的一份拷贝，应显式地调用`copy()`函数。有关view和copy的区别可以参考<font color='blue'>扩展阅读的”Copies and Views“章节</font>。下面考虑一个例子：

In [1]:
import numpy as np
arr = np.arange(10)
print(arr)
arr_slice = arr[5:8] # 选取一个切片，注意该切片为原数据的视图
arr_slice[0] = 1234
print(arr) # 原数据索引为5的值发生了改变
arr_slice1 = arr[1:3].copy() # 拷贝出一个切片
arr_slice1[0] = 1234
print(arr) # 原数据索引为1的值没有发生了改变

[0 1 2 3 4 5 6 7 8 9]
[   0    1    2    3    4 1234    6    7    8    9]
[   0    1    2    3    4 1234    6    7    8    9]


 * 数据切片的方式1：与Python的列表类型类似，可以通过索引进行切片，<font color='blue'>教材图4-2</font>给出了一个直观的例子
 * 数据切片的方式2：布尔型索引，即通过布尔型数组对数据进行切片，详见下例：

In [2]:
names = np.array(['Bob','Joe','Bob','Alice'])
data = np.random.randn(4,5)
print(names=='Bob') # names=='Bob'会返回一个布尔型的数组
print(data[names == 'Bob']) # 通过布尔型的数组进行切片
print(names!='Bob') # names!='Bob'会返回一个布尔型的数组
print(data[names != 'Bob']) # 通过布尔型的数组进行切片
print((names=='Bob')|(names=='Alice')) # 可以考虑多个条件
print(data[(names=='Bob')|(names=='Alice')]) # 通过布尔型的数组进行切片

data[data<0] = 0 # 通过布尔型切片选出所有的负数，统一置为0
print(data)

[ True False  True False]
[[-6.29412271e-01 -1.19940883e+00  9.74467419e-01 -3.67489603e-01
  -4.77058068e-04]
 [ 4.39205057e-02 -1.53221822e+00  4.34531731e-01  7.19397906e-02
   7.06955623e-01]]
[False  True False  True]
[[ 0.1658003  -0.05938928  1.44987391  2.11121919  0.17926447]
 [ 0.18605397 -1.09143318 -0.87027632  1.37638337  1.86042926]]
[ True False  True  True]
[[-6.29412271e-01 -1.19940883e+00  9.74467419e-01 -3.67489603e-01
  -4.77058068e-04]
 [ 4.39205057e-02 -1.53221822e+00  4.34531731e-01  7.19397906e-02
   7.06955623e-01]
 [ 1.86053966e-01 -1.09143318e+00 -8.70276323e-01  1.37638337e+00
   1.86042926e+00]]
[[0.         0.         0.97446742 0.         0.        ]
 [0.1658003  0.         1.44987391 2.11121919 0.17926447]
 [0.04392051 0.         0.43453173 0.07193979 0.70695562]
 [0.18605397 0.         0.         1.37638337 1.86042926]]


 * 花式索引（Fancy Indexing）:直接传入整数数组进行切片
 * 转置、坐标轴交换与改变`ndarray`的shape
  * 转置操作`T`
  * `reshape()`函数经常被用到，注意与前面的slice类似，它也返回一个view而非copy
  * 注意`reshape()`函数与`resize()`函数的区别

In [3]:
arr = np.random.rand(12)
print('arr', arr)
arr1 = arr.reshape(3,4)
print('arr1',arr1)
arr1[2,3] = 1234
print('arr', arr) # 原数组也会修改
arr.resize(6,2)
print('arr', arr) 

arr [0.18878423 0.94712589 0.07284613 0.61959355 0.12960942 0.45335236
 0.7509225  0.4478028  0.48719606 0.09403685 0.03790437 0.92488429]
arr1 [[0.18878423 0.94712589 0.07284613 0.61959355]
 [0.12960942 0.45335236 0.7509225  0.4478028 ]
 [0.48719606 0.09403685 0.03790437 0.92488429]]
arr [1.88784226e-01 9.47125894e-01 7.28461306e-02 6.19593548e-01
 1.29609419e-01 4.53352360e-01 7.50922497e-01 4.47802796e-01
 4.87196057e-01 9.40368522e-02 3.79043696e-02 1.23400000e+03]
arr [[1.88784226e-01 9.47125894e-01]
 [7.28461306e-02 6.19593548e-01]
 [1.29609419e-01 4.53352360e-01]
 [7.50922497e-01 4.47802796e-01]
 [4.87196057e-01 9.40368522e-02]
 [3.79043696e-02 1.23400000e+03]]


* 通用函数（`ufunc`）：对`ndarray`进行元素级操作的函数，调用方式上与标量数据上函数的方式类似，可以简单理解为对数组元素执行批量操作
 * 一元函数与二元函数列表分别参考<font color='blue'>教材表4-3和表4-4</font>
* <font color='red'>面向数组编程（Array-Oriented Programming）</font>：编程思路的转变
 * 将逻辑操作转换为数组运算：`np.where(cond, x, y)`函数
 * 基于`ndarray`计算统计量，详细的函数参考<font color='blue'>教材表4-5</font>
 * 布尔型数组附加的函数`any()`和`all()`
 * `ndarray`中元素的排序：`sort()`与`np.sort()`。应注意：与数据切片不同，`np.sort()`返回原数据的一份<font color='red'>拷贝</font>，而非视图，详见下例：

In [4]:
arr = np.random.randn(10)
print(arr)
arr_sorted = np.sort(arr)
arr_sorted[0]=1234
print(arr_sorted)
print(arr)

[ 0.95396783 -0.86217049  0.86676402  0.80011739  1.01786389 -0.00601885
 -0.12354903 -2.09958365 -1.09321928 -0.85767472]
[ 1.23400000e+03 -1.09321928e+00 -8.62170490e-01 -8.57674717e-01
 -1.23549030e-01 -6.01885337e-03  8.00117388e-01  8.66764024e-01
  9.53967827e-01  1.01786389e+00]
[ 0.95396783 -0.86217049  0.86676402  0.80011739  1.01786389 -0.00601885
 -0.12354903 -2.09958365 -1.09321928 -0.85767472]


 * 集合操作：`unique()`、`intersect1d()`、`union1d()`，详细参考<font color='blue'>教材表4-6</font>
* `ndarray`的文件操作，掌握函数`save()`、`savez()`和`load()`
* 矩阵运算函数参考<font color='blue'>教材表4-7</font>
* 生成由随机数构成的`ndarray`，相关函数在机器学习参数初始化的过程中被广泛应用

<h3>4. 课后练习</h3>

* __第1题：创建一个8*8的二维ndarray 对象`A`（即为一个矩阵）。要求：`A`为上三角矩阵，矩阵每一行的非0元素形成一步长为2的递增等差数列，且对角线上元素从上到下为1, 19, 37, 55, 73, 91, 109, 127。__

In [5]:
# 请在此处写第1题的代码
A = np.array([[[1, 19, 37, 55, 73, 91, 109, 127][i] + 2 * (j - i) for j in range(8)] for i in range(8)])
A

array([[  1,   3,   5,   7,   9,  11,  13,  15],
       [ 17,  19,  21,  23,  25,  27,  29,  31],
       [ 33,  35,  37,  39,  41,  43,  45,  47],
       [ 49,  51,  53,  55,  57,  59,  61,  63],
       [ 65,  67,  69,  71,  73,  75,  77,  79],
       [ 81,  83,  85,  87,  89,  91,  93,  95],
       [ 97,  99, 101, 103, 105, 107, 109, 111],
       [113, 115, 117, 119, 121, 123, 125, 127]])

* __第2题：针对下面给出的8*9的 ndarray 对象`P`做如下操作：首先，对`P`右上角8*8的子矩阵`Q`的第1行的第1个元素赋值为3；然后，将该子矩阵`Q`的各行根据最后一列的元素从小到大进行排序；最后，将矩阵`Q`与矩阵`P`左上角8*8的子矩阵相加得到矩阵`B`，并打印出来。__

In [6]:
P = np.array([[3,6,9,11,5,2,6,99,1],
              [2,4,8,10,1,3,5,7,65],
              [1,5,7,9,2,4,6,8,10],
              [4,5,3,1,7,45,7,2,0], 
              [32,5,4,8,1,7,2,0,23], 
              [5,3,8,1,4,33,62,4,9], 
              [3,6,7,1,9,47,39,1,2],
              [3,5,7,2,5,9,1,1,5]])
P

array([[ 3,  6,  9, 11,  5,  2,  6, 99,  1],
       [ 2,  4,  8, 10,  1,  3,  5,  7, 65],
       [ 1,  5,  7,  9,  2,  4,  6,  8, 10],
       [ 4,  5,  3,  1,  7, 45,  7,  2,  0],
       [32,  5,  4,  8,  1,  7,  2,  0, 23],
       [ 5,  3,  8,  1,  4, 33, 62,  4,  9],
       [ 3,  6,  7,  1,  9, 47, 39,  1,  2],
       [ 3,  5,  7,  2,  5,  9,  1,  1,  5]])

In [7]:
# 请在此处写第2题的代码
Q = P[:, 1:].copy()
Q[0, 0] = 3
B = P[:, :-1] + Q[Q[:, -1].argsort(), :]
B

array([[  8,   9,  10,  18,  50,   9,   8,  99],
       [  5,  13,  19,  15,   3,   9, 104,   8],
       [  7,  12,   8,  18,  49,  43,   7,  10],
       [  9,  12,   5,   6,  16,  46,   8,   7],
       [ 35,  13,   5,  12,  34,  69,   6,   9],
       [ 10,  10,  17,   3,   8,  39,  70,  14],
       [  8,  10,  15,   2,  16,  49,  39,  24],
       [  7,  13,  17,   3,   8,  14,   8,  66]])

* __第3题：求上面得到的矩阵`A`和矩阵`B`的内积，得到矩阵`C`，请打印出矩阵`C`。然后，对矩阵C的每一列做正则化，得到矩阵`D`并打印出来。__
 * 正则的概念：假设a是数组中的一个元素，max/min分别是数组元素的最大最小值，则正则化后a = (a - min)/(max - min)）。

In [8]:
# 请在此处写第3题的代码
C = A * B
D = (C - C.min()) / (C.max() - C.min())
D

array([[0.        , 0.00226893, 0.00501552, 0.01409123, 0.05278242,
        0.01086697, 0.01146406, 0.17637927],
       [0.00919513, 0.02854072, 0.04669214, 0.04024361, 0.00800096,
        0.02806305, 0.35920707, 0.02866014],
       [0.02663005, 0.0491999 , 0.03439217, 0.08287557, 0.2389539 ,
        0.21984715, 0.03666109, 0.05517077],
       [0.05170767, 0.07212802, 0.03069023, 0.03845235, 0.10795319,
        0.32314306, 0.05732028, 0.05170767],
       [0.27071889, 0.10305708, 0.04024361, 0.10078815, 0.29543826,
        0.6170289 , 0.05421543, 0.08395032],
       [0.09577263, 0.09816097, 0.17160258, 0.03021256, 0.08406974,
        0.42285646, 0.77645092, 0.1578696 ],
       [0.09171244, 0.11726773, 0.17996179, 0.02364461, 0.19966563,
        0.62514927, 0.50668737, 0.3171722 ],
       [0.0935037 , 0.17757344, 0.23656556, 0.04167662, 0.11464055,
        0.20468116, 0.11846191, 1.        ]])

* __第4题：对于下列ndarray对象`students`，每一列的含义分别是：名，姓，年龄，入学日期。请打印出姓`Smith`并且年龄大于`14`岁的同学的入学日期。__

In [9]:
data = np.array([['Bob', 'Smith', '12', '2019-02-01'], 
                ['Joe', 'Lawrence', '13', '2018-03-07'], 
                ['Roy', 'Ratner', '12', '2019-02-05'],
                ['Rita', 'Smith', '14', '2017-02-16'],
                ['Alice', 'Holmes', '11', '2020-02-29'], 
                ['Wool', 'Smith', '15', '2016-02-14']])
data

array([['Bob', 'Smith', '12', '2019-02-01'],
       ['Joe', 'Lawrence', '13', '2018-03-07'],
       ['Roy', 'Ratner', '12', '2019-02-05'],
       ['Rita', 'Smith', '14', '2017-02-16'],
       ['Alice', 'Holmes', '11', '2020-02-29'],
       ['Wool', 'Smith', '15', '2016-02-14']], dtype='<U10')

In [10]:
# 请在此处写第4题的代码
[a[3] for a in data if a[1] == "Smith" and int(a[2]) > 14]

['2016-02-14']

* __第5题：利用numpy数组实现Game of Life。用一个15*15的矩阵表示225个细胞：元素取值为`1`表示活细胞，取值为`0`表示死细胞。Game of Life的过程如下：初始矩阵为`K`(如下所示)，表示细胞的初始状态；进而按照以下规则进行迭代，更新细胞状态。请你打印出迭代`100`次之后得到的矩阵__
 * 每个细胞死或活的状态由它周围的八个细胞，称为__邻居__，所决定。
 * “人口过少”：任何活细胞如果活邻居少于2个，则死掉。
 * “正常”：任何活细胞如果活邻居为2个或3个，则继续活。
 * “人口过多”：任何活细胞如果活邻居大于3个，则死掉。
 * “繁殖”：任何死细胞如果活邻居正好是3个，则活过来。

In [11]:
K = np.array([[0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1],
              [1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0],
              [0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0],
              [0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1],
              [1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0],
              [1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0],
              [1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
              [1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
              [0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0],
              [0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0],
              [0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1],
              [0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1],
              [1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1],
              [0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0],
              [1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0]]) 
K

array([[0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1],
       [1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0],
       [0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1],
       [1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0],
       [1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0],
       [1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0],
       [0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1],
       [0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1],
       [1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1],
       [0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0],
       [1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0]])

In [12]:
# 请在此处写第5题的代码
neighbor = lambda A, i, j: (i > 0 and A[i - 1, j]) + (j > 0 and A[i, j - 1]) + (i + 1 < len(A) and A[i + 1, j]) + (j + 1 < len(A) and A[i, j + 1]) + (i > 0 and j > 0 and A[i - 1, j - 1]) + (i > 0 and j + 1 < len(A) and A[i - 1, j + 1]) + (i + 1 < len(A) and j > 0 and A[i + 1, j - 1]) + (i + 1 < len(A) and j + 1 < len(A) and A[i + 1, j + 1])
iterate = lambda A: np.array([[int(2 <= neighbor(A, i, j) <= 3 if A[i, j] else neighbor(A, i, j) == 3) for j in range(len(A))] for i in range(len(A))])
solve = lambda A, n: A if n == 0 else solve(iterate(A), n - 1)
solve(K, 100)

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]])