# <div style="color:red;text-align:center;">python机器学习库numpy</div>

### 一、课程介绍

numpy是机器学习中经常用到的库，本课程讲解numpy库里面非常常用的操作，不常用的操作大家需要的时候直接查手册即可。不常用的操作讲多了增加大家的记忆负担。

本课程分为两个部分，第一部分是基础知识部分，第二部分是一些简单的numpy在机器学习中的使用的实例，通过实例，我们可以更好的掌握numpy。


### 二、numpy介绍

**numpy库是做什么的**

NumPy是使用Python进行科学计算的基础软件包。

Numpy主要用于大数据量的同构数组处理，以及数组操作函数、科学计算函数和线性代数等

---

**numpy库核心**

numpy的结构是同构的ndarray

---

**numpy库和pandas库的关系**

    NumPy：大数据量的同构数组处理，以及复杂函数和线性代数等
    Pandas：处理非纯粹的、混杂数组

虽然NumPy有着种种出色的特性，其本身则难以独支数据分析这座大厦，这是一方面是由于NumPy几乎仅专注于数组处理，
另一方面则是数据分析牵涉到的数据特性众多，需要处理各种表格和混杂数据，远非纯粹的数组（NumPy）方便解决的，而这就是pandas发力的地方。

---

**NumPy在大数组的数据处理方面进行的优化？**

+ 【连续的内存块】：NumPy是在一个连续的内存块中存储数据，独立于其他Python内置对象，如此便可以加速数据索引的速度。
+ 【调用大量c语言算法库】：NumPy调用了大量的用C语言编写的算法库，使得其可以直接操作内存，不必进行Python动态语言特性所含有的前期类型检查工作，从而大大提高了运算速度。
+ 【整数组直接计算】：NumPy可以在整个数组上执行复杂的计算，能够大幅提高运算效率（基于NumPy的算法要比纯Python快10到100倍，甚至会快更多）。

---

**上百G的数据如何处理**

Python处理几个G的数据绰绰有余，至于几十G也勉强可以，而上百G的数据这就算是Hadoop与Spark系列的任务，不是Python的NumPy与pandas可以应付的，也不是R语言某个第三方包可以处理的。


---

**NumPy数组 和 原生Python List（列表）之间有几个重要的区别**

+ 【numpy固定大小】：NumPy 数组在创建时具有固定的大小，与Python的原生数组对象（可以动态增长）不同。更改ndarray的大小将创建一个新数组并删除原来的数组。
+ 【numpy同构】：NumPy 数组中的元素都需要具有相同的数据类型，因此在内存中的大小相同。
+ 【numpy更适合于科学计算】：NumPy 数组有助于对大量数据进行高级数学和其他类型的操作。通常，这些操作的执行效率更高，比使用Python原生数组的代码更少。
+ 【numpy使用广泛】：越来越多的基于Python的科学和数学软件包使用NumPy数组; 虽然这些工具通常都支持Python的原生数组作为参数，但它们在处理之前会还是会将输入的数组转换为NumPy的数组，而且也通常输出为NumPy数组。

---



### 3、numpy的安装及引入

In [1]:
# 安装库
# pip install numpy
# 查看安装的库
# pip list

# 引入库
import numpy as np

### 4.1、n维数组的创建（array方法）

In [3]:
# numpy的核心就是同构的n维数组，所以可以用numpy的array方法来创建n维数组
arr = np.array([[1,2],[3,4]])
print(arr)
print(type(arr))

[[1 2]
 [3 4]]
<class 'numpy.ndarray'>


In [5]:
# 同构和异构
list1 = [1,1.2,True,'abc']
print(list1)
print(type(list1))
# 在numpy中
arr2 = np.array(list1)
print(arr2)
print(type(arr2))

[1, 1.2, True, 'abc']
<class 'list'>
['1' '1.2' 'True' 'abc']
<class 'numpy.ndarray'>


### 4.2、n维数组的创建（其它常用方法）

**a、arange方法**

为了创建数字组成的数组，NumPy提供了一个类似于python中的range的函数arange。


In [3]:
for i in range(0,6):
    print(i)
print(list(range(0,6)))

0
1
2
3
4
5
[0, 1, 2, 3, 4, 5]


In [6]:
arr=np.arange(6)
print(arr)
# 指定起始位置和终止位置
arr=np.arange(10,20)
print(arr)
# 指定步长
arr=np.arange(10,20,3)
print(arr)

[0 1 2 3 4 5]
[10 11 12 13 14 15 16 17 18 19]
[10 13 16 19]


In [8]:
# reshape：改变数组的维度
arr=np.arange(6).reshape((2,3))
print(arr)
arr=np.arange(6).reshape((3,2))
print(arr)

[[0 1 2]
 [3 4 5]]
[[0 1]
 [2 3]
 [4 5]]


**b、等差数列：linspace方法**

line space


In [9]:
# 参数：起始位置，终止位置，元素个数
arr=np.linspace(1,10,5)
print(arr)

[ 1.    3.25  5.5   7.75 10.  ]


**c、等比数列：logspace**

log space :对数刻度均匀分布

In [12]:
# 参数：起始位置，终止位置，元素个数
# 比如这个3，表示的是10的3次方，1000
arr=np.logspace(1,3,5)
print(arr)
arr=np.logspace(1,3,3)
print(arr)

[  10.           31.6227766   100.          316.22776602 1000.        ]
[  10.  100. 1000.]


### 4.3、n维数组的创建（特殊数组）

numpy中常用的特殊矩阵 主要有ones（全1）、zeros（全0）、eye（单位矩阵）、empty（未初始化）

In [2]:
# 需要一个表示矩阵维度的元组做参数
arr=np.ones((2,3))
print(arr)

[[1. 1. 1.]
 [1. 1. 1.]]


In [4]:
arr=np.zeros((3,2))
print(arr)

[[0. 0.]
 [0. 0.]
 [0. 0.]]


In [5]:
arr=np.eye(3)
print(arr)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [6]:
help(np.eye)

Help on function eye in module numpy:

eye(N, M=None, k=0, dtype=<class 'float'>, order='C')
    Return a 2-D array with ones on the diagonal and zeros elsewhere.
    
    Parameters
    ----------
    N : int
      Number of rows in the output.
    M : int, optional
      Number of columns in the output. If None, defaults to `N`.
    k : int, optional
      Index of the diagonal: 0 (the default) refers to the main diagonal,
      a positive value refers to an upper diagonal, and a negative value
      to a lower diagonal.
    dtype : data-type, optional
      Data-type of the returned array.
    order : {'C', 'F'}, optional
        Whether the output should be stored in row-major (C-style) or
        column-major (Fortran-style) order in memory.
    
        .. versionadded:: 1.14.0
    
    Returns
    -------
    I : ndarray of shape (N,M)
      An array where all elements are equal to zero, except for the `k`-th
      diagonal, whose values are equal to one.
    
    See Also
    -

In [7]:
arr=np.empty((4,6))
print(arr)

[[3.854e-321 3.854e-321 2.945e-321 2.945e-321 2.925e-321 2.925e-321]
 [3.814e-321 3.814e-321 4.763e-321 4.763e-321 4.427e-321 4.427e-321]
 [4.664e-321 4.664e-321 5.336e-321 5.336e-321 5.810e-321 5.810e-321]
 [5.830e-321 5.830e-321 5.850e-321 5.850e-321 4.545e-321 4.545e-321]]


### 5、常用属性

numpy的多维数组常用属性主要有dtype（数据类型）、ndim（维度）、shape（形状）、size（元素个数）


In [2]:
arr=np.arange(12).reshape(3,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
dir(arr)

In [5]:
print(arr.dtype)
print(arr.ndim)
print(arr.shape)
print(arr.size)

int32
2
(3, 4)
12


In [6]:
arr = np.array([1,2],dtype="int64")
arr

array([1, 2], dtype=int64)

In [7]:
print(arr.dtype)
print(arr.ndim)
print(arr.shape)
print(arr.size)

int64
1
(2,)
2


### 6、基本计算

numpy中的ndarray对象重载了许多运算符，使用这些运算符可以完成矩阵间对应元素的运算。

如 +，-，\*（内积），/，%，\*\*（次方），@（矩阵乘法）

~~~
# 矩阵内积：对应位置相乘
print(arr1*arr2)
# 矩阵乘法：
print(arr1@arr2)
print(np.dot(arr1,arr2))
print(arr1.dot(arr2))
~~~

In [2]:
arr1=np.array([[1,2],[0,1]])
arr2=np.arange(1,5).reshape(2,2)
print(arr1)
print(arr2)

[[1 2]
 [0 1]]
[[1 2]
 [3 4]]


In [7]:
# 对应位置相进行操作
print(arr1+arr2)
print(arr1-arr2)
print(arr1*arr2)
print(arr1/arr2)
print(arr1%arr2)

[[2 4]
 [3 5]]
[[ 0  0]
 [-3 -3]]
[[1 4]
 [0 4]]
[[1.   1.  ]
 [0.   0.25]]
[[0 0]
 [0 1]]


In [8]:
print(arr2**2)

[[ 1  4]
 [ 9 16]]


In [10]:
"""
[[1 2]
 [0 1]]
[[1 2]
 [3 4]]
"""
print(arr1@arr2)
print(np.dot(arr1,arr2))
print(arr1.dot(arr2))

[[ 7 10]
 [ 3  4]]
[[ 7 10]
 [ 3  4]]
[[ 7 10]
 [ 3  4]]
