# Numpy库介绍

- Numpy 是一个功能强大的 Python 库，主要用于对多维数组执行计算。 
- Numpy 这个词来源于两个单词 -- Numerical 和 Python 。 
- Numpy 提供了大量的库函数和操作，可以帮助程序员轻松地进行数值计算。
- Numpy 在数据分析和机器学习领域被广泛使用。他有以下几个特点： 
    - Numpy内置了并行运算功能，当系统有多个核心时，做某种计算时，Numpy会自动做并行计算。 
    - Numpy底层使用C语言编写，内部解除了GIL（全局解释器锁），其对数组的操作速度不受Python解释器的限制，效率远高于纯Python代码。 
    - 有一个强大的N维数组对象Array（一种类似于列表的东西）。 
    - 实用的线性代数、傅里叶变换和随机数生成函数。
- 总而言之，Numpy是一个非常高效的用于处理数值型运算的包。


## Numpy安装：

- 通过 pip install numpy 即可安装。
- 教程地址：
    - 官网： https://docs.scipy.org/doc/numpy/user/quickstart.html 
    - 中文文档： https://www.numpy.org.cn/user_guide/quickstart_tutorial/index.html 


In [33]:
# Numpy数组和Python列表性能对比：
# 比如我们想要对一个Numpy数组和Python列表中的每个素进行求平方。那么代码如下：
import numpy as np
import time
a = list()
t1 = time.time()
for i in range(1000000):
    a.append(i**2)
t2 = time.time()
t = t2 - t1
print(t)
# 花费的时间大约是 0.57s 左右。而如果使用 numpy 的数组来做，那速度就要快很多了：
t3 = time.time()
b = np.arange(1000000)**2
t4 = time.time()
tt = t4 - t3
print(tt)

0.5726618766784668
0.0025014877319335938


In [28]:
import numpy as np
import time
t3 = time.time()
b = np.arange(1000000)**2
t4 = time.time()
tt = t4 - t3
print(tt)

0.003094196319580078


## Numpy数组array基本用法
1. Numpy 是 Python 科学计算库，用于快速处理任意维度的数组。
2. NumPy 提供一个N维数组类型ndarray，它描述了相同类型的“items”的集合。
3. numpy.ndarray 支持向量化运算。
4. NumPy 使用c语言写的，底部解除了 GIL ，其对数组的操作速度不在受 python 解释器限制。
5. Numpy 中的数组：
    - Numpy 中的数组的使用跟 Python 中的列表非常类似。他们之间的区别如下： 
        - 一个列表中可以存储多种数据类型。比如 a = [1,'a'] 是允许的，而数组只能存储同一种数据类型。 
        - 数组可以是多维的，当多维数组中所有的数据都是数值类型的时候，相当于线性代数中的矩阵，是可以进行相互间的运算的。


In [39]:
import numpy as np
a = [1, 2.3, "4"]
a

[1, 2.3, '4']

In [40]:
# numpy中的数组的数据类型必须全部一致
b = np.array([1, 2.3, "4"])
b

array(['1', '2.3', '4'],
      dtype='<U32')

In [42]:
# numpy中的数组的数据类型必须全部一致
c = np.array([1, 2.3, 6])
c

array([ 1. ,  2.3,  6. ])

In [44]:
# numpy中的数组的数据类型必须全部一致
d = np.array([1, 2, 6])
d

array([1, 2, 6])

## 创建数组（np.ndarray对象）
- Numpy 经常和数组打交道，因此首先第一步是要学会创建数组。在 Numpy 中的数组的数据类型叫做 ndarray 

In [45]:
# 创建数组的几种方法
# 1.使用np.array生成数组，根据python中的列表生成
a = np.array([1, 2, 3, 4])
print(a)
print(type(a))

[1 2 3 4]
<class 'numpy.ndarray'>


In [46]:
help(np.array)

Help on built-in function array in module numpy.core.multiarray:

array(...)
    array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0)
    
    Create an array.
    
    Parameters
    ----------
    object : array_like
        An array, any object exposing the array interface, an object whose
        __array__ method returns an array, or any (nested) sequence.
    dtype : data-type, optional
        The desired data-type for the array.  If not given, then the type will
        be determined as the minimum type required to hold the objects in the
        sequence.  This argument can only be used to 'upcast' the array.  For
        downcasting, use the .astype(t) method.
    copy : bool, optional
        If true (default), then the object is copied.  Otherwise, a copy will
        only be made if __array__ returns a copy, if obj is a nested sequence,
        or if a copy is needed to satisfy any of the other requirements
        (`dtype`, `order`, etc.).
    order : {'K'

In [51]:
# 2.使用np.arange生成数组，np.arange的用法类似于Python中的range 
b = np.arange(0, 10, 2)
b
#print(b)
#print(type(b))

array([0, 2, 4, 6, 8])

In [52]:
help(np.arange)

Help on built-in function arange in module numpy.core.multiarray:

arange(...)
    arange([start,] stop[, step,], dtype=None)
    
    Return evenly spaced values within a given interval.
    
    Values are generated within the half-open interval ``[start, stop)``
    (in other words, the interval including `start` but excluding `stop`).
    For integer arguments the function is equivalent to the Python built-in
    `range <http://docs.python.org/lib/built-in-funcs.html>`_ function,
    but returns an ndarray rather than a list.
    
    When using a non-integer step, such as 0.1, the results will often not
    be consistent.  It is better to use ``linspace`` for these cases.
    
    Parameters
    ----------
    start : number, optional
        Start of interval.  The interval includes this value.  The default
        start value is 0.
    stop : number
        End of interval.  The interval does not include this value, except
        in some cases where `step` is not an integer and

In [69]:
# 3.使用np.random.random生成N行N列的数组，其中里面的值是0-1之间随机数
c = np.random.random((2, 2))# 生成一个两行两列的数组
print(c)


[[ 0.46036162  0.8909577 ]
 [ 0.63533308  0.13154813]]


In [70]:
# 4.使用np.random.randint生成一个N行N列的整数数组，其中里面的值可通过前两个参数来指定
d = np.random.randint(0, 9, size=(4, 4))
print(d)

[[0 6 4 5]
 [3 5 0 6]
 [2 5 0 0]
 [6 7 4 2]]


In [80]:
# 5.使用函数生成特殊的数组
import numpy as np

# 5.1 zeros
a_zeros = np.zeros((3, 3))# 生成一个所有元素都是0的3行3列的数组
print(a_zeros)
print("* " * 30)

# 5.2 ones
a_ones = np.ones((4, 2))# 生成一个所有元素都是1的4行2列的数组
print(a_ones)
print("* " * 30)

# 5.3 full 可以指定元素的值
a_full = np.full((3, 5), 9)# 生成一个所有元素都是9的3行5列的数组
print(a_full)
print("* " * 30)

# 5.4 eye 对称，行和列的值相同
a_eye = np.eye(5)# 生成一个在斜线方向上元素为1，其余元素都为0的5×5的矩阵
print(a_eye)

[[ 0.  0.  0.]
 [ 0.  0.  0.]
 [ 0.  0.  0.]]
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 
[[ 1.  1.]
 [ 1.  1.]
 [ 1.  1.]
 [ 1.  1.]]
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 
[[9 9 9 9 9]
 [9 9 9 9 9]
 [9 9 9 9 9]]
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 
[[ 1.  0.  0.  0.  0.]
 [ 0.  1.  0.  0.  0.]
 [ 0.  0.  1.  0.  0.]
 [ 0.  0.  0.  1.  0.]
 [ 0.  0.  0.  0.  1.]]


## ndarray常用属性：

- ndarray.dtype:
- 因为数组中只能存储同一种数据类型，因此可以通过 dtype 获取数组中的元素的数据类型。
- 以下是 ndarray.dtype 的常用的数据类型：


    - 数据类型                        描述                                         唯一标识符
    - bool         用一个字节存储的布尔类型(True或False)                                'b' 
    - int8         一个字节大小, -128 至 127                                          'i1' 
    - int16        整数, 16 位整数(-32768 - 32767)                                   'i2' 
    - int32        整数, 32 位整数(-2147483648 - 2147483647)                         'i4' 
    - int64        整数, 64 位整数(-9223372036854775808 - 9223372036854775807)       'i8' 
    - uint8        无符号整数, 0 至 255                                               'u1' 
    - uint16       无符号整数, 0 至 65535                                             'u2' 
    - uint32       无符号整数, 0 至 2 ** 32 - 1                                       'u4' 
    - uint64       无符号整数, 0 至 2 ** 64 - 1                                       'u8' 
    - float16      半精度浮点数: 16位，正负号1位，指数5位，精度10位                        'f2' 
    - float32      单精度浮点数: 32位，正负号1位，指数8位，精度23位                        'f4' 
    - float64      双精度浮点数: 64位，正负号1位，指数11位，精度52位                       'f8' 
    - complex64    复数, 分别用两个32位浮点数表示实部和虚部                               'c8' 
    - complex128   复数, 分别用两个64位浮点数表示实部和虚部                               'c16' 
    - object_      python对象                                                        'O' 
    - string_      字符串                                                             'S' 
    - unicode_     unicode类型                                                       'U' 

- 我们可以看到， Numpy 中关于数值的类型比 Python 内置的多得多，这是因为 Numpy 为了能高效处理处理海量数据而设计的。
- 举个例子，比如现在想要存储上百亿的数字，并且这些数字都不超过254（一个字节内），我们就可以将 dtype 设置为 int8 ，这样就比默认使用 int64 更能节省内存空间了。
- 类型相关的操作如下：


In [82]:
# 默认的数据类型
import numpy as np
a = np.arange(10)
print(a)
print(a.dtype)
# 如果是windows系统，默认是int32
# 如果是mac或者linux系统，则根据系统来


[0 1 2 3 4 5 6 7 8 9]
int64


In [101]:
# 指定dtype
# b = np.array([1, 2, 3, 4, 5], dtype=np.int8)
b = np.array([1, 2, 3, 4, 5], dtype='i1')
print(b)
print(b.dtype)

[1 2 3 4 5]
int8


In [90]:
# 指定dtype
c = np.array([1, 2, 3, 4, 5], dtype=np.float16)
print(c)
print(c.dtype)

[ 1.  2.  3.  4.  5.]
float16


In [94]:
# 对象类型
class Person():
    def __init__(self, name, age):
        self.name = name
        self.age = age

d = np.array([Person("liuliu", 18), Person("lili", 28)])
print(d)
print(d.dtype)

[<__main__.Person object at 0x7f30940f4978>
 <__main__.Person object at 0x7f30940f4908>]
object


In [95]:
# 指定dtype
e = np.array(["a", "b"], dtype='S')
print(e)
print(e.dtype)# 竖线S1代表字符串类型

[b'a' b'b']
|S1


In [96]:
# 指定dtype 
f = np.array(['v', 't'], dtype='U')
print(f)
print(f.dtype)# <U1代表Unicode类型

['v' 't']
<U1


In [100]:
# 使用astype修改dtype ！！！！！
sf = f.astype('S')
print(sf)
print(sf.dtype)# astype不会修改数组本身，而是会将修改后的结果返回
print(f.dtype)

[b'v' b't']
|S1
<U1


# 总结
1. Numpy的特点
    - 并行运算，C语言编写，解除了GIL，N维数组对象Array，实用的线性代数、傅里叶变换和随机数生成函数
2. Numpy中创建数组的几种方式
    - np.array([]), np.arange(), np.random.random(()), np.random.randint(x, y, size=())
    - np.zeros(()), np.ones(()), np.full((), ), np.eye()
3. Numpy的数组中数据类型众多的原因？
    - 基于C语言编写，C语言本身就有很多数据类型，直接引用过来了
    - 为了考虑处理海量数据的性能，通过针对不同的数据给不同的数据类型，来节省内存空间，所有有不同范围的数据类型
4. Numpy的数组中的元素有哪些数据类型？
    - bool, i, i2, i4, i8, u, u2, u4, u8, f2, f4, f8, c8, c16, O, S, U
5. 使用 ndarray.astype 可以修改Numpy中的数据类型