# Numpy 数组  

🎈在本节中，我们将学习集中创建numpy数组的方式。  

> * 在NumPy中，数组(array)是存储相同数据类型元素的多维容器。  
> * 注意，虽然其译名为数组，但其可以包含多种数据类型，不仅限于数字。  
> * NumPy数组是同质的，即数组中的所有元素必须是相同的数据类型，但这数据类型可以是数字、字符串、布尔值等。

## 使用python列表创建数组  

比如我们想把一些被试编号放进一个数组里，我们可以使用`np.array`

In [1]:
import numpy as np
names = np.array(['sub01', 'sub02', 'sub03', 'sub04', 'sub05'])
names

array(['sub01', 'sub02', 'sub03', 'sub04', 'sub05'], dtype='<U5')

有时需要把被试编号打乱，这时我们可以用到`np.random.shuffle`

In [2]:
np.random.shuffle(names)

上面提到NumPy数组只能含有同一种类型的数据。如果类型不一样，NumPy会尝试向上扩展类型（下面例子中会将整数向上扩展为浮点数）：

In [3]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

## 使用numpy内置的方法创建数组  
在numpy中有许多内置的函数，方便我们更高效且灵活地生成需要的数组，以下介绍了几种情况：

### 生成多个相同元素的数组

In [4]:
# zeros将数组元素都填充为0，100是数组长度
np.zeros(100, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [5]:
# ones将数组元素都填充为1，(3, 5)是数组的维度说明，表明数组是二维的3行5列
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

### 生成序列数据  

有些时候，我们生成的数据需要落在某个取值范围内，我们可以考虑np.arrange()或是np.linspace()来生成需要的数据。  

* 在生成统计分布时，我们常常需要生成这样的顺序数据

In [6]:
# arange类似range，创建一段序列值
# 起始值是0（包含），结束值是10（不包含），步长为0.5
np.arange(0, 10, 0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
       6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])

In [7]:
# linspace创建一段序列值，其中元素按照区域进行线性（平均）划分
# 起始值是1（包含），结束值是100（包含），共100个元素
np.linspace(1, 100, 100)

array([  1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.,  11.,
        12.,  13.,  14.,  15.,  16.,  17.,  18.,  19.,  20.,  21.,  22.,
        23.,  24.,  25.,  26.,  27.,  28.,  29.,  30.,  31.,  32.,  33.,
        34.,  35.,  36.,  37.,  38.,  39.,  40.,  41.,  42.,  43.,  44.,
        45.,  46.,  47.,  48.,  49.,  50.,  51.,  52.,  53.,  54.,  55.,
        56.,  57.,  58.,  59.,  60.,  61.,  62.,  63.,  64.,  65.,  66.,
        67.,  68.,  69.,  70.,  71.,  72.,  73.,  74.,  75.,  76.,  77.,
        78.,  79.,  80.,  81.,  82.,  83.,  84.,  85.,  86.,  87.,  88.,
        89.,  90.,  91.,  92.,  93.,  94.,  95.,  96.,  97.,  98.,  99.,
       100.])

### 生成随机数据  
还有些时候，我们只希望在特定范围内随机生成一些数据，这时我们通常使用np.random...,来看以下这几个例子  

1. 一组人的年龄范围为35-65，在这个范围内随机生成20个数据。  
2. 一组人的反应时满足均值350，标准差为25的正态分布，在这个分布中随机生成50个数据

In [8]:
#1，随机生成20个年龄数据
# np.random.randint 函数来生成在整数范围内的随机数
np.random.randint(low=35, #最小值（包括）
                  high=65 + 1,  #最大值(不包括)
                  size=20) #数组形状，如果是整数表示一维数组的长度

array([42, 48, 59, 53, 59, 60, 62, 40, 36, 64, 44, 51, 44, 49, 49, 65, 45,
       41, 65, 64])

In [9]:
#2，随机生成50个反应时数据
np.random.normal(loc=350,  #平均值
                 scale=25, #标准差
                 size=50)  #数组形状，如果是整数表示一维数组的长度

array([352.68911595, 302.91024294, 315.29621092, 346.81463289,
       408.63068296, 351.82356692, 340.88782287, 343.01022638,
       391.13521109, 352.17517137, 338.18234799, 370.29243744,
       382.11394283, 342.29962736, 369.33988025, 317.94462425,
       361.88856048, 369.90650066, 393.14965994, 381.95156901,
       408.89847723, 340.09736909, 336.7543387 , 335.68756669,
       373.75722017, 330.54588132, 342.40275453, 425.11760955,
       349.72603824, 371.58406481, 373.16852018, 330.89879631,
       375.10473957, 349.55806387, 324.24185245, 342.8372238 ,
       362.24269481, 308.36875191, 363.68763768, 319.63698223,
       368.9491172 , 355.27912067, 367.58081318, 364.48557173,
       317.42289349, 342.75082442, 338.46309418, 370.75424432,
       305.22383659, 339.39400676])

### 指定概率，生成数据  
在一些情况下，存在固定数量的选项，且选项对应的概率已被指定，我们可以使用np.random.choice()。比如以下这个例子：  

* 一堂课有5个人，amy，barbie，cindy，david，emma，他们每节课举手回答的概率分别为0.4，0.2，0.1，0.2，0.1，假设上了10节课，每节课有一人回答问题，生成这10节课的回答情况。

In [10]:
stu_names = ['amy', 'barbie', 'cindy', 'david', 'emma']
np.random.choice(stu_names, 10, p=[0.4, 0.2, 0.1, 0.2, 0.1])

array(['amy', 'amy', 'david', 'amy', 'cindy', 'david', 'cindy', 'cindy',
       'cindy', 'amy'], dtype='<U6')

## NumPy标准数据类型  
NumPy数组仅包含一种类型数据，标准NumPy数据类型见下表。正如上面介绍的，当我们创建数组的时候，我们可以将`dtype`参数指定为下面类型的字符串名称来指定数组的数据类型。  

```python  
np.zeros(10, dtype='int16')  
```

也可以将`dtype`指定为对应的NumPy对象：  


```python  
np.zeros(10, dtype=np.int16)  
```

| Data type	    | Description |  
|---------------|-------------|  
| ``bool_``     | 布尔(True 或 False) 一个字节 |  
| ``int_``      | 默认整数类型 (类似C的``long``; 通常可以是``int64``或``int32``)|  
| ``intc``      | 类似C的``int`` (通常可以是``int32``或``int64``)|  
| ``intp``      | 用于索引值的整数(类似C的``ssize_t``; 通常可以是``int32``或``int64``)|  
| ``int8``      | 整数，1字节 (-128 ～ 127)|  
| ``int16``     | 整数，2字节 (-32768 ～ 32767)|  
| ``int32``     | 整数，4字节 (-2147483648 ～ 2147483647)|  
| ``int64``     | 整数，8字节 (-9223372036854775808 ～ 9223372036854775807)|  
| ``uint8``     | 字节 (0 ～ 255)|  
| ``uint16``    | 无符号整数 (0 ～ 65535)|  
| ``uint32``    | 无符号整数 (0 ～ 4294967295)|  
| ``uint64``    | 无符号整数 (0 ～ 18446744073709551615)|  
| ``float_``    | `float64`的简写 |  
| ``float16``   | 半精度浮点数: 1比特符号位, 5比特指数位, 10比特尾数位 |  
| ``float32``   | 单精度浮点数: 1比特符号位, 8比特指数位, 23比特尾数位|  
| ``float64``   | 双精度浮点数: 1比特符号位, 11比特指数位, 52比特尾数位|  
| ``complex_``  | `complex128`的简写 |  
| ``complex64`` | 复数, 由2个单精度浮点数组成 |  
| ``complex128``| 复数, 由2个双精度浮点数组成 |

> 🔔本节的内容到这里就结束了，请前往下一节：2. numpy_数组属性_索引_切片