# Numpy ndarray对象

- `numpy`定义了一个n维数组对象，简称`ndarray`对象，它是一个一系列`相同`类型元素组成的数组集合。数组中的每个元素都占有大小相同的内存块。
- `ndarray`对象采用了数组的`索引机制`，将数组中的每个元素映射到内存块上，并且按照一定的布局对内存块进行排列。



In [1]:
import numpy as np

# numpy创建数组

```python
numpy.array(object, dtype = None, copy = True, Order = None, subok = False, ndmin = 0)
```

参数：

| 序号 | 参数   | 描述说明                                                     |
| ---- | ------ | :----------------------------------------------------------- |
| 1    | object | 表示一个数组序列                                             |
| 2    | dtype  | 可选参数，通过它可以改变数组的数据类型                       |
| 3    | copy   | 可选，当数据源是ndarray是表示数组能否被复制，默认是True                  |
| 4    | Order  | 可选，以哪种内存布局创建数组，有3个可选值，分别是C（行序列）/F（列序列）/A（默认） |
| 5    | ndmin  | 可选，用于指定数组维数                                       |
| 6    | subok  | 可选，类型为bool，默认为False。为True时，使用object的内部数据类型；为False时，使用object数组的数据类型。 |



In [2]:
np.array([1,2,3,4,5])

array([1, 2, 3, 4, 5])

In [3]:
type(np.array([1,2,3,4,5]))

numpy.ndarray

In [4]:
np.array((1,2,3,4,5)) # 元组

array([1, 2, 3, 4, 5])

In [5]:
type(np.array((1,2,3,4,5)))

numpy.ndarray

In [6]:
a = np.array([1,2,3,4,5])

b = np.array(a)

b

array([1, 2, 3, 4, 5])

In [7]:
np.array(range(10))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [8]:
np.array([i**2 for i in range(10)]) # 里面是列表

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [9]:
# 创建10以内的偶数的数组
np.array([i for i in range(10) if i%2 == 0])

array([0, 2, 4, 6, 8])

In [10]:
# 第二种做法
np.array(range(0,11,2))

array([ 0,  2,  4,  6,  8, 10])

In [11]:
np.array([1,1.4,'5'])

array(['1', '1.4', '5'], dtype='<U32')

In [12]:
# 二维数组(可以嵌套，列表元组都可以)
np.array([
    [1,'b',3],
    ('1','b','3')
])

array([['1', 'b', '3'],
       ['1', 'b', '3']], dtype='<U21')

In [13]:
# 注意嵌套序列数量不一会怎么样
ar4 = np.array([[1,2,3],[1,2,3]]) 

In [14]:
ar4

array([[1, 2, 3],
       [1, 2, 3]])

In [15]:
ar4.shape

(2, 3)

 1. 设置dtype参数，默认自动识别

In [16]:
a = np.array([1,2,3,4,5])
a

array([1, 2, 3, 4, 5])

In [17]:
a_dtype = np.array(a, dtype = 'float')
a_dtype

array([1., 2., 3., 4., 5.])

## 思考如何将浮点型的数据，设置为整形，会是什么情况？

In [18]:
np.array([1.1,2.2,3,1.2], dtype = 'int')

array([1, 2, 3, 1])

 2.设置copy参数,默认为True

In [19]:
a = np.array([1,2,3,4,5])
b = np.array(a)

In [20]:
print('a:',id(a),'b:',id(b))

a: 4501419088 b: 4501419184


In [21]:
a = np.array([1,2,3,4,5])
# 定义b，当设置copy参数为Fasle时，不会创建副本，
# 两个变量会指向相同的内容地址，没有创建新的对象
b = np.array(a, copy=False)
# 输出a和b的id
print('a:', id(a), '  b:', id(b))
print('以上看出a和b的内存地址')
# 由于a和b指向的是相同的内存地址，因此当修改b的元素时，a会发生变化
b[0] = 10
print('a:',a,'  b:',b)

a: 4501419472   b: 4501419472
以上看出a和b的内存地址
a: [10  2  3  4  5]   b: [10  2  3  4  5]


当默认为True时，表明是独立的复制，而不是引用；
为False时，表明是引用

3. ndmin 用于指定数组的维度

In [22]:
a = np.array([1,2,3])
a

array([1, 2, 3])

In [23]:
b = np.array(a, ndmin = 2)
b

array([[1, 2, 3]])

4.subok参数，类型为bool值，默认False。为True，使用object的内部数据类型；False：使用object数组的数据类型。

In [24]:
# 创建一个矩阵
a = np.mat([1,2,3,4])
# 输出为矩阵类型
print(type(a))

#既要复制一份副本，又要保持原类型
at = np.array(a,subok=True)
af = np.array(a)  # 默认为False
print('at,subok为True:',type(at))
print('af,subok为False:',type(af))
print(id(at),id(a))


<class 'numpy.matrix'>
at,subok为True: <class 'numpy.matrix'>
af,subok为False: <class 'numpy.ndarray'>
4501471424 4501471296


In [25]:
a = np.array([1,2,3,4])
c = a.copy() # copy使用的多一点
print(id(a),id(c))

4501475760 4501421488



# arange()生成区间数组
根据 start 与 stop 指定的范围以及 step 设定的步长，生成一个 ndarray。

```python
numpy.arange(start, stop, step, dtype)
```
参数说明   

| 序号 | 参数 | 描述说明 |
| :--- | :--- | :--- |
| 1      | start| 起始值，默认为0   |
| 2   | stop | 终止值（不包含）        |
| 3      | step | 步长，默认为1        |
| 4      | dtype |  返回ndarray的数据类型，如果没有提供，则会使用输入数据的类型。     |

In [26]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [27]:
np.arange(3.1)

array([0., 1., 2., 3.])

In [28]:
range(3)

range(0, 3)

In [29]:
np.arange(4,dtype = 'float')

array([0., 1., 2., 3.])

In [30]:
np.arange(10,100,2)

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 64, 66, 68, 70, 72, 74, 76,
       78, 80, 82, 84, 86, 88, 90, 92, 94, 96, 98])

In [31]:
np.arange(100000) # 只打印边边角角

array([    0,     1,     2, ..., 99997, 99998, 99999])

In [32]:
np.arange(20,step = 3)

array([ 0,  3,  6,  9, 12, 15, 18])

In [33]:
arr = np.arange(200+1,step = 3)

In [34]:
len(arr)

67

## 如何防止 float 不精确影响numpy.arange
> <font color=red>注意：ceil((stop - start)/step)确定项目数，小浮点不精确(stop = .400000001)可以向列表中添加意外值。</font>
#### 想得到一个长度为3的、从0.1开始的、间隔为0.1的数组，想当然地如下coding，结果意料之外：

In [35]:
np.arange(0.1,0.5,0.1)

array([0.1, 0.2, 0.3, 0.4])

# linspace() 创建等差数列

返回在间隔[开始，停止]上计算的num个均匀间隔的样本。<b>数组是一个等差数列构成</b>

```python
np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
```

参数说明   

| 序号 | 参数 | 描述说明 |
| :--- | :--- | :--- |
| 1      | start| 必填项，序列的起始值，  |
| 2   | stop | 必填项，序列的终止值，如果endpoint为true，该值包含于数列中      |
| 3      | num | 要生成的等步长的样本数量，默认为50      |
| 4      | endpoint |  该值为 true 时，数列中包含stop值，反之不包含，默认是True。  | 
| 5      | retstep |  如果为 True 时，生成的数组中会显示步长，反之不显示。   | 
| 6      | dtype |  ndarray 的数据类型 | 

In [36]:
np.linspace(1,10)

array([ 1.        ,  1.18367347,  1.36734694,  1.55102041,  1.73469388,
        1.91836735,  2.10204082,  2.28571429,  2.46938776,  2.65306122,
        2.83673469,  3.02040816,  3.20408163,  3.3877551 ,  3.57142857,
        3.75510204,  3.93877551,  4.12244898,  4.30612245,  4.48979592,
        4.67346939,  4.85714286,  5.04081633,  5.2244898 ,  5.40816327,
        5.59183673,  5.7755102 ,  5.95918367,  6.14285714,  6.32653061,
        6.51020408,  6.69387755,  6.87755102,  7.06122449,  7.24489796,
        7.42857143,  7.6122449 ,  7.79591837,  7.97959184,  8.16326531,
        8.34693878,  8.53061224,  8.71428571,  8.89795918,  9.08163265,
        9.26530612,  9.44897959,  9.63265306,  9.81632653, 10.        ])

In [37]:
np.linspace(1,10,20)

array([ 1.        ,  1.47368421,  1.94736842,  2.42105263,  2.89473684,
        3.36842105,  3.84210526,  4.31578947,  4.78947368,  5.26315789,
        5.73684211,  6.21052632,  6.68421053,  7.15789474,  7.63157895,
        8.10526316,  8.57894737,  9.05263158,  9.52631579, 10.        ])

In [38]:
np.linspace(1,10,10)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [39]:
np.linspace(1,10,10,dtype='int')

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [40]:
np.linspace(1,10,10,retstep=False)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [46]:
a = np.linspace(1,5,5)
a

array([1., 2., 3., 4., 5.])

In [45]:
a = np.linspace(1,5.1,5)
a

array([1.   , 2.025, 3.05 , 4.075, 5.1  ])

In [47]:
np.linspace(1,5,5,endpoint=False) # 不包含末尾值5

array([1. , 1.8, 2.6, 3.4, 4.2])

In [48]:
np.linspace(1,5,5)

array([1., 2., 3., 4., 5.])

In [51]:
a = np.linspace(2.0,3.0,5,retstep=True) # 显示步长
a

(array([2.  , 2.25, 2.5 , 2.75, 3.  ]), 0.25)

In [52]:
type(a)

tuple

In [53]:
a = np.linspace(2.0,3.0,5,endpoint=False,retstep=True)
a

(array([2. , 2.2, 2.4, 2.6, 2.8]), 0.2)

#### 等差数列 在线性回归经常作为样本集
如：生成x_data，值为[0, 100]之间500个等差数列数据集合作为样本特征，根据目标线性方程y=3*x+2，生成相应的标签集合y_data

In [54]:
y_data = np.linspace(0,100,500)
y_data

array([  0.        ,   0.2004008 ,   0.4008016 ,   0.6012024 ,
         0.80160321,   1.00200401,   1.20240481,   1.40280561,
         1.60320641,   1.80360721,   2.00400802,   2.20440882,
         2.40480962,   2.60521042,   2.80561122,   3.00601202,
         3.20641283,   3.40681363,   3.60721443,   3.80761523,
         4.00801603,   4.20841683,   4.40881764,   4.60921844,
         4.80961924,   5.01002004,   5.21042084,   5.41082164,
         5.61122244,   5.81162325,   6.01202405,   6.21242485,
         6.41282565,   6.61322645,   6.81362725,   7.01402806,
         7.21442886,   7.41482966,   7.61523046,   7.81563126,
         8.01603206,   8.21643287,   8.41683367,   8.61723447,
         8.81763527,   9.01803607,   9.21843687,   9.41883768,
         9.61923848,   9.81963928,  10.02004008,  10.22044088,
        10.42084168,  10.62124248,  10.82164329,  11.02204409,
        11.22244489,  11.42284569,  11.62324649,  11.82364729,
        12.0240481 ,  12.2244489 ,  12.4248497 ,  12.62