# Numpy入门
在数据分析的过程中，不管数据是什么形式，第一步都需要转化为数值数组形式的可分析数据
## 理解Python中的数据类型
只要了解过Python的都知道，Python的变量不用事先声明类型，那Python是如何存储这些变量的呢？
Python在存储变量的时候，实际上是存储了一个结构体，这个结构体既包括数值的值，还包括数值的类型以及其他信息，可以看如下代码
struct_longobject{
    long ob_refcnt; # 一个引用计数，帮助Python进行内存的回收和分配
    PyTypeObject *ob_type; # 记录数值的类型
    size_t ob_size; # 记录数据的大小
    long ob_digit[1]; # 记录的是真正数值的大小
}
这是在Python3.4中long类型的源代码。
这证明了Python在存储方面与其他语言相比，是由一定的开销的。
#### Python中的列表
理解了Python的数据存储方式，我们就可以推断出Python中列表的存储方式，因为Python中的列表可以存储不同的数据，所以列表的每一个都是一个完整的Python对象，当一个列表中的每一个数值的类型都是一样的，在处理列表的时候就会有其他的存储，造成一定的浪费。这就是Python中列表和Numpy数组之间的区别。
#### Python的改变
当然在之后Python又加上了`array`这个包，但是`Numpy`中为数组提供了更加快捷的计算方式。
## Numpy操作
### 创建数组
#### 从Python中创建数组

In [3]:
import numpy as np

# 将Python中的列表传入
list_array = np.array([1,2,3,4,5])

# 除此之外，如果列表中的数值类型不同，但是可以转化为整数的，向上转型，比如float64和int在一起，最后的数组为float64,但是可以使用dtype来强制指定类型
float_int_array = np.array([1.0,2,3,4])
float_int_array_change=np.array([1.0,2,3,7],dtype='int')

print(list_array)
print(float_int_array)
print(float_int_array_change)

[1 2 3 4 5]
[1. 2. 3. 4.]
[1 2 3 7]


### 从头创建数组

In [25]:
import numpy as np

# .zeros创建一个数值都是0的数组，第一个参数为数组的大小，第二个参数为数组中值的类型，
print(np.zeros((3,5),dtype = float))

# .ones创建一个数值都为1的数组，第一个参数为数组的大小，第二个参数为数组中值的类型，
print(np.ones((3,5),dtype = int))

# .full创建一个数值为第二个参数的数组，第一个参数为数组的大小，第二个参数为数组中值的大小，
print(np.full((3,5),1.11213131313))

# .arange(a,b,c)创建一个线性的数组，值从a到b，步差为c
print(np.arange(0,20,1))

# .linspace(a,b,c)创建一个线性的数组，大小为c，值为a到b的均匀分布,这个地方值包含b
print(np.linspace(0,5,5))

# .random.random((m,n))创建一个m*n维的数组，值从0-1随机选取
print(np.random.random((4,9)))

# .random.normal(a,b,c)创建一个正态分布的数组，平均值为a，标准差为b，c为数组的大小
print(np.random.normal(0,1,(5,6)))

# .random.randint(a,b,c)好眼熟，创建一个整数数组大小为c，数值的大小从a到b，随机选一个
print(np.random.randint(10,20,(5,6)))

# .eye(a)创建维数为a的一个单位矩阵
print(np.eye(4))  # 6,大小为99，直接省略号

# .empty(a)创建一个大小为a的一维整数数组，数值为内存中的任意值
print(np.empty(4))

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]
[[1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]]
[[1.11213131 1.11213131 1.11213131 1.11213131 1.11213131]
 [1.11213131 1.11213131 1.11213131 1.11213131 1.11213131]
 [1.11213131 1.11213131 1.11213131 1.11213131 1.11213131]]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[0.   1.25 2.5  3.75 5.  ]
[[0.2650613  0.64877753 0.48622079 0.863694   0.31153196 0.48455287
  0.42328841 0.19747032 0.3073851 ]
 [0.39349399 0.75769183 0.26024168 0.66735235 0.06564438 0.92040506
  0.43161347 0.70812155 0.08637877]
 [0.261188   0.22743954 0.11470549 0.28643421 0.79589524 0.1682116
  0.99911744 0.56544662 0.38601133]
 [0.77613751 0.93397237 0.97406985 0.99479564 0.31537895 0.09822511
  0.71290006 0.53684904 0.98348005]]
[[ 1.48812374 -0.54118188  2.20502678  0.06390644 -0.68434206  0.12441383]
 [ 0.77127589  0.14001118  0.19880043  0.17612867  1.12559085 -1.20237595]
 [ 1.55388858  0.72791255  3.35423584  0.68833757 -0.17408066  1.01148526]


## Numpy数组的数据类型
`Numpy`是在C的基础上开发的，所以它的数据类型要对于C用户来说更好理解，在构建数组的时候可以通过`dtype=`来进行要求，这里只点我觉得新奇的数据类型
* `intp`:用于做索引的`int`型数据
* `uint`:长时间不用都忘了，是不带符号的`int`型数据
* `complex`:复数
## Numpy数组的基础
Numpy数组包含的属性
* 数组的大小，形状，数据类型，存储大小
* 数组的索引
* 数组的变形
* 数组的切片和组合
### Numpy数组的大小，形状，数据类型，存储大小

In [33]:
import numpy as np

np.random.seed(0) # 设置随机种子

# 设置一个随机整数数组，大小从0到9，形状是size
x3 = np.random.randint(0,9,size=(4,4))

print("x3 ndim:",x3.ndim) # x3的维度
print("x3 shape:",x3.shape) # x3的形状
print("x3 size:",x3.size) # x3的大小
print("x3 dtpye:",x3.dtype) # x3的数据类型
print("x3 itemsize",x3.itemsize) # x3的单个数据的字节数
print("x3 nbytes",x3.nbytes) # x3的全部字节数 

x3 ndim: 2
x3 shape: (4, 4)
x3 size: 16
x3 dtpye: int32
x3 itemsize 4
x3 nbytes 64


### Numpy数组的索引

In [43]:
import numpy as np

x = np.random.randint(0,80,(4,4))

print(x)
# 通过索引来进行数据存取
print(x[1])# 多维取一行
# 多维单个值的取法
print(x[0,3])
# 修改值
x[0,1]=56
print(x)

[[20 58 23 79]
 [13 48 49 69]
 [41 35 64 69]
 [ 0 50 36 34]]
[13 48 49 69]
79
[[20 56 23 79]
 [13 48 49 69]
 [41 35 64 69]
 [ 0 50 36 34]]


***注意***：在Numpy数组中数据类型是确定的，所以如果要插入不同数据类型的数值，可能会出现两种情况，第一是直接错误，第二是截断一部分数值，也就是进行数据类型的转化
### Numpy数组切片

In [49]:
import numpy as np

# 一维数组的切片太简单了，所以不在此进行进一步的说明
x = np.random.randint(0,80,(4,4))

# 多维数组的切片类似是两个一维的组合
print(x)

# 第一部分对行进行处理，第二部分对列进行处理，也可以逆序
print(x[1:3:1,1:3:1])

# 当然也可以单取一行，也可以单取一列
print(x[:,0]) # 取第一列
print(x[0,:]) # 取第一行

[[46 20 50 27]
 [14 41 58 65]
 [36 10 43 11]
 [ 2 51 32 54]]
[[41 58]
 [10 43]]
[46 14 36  2]
[46 20 50 27]


***注意***：切片返回的数组的视图，而不是副本，也就是，如果你修改切片，那原数组也会发生变化
当然，如果你要实现数组的赋值也很简单，再切片后加上一个`.copy()`，之后你对这个切片进行修改，那就不会对数组本身进行改变
### Numpy数组的变形
Numpy数组变形最常用的是`.reshape()`这个方法，使用的前提是你变形之后的那个数组要和变形前的数组的大小是一致的

In [53]:
import numpy as np

x= np.arange(0,9)

print(x.reshape(3,3))

[[0 1 2]
 [3 4 5]
 [6 7 8]]


### Numpy数组的拼接和分裂
#### Numpy数组的拼接
数组的拼接主要是通过`.concatenate`和`.vstack`和`.hstack`三个方法实现,可以两个数组拼接，也可以自己与自己拼接

In [63]:
import numpy as np

x3 = np.arange(0,16).reshape((4,4))

print(x3)
# 上下拼接
print(np.concatenate([x3,x3]))
# 左右拼接
print(np.concatenate([x3,x3],axis=1))
# .vstack是垂直拼接
print(np.vstack([x3,x3]))
# .hstack是水平拼接
print(np.hstack([x3,x3]))

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  1  2  3  0  1  2  3]
 [ 4  5  6  7  4  5  6  7]
 [ 8  9 10 11  8  9 10 11]
 [12 13 14 15 12 13 14 15]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  1  2  3  0  1  2  3]
 [ 4  5  6  7  4  5  6  7]
 [ 8  9 10 11  8  9 10 11]
 [12 13 14 15 12 13 14 15]]


#### Numpy数组的分裂
数组的分裂主要通过`.split`以及`.vsplit`和`.hsplit`来操作

In [75]:
import numpy as np

x3 = np.arange(0,16).reshape((4,4))

# 输入的列表是分裂点,分裂点是不包含0的方法
print(np.split(x3,[1,2]))

# .vsplit是垂直分裂
print(np.vsplit(x3,[1,2,3]))

# .hsplit是水平分裂
print(np.hsplit(x3,[1,2,3]))

[array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]
[array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]]), array([[12, 13, 14, 15]])]
[array([[ 0],
       [ 4],
       [ 8],
       [12]]), array([[ 1],
       [ 5],
       [ 9],
       [13]]), array([[ 2],
       [ 6],
       [10],
       [14]]), array([[ 3],
       [ 7],
       [11],
       [15]])]


## Numpy的通用函数
Numpy另一个加速操作的设定就是向量化操作这一个特点。而这些向量化操作主要是在通用函数中进行，接下来用一个例子介绍一下Numpy的通用函数

In [79]:
import numpy as np

x1 = np.arange(1,5)
x2 = np.arange(1,5)
print(2**x)
print(x1/x2)

[ 2  4  8 16]
[1. 1. 1. 1.]


从这个例子中我们可以看出，Numpy的向量化操作，每次计算都是对于一个数组中的每一个值进行计算,不仅适用于数组和单个数值之间，也适用于数组和数组之间

### Numpy的数组运算
* +，-，*，/(除，直接小数的)，//(整除)，**(次方)，
* .abs()绝对值,也可以处理复数不过返回的是复数的模
* .sin() .cos() .tan()三角函数
* .arcsin() .arccos() .arctan()反三角函数
* .exp() .exp2()[其实是2的次方] .power(a,b)指数函数
* .log()[这个其实是ln()] .log2() .log10()
当然Numpy还有很多其他的操作，更精细和专业的可以去 scipy.special 这个包里使用

In [83]:
import numpy as np

x1 = np.arange(1,5)
print(np.abs(x1))
print(np.sin(x1))
print(np.exp(x1),np.exp2(x1),np.power(3,x1))
print(np.log(x1),np.log10(x1))

[1 2 3 4]
[ 0.84147098  0.90929743  0.14112001 -0.7568025 ]
[ 2.71828183  7.3890561  20.08553692 54.59815003] [ 2.  4.  8. 16.] [ 3  9 27 81]
[0.         0.69314718 1.09861229 1.38629436] [0.         0.30103    0.47712125 0.60205999]


### 高级的通用函数
1. 指定输出，通过每一个计算的out标签输出，设定输出的数组，以及位置
2. 聚合，.reduce()方法，要求一直做某个操作，直到只剩下一个值，.accumulate()方法存下每一个执行之后的值
3. 外积，.outer()方法，获得两个不同输入的数组所有元素对的函数运算结果

In [97]:
import numpy as np

x1 = np.arange(1,5)
x2 = np.empty(4)

np.add(x1,x1,out=x2)
print(x2)
print(np.add.reduce(x1))
print(np.add.accumulate(x1))
print(np.outer(x1,x1))

[2. 4. 6. 8.]
10
[ 1  3  6 10]
[[ 1  2  3  4]
 [ 2  4  6  8]
 [ 3  6  9 12]
 [ 4  8 12 16]]


### 聚合函数
* np.sum()
* np.prod() 计算积
* np.mean() 平均数
* np.std() 标准差
* np.var() 方差
* np.min() np.max()
* np.argmin() 最小值的索引
* np.argmax() 最大值的索引
* np.median() 中位数
* np.percentile() 计算基于元素排序的统计值
* np.any() 验证元素是否存在元素为真
* np.all() 验证所有元素是否为真
这个地方就不写例子了

In [None]:
# 这是一个练习，对总统的身高做一个统计

In [105]:
import pandas as pd
import numpy as np

data = pd.read_csv("president_heights.csv")

heights =data["height(cm)"]

print("heights min:",heights.min())
print("heights max:",heights.max())
print("heights mean:",heights.mean())
print("heights std:",heights.std())
print("heights var:",heights.var())
print("heights median:",heights.median())
print("heights 25%",np.percentile(heights,25))
print("heights 50%",np.percentile(heights,50))
print("heights 75%",np.percentile(heights,75))

heights min: 163
heights max: 193
heights mean: 180.04545454545453
heights std: 7.064337377226628
heights var: 49.904862579281186
heights median: 182.0
heights 25% 174.75
heights 50% 182.0
heights 75% 183.5


### 广播，另一种向量化操作
广播，可以简单理解为用于不同大小数组的二元通用函数
在学习广播之前，我们知道，当数组的大小一致的时候，是分别相加，但是当数组大小不一致的时候，该如何处理呢？Numpy提供了广播机制，也就是为小数组进行扩增，接下来结合代码演示

In [3]:
import numpy as np

x = np.arange(3)

print(x+10)

[10 11 12]


从上述结果我们可以看出来，这个地方Numpy对10进行了扩增，也就是将10扩增成了[10,10,10],这样相加的时候就相当于对于两个相同大小的数组相加，再来一个更难一点的，两个数组都尽心扩增

In [13]:
import numpy as np

x1 = np.arange(3)
x2 = np.arange(3)[:,np.newaxis]
print(x1)
print(x2)
print(x1+x2)

[0 1 2]
[[0]
 [1]
 [2]]
[[0 1 2]
 [1 2 3]
 [2 3 4]]


这个地方相当于对于两个数组都进行了广播，都扩充成了3*3的矩阵，然后进行相加。
#### 广播的规则
1. 如果两个数组的维度不同，那么小维度的数组的形状会在左侧加1
2. 如果两个数组的形状在任何一个维度都不相同，则数组会沿着维度为1的维度扩展来匹配另一个数组
3. 如果两个数组的形状在任何一个维度都不相同，并且没有维度为1的数组，也就是其中一个数组无法进行扩展，这时广播是失败的

In [17]:
## 来个广播失败的例子
import numpy as np

x1 = np.ones((3,2))
x2 = np.arange(3)

print(x1+x2)

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

报错解析：
x2扩充(3,)->(1,3)，然后扩充不了了，***注意一定是从左边来补1***，所以会发生错误。 
#### 广播的实际运用
1. 进行数组归一化，也就是将大数值缩小的[0,1]的区间里
2. 画一个二维函数
## 比较，掩码和布尔逻辑
这个和pandas的那个很相似，和之前学习的通用函数一样，像>,<,=等这些关系运算符，也是通用函数，只不过得到的是一个和原数组大小一致的一个布尔数组

In [23]:
import numpy as np

x2 = np.arange(10)

print(x2)
print(x2<5)
# 当然复杂的比较也是可以的

print(2**x2<5)

[0 1 2 3 4 5 6 7 8 9]
[ True  True  True  True  True False False False False False]
[ True  True  True False False False False False False False]


### 操作布尔数组
1. 记录符合条件的个数
   可以使用`np.count_nonzero`和`np.sum`来统计，但是建议使用后者，因为后者有`axis`标签，可以按照某一个轴来进行统计
2. 快速检查
   结合`np.any`和`np.all`对一个数组进行快速的布尔判断
3. 布尔运算符
   &，|，^(异或，只有两边的值不一致才会为真)，~(非)
4. 直接将布尔数组作为掩码，也就是将原数组与布尔数组结合起来，取出符合对应条件的值

In [43]:
import numpy as np

x1=np.arange(10)

print(x1)

print(np.sum(x1>5))

x2 = np.arange(10).reshape((2,5))
print(x2)

print(np.sum(x2>4,axis=1))

# 判断是否存在
print(np.any(x1<10))

# 判断是否都是
print(np.all(x1>0))

print((x1<10)&(x1>4))

print((x1<10)|(x1>4))

print((x1<10)^(x1>4))

print(~(x1>4))

# 利用布尔数组来作为掩码
print(x1[x1>4])

[0 1 2 3 4 5 6 7 8 9]
4
[[0 1 2 3 4]
 [5 6 7 8 9]]
[0 5]
True
False
[False False False False False  True  True  True  True  True]
[ True  True  True  True  True  True  True  True  True  True]
[ True  True  True  True  True False False False False False]
[ True  True  True  True  True False False False False False]
[5 6 7 8 9]


***小tip:***
为什么不使用and和or呢？注意了and和or是对整个数组起效，而&和|是对数组中的每一个比特位进行操作。
## 有趣的索引
我们之前使用的是正常的索引，也就是x[0]这种，但是Numpy中提供了另一种索引，也就是索引数组，利用索引数组我们能更方便的操纵数组。如下列代码

In [51]:
import numpy as np

x=np.arange(100)

x2 = np.arange(13)

print(x[x2])

## 注意使用索引数组得到的数组，大小和形状和索引数组一致
x = np.array([[1,2,3],[1,2,3]])
x2=np.array([[1]])
print(x[x2]) # 这里就是与x2的形状一致

[ 0  1  2  3  4  5  6  7  8  9 10 11 12]
[[[1 2 3]]]


对于多维数组也是一致的，但是如果索引数组是多个一维数组的组合，那么索引数组是这些数组广播之后的形状，当然索引数组不仅仅只用于数组的索引还可以用于数据的修改，也就是相当与从数组中取出值之后再对这些值进行相加。

## 数组的排序
对于Numpy中数组的排序，一般是通过np.sort和np.argsort实现
np.sort一般是使用快速排序，有时也使用堆排序和归并排序
np.argsort输出的是排序之后的索引号

In [61]:
import numpy as np
x = np.array([4,2,3,58,5,9,41])
# 如果要直接对数组排序，而不是输出排序的视图可以使用x.sort()
print(np.sort(x))
print(x)
x.sort()
print(x)
print(np.argsort(x))

[ 2  3  4  5  9 41 58]
[ 4  2  3 58  5  9 41]
[ 2  3  4  5  9 41 58]
[0 1 2 3 4 5 6]


除此之外，np.sort()和np.argsort()还具有axis标签，可以指定列和行

In [71]:
import numpy as np
x = np.random.randint(0,10,(3,3))

print(np.sort(x,axis=1))
print(np.sort(x,axis=0))
print(np.argsort(x,axis =0))

[[4 4 9]
 [4 7 9]
 [0 5 8]]
[[4 4 0]
 [8 5 4]
 [9 9 7]]
[[0 1 2]
 [2 2 0]
 [1 0 1]]


部分排序：
有时候我们并不想将一个数组全部排序，只希望排序一部分，或者找到排行第几的值，这个时候就要使用np.partition函数，输入的是数组和k,最左边是第k小的值,它也有axis标签

In [73]:
import numpy as np

x = np.array([1,2,34,55,6,6456])

print(np.partition(x,3))

[   6    1    2   34   55 6456]


## 结构化数据
Numpy中的结构化数据，实际上是pandas的基石
### 结构化数组
也就是自定义一个结构体，让每一个数组都是这样的一个结构体

In [79]:
import numpy as np

xtype = np.dtype({
    'names':('name','age','weight'),
    'formats':('U10','i4','f8')
})

data=np.zeros(4,dtype=xtype)
print(data)
data["name"]="1111"
print(data)

[('', 0, 0.) ('', 0, 0.) ('', 0, 0.) ('', 0, 0.)]
[('1111', 0, 0.) ('1111', 0, 0.) ('1111', 0, 0.) ('1111', 0, 0.)]


更高级的复合类型

In [81]:
import numpy as np

xtype = np.dtype([("id","i8"),('mat','f8',(3,3))])

data = np.zeros(2,dtype=xtype)

print(data)

print(data['mat'])

[(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])
 (0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])]
[[[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]]


### 记录数组
Numpy提供了np.recarray类，它的特性是域可以像属性一样获取，而不是像字典那样获取,但是会有一定的额外开销

In [87]:
import numpy as np

xtype = np.dtype([("id","i8"),('mat','f8',(3,3))])

data = np.zeros(2,dtype=xtype)

print(data)

a=data.view(np.recarray)
print(a.id)
print(data['id'])

[(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])
 (0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])]
[0 0]
[0 0]
