# NumPy

In [1]:
import numpy as np

## NumPy Ndarray对象

```python
numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
```

* object：数列或嵌套数列
* dtype：数据类型
* copy：对象是否需要复制
* order：创建数组的样式（C：行方向；F：列方向；A：任意方向（默认））
* subok：返回一个与基类类型相同的数组
* ndmin：指定最小维度

In [3]:
# 多于一个维度  
a = np.array([[1, 2], [3, 4]])  
print (a)

[[1 2]
 [3 4]]


In [4]:
a = np.array([1, 2, 3, 4, 5], ndmin=2)  
print (a)

[[1 2 3 4 5]]


```python
numpy.dtype(object, align, copy)
```

In [2]:
# int8, int16, int32, int64 四种数据类型可以使用字符串 'i1', 'i2','i4','i8' 代替；uint,float,complex同理
dt = np.dtype('i4')
print(dt)

# 类似于结构体（S20 name; i1 age; f4 marks;）
student = np.dtype([('name','S20'), ('age', 'i1'), ('marks', 'f4')]) 
a = np.array([('abc', 21, 50),('xyz', 18, 75)], dtype = student) # name = 'abc', age = 21, marks = 50 
print(a)

int32
[(b'abc', 21, 50.) (b'xyz', 18, 75.)]


| 属性 | 说明 |
| :-----: | :-----: |
| ndarray.ndim | 秩/维度 |
| ndarray.shape | n行m列 |
| ndarray.size | 元素总数（n\*m） |
| ndarray.dtype | 元素的类型 |

很多时候可以声明 axis。axis=0，表示沿着第 0 轴进行操作，即对每一列进行操作；axis=1，表示沿着第1轴进行操作，即对每一行进行操作。

In [2]:
a = np.array([[1,2,3],[4,5,6]])  
print (a) # shape

a = np.array([[1,2,3],[4,5,6]]) 
a.shape = (3,2)  # 调整shape，变成3行2列
print (a)

a = np.array([[1,2,3],[4,5,6]]) 
b = a.reshape(3,2)  # 同上
print (b)

[[1 2 3]
 [4 5 6]]
[[1 2]
 [3 4]
 [5 6]]
[[1 2]
 [3 4]
 [5 6]]


## Numpy创建数组
```python
numpy.empty(shape, dtype = float, order = 'C') # 创建空数组
numpy.zeros(shape, dtype = float, order = 'C') # 创建用0填充的数组
numpy.ones(shape, dtype = None, order = 'C')  # 创建用1填充的数组
numpy.frombuffer(buffer, dtype = float, count = -1, offset = 0) # 以流的形式读入转化成ndarray对象（需要指定对象类型）
numpy.fromiter(iterable, dtype, count=-1) # 从可迭代对象中建立 ndarray 对象，返回一维数组
numpy.arange(start, stop, step, dtype) # 创建数值范围并返回 ndarray 对象[start, stop)
np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None) # 生成等差数组，注意要生成[0, 1.0]时num=11
np.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None) # 生成等比数组
```

*注意：buffer 是字符串的时候，Python3 默认 str 是 Unicode 类型，所以要转成 bytestring 在原 str 前加上 b。*

In [10]:
s =  b'Hello World' 
a = np.frombuffer(s, dtype =  'S1')  # 注意数据类型；只能生成数组
print (a)

[b'H' b'e' b'l' b'l' b'o' b' ' b'W' b'o' b'r' b'l' b'd']


In [11]:
# 使用 range 函数创建列表对象  
list=range(5)
it=iter(list)
# 使用迭代器创建 ndarray 
x=np.fromiter(it, dtype=float)
print(x)

[0. 1. 2. 3. 4.]


In [16]:
x = np.arange(10,20,2) # 范围依次生成数组[start: end: step] 
print (x)
print()

a = np.linspace(1,10,10).reshape([10,1]) # 生成等差数组（与上面类似）；闭区间
print(a)
print()

a = np.logspace(0,9,10,base=2) # 生成等比数组（从下标0和9中输出10个数）
print(a)
print()

# 默认底数是 10
a = np.logspace(1.0,  2.0, num =  10)  # 生成等比数组（从下标1和2中输出10个数）
print(a)

[10 12 14 16 18]

[[ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]]

[  1.   2.   4.   8.  16.  32.  64. 128. 256. 512.]

[ 10.          12.91549665  16.68100537  21.5443469   27.82559402
  35.93813664  46.41588834  59.94842503  77.42636827 100.        ]


## 随机数序列

生成随机数序列：

* `np.random.rand(d0, d1, ...)`: 生成维度为(d0, d1, ...)的范围在\[0, 1)的随机值  
* `np.random.randn(d0, d1, ...)`: 生成符合标准正态分布的数据
* `np.random.randint(low[, high, size])`: 生成[low, high)范围内的随机整数
* `np.random.random_sample([size])`: 生成[0.0, 1.0)的随机浮点数

排列：

* `np.random.shuffle(array)`: 将array中的序列打乱顺序
* `np.random.permutation(n)`: 生成1~n的一个全排列
* `np.random.choice(region, size, replace=True, p=None)`: 在region中不放回地挑出size大小的数据，各数据的概率一致

常见分布：

* `np.random.normal([loc, scale, size])`
* `np.random.standard_normal([size])`
* `np.random.poisson([lam, size])`
* `np.random.uniform([low, high, size])`
* `np.logistic([loc, scale, size])`
* `np.binomial(n, p[, size])`

## NumPy 切片和索引

In [17]:
a = np.arange(10)
s = slice(2,7,2)   # 从索引 2 开始到索引 7 停止，间隔为2
print(a[s])
print()

b = a[2:7:2]   # 从索引 2 开始到索引 7 停止，间隔为 2
print(b)

[2 4 6]

[2 4 6]


In [6]:
a = np.array([[1,2,3],[3,4,5],[4,5,6]]) # 用省略号表示,此处省略号与':'作用相同
print(a[...,1])   # 第2列元素
print(a[1,...])   # 第2行元素
print(a[...,1:])  # 第2列及剩下的所有元素

[2 4 5]
[3 4 5]
[[2 3]
 [4 5]
 [5 6]]


In [19]:
x = np.array([[1,  2],  [3,  4],  [5,  6]]) 
y = x[[0,1,2],  [0,1,0]]  # 获取数组中(0,0)，(1,1)和(2,0)位置处的元素
print(y)
print()

x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])
print  ('大于 5 的元素是：')
print(x[x > 5]) # 布尔索引

[1 4 5]

大于 5 的元素是：
[ 6  7  8  9 10 11]


In [20]:
a = np.array([np.nan, 1, 2, np.nan, 3, 4, 5])  
print(a[~np.isnan(a)])  # 过滤NaN

a = np.array([1,  2+6j,  5,  3.5+5j])  
print(a[np.iscomplex(a)]) # 过滤非复数元素

[1. 2. 3. 4. 5.]
[2. +6.j 3.5+5.j]


In [21]:
x=np.arange(32).reshape((8,4)) # 花式切片：对应行的下标下标
print(x[[-4,-2,-1,-7]])

[[16 17 18 19]
 [24 25 26 27]
 [28 29 30 31]
 [ 4  5  6  7]]


## NumPy 广播(Broadcast) 

广播(Broadcast)是 numpy 对不同形状(shape)的数组进行数值计算的方式， 对数组的算术运算通常在**相应的元素**上进行。  

如果两个数组 a 和 b 形状相同，即满足 a.shape == b.shape，那么 a\*b 的结果就是 a 与 b 数组**对应位相乘**。这要求维数相同，且各维度的长度相同。  

若两个数组的维度不相同，但从后算起的维度相同（e.g. (3, 2, 4)和(2, 4)）；或两个数组的维度相同，但其中一个数组有一个维度为1（e.g. (3, 2, 4)和(3, 1, 4)），那么称两个数组为广播兼容的。

[common]: ![jupyter](./fig/broadcast.gif)
<div align="center">
<img src='./fig/broadcast.gif' alt='Broadcast' style='zoom:100%;'/>
</div>

In [2]:
a = np.array([[0, 0, 0], [10, 10, 10], [20, 20, 20], [30, 30, 30]])
b = np.array([1, 2, 3])  # 其中一维为1，自动扩充
c = np.array([[1], [2], [3]])
print("Shape of a is", a.shape) # 将第一维删去，从末尾算起的维度相同
print("Shape of b is", b.shape)
print("Shape of c is", c.shape)
print(a + b)

Shape of a is (4, 3)
Shape of b is (3,)
Shape of c is (3, 1)
[[ 1  2  3]
 [11 12 13]
 [21 22 23]
 [31 32 33]]


广播的规则：
* 数组拥有相同形状。
* 当前维度的值相等。
* 当前维度的值有一个是 1。
* 让所有输入数组都向其中形状最长的数组看齐，形状中不足的部分都通过在前面加 1 补齐。

In [5]:
# numpy乘法
m1 = np.array([[1, 2], [3, 4], [5, 6]], dtype='i4')
m2 = np.array([[1, 2, 3], [4, 5, 6]], dtype='i4')
m3 = np.array([[2, 2, 2], [2, 2, 2]], dtype='i4')

# matrix multiplication
print("matrix multiplication:")
print(np.dot(m1, m2))
print()

# element-wise multiplication
print("element-wise multiplication:")
print(np.multiply(m2, m3))
print(m2 * m3)

matrix multiplication:
[[ 9 12 15]
 [19 26 33]
 [29 40 51]]

element-wise multiplication:
[[ 2  4  6]
 [ 8 10 12]]
[[ 2  4  6]
 [ 8 10 12]]


## NumPy 迭代数组

In [24]:
a = np.arange(6).reshape(2,3)
print ('原始数组是：')
print (a)
print ('\n')
print ('迭代输出元素：')
for x in np.nditer(a): # 将数组迭代
    print (x, end=", " )
print ('\n')

原始数组是：
[[0 1 2]
 [3 4 5]]


迭代输出元素：
0, 1, 2, 3, 4, 5, 



In [25]:
a = np.arange(0,60,5) 
a = a.reshape(3,4)  
print  ('第一个数组为：')
print (a)
print  ('\n')
print ('第二个数组为：')
b = np.array([1,  2,  3,  4], dtype =  int)  
print (b)
print ('\n')
print ('修改后的数组为：')
for x,y in np.nditer([a,b]):  # 若两个数组可广播，则可同时迭代
    print ("(%d:%d)"  %  (x,y), end=", " )

第一个数组为：
[[ 0  5 10 15]
 [20 25 30 35]
 [40 45 50 55]]


第二个数组为：
[1 2 3 4]


修改后的数组为：
(0:1), (5:2), (10:3), (15:4), (20:1), (25:2), (30:3), (35:4), (40:1), (45:2), (50:3), (55:4), 

## 数组操作
* 修改数组形状: np.reshape(array, newshape, order='C')
* 翻转数组: np.transpose(array, axes)/array.T, np.swapaxes(array, axis1, axis2)
* 修改数组维度: np.squeeze(array, axis)
* 连接与分割数组: np.concatenate((array1, array2,...), axis), np.split(array, indices_or_sections, axis)
* 数组元素的添加与删除: resize, append, insert, delete  
具体操作请点击[数组操作详解](https://www.runoob.com/numpy/numpy-array-manipulation.html#numpy_oparr1)

## NumPy 数学函数

* 三角函数：np.sin(), np.arcsin(), np.degrees()（弧度->角度）
* 舍入函数：np.around(a, decimals)（四舍五入）, np.floor(), np.ceil()
* 算数函数：np.add(), np.substract(), np.multiply(), np.divide(), np.reciprocal()（返回倒数）, np.power(), np.mod()（符合广播规则）, np.exp()（以e为底）, np.sqrt(), np.power()
* 统计函数：np.amin(a, 0), np.amax(), np.ptp()（极差）, np.percentile(a, q, axis)（百分位数，q=50时为中位数）, np.median()（中位数）, np.mean(a, axis=0), np.average(a, weight=[1]), np.std()（标准差）, np.var()（方差）
* 特殊值：np.pi

### 线性代数
* np.dot()：两个数组点积
* np.multiply(): 两个数组逐元素相乘(element-wise)
* np.vdot()：两个向量点积（若高维则展开）
* np.inner()：两个数组的内积

# Pandas

一个字典型numpy，具有两种数据类型：Series和DataFrame。DataFrame的元素以列为基础，
直接索引df\[0\]则返回第0列（若无KeyError）

In [2]:
import pandas as pd

## 初始化

Pandas的两种数据类型都有两种初始化方式：列表/矩阵 + 字典。除此之外可以直接由numpy的
array类型导入生成。

In [7]:
# initialization
# list
s1 = pd.Series([11, 22, 33])
df1 = pd.DataFrame(np.random.randn(3, 4))
print(s1, '\n')
print(df1, '\n')

# dictionary
s2 = pd.Series({'A': 11, 'B': 22, 'C': 33})
df2 = pd.DataFrame({'D': [1, 2, 3], 'E': [2, 3, 4], 'F': [3, 4, 5]})
print(s2, '\n')
print(df2, '\n')
print(df2.dtypes, '\n')

# some data type
dates = pd.date_range('20201001', periods=7)
dates

0    11
1    22
2    33
dtype: int64 

          0         1         2         3
0 -0.733082 -0.085292  0.635075  0.844426
1  0.370180  0.624115 -0.274262  1.890738
2 -0.663539  0.109554  1.084778  0.872761 

A    11
B    22
C    33
dtype: int64 

   D  E  F
0  1  2  3
1  2  3  4
2  3  4  5 

D    int64
E    int64
F    int64
dtype: object 



DatetimeIndex(['2020-10-01', '2020-10-02', '2020-10-03', '2020-10-04',
               '2020-10-05', '2020-10-06', '2020-10-07'],
              dtype='datetime64[ns]', freq='D')

## 属性与方法

| 名称 | 含义 |
| :-: | :-: |
| df.dtypes | 返回df每一列的数据类型 |
| df.index | 返回df每一行的下标 |
| df.columns | 返回df每一列的下标 |
| df.values | 返回所有元素的值 |
| df.decribe() | 返回df的信息（可能会省略字符） |
| df.T | 转置（数学运算） |
| df.sort_index(axis=0, ascending=False, inplace=False) | 倒序对行下标排序 |
| df.sort_values(by='column', axis=0, ascending=True) | 对单列/列的值进行排序 |

## 数据选择与赋值

* 使用下标索引：df\['A'\], df\[0: 3\] -> \[column/row\]，即先搜索列再搜索行下标
* 使用loc方法(select by label)：df.loc\['A'\]('A'行), df.loc\[:, \['A', 'B'\]\]('A', 'B'列) $\Rightarrow$ loc方法的下标索引为\[row, column\]
* 使用iloc方法(select by position, even though there may be labels): df.iloc\[3\](第3行), df.iloc\[\[1, 3\], 2:\]
* 混合选择(mixed selection): df.ix\[:3, \['A', 'C'\]\](**已删除**)
* 语法糖：df\[df\['A'\] > 0\](获取df\['A'\]列大于0的元素的下标，再以该下标对df索引)
$\Rightarrow$ df\['A'\] > 0返回一个大小与df\['A'\]相同的boolean向量

<font color='red'>注意：若df无label为'F'的列，则使用df\['F'\]会导致`KeyError`，直接赋值df\['F'\]会新增label为'F'的新列。</font>单个元素赋值与修改基于数据选择改变即可。

## 处理丢失数据

在实际数据收集中可能存在数据丢失的情况，因此处理丢失数据也是一门学问。
假设丢失数据的位置均用`np.nan`填充。

* `df.dropna(axis=0, how={'any', 'all'})`: 删除含有nan的行
* `df.fillna(value=0)`: 将nan填充为0
* `df.isnull()`: 返回一个与df形状相同的矩阵，在nan处返回True
* `np.any(df.isnull()) == True`: 判断df中是否至少有一个nan

In [5]:
dates = pd.date_range('20201001', periods=6)
df = pd.DataFrame(np.arange(24).reshape((6, 4)), index=dates, columns=['A', 'B', 'C', 'D'])
df.iloc[0, 1] = np.nan
df.iloc[1, 2] = np.nan
print(df, '\n')
print(df.dropna(axis=0, how='any'))
print

             A     B     C   D
2020-10-01   0   NaN   2.0   3
2020-10-02   4   5.0   NaN   7
2020-10-03   8   9.0  10.0  11
2020-10-04  12  13.0  14.0  15
2020-10-05  16  17.0  18.0  19
2020-10-06  20  21.0  22.0  23 

             A     B     C   D
2020-10-03   8   9.0  10.0  11
2020-10-04  12  13.0  14.0  15
2020-10-05  16  17.0  18.0  19
2020-10-06  20  21.0  22.0  23


## 导入导出数据

Pandas的I/O API支持读入以下文件类型：csv, excel, hdf, sql, json, msgpack, html, gbq, pickle...，调用方式为`df = pd.read_<file_type>`，保存方式为`df.to_<file_type>`:

* `pd.read_<file_type>(filepath_or_buffer, sep=',')`
* `df.to_<file_type>(filepath_or_buffer)`

## DataFrame操作

DataFrame包含以下操作：

* `pd.concat([df1, df2], axis=0, ignore_index=True)`: 纵向合并(vertically)
* `pd.concat([df1, df2], axis=0, join={'outer', 'inner'})`: 当出现label部分重合时，使用'outer'会强行合并并产生NaN，使用'inner'则只合并相同的列/行
* `pd.concat([df1, df2], axis=1, join_index=[df1.index])`: 当横向的坐标不同时，以df1的横坐标为标准，忽略df2多出的index并填充NaN；否则直接合并并填充大量NaN
* `df1.append([s1, df2], ignore_index=True)`: pandas中一般列为一种属性，行为一个数据点，因此加数据时一般为纵向加一行数据

将DataFrame转换为Array:

* `df.values`
* `np.array(df)`