Numpy, Pandas, Matplotlib快速入门

Numpy是Python生态中最关键的数值计算库，大量涉及数据分析的第三方库都可能依赖于它，`ndarray`是它的核心数据结构。Pandas建构在Dataframe(数据框，类似于R语言中的Dataframe)和Series（Dataframe中的列）数据结构，并支持类似于SQL的数据查询方法。Matplotlib是一个绘图工具箱，使用类似于Matlab的语法。
### 建议阅读材料

* 利用Python进行数据分析（原书第2版）https://wizardforcel.gitbooks.io/pyda-2e/content/

![](https://upload-images.jianshu.io/upload_images/7178691-0d965cf51eb5af9e.png?imageMogr2/auto-orient/strip|imageView2/2/w/516)
### 目录

* [Numpy](#numpy)
* [Pandas](#pandas)
* [Matplotlib](#matplotlib)

<a id="numpy"></a>

### Numpy

我们将运用Numpy和Pandas所提供的数据结构，包括`ndarray`、`Series`和`DataFrame`，它们与Python内置的`list`有着类似的特点，但更加强大。


Python中用到数值计算的地方几乎都有`numpy`的身影。它为Python提供了高性能的向量、矩阵和其他高维数据结构。它在底层是由C语言或Fortran编写的，当用它进行向量化的运算时，性能非常不错。


要使用`numpy`，需要安装并导入它：

In [None]:
import numpy as np

#### 创建`numpy`数组（array）

可以用各种方法创建新的`numpy`数组，例如：

* 从Python的列表或元组转换而来
* 例用`numpy`提供的函数生成数组
* 从文件中读取数据

##### 由列表转换
可以使用`numpy.array`函数，利用Python列表创建向量或矩阵：

In [None]:
v = np.array([1,2,3,4])
v

In [None]:
M = np.array([[1, 2], [3, 4]])
M

 `v`和`M`的类型都是`numpy`所提供的`ndarray`。

In [None]:
type(v), type(M)

`v`和`M`的差别主要在于它们的“形状（shape）”，我们可以用`ndarray.shape`属性获取关于形状的信息：

In [None]:
v.shape

In [None]:
M.shape

array的元素个数可以通过`ndarray.size`属性获得：

In [None]:
M.size

或者也可以使用等价的`numpy.shape`和`numpy.size`函数：

In [None]:
np.shape(M)

In [None]:
np.size(M)

目前为止，`numpy.ndarray`仍然很像Python的`list`，那为什么不直接使用`list`来做计算而是创建新的array数据结构呢？

可能有以下理由：

* Python列表是通用的数据结构，它可以包含任何类型的对象，而且是动态类型的。列表不支持数学函数尤其是一些矩阵运算如点乘等运算。由于动态类型，要为列表实现这类运算很难有效率。

* `numpy.ndarray`是**静态类型**且**同质**的，元素类型在创建时确定。

* `numpy.ndarray`是内存优化的。
* 由于静态类型，`numpy.ndarray`上的算法可以由一些编译型语言来实现，提供更高的效率。

Using the `dtype` (data type) property of an `ndarray`, we can see what type the data of an array has:

In [None]:
M.dtype

当我们为元素赋值类型不匹配时会报错：

In [None]:
M[0,0] = 'hello'

In [None]:
M[0,0] = 5

In [None]:
M

可以在创建array时明确指定想要的类型：

In [None]:
N = np.array([[1, 2], [3, 4]], dtype=complex)
N

常用的`dtype`有： `int`, `float`, `complex`, `bool` 和 `object`。

也可以明确指定给定大小的数据类型`int64`, `int16`, `float128`, `complex128`。

#### 使用数组生成函数

对于大型数组来说，很难手动生成它们。我们可以使用`numpy`提供的函数生成各种不同的数组：

In [None]:
# create a range (the end value is not included)
x = np.arange(-1, 1, 0.1) # arguments: start, stop, step
x

In [None]:
# dtype is determined automatically unless specified
x.dtype

In [None]:
# range of integers
y = np.arange(0, 10, 1) # arguments: start, stop, step
y

In [None]:
y.dtype

In [None]:
# specifying dtype as float
z = np.arange(0, 10, 1, dtype=float) # arguments: start, stop, step
z

In [None]:
z.dtype

In [None]:
# using linspace, both end points ARE included
np.linspace(0, 10, 11) # arguments: start, stop, N

In [None]:
# similar to meshgrid in MATLAB
x, y = np.mgrid[0:5, 0:5] 

In [None]:
x

In [None]:
y

In [None]:
# uniform random numbers in interval [0,1]
np.random.rand(5,5)

In [None]:
# standard normal distributed random numbers
np.random.randn(5,5)

In [None]:
# diagonal matrix
np.diag([1,2,3])

In [None]:
# zeros
np.zeros((3,3))

In [None]:
# ones
np.ones((3,3))

In [None]:
# ones as int
np.ones((3,3), dtype=int)

In [None]:
# three-dimensional
np.ones((3,3,3))

In [None]:
# four-dimensional
np.ones((3,3,3,3))

#### 索引

利用方括号和索引，可以提取数组中的元素：

In [None]:
# v is a vector, and has only one dimension, taking one index
v[0]

In [None]:
# M is a matrix, or a 2 dimensional array, taking two indices 
M[1,1]

In [None]:
# If we omit an index of a multidimensional array it returns the whole row (or, in general, a N-1 dimensional array)
M[1]

与Matlab类似，单独的`:`表示“所有行”或“所有列”：

In [None]:
M[1,:] # row 1

In [None]:
M[:,1] # column 1

利用索引修改元素的值：

In [None]:
M[0,0] = -1
M

In [None]:
# also works for rows and columns
M[0,:] = 0
M[:,1] = -2

In [None]:
M

#### 索引切片

索引切片是用于提取数组子集的语法：`M[lower:upper:step]`

In [None]:
A = np.array([1,2,3,4,5])
A

In [None]:
A[1:3]

数据切片是可变的，如果切片通过赋值改变，原数组也会相应改变：

In [None]:
A[1:3] = [-2,-3]
A

切片`M[lower:upper:step]`中的三部分都可以省略:

In [None]:
A[::] # lower, upper, step all take the default values

In [None]:
A[::2] # step is 2, lower and upper defaults to the beginning and end of the array

In [None]:
A[:3] # first three elements

In [None]:
A[3:] # elements from index 3

负索引的意思是“从最后一个元素开始数”：

In [None]:
A = np.array([1,2,3,4,5])

In [None]:
A[-1] # the last element in the array

In [None]:
A[-3:] # the last three elements

索引切片自然也可以用在多维数组上:

In [None]:
A = np.array([[n+m*10 for n in range(5)] for m in range(5)])
A

In [None]:
# a block from the original array
A[1:4, 1:4]

In [None]:
# strides
A[::2, ::2]

#### 花式索引（Fancy indexing）

花式索引利用索引列表一次性提取多个元素：

In [None]:
row_indices = [1, 2, 3]
A[row_indices]

In [None]:
col_indices = [1, 2, 3]
A[row_indices, col_indices]

In [None]:
# equivalent to
A[1,1], A[2,2], A[3,3]

我们也可以用“掩码（mask）”进行索引，如果一个`numpy`数组类型为`bool`,就可以当作掩码索引，根据其元素在相应位置上是`True`还是`False`，提取数组中的元素：

In [None]:
B = np.array(range(5))
B

In [None]:
row_mask = np.array([True, False, True, False, False])
B[row_mask]

In [None]:
# same thing
row_mask = np.array([1,0,1,0,0], dtype=bool)
B[row_mask]

“掩码（mask）”的特点很适用于提取满足一定要求的数据子集：

In [None]:
x = np.arange(0, 10, 0.5)
x

In [None]:
# want values of x that are at least 5 and have no decimal component
mask = (x >= 5) & (x % 1 == 0)
mask

In [None]:
x[mask]

In [None]:
x[x > 5]

#### 线性代数

向量化代码是在Python/Numpy中实现有效数值计算的关键。这意味着我们要尽可能把程序编写成矩阵或向量运算的形式，利如矩阵乘法。

In [None]:
v1 = np.arange(0, 5)
v1

In [None]:
v1 * 2

In [None]:
v1 + 2

In [None]:
A

In [None]:
np.dot(A, A)

In [None]:
np.dot(A, v1)

In [None]:
np.dot(v1, v1)

此外，还可以把数组对象转换为`matrix`类型，使基本数学运算符的行为变为矩阵运算。

In [None]:
M = np.matrix(A)
v = np.matrix(v1).T # make it a column vectorm

In [None]:
M

In [None]:
v

In [None]:
M*M

In [None]:
M*v

#### 数据汇总

In [None]:
np.mean(v1)

In [None]:
np.std(v1), np.var(v1)

In [None]:
v1.min()

In [None]:
v1.max()

In [None]:
sum(v1)

#### 数组元素的迭代

In [None]:
for element in v1:
    print(element)

In [None]:
M = np.array([[1,2], [3,4]])
M

In [None]:
for row in M:
    print("row", row)    
    for element in row:
        print(element)

In [None]:
for row_idx, row in enumerate(M):
    print("row_idx", row_idx, "row", row)    
    for col_idx, element in enumerate(row):
        print("col_idx", col_idx, "element", element) 
        # modify the matrix M: square each element
        M[row_idx, col_idx] = element ** 2

In [None]:
# each element in M are now squared
M

In [None]:
# another way to square a matrix
M ** 2

<a id="pandas"></a>

### Pandas

#### Pandas是什么？
Pandas是为Python编写的用于数据处理与分析的第三方库，主要提供了方便处理数据表格和时间序列的数据结构，在性能上做了高度优化。


#### 导入模块

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

#### 读取csv文件

In [None]:
data1 = pd.read_csv('BicycleWeather.csv')
data1['DATE']=data1['DATE'].astype(str)

In [None]:
data1

In [None]:
data1.describe()

#### pandas中的索引

In [None]:
data1.iloc[0]

In [None]:
data1['TMAX'].head(10)

In [None]:
data1.iloc[:,0].head()

#### 将时间数据转换为datetime对象：

In [None]:
time = pd.to_datetime(data1.iloc[:,2],format='%Y%m%d')
time.head()

In [None]:
type(time)

In [None]:
time.dtype

<a id="matplotlib"></a>

### Matplotlib

#### 绘制单变量的时间序列图

In [None]:
fig = plt.figure()
plt.plot(time, data1['TMAX'])
plt.xlabel('Time')
plt.ylabel('Chlorophyll')
fig.savefig('scripps_pier_Chlorophyll.pdf')

#### 用循环一次性绘制多个变量的序列图

In [None]:
data1.head()

In [None]:
data1.columns

In [None]:
for col in data1.columns[6:10]:
    if col != 'Date':
        fig = plt.figure()
        plt.plot(time, data1[col])
        plt.xlabel('time')
        plt.ylabel(col)
        fig.savefig('scripps_pier_%s.pdf' % col)

#### 将多个变量的序列图绘制于同一张图上

In [None]:
# use the built-in plot() method of a pandas dataframe
plt.figure()
data1.plot(y=['TMAX','TMIN'])
plt.legend(loc='best')