
# 准备工作

## 重要的python库

### NumPy
是python科学计算的基础包，它提供了以下功能（不限于此）：
- 快速高效的多维数组对象ndarray
- 用于对数组执行元素级计算以及直接对数组执行数学运算的函数
- 用于读些硬盘上基于数组的数据集的工具
- 线下代数运算、傅里叶变换、以及随机数生成

### pandas
这个名字源于panel data（面板数据，这是多维结构化数据集在计量经济学中的术语）以及python data analysis（python数据分析）。

pandas提供了快速便捷处理结构化数据的大量数据结构和函数，兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库（如SQL）灵活的数据处理功能。

### matplotlib
用于绘制图表和其他二维数据可视化的python库。

### IPython和Jupyter
IPython现在主要用于编写、测试、调试Python代码的强化shell。

Jupyter是一个更为宽泛的多语言交互计算工具。

Jupyter Notebook是一个交互式网络代码“笔记本”，可在用Markdown和HTML编写的内容中嵌入可交互的源代码，并可使用IPython进行编译执行，显示执行结果。

### SciPy
是一组专门解决科学计算中各种标准问题域的包集合：
 - scipy.integrate：数值积分例程和微分方程求解器
 - scipy.linalg：扩展了由numpy.linaga提供的线性代数例程和矩阵分解功能
 - scipy.optimize：函数优化器（最小化器）以及根查找算法
 - scipy.signal：信号处理工具
 - scipy.sparse：稀疏矩阵和稀疏线性系统求解器
 - scipy.special：SPECFUN（这是一个实现了许多常用数学函数（如伽马函数）的Fortran库）的包装器
 - scipy.stats：标准连续的离散概率分布（如密度函数、采样器、连续分布函数等）、各种统计检验方法，以及更好的描述系统统计法

NumPy和SciPy结合使用，便形成了一个相当完备和成熟的计算平台，可以处理多种传统的科学计算问题.

### scikit-learn
Python的通用学习工具包。

- 分离：SVM、近邻、随机森林、逻辑回归
- 回归：Lasso、岭回归
- 聚类：k-均值、谱聚类
- 降维：PCA、特征选择、矩阵分解
- 选型：网络搜索、交叉验证、度量
- 预处理：特征提取、标准化

### statsmodels
是一个统计分析包。

与sckikit-learn比较，statsmodels包含经典统计学和经济计量学的算法。

- 回归模式：线下回归，广义线性模型，健壮线性模型，线性混合效应模型
- 方差分析（ANOVA）
- 时间序列分析：AR、ARMA、ARIMA、VAR和其他模型
- 非参数方法：核密度估计、核回归
- 统计模型结果可视化

statsmodels关注统计推断，scikit-learn注重预测。

# 04章 NumPy基础：数组和矢量计算

## 创建ndarray

创建数组最简单的办法就是使用 array 函数。

In [3]:
import numpy as np

In [9]:
data1 = [6, 7.5, 8, 0, 1]

In [5]:
arr1 = np.array(data1)

In [6]:
arr1

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [7]:
arr1.shape

(5,)

In [8]:
arr1.ndim

1

嵌套序列（比如由一组等长列表组成的列表）将会被转换为一个多维数组：

In [10]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

In [11]:
arr2 = np.array(data2)

In [12]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [13]:
arr2.shape

(2, 4)

In [14]:
arr2.ndim

2