# 第一章 准备工作
二刷一遍该书籍，温故而知新。

## 重要的 Python 库
**NumPy**

NumPy(Numerical Python的简称)是Python科学计算的基础包。本书大部分内容都基于NumPy以及构建于其上的库。它提供了以下功能(不限于此):
* 快速高效的多维数组对象ndarray。 
* 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。 
* 用于读写硬盘上基于数组的数据集的工具。 
* 线性代数运算、傅里叶变换，以及随机数生成。
* 成熟的C API， 用于Python插件和原生C、C++、Fortran代码访问 NumPy的数据结构和计算工具。

除了为Python提供快速的数组处理能力，NumPy在数据分析方面还有另外一个主要作用，**即作为在算法和库之间传递数据的容器。对于数值型数据， NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。**

**pandas**

pandas提供了快速便捷处理结构化数据的大量数据结构和函数。自从2010年出现以来，它助使Python成为强大而高效的数据分析环境。本书用得最多的 pandas对象是DataFrame，它是一个面向列(column-oriented)的二维表结构，另一个是Series，一个一维的标签化数组对象。
pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如 SQL)灵活的数据处理功能。它提供了复杂精细的索引功能，以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。因为数据操作、准备、清洗是数据分析最重要的技能，pandas是本书的重点。

**matplotlib**

matplotlib是最流行的用于绘制图表和其它二维数据可视化的Python库。它非常适合创建出版物上用的图表。虽然还有其它的Python可视化库， matplotlib却是使用最广泛的，并且它和其它生态工具配合也非常完美。我认为，可以使用它作为默认的可视化工具。

**SciPy** to do...

SciPy是一组专门解决科学计算中各种标准问题域的包的集合，主要包括下面这些包:
* scipy.integrate:数值积分例程和微分方程求解器。
* scipy.linalg:扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能。
* scipy.optimize:函数优化器(最小化器)以及根查找算法。
* scipy.signal:信号处理工具。
* scipy.sparse:稀疏矩阵和稀疏线性系统求解器。
* scipy.special:SPECFUN(这是一个实现了许多常用数学函数(如伽玛函数)的Fortran库)的包装器。
* scipy.stats:标准连续和离散概率分布(如密度函数、采样器、连续分布函数等)、各种统计检验方法，以及更好的描述统计法。

NumPy和SciPy结合使用，便形成了一个相当完备和成熟的计算平台，可以 处理多种传统的科学计算问题。

**scikit-learn**

2010年诞生以来，scikit-learn成为了Python的**通用机器学习工具包**。仅仅七年，就汇聚了全世界超过1500名贡献者。它的子模块包括:
* 分类:SVM、近邻、随机森林、逻辑回归等等。
* 回归:Lasso、岭回归等等。
* 聚类:k-均值、谱聚类等等。
* 降维:PCA、特征选择、矩阵分解等等。
* 选型:网格搜索、交叉验证、度量。
* 预处理:特征提取、标准化。

**statsmodels** to do...

statsmodels是一个统计分析包，起源于斯坦福大学统计学教授Jonathan Taylor，他设计了多种流行于R语言的回归分析模型。Skipper Seabold和Josef Perktold在2010年正式创建了statsmodels项目，随后汇聚了大量的使用者和贡献者。受到R的公式系统的启发，Nathaniel Smith发展出了Patsy项目，它提供了statsmodels的公式或模型的规范框架。
与scikit-learn比较，statsmodels包含经典统计学和经济计量学的算法。包括如下子模块:
* 回归模型:线性回归，广义线性模型，健壮线性模型，线性混合效应模型等等。
* 方差分析(ANOVA)。
* 时间序列分析:AR，ARMA，ARIMA，VAR和其它模型。
* 非参数方法: 核密度估计，核回归。
* 统计模型结果可视化。


# 第4章 NumPy 基础：数组和矢量计算

## NumPy 数组的基本索引和切片
NumPy 数组的索引是一个内容丰富的主题，因为选取数据子集或单个元素的方式有很多。一维数组很简单。从表面上看，它们跟Python列表的功能差不多:

In [1]:
import numpy as np

arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [2]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [3]:
# 列表的话只能：a_list[5:8] = [12, 12, 12]
a_list = list(range(10))
try:
    a_list[5:8] = 12 # TypeError: can only assign an iterable
except TypeError:
    pass

如上所示，当你将一个标量值赋值给一个切片时(如arr[5:8]=12)，该值会自动传播(广播)到整个选区。跟列表最重要的区别在于，**数组切片是原始数组的视图: 这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。** 例子如下：

In [4]:
arr_slice = arr[5:8]
arr_slice[:] = 22
arr

array([ 0,  1,  2,  3,  4, 22, 22, 22,  8,  9])

由于 NumPy 的设计目的是处理大数据， 所以你可以想象一下，假如 NumPy 坚持要将数据复制来复制去的话会产生何等的性能和内存问题。
> 注意:如果你想要得到的是ndarray切片的一份副本而非视图，就需要明确地进行复制操作，例如 `arr[5:8].copy()`。

对于高维度数组，能做的事情更多。在一个二维数组中，各索引位置上的元素不再是标量而是一维数组，因此，可以对各个元素进行递归访问，但这样需要做的事情有点多。你可以传入一个以逗号隔开的索引列表来选取单个元素。也就是说，下面两种方式是等价的:

In [5]:
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr[2]

array([7, 8, 9])

In [6]:
# Python list 的方式与 Numpy 简写方式：
arr[2][2] == arr[2, 2] == 9

True

对数组进行切片时，注意，“只有冒号”表示选取整个轴(自然，对切片表达式的赋值操作也会被扩散到整个选区)
使用"冒号"进行切片时，只能得到相同维数的数组视图。通过将整数索引和切片混合，可以得到低维度的切片：

In [7]:
arr[:, :1] = 0
arr

array([[0, 2, 3],
       [0, 5, 6],
       [0, 8, 9]])

In [8]:
arr[:2, 2]

array([3, 6])

In [9]:
arr[[1, 2], [1, 2]] # 最终选出的是(1, 2)、(2, 2) 元素。

array([5, 9])

这个花式索引的行为可能会跟某些用户的预期不一样(包括我在内)，选取矩阵的行列子集应该是矩形区域的形式才对。下面是得到该结果的一个办法:

In [10]:
arr[[1, 2]][:, [1, 2]]

array([[5, 6],
       [8, 9]])

上面的花式索引跟切片不一样，它总是将数据复制到新数组中。

此外，通过布尔型索引选取数组中的数据，将总是创建数据的副本，即使返回一模一样的数组也是如此。

In [11]:
mask = [True, False, True]
arr[mask]

array([[0, 2, 3],
       [0, 8, 9]])

In [12]:
mask = arr > 1
arr[mask]

array([2, 3, 5, 6, 8, 9])

## 利用数组进行数据处理
NumPy数组使你可以将许多种数据处理任务表述为简洁的数组表达式(否则 需要编写循环)。用数组表达式代替循环的做法，通常被称为矢量化。一般 来说，矢量化数组运算要比等价的纯Python方式快上一两个数量级(甚至更 多)，尤其是各种数值计算

## 将条件逻辑表述为数组运算
numpy.where函数是三元表达式x if condition else y的矢量化版本。假设我们 有一个布尔数组和两个值数组:

假设我们想要根据cond中的值选取xarr和yarr的值:当cond中的值为True时，选取xarr的值，否则从yarr中选取。列表推导式的写法应该如下所示:

In [13]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])
result = [(x if c else y) for x, y, c in zip(xarr, yarr, cond)]
result

[1.1, 2.2, 1.3, 1.4, 2.5]

这有几个问题。第一，它对大数组的处理速度不是很快(因为所有工作都是由纯Python完成的)。第二，无法用于多维数组。若使用np.where，则可以将该功能写得非常简洁:

In [14]:
np.where(cond, xarr, yarr)

array([1.1, 2.2, 1.3, 1.4, 2.5])

np.where的第二个和第三个参数不必是数组，它们都可以是标量值。

In [15]:
arr = np.random.randn(3, 3)
np.where(arr > 0, 1, arr)

array([[ 1.        , -0.86813274, -0.11934478],
       [ 1.        , -0.9472385 , -0.68972829],
       [-1.67805294,  1.        ,  1.        ]])

In [1]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 50}

In [16]:
import numpy as np
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [17]:
del obj['c']

In [18]:
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [20]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
   .....:                     index=['Ohio', 'Colorado', 'Utah', 'New York'],
   .....:                     columns=['one', 'two', 'three','f'])

In [23]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,f
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [24]:
data[:2]

Unnamed: 0,one,two,three,f
Ohio,0,1,2,3
Colorado,4,5,6,7


In [32]:
data

Unnamed: 0,one,two,three,f
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [33]:
data['one'] = list('abcd')

In [34]:
data

Unnamed: 0,one,two,three,f
Ohio,a,1,2,3
Colorado,b,5,6,7
Utah,c,9,10,11
New York,d,13,14,15


In [37]:
data['one'].str.replace('a', 'aaa')

Ohio        aaa
Colorado      b
Utah          c
New York      d
Name: one, dtype: object

In [40]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
   .....:         'Rob': 'rob@gmail.com', 'Wes': np.nan}


In [43]:
data = pd.Series(data)
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [44]:
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [45]:
data.contains('gmail')

AttributeError: 'Series' object has no attribute 'contains'