# [Python 数据分析入门与进阶](https://www.shiyanlou.com/courses/764/learning/?id=3454)

对于数据分析来说，也同样有各种各样的 Python 软件包，如：

IPython - 易用的 Python 交互式终端。
**NumPy - 科学计算软件包，强大的矩阵处理能力。（科学计算）**
**Pandas - 基于 NumPy, 更加强大方便易用的矩阵运算功能。（数据分析）**
Scikit-Learn - 包含了各种机器学习算法。
Keras - 包含了各种神经网络算法，可以满足各种数据分类，聚类需求。
Matplotlib - 强大的绘图软件包，可以绘制各种各样的图表。

## NumPy 和 Pandas 基础入门

### NumPy 数值计算包( Numerical Python )

数据分析的基础是数据，原始数据应该在计算机中会以某种数据结构进行存储，后续的分析操作都是在基于这些数据结构进行的。比较容易能想到，我们分析的数据大多都是数据都是二维的，有行和列之分，这样的数据刚开始可能存储在 Excel 或者 数据库表之中。那么在 Python 中有没有什么软件包可以很方便的处理这种二维数据或者更多维的数据呢？ 那就是 NumPy。

NumPy 提供了对多维数组（矩阵）的高效支持，同时还有以下优点：

- Ndarray, 核心数据结构，支持矢量运算的多维数组，在内存中进行连续存储。
- 各种操作多维数组的函数。
- 用于集成其他编程语言的各种接口。

NumPy 本身没有提供高级的数据分析功能，但理解 NumPy 数组以及面向数组的各种计算有助于更加高效使用其他数据分析工具。


#### 笔记汇总
- random = np.random.random(12) #返回随机的浮点数，在半开区间 [0.0, 1.0)
- randn = np.random.randn(12) #返回一个样本，具有标准正态分布
- rand = np.random.rand(12) #0-1之间的随机值

#### 多维的创建

NumPy 的主要对象是多维数组 Ndarray。在 NumPy 中维度 Dimensions 叫做轴 Axes，轴的个数叫做秩 Rank。

NumPy 的核心是多维数组，是通过 **Ndarray对象**做到的，Ndarray 对象是一个灵活的数据容器，可以基于此容器对数据进行各种运算。

下面我们开始尝试创建一个多维数组：

In [50]:
import numpy as np

a1 = np.array([1,2,3,4]) # a1 为一维数组
a2 = np.array([[1.0, 2.5, 3], [0.5, 4, 9]]) # a2 为二维数组  
print("数组类型",type(a1))
print("数组a1：{}，元素个数：{}，形状：{}，元素类型：{}".format(a1,a1.size,a1.shape,a1.dtype))
print("数组a2：{}，元素个数：{}，形状：{}，元素类型：{}，最小值：{}".format(a2,a2.size,a2.shape,a2.dtype,a2.min()))


数组类型 <class 'numpy.ndarray'>
数组a1：[1 2 3 4]，元素个数：4，形状：(4,)，元素类型：int64
数组a2：[[1.  2.5 3. ]
 [0.5 4.  9. ]]，元素个数：6，形状：(2, 3)，元素类型：float64，最小值：0.5


二维数组可以想象到类似于 Excel 表中的数据，有行列之分。
比如 a2.shape 输出为 (2, 3), 代表其是一个 2 行 3 列的数组。

**ndarray对象的属性**
- ndarray.shape 属性:数组每一维度的数量
- ndarray.size 属性:数组的元素个数
- ndarray.dtype 属性:数组内部存储的元素是什么类型，NumPy 支持常见的类型，如浮点数，整数，布尔值，字符串，Python 对象。
- ndarray.ndim 属性：数组的维度

**NumPy 创建多维数组的多种方法：**

- np.arange 类似于 Python 内置的 range，**只能创建一维数组**；
- np.ones 创建元素值全部为 1 的数组；
- np.zeros 创建元素值全为 0 的数组；
- np.empty 创建空值多维数组，只分配内存，不填充任何值；
- np.random.random 创建元素值为随机值的多维数组；
- ndarray.reshape()方法 **Ndarray 对象变形为其他维度的数组。**

以上全部函数都能接收一个 **dtype 参数，用于指定多维数组元素的类型**,当没有指定 dtype 类型时，多维数组元素类型默认是 float64。

而**后四个函数需要通过元组指定创建的数组形状**，比如 (2, 3) 指定创建数组为 2 行 3 列。当然 NumPy 既然支持多维数组，所以也可以创建三维，四维数组，只需要设置指定形状的元组长度为 3 和 4 即可。

In [124]:
a1 = np.arange(4)
print("创建一维数组 a1：\n{},形状{},维度{}".format(a1,a1.shape,a1.ndim))
a2 = np.ones((1,1), dtype=np.int64)
print("创建全1多维数组 a2：\n{},形状{},维度{}".format(a2,a2.shape,a2.ndim))
a3 = np.zeros((1,1))
print("创建全0多维数组 a3：\n{},形状{},维度{}".format(a3,a3.shape,a3.ndim))
a4 = np.empty((2,2,3))
print("创建空值多维数组 a4：\n,{},形状{},维度{}".format(a4,a4.shape,a4.ndim))
a5 = np.random.random((2,3,1,2))
print("创建随机多维数组 a5：\n,{},形状{},维度{}".format(a5,a5.shape,a5.ndim))
a6 = np.arange(12)
print("变形前数组 a6：\n,{},形状{},维度{}".format(a6,a6.shape,a6.ndim))
a7 = a6.reshape(4, 3)
print("变形后数组 a6：\n,{},形状{},维度{}".format(a7,a7.shape,a7.ndim))

创建一维数组 a1：
[0 1 2 3],形状(4,),维度1
创建全1多维数组 a2：
[[1]],形状(1, 1),维度2
创建全0多维数组 a3：
[[0.]],形状(1, 1),维度2
创建空值多维数组 a4：
,[[[0.25870215 0.97813135 0.79677502]
  [0.82393487 0.37434024 0.20564079]]

 [[0.40734655 0.1069179  0.95287998]
  [0.62247647 0.8031988  0.48227335]]],形状(2, 2, 3),维度3
创建随机多维数组 a5：
,[[[[0.69337128 0.80511823]]

  [[0.65205803 0.20624037]]

  [[0.90797084 0.19481924]]]


 [[[0.28305176 0.3232837 ]]

  [[0.42997933 0.79801762]]

  [[0.54975409 0.63402116]]]],形状(2, 3, 1, 2),维度4
变形前数组 a6：
,[ 0  1  2  3  4  5  6  7  8  9 10 11],形状(12,),维度1
变形后数组 a6：
,[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]],形状(4, 3),维度2


#### 多维数组索引

在 Python 中一个列表，可以非常灵活的使用 : 切片选择部分元素：

#### python 切片

先创建了一个列表，然后通过切片选择部分列表元素，几种切片用法含义如下，


- l[:2] 选择列表中前 2 个元素；
- l[2:4] 选择列表的第 3，4 元素；
- l[1:5:2] 选择列表的第 1 个到第 4 个元素，且步长为 2。

注意，**左闭右开**，列表的索引都是从 0 开始的。

In [72]:
l = [1, 2, 3, 4, 5]

print(l[:2])
print(l[2:4])
print(l[1:5:2])

[1, 2]
[3, 4]
[2, 4]


在 NumPy 中的多维数组中，也支持类似于上面的索引方式。

#### 一维数组切片

和 Python 列表的工作方式完全一样，当然多维数组的切片比 Python 列表切片还要强大的多，**因为通过切片可以进行赋值操作，一次性改变数组中的多个元素**

In [78]:
a1 = np.arange(12)
print("原数组",a1)
print(a1[1:4])
print(a1[1:10:2])
a1[1:10:2] = 1
print(a1[1:10:2])
print("赋值后数组",a1)

原数组 [ 0  1  2  3  4  5  6  7  8  9 10 11]
[1 2 3]
[1 3 5 7 9]
[1 1 1 1 1]
赋值后数组 [ 0  1  2  1  4  1  6  1  8  1 10 11]


#### 多维数组切片

对于二维数组，每个索引值对应的元素不再是一个值，而是一个一维数组；
可以通过 a[x, y] 的方式进行索引

In [126]:
a = np.arange(12).reshape(3, 4)
print(type(a))
print("原数组\n {} \n 形状：{} 维度：{}".format(a,a.shape,a.ndim))
print("取第一行\n {} 形状：{} 维度：{}".format(a[0],a[0].shape,a[0].ndim)) 
print("取第一列\n {} 形状：{} 维度：{}".format(a[:,0],a[:,0].shape,a[:,0].ndim))
print("取前两行\n {} 形状：{} 维度：{}".format(a[0:2],a[0:2].shape,a[0:2].ndim)) 
print("取前两列\n {} 形状：{} 维度：{}".format(a[:,:2],a[0:2].shape,a[0:2].ndim))

<class 'numpy.ndarray'>
原数组
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] 
 形状：(3, 4) 维度：2
取第一行
 [0 1 2 3] 形状：(4,) 维度：1
取第一列
 [0 4 8] 形状：(3,) 维度：1
取前两行
 [[0 1 2 3]
 [4 5 6 7]] 形状：(2, 4) 维度：2
取前两列
 [[0 1]
 [4 5]
 [8 9]] 形状：(2, 4) 维度：2


注意：单独一个冒号表示选择整个轴上的数组。

In [120]:
a = np.arange(9)
a = a.reshape((3,3))
print(a,'维度：',a.ndim)
q1 = a[:2,1:]
print('切片1:{},维度：{},形状：{}'.format(q1,q1.ndim,q1.shape))
q2= a[2]
print('切片2:{},维度：{},形状：{}'.format(q2,q2.ndim,q2.shape))
q3= a[2,:]
print('切片3:{},维度：{},形状：{}'.format(q3,q3.ndim,q3.shape))
q4= a[2:,:]
print('切片4:{},维度：{},形状：{}'.format(q4,q4.ndim,q4.shape))

[[0 1 2]
 [3 4 5]
 [6 7 8]] 维度： 2
切片1:[[1 2]
 [4 5]],维度：2,形状：(2, 2)
切片2:[6 7 8],维度：1,形状：(3,)
切片3:[6 7 8],维度：1,形状：(3,)
切片4:[[6 7 8]],维度：2,形状：(1, 3)


切片3 `a[2,:]` 和切片4 `a[2:,:]` 数字一样，但最大的区别在于：**维度不同，切片3获取的是一维数组，切片4获取的是二维数组**


对于三维数组，每个索引值对应的元素不再是一维数组，而是一个二维数组；三维数组可以通过 a[x, y, z] 的方式进行

三维数组可以想象成一张表上面叠了一张表,3x3x3理解成魔方

一个 2x2x3 的数组

- 2：Z轴：厚度
- 2：X轴：行数
- 3：Y轴：列数

In [138]:
a = np.arange(12).reshape((2,2,3))
print('元组：\n{}\n 维度：{},形状：{}'.format(a,a.ndim,a.shape))
q1 = a[0]
print('切片1，切第一张表:\n{},维度：{},形状：{}'.format(q1,q1.ndim,q1.shape))
q2= a[1]
print('切片2，切第二张表:\n{},维度：{},形状：{}'.format(q2,q2.ndim,q2.shape))
q3= a[:2,:1]
print('切片3:{},维度：{},形状：{}'.format(q3,q3.ndim,q3.shape))
q4= a[:2,:1,:2]
print('切片4:{},维度：{},形状：{}'.format(q4,q4.ndim,q4.shape))

元组：
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]
 维度：3,形状：(2, 2, 3)
切片1，切第一张表:
[[0 1 2]
 [3 4 5]],维度：2,形状：(2, 3)
切片2，切第二张表:
[[ 6  7  8]
 [ 9 10 11]],维度：2,形状：(2, 3)
切片3:[[[0 1 2]]

 [[6 7 8]]],维度：3,形状：(2, 1, 3)
切片4:[[[0 1]]

 [[6 7]]],维度：3,形状：(2, 1, 2)


#### 多维数组基础运算

基础运算一般包括加减乘除，而这些 NumPy 都有很好的支持。在 Python 自带的列表中，如果想使列表（数组）中每一个元素都加上同一个数，需要通过遍历实现，但是在 NumPy 中则异常简单，和普通的加法语法一样简洁：

In [147]:
a = np.arange(12).reshape(3, 4)
print('数组：\n',a)
a += 1
print('数组加一：\n',a)
a *= 2
print('数组翻倍：\n',a)

数组：
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
数组加一：
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
数组翻倍：
 [[ 2  4  6  8]
 [10 12 14 16]
 [18 20 22 24]]


多维数组和数字（标量）间的运算非常简单，同样多维数组间的运算也非常容易：

In [150]:
a = np.arange(4).reshape(2, 2)
b = np.arange(4, 8).reshape(2, 2)
print('数组：\n',a)
print('数组：\n',b)
print('两个数组相加：\n',a + b)
print('两个数组相减：\n',b - a)
print('两个数组相乘：\n',a * b)


数组：
 [[0 1]
 [2 3]]
数组：
 [[4 5]
 [6 7]]
两个数组相加：
 [[ 4  6]
 [ 8 10]]
两个数组相减：
 [[4 4]
 [4 4]]
两个数组相乘：
 [[ 0  5]
 [12 21]]


可以看到多维数组间的运算规则是**相同位置（坐标）上的值进行运算**得到最终结果。
Numpy 的线性代数中所不同的是 * 是矩阵的逐元素乘积，而不是矩阵的点乘积

需要注意的是，多维数组的组织方式和矩阵相同，但其乘法的运算规则却和矩阵的运算规则不同，如果想对 Ndarray 对象使用矩阵的乘法运算规则，可以使用 ndarray.dot 方法，比如计算上面演示代码中 a 和 b 的矩阵乘法结果：

In [151]:
a.dot(b)

array([[ 6,  7],
       [26, 31]])

多维数组还支持逻辑比较运算，比如我们想知道一个多维数组中哪些值大于某一个指定值？典型的做法是通过循环实现，但是在 NumPy 中却可以直接通过比较实现：

In [158]:
a = np.arange(12).reshape(4, 3)
print('元组：\n{}\n 维度：{},形状：{}'.format(a,a.ndim,a.shape))
b = a > 5
print(b)
print(a[b])

元组：
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
 维度：2,形状：(4, 3)
[[False False False]
 [False False False]
 [ True  True  True]
 [ True  True  True]]
[ 6  7  8  9 10 11]


首先通过 a > 5 生成了一个形状和 a 一致的多维数组，所有为 True 的元素的位置在 a 中的值都大于 5。然后就可以使用 a[b] 这种形式列出 a 中所有大于 5 的元素。

**NumPy 的多维数组还有一些方法**，可以用于统计数组中一些统计量，假如 a 为一个多维数组，则

- a.sum() 计算多维数组的所有元素的和；
- a.max() 最大值计算；
- a.min() 最小值计算；
- a.mean() 平均值计算；
- a.std() 标准差计算；
- a.var() 方差计算；

以上所有方法，都可以接受一个 axis 参数，用于指定具体统计哪根轴上的数据。

比如二维数组，可以理解为有 x, y 两根轴，分别代表行和列，指定 axis=0 时代表分别统计每列上的数据，axis=1 时，代表分别统计每一行上的数据。没有指定axis 参数时，代表统计所有元素。

In [160]:
a = np.arange(12).reshape(4, 3)
print('元组：\n{}\n 维度：{},形状：{}'.format(a,a.ndim,a.shape))
print(a.sum())
print(a.sum(axis=0))
print(a.sum(axis=1))

元组：
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
 维度：2,形状：(4, 3)
66
[18 22 26]
[ 3 12 21 30]


可以看到，a.sum(axis=0) 统计了每一列的和，并生成了一个一纬度数组，而 a.sum(axis=1) 则分别统计了行的和。

除了 Ndarray 多维数组对象自己的方法外，NumPy 还自带了一些通用函数，可以进行各种计算：

- np.sqrt 开方运算；
- np.dot 矩阵乘法；
- np.sort 排序；
- np.linalg 模块中包含了一些基本的线性代数计算函数；

## Pandas 数据处理包

在数据分析中，我们更多的针对表格数据进行处理，也就是 NumPy 中的二维数组数据，尽管 NumPy 对于多维数组的支持已经足够强大，但 Pandas 处理这些二维数据时更加得心应手。Pandas 建立在 NumPy 基础之上，但增加了更加高级实用的功能，比如数据自动对齐功能，时间序列的支持，缺失数据的灵活处理等等。

Pandas 是用来处理表格型和异质型数据。而 Numpy 更适合处理同质型的数值类数组数据。

先导入
```
import pandas as pd
from pandas import Series,DataFrame
```

**Pandas 数据结构**

**Series 和 DataFrame 是 Pandas 中的两种核心数据结构**，大部分 Pandas 的功能都围绕着两种数据结构进行。

#### Series
Series 是一种一维的数组型对象，它包含一个值序列，并且包含了数据标签，即索引。索引可以定制，当不指定时默认使用整数索引，而且索引可以被命名：

In [163]:
import pandas as pd

s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s1)
print(s2)

s2.index.name = 'index'
print(s2.index)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int64
Index(['a', 'b', 'c', 'd', 'e'], dtype='object', name='index')


以上代码中先后创建了 s1 和 s2 两个序列，前一个使用了默认的整数索引，后一个使用了我们指定的字符索引，同时还可以对索引进行命名。

###### 构建 Series

可以将 python 中的字典生产一个 Series

In [237]:
import pandas as pd
data = {'user_id': 18, 'course': 45, 'minutes': 9}
df2 = pd.Series(data)
df2

user_id    18
course     45
minutes     9
dtype: int64

#### DataFrame

##### 构建 DataFrame
多种方式可以构建 DataFrame，其中最常用的方式

- 包含等长度列表的字典(值必须是列表)
- 包含等长度 Numpy 数组的字典

In [235]:
data = {'user_id': [5348, 13], 'course': [12, 45], 'minutes': [9, 36],
        'name': ['Linux 基础入门', '数据分析']}
df2 = pd.DataFrame(data)
df2

Unnamed: 0,user_id,course,minutes,name
0,5348,12,9,Linux 基础入门
1,13,45,36,数据分析


In [None]:
# 会报错
data = {'user_id': 18, 'course': 45, 'minutes': 9}
df2 = pd.DataFrame(data)
print(df2)

In [236]:
data = {'user_id': [18], 'course': [45], 'minutes': [9]}
df2 = pd.DataFrame(data)
df2

Unnamed: 0,user_id,course,minutes
0,18,45,9


DataFrame 类似于二维数组，有行和列之分，除了像 Series 一样，有行索引(索引)，还有列索引(标签)， 索引和标签本身都可以被命名：

In [165]:
df = pd.DataFrame(np.random.randn(4, 4), index=['a', 'b', 'c', 'd'], columns=['A', 'B', 'C', 'D'])
print(df)
print(df.index)
print(df.columns)

          A         B         C         D
a  0.600640  0.746567 -0.950464  0.737955
b -0.247863 -0.090398 -0.560119  1.028355
c  0.488864 -0.681151  0.659460 -0.175408
d  0.734673 -0.021465  0.669401 -2.165050
Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['A', 'B', 'C', 'D'], dtype='object')


上面的代码中，通过指定索引和标签（columns 参数）创建了一个 DataFrame 实例。

- df.index 所有索引(行)
- df.columns 所有列标签

类似于 NumPy 数组，当生成了 Series 和 DataFrame 数据时，我们怎么选择其中的部分数据呢？

#### 选择 Series 数据
对于 Series 数据来说，主要通过其索引来进行选择。由于 Series 是一种一维的数组型对象，它只有行

- 默认的整数索引 `s2[0]  \ s2.iloc[0]`
- 指定的字符索引 `s2['a'] \ s2.loc['a']`

其实整数索引和字符索引，分别调用了 s2.iloc 和 s2.loc 索引

```
print(s2[0])
print(s2['a'])
print(s2[0:3])
print(s2['a':'c'])
```

两者等价

```
print(s2.iloc[0])
print(s2.loc['a'])
print(s2.iloc[0:3])
print(s2.loc['a':'c'])
```

In [167]:
s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s2)
print(s2[0])
print(s2['a'])
print(s2[0:3])
print(s2['a':'c'])

a    1
b    2
c    3
d    4
e    5
dtype: int64
1
1
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
dtype: int64


In [168]:
s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s2)
print(s2.iloc[0])
print(s2.loc['a'])
print(s2.iloc[0:3])
print(s2.loc['a':'c'])

a    1
b    2
c    3
d    4
e    5
dtype: int64
1
1
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
dtype: int64


#### 选择 DataFrame 数据

对于 DataFrame 数据来说，由于有行列之分，所以可以有多种选择数据的方式，比如通过索引(行)或者标签(列)来选择。

**选择某一列** (按照字典型标记或属性那样检索为 Series)

- df.A 的属性方式
- df['A'] 的方式

**选择多列**
- df[df.columns[0:2]]
- df[['A','D']]

前面我们提到过可以根据 loc 属性来选择某一行，iloc 根据整数索引来选择某一行，这些在 DataFrame 中都是可以的。

**选择某一行**
- df.iloc[0]
- df.loc['a']

**选择多行**
- df.iloc[0:3]
- df.loc['a':'c']

df.loc[行index, 列columns] 支持二维的选择，也就是同时选择行和列， : 符号代表选择所有的行。

**选择行和列**

- df.loc['a', 'A']
- df.loc[:, ['B', 'C', 'D']]
- df.loc['b':'c', 'B':'C']

In [238]:
df = pd.DataFrame(np.random.randn(4, 4), index=['a', 'b', 'c', 'd'], columns=['A', 'B', 'C', 'D'])
print(df)
print('选择第一列')
print(df.A,type(df.A))
print(df['A'],type(df['A']))
print('选择多列')
print(df[df.columns[0:2]])
print(df[['A','D']])
print('选择第一行')
print(df.iloc[0])
print(df.loc['a'])
print('选择第多行')
print(df.iloc[0:3])
print(df.loc['a':'c'])
print('选择行和列')
print(df.loc['a', 'A'])
print(df.loc[:, ['B', 'C', 'D']])
print(df.loc['b':'c', 'B':'C'])

          A         B         C         D
a -0.234290  1.847408 -1.690030 -0.423760
b  0.703637  0.046140  1.014700 -0.045874
c  1.987376  0.412446 -0.433846  0.625316
d -0.384901 -1.201812 -0.843589  0.879474
选择第一列
a   -0.234290
b    0.703637
c    1.987376
d   -0.384901
Name: A, dtype: float64 <class 'pandas.core.series.Series'>
a   -0.234290
b    0.703637
c    1.987376
d   -0.384901
Name: A, dtype: float64 <class 'pandas.core.series.Series'>
选择多列
          A         B
a -0.234290  1.847408
b  0.703637  0.046140
c  1.987376  0.412446
d -0.384901 -1.201812
          A         D
a -0.234290 -0.423760
b  0.703637 -0.045874
c  1.987376  0.625316
d -0.384901  0.879474
选择第一行
A   -0.234290
B    1.847408
C   -1.690030
D   -0.423760
Name: a, dtype: float64
A   -0.234290
B    1.847408
C   -1.690030
D   -0.423760
Name: a, dtype: float64
选择第多行
          A         B         C         D
a -0.234290  1.847408 -1.690030 -0.423760
b  0.703637  0.046140  1.014700 -0.045874
c  1.987376  0.412446 -0.4338

#### 缺失值和数据自动对齐

在 Pandas 中最重要的一个功能是，它可以对不同索引的对象进行算术运算。比如将两个 Series 数据进行相加时，如果存在不同的索引，则结果是两个索引的并集，什么意思呢？

In [186]:
s1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
s2 = pd.Series([2, 3, 4, 5], index=['b', 'c', 'd', 'e'])
print(s1)
print(s2)
print(s1+s2)

a    1
b    2
c    3
d    4
dtype: int64
b    2
c    3
d    4
e    5
dtype: int64
a    NaN
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64


以上代码中创建了两个 s1 和 s2 两个 Series 序列，两者具有相同的索引 ['b', 'c', 'd'], 所以在进行相加时，相同索引上的值会相加，但不重叠的索引引入 NaN 值，也就是缺失值。而缺失值会在运算中传播，所以最终结果也是 NaN 值。

**根据相同的索引进行自动计算，这就是自动对齐功能**

同样的规则，在 DataFrame 数据中也生效：行索引和列索引都相同，才会进行相加。

In [188]:
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), columns=list('ABC'), index=list('abc'))
df2 = pd.DataFrame(np.arange(12).reshape(3, 4), columns=list('ABDE'), index=list('bcd'))
print(df1)
print(df2)
print(df1+df2)

   A  B  C
a  0  1  2
b  3  4  5
c  6  7  8
   A  B   D   E
b  0  1   2   3
c  4  5   6   7
d  8  9  10  11
      A     B   C   D   E
a   NaN   NaN NaN NaN NaN
b   3.0   5.0 NaN NaN NaN
c  10.0  12.0 NaN NaN NaN
d   NaN   NaN NaN NaN NaN


##### fill_value 参数指定 NaN 值的填充值

DataFrame 的计算也会进行自动对齐操作，这个时候没有的行或者列会使用 NaN 值自动填充，而由于 NaN 值会传播，所以相加的结果也是 NaN。当然我们在计算时，可以指定使用值来填充 NaN 值，然后带入计算过程。

In [189]:
df1.add(df2,fill_value = 0)

Unnamed: 0,A,B,C,D,E
a,0.0,1.0,2.0,,
b,3.0,5.0,5.0,2.0,3.0
c,10.0,12.0,8.0,6.0,7.0
d,8.0,9.0,,10.0,11.0


我们指定了使用 0 填充 NaN 值，然后带入计算过程，注意这里填充的不是最终的运算结果。可以看到依然有元素为 NaN 值，这是因为这个位置的元素在 df1 和 df2 中都未定义。

#### 常用运算

DataFrame 数据
- df.apply() 将函数应用到每行或者每一列上面
- df.applymap() 将某函数应用到每一个元素上

Series 数据
- s.map() 将某函数应用到每一个元素上

Series 和 DataFrame 的常用运算方式和 NumPy 中的差不多，这里就不多做介绍了。在 Pandas 中还有一种比较常见的操作是**将函数应用到每行或者每一列上面，DataFrame 的 apply 方法可以实现此功能**，比如想统计每行和每列的极差（最大值和最小值之差）：

In [194]:
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), columns=list('ABC'), index=list('abc'))

def f(x): 
    return x.max() - x.min()

print(df1)
print('每列的极差\n',df1.apply(f))
print('行的极差\n',df1.apply(f, axis=1))

   A  B  C
a  0  1  2
b  3  4  5
c  6  7  8
每列的极差
 A    6
B    6
C    6
dtype: int64
行的极差
 a    2
b    2
c    2
dtype: int64


以上代码中，我们定义了 f 函数，该匿数简单的返回列表的极差，然后首先通过 df.apply(f) 应用 f, 统计出了每列的极差，接着通过传入 axis=1 参数，统计出了每行的极差。

DataFrame数据下，函数默认按每列统计，axis=1 时，按行统计。

如果想将某函数应用到每一个元素上，对于 DataFrame 数据可使用 df.applymap 方法，而对于 Series 数据可以使用 s.map 方法：

In [197]:
print('df.applymap(), 将某函数应用到 DataFrame 数据每一个元素上')
print(df1)
print(df1.applymap(lambda x: x+1))
print('s1.map(), 将某函数用到 Series 数据每一个元素上')
s1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s1)
print(s1.map(lambda x: x+1))

df.applymap(), 将某函数应用到 DataFrame 数据每一个元素上
   A  B  C
a  0  1  2
b  3  4  5
c  6  7  8
   A  B  C
a  1  2  3
b  4  5  6
c  7  8  9
s1.map(), 将某函数用到 Series 数据每一个元素上
a    1
b    2
c    3
d    4
dtype: int64
a    2
b    3
c    4
d    5
dtype: int64


#### 常用统计

类似于 NumPy，Series 和 DataFrame 也有各种统计方法，比如求平均值，方差，和等方法，同时通过 describe 方法可以得知当前数据的一些常用统计信息：

- DataFrame数据下，函数默认按每列统计，axis=1 时按行统计。
- Series数据下，函数默认统计所有元素, axis=0 时按列统计，axis=1 时按行统计。

describe 方法显示了一些常用的统计信息，具体解释如下：

- count 元素值的数量；
- mean 平均值；
- std 标准差；
- min 最小值；
- 25% 下四分位数；
- 50% 中位数；
- 75% 上四分位数；
- max 最大值；

In [199]:
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), columns=list('ABC'), index=list('abc'))
print(df1)
print(df1.sum())
print(df1.mean())
print(df1.mean(axis=1))
print(df1.describe())

   A  B  C
a  0  1  2
b  3  4  5
c  6  7  8
A     9
B    12
C    15
dtype: int64
A    3.0
B    4.0
C    5.0
dtype: float64
a    1.0
b    4.0
c    7.0
dtype: float64
         A    B    C
count  3.0  3.0  3.0
mean   3.0  4.0  5.0
std    3.0  3.0  3.0
min    0.0  1.0  2.0
25%    1.5  2.5  3.5
50%    3.0  4.0  5.0
75%    4.5  5.5  6.5
max    6.0  7.0  8.0


#### 数据合并和分组

有的时候需要合并两个 DataFrame 数据，合并数据的方式主要有两种，一种简单的进行拼接，另一种是根据列名类像数据库表查询一样进行合并。这两种操作可以分别通过调用 pandas.concat 和 pandas.merge 方法实现，

- pandas.concat
- pandas.merge

In [203]:
df1 = pd.DataFrame(np.random.randn(3, 3))
df2 = pd.DataFrame(np.random.randn(3, 3), index=[5,6,7])
print(df1)
print(df2)
pd.concat([df1, df2])

          0         1         2
0 -0.428238  0.503267  0.512574
1 -2.359126 -1.109398 -1.176902
2 -0.371222  0.568740 -0.422842
          0         1         2
5 -0.815042  1.042081  0.431211
6 -0.065894 -0.086357  0.190419
7  0.685030  0.750338  0.162473


Unnamed: 0,0,1,2
0,-0.428238,0.503267,0.512574
1,-2.359126,-1.109398,-1.176902
2,-0.371222,0.56874,-0.422842
5,-0.815042,1.042081,0.431211
6,-0.065894,-0.086357,0.190419
7,0.68503,0.750338,0.162473


使用 pandas.concat 函数成功的拼接了两个 DataFrame 数据。有的时候，我们有多个数据集，这些数据集有相同的列，这个时候就可以按照这个列进行合并操作，类似于数据库中的 join 操作：

In [208]:
df1 = pd.DataFrame({'user_id': [5348, 13], 'course': [12, 45], 'minutes': [9, 36]})
df2 = pd.DataFrame({'course': [12, 45], 'name': ['Linux 基础入门', '数据分析']})
pd.merge(df1,df2)

Unnamed: 0,user_id,course,minutes,name
0,5348,12,9,Linux 基础入门
1,13,45,36,数据分析


上面的代码中我们通过字典创建了两个数据集，可以看到当通过字段创建 DataFrame 数据集的时，键名变成了列名。df1 和 df2 有共同的列 course, 当进行 merge 操作的时候 Pandas 会自动安装这列进行合并。合并数据集时，有很多参数可以选择，比如选择在根据哪一列进行合并，合并的方式等，可以通过 help(pd.merge) 查看完整的帮助文档.

在 Pandas 中，也支持类似于数据库查询语句 **GROUP BY** 的功能，也就是按照某列进行分组，然后再分组上进行一些计算操作，假如我们有如下的数据集，那么如何计算其中 user_id 是 5348 的用户的学习时间呢？

- 第一种：是筛选出所有 user_id 为 5348 的行，然后进行求和统计。先通过 df[df['user_id'] == 5348] 布尔索引筛选出所有的相关行，然后通过结合列筛选功过滤其他列，只剩下时间统计列 (minutes 所在列为学习时间列），最后通过求和运算统计出了学习时间。

- 第二种：可以使用类似于数据库的 GROUP BY 功能进行计算。先过滤列，只剩下了 user_id 和 minutes 列，然后通过 groupby 方法在 user_id 列上进行分组并求和，相对于前一种方式，分组求和更加灵活一些。

In [227]:
df = pd.DataFrame({'user_id': [5348, 13, 5348], 'course': [12, 45, 23], 'minutes': [9, 36, 45]})
print(df)

df[df['user_id'] == 5348]['minutes'].sum()

   user_id  course  minutes
0     5348      12        9
1       13      45       36
2     5348      23       45


54

In [223]:
df[['user_id','minutes']]

Unnamed: 0,user_id,minutes
0,5348,9
1,13,36
2,5348,45


In [230]:
df[['user_id','minutes']].groupby('user_id')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x11a1709b0>

In [231]:
df[['user_id','minutes']].groupby('user_id').sum()

Unnamed: 0_level_0,minutes
user_id,Unnamed: 1_level_1
13,36
5348,54


#### 时间序列处理

在我们要分析的数据中，很多数据都带有时间戳，比如数据集中的每一项数据都带有一项数据项生成时的时间戳，有的时候我们需要根据这个时间戳进行运算，这在 Pandas 中非常方便。

在 Python 中，时间处理方面的相关功能主要集中在 datetime 包中，主要有的三种对象：

- datetime.datetime 代表时间对象；
- datetime.date 代表某一天；
- datetime.timedelta 代表两个 datetime.datetime 对象之间的时间差；

In [239]:
from datetime import datetime, timedelta

d1 = datetime(2017, 8, 1)
delta = timedelta(days=10)
d1 + delta

datetime.datetime(2017, 8, 11, 0, 0)

以上代码中，简单演示了 datetime.datetime 和 datetime.timedelta 的用法。先创建一个简单的时间序列，然后演示一些基本的用法

In [242]:
from datetime import datetime

dates = [datetime(2018, 1, 1), datetime(2018, 1, 2),
         datetime(2018, 1, 3), datetime(2018, 1, 4)]

ts = pd.Series(np.random.randn(4), index=dates)
print(ts)
print(ts.index)
print(ts.index[0])

2018-01-01   -0.030811
2018-01-02    0.094218
2018-01-03    0.221295
2018-01-04    1.273748
dtype: float64
DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04'], dtype='datetime64[ns]', freq=None)
2018-01-01 00:00:00


以上代码中，我们通过 datetime 时间类型生成了一堆时间，然后基于此创建了一个时间序列 ts , 可以看到 ts 的索引类型为 DatetimeIndex 类型。生成 ts 以后我们就有多种方法**选择元素**了，只需要传入一个能被 Pandas 识别的日期字符串就可以了

In [247]:
print(ts[ts.index[0]])
print(ts['2018-01-01'])
print(ts['2018/01/01'])
print(ts['1/1/2018'])
print(ts[datetime(2018, 1, 1)])

-0.03081059722024564
-0.03081059722024564
-0.03081059722024564
-0.03081059722024564
-0.03081059722024564


可以看到选择元素的方式非常灵活。

在 Pandas 中**生成日期范围**也非常灵活，主要通过 pandas.date_range 函数完成，该函数主要有以下几个参数：

`pd.date_range(start,end,periods,freq)`

- start: 指定了日期范围的起始时间；
- end: 指定了日期范围的结束时间；
- periods: 指定了间隔范围，如果只是指定了 start 和 end 日期的其中一个，则需要改参数；
- freq: 指定了日期频率，比如 D 代表每天，H 代表每小时，M 代表月，这些频率字符前也可以指定一个整数，代表具体多少天，多少小时，比如 5D 代表 5 天。还有一些其他的频率字符串，比如 MS 代表每月第一天，BM 代表每月最后一个工作日，或者是频率组合字符串，比如 1h30min 代表 1 小时 30 分钟。

In [248]:
pd.date_range('2018-1-1', '2019', freq='M')

DatetimeIndex(['2018-01-31', '2018-02-28', '2018-03-31', '2018-04-30',
               '2018-05-31', '2018-06-30', '2018-07-31', '2018-08-31',
               '2018-09-30', '2018-10-31', '2018-11-30', '2018-12-31'],
              dtype='datetime64[ns]', freq='M')

In [249]:
pd.date_range('2018-1-1', '2018-12-1', freq='MS')

DatetimeIndex(['2018-01-01', '2018-02-01', '2018-03-01', '2018-04-01',
               '2018-05-01', '2018-06-01', '2018-07-01', '2018-08-01',
               '2018-09-01', '2018-10-01', '2018-11-01', '2018-12-01'],
              dtype='datetime64[ns]', freq='MS')

freq 参数还有许多频率指定的方式，篇幅有限就不一一介绍了。