## 第14章 典型数据分析案例

### 14.1 利用Python实现报表自动化
罗列数据、制作表格的工作通过自动化交给机器去做，人更重要的工作是通过报表发现数据背后隐藏的信息。
#### 14.1.1 为什么要进行报表自动化
 ○ 提高工作效率
 ○ 减少错误
#### 14.1.2 什么样的报表适合自动化
 ○ 使用频率高
 ○ 开发时间不那么高，比手工做表高的不太多，有账可算
 ○ 需求变更频率低
 ○ 流程尽量标准化
#### 14.1.3 如何实现报表自动化
按照人做报表的步骤，告诉计算机一步一步去做。
 ○ 导入数据源
 ○ 计算本周期相关指标
 ○ 计算上周期相关指标
 ○ 计算同期相关指标
 ○ 利用函数提高编码效率
### 14.2 自动发送电子邮件

### 14.3 连锁超市数据分析
关注的重点是销售额
#### 14.3.1 哪些类别的商品比较畅销
将订单表中的数据按类别进行分组，然后对分组进行销量求和，就会得到每一类商品在一段时间内的销量
#### 14.3.2 哪些商品比较畅销
与类别比较相似
#### 14.3.3 不同门店销售额占比
计算出销售额，用饼图展示占比情况
#### 14.3.4 哪些时间段是超市的客流高峰期
根据成交时间确定出每个时间周期内的订单数量，数量多的时间段就是高峰期

### 14.4 银行数据分析
坏账率是日程关注的主要指标
#### 14.4.1 收入与坏账率的关系
因为月收入属于连续值，对连续值进行分析时，一般都会将连续值离散化，就是将连续值进行区间切分，分成若干类别
区间切分后，看每个区间内的坏账率,得出不同受入群体的坏账率。
#### 14.4.2 年龄与坏账率的关系
得出不同年龄段的坏账率
#### 14.4.3 家庭人口数量与坏账率的关系
虽然家庭人口数量也是连续值，因为数量不大，可以按离散值处理

In [4]:
### 超市数据
import pandas as pd
data=pd.DataFrame(
    [
        [30006206,91500003,'CDNL',25.23,0.328,'2017-01-03 09:56:00','20170103CDLG000210052759'],
        [30163281,91401000,'CDNL',2.00,2.00,'20170103 09:56:00','20170103CDLG000210052759']],
    columns=['商品ID','类别ID','门店编号','单价','销量','成交时间','订单ID']
)
data

Unnamed: 0,商品ID,类别ID,门店编号,单价,销量,成交时间,订单ID
0,30006206,91500003,CDNL,25.23,0.328,2017-01-03 09:56:00,20170103CDLG000210052759
1,30163281,91401000,CDNL,2.0,2.0,20170103 09:56:00,20170103CDLG000210052759


In [5]:
### 银行数据
data = pd.DataFrame([
    [1,1,45,0.802982,9120.0,2.0],
    [2,0,40,0.121876,2600.0,1.0],
    [3,0,38,0.085113,3042.0,0.0],
    [4,0,30,0.036050,3300.0,0.0],
    [5,0,49,0.024926,63588.0,0.0]],
    columns=['用户ID','好坏客户','年龄','负债率','月收入','家属数量']
)
data

Unnamed: 0,用户ID,好坏客户,年龄,负债率,月收入,家属数量
0,1,1,45,0.802982,9120.0,2.0
1,2,0,40,0.121876,2600.0,1.0
2,3,0,38,0.085113,3042.0,0.0
3,4,0,30,0.03605,3300.0,0.0
4,5,0,49,0.024926,63588.0,0.0


In [None]:
## 第15章 NumPy数组
为了满足矩阵运算，numpy出现了。但是很多数据并不是用矩阵存放的，而是用数据库或Excel表来存放的，于是就出现了pandas。
pandas用的比较多，但pandas是在numpy基础上实现的。
### 15.1 NumPy简介
Numpy是针对多维数组(Ndarray)的一个科学计算包，封装了多个可以用于数组间计算的函数。
数组是相同数据类型的元素按一定顺序排列的组合，这里需要注意的是必须相同的数据类型
### 15.2 Numpy数组的生成
要使用Numpy，首先要有符合NumPy数组的数据，不同的包需要的数据结构是不一样的，pandas包需要的是Series和DataFrame数据结构
在Python中创建数组使用的是array()函数，参数可以是任何序列型的对象（列表、元组、字符串等）。
#### 15.2.1 生成一般数组

In [2]:
#给array()函数传入一个列表，直接将数据以列表的形式作为一个参数传给函数即可
import numpy as np
arr = np.array([2,4,6,8])
arr

array([2, 4, 6, 8])

In [8]:
#给array()传入一个元组
arr = np.array((2,4,5,8))
arr

array([2, 4, 5, 8])

In [9]:
#给array()传入一个嵌套列表，会产生多维数组
arr = np.array([
    [1,2,3],
    [4,5,6]
])
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
#### 15.2.2 生成特殊类型数组
# ○ 生成固定范围的随机数组
np.arange(
    start,  #数组的开始值，默认从0开始
    stop,  #数组的结尾值,不包含该值
    step  #数组值的步长，默认是1
)

In [10]:
np.arange(1,15)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [13]:
#生成指定形状全为0的数组 zeros()
np.zeros([2,3],dtype='int')

array([[0, 0, 0],
       [0, 0, 0]])

In [15]:
#生成指定形状全为1的数组 ones()
np.ones([2,3],dtype='int')

array([[1, 1, 1],
       [1, 1, 1]])

In [17]:
#生成一个正方形单位矩阵（对角线的元素值全为1，其余值全为0） eye()
np.eye(3,dtype='int')

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

In [20]:
#### 15.2.3 生成随机数组
#生成(0,1)之间的随机数组 np.random.rand()
np.random.rand(2,3)

array([[0.76721571, 0.86574525, 0.51898514],
       [0.83972823, 0.68107079, 0.8564874 ]])

In [24]:
#满足正态分布的指定形状的数组 np.random.randn()
np.random.randn(2,3)

array([[-0.27309923, -0.81058278, -0.52823697],
       [ 1.46408193,  2.17193095, -0.00874658]])

In [25]:
#在左闭右开区间(low,high)生成数组大小为size的均匀分布的整数值
np.random.randint(1,5,10)

array([1, 3, 3, 4, 1, 2, 1, 3, 1, 3])

In [33]:
#从已知数组中随机选取相应大小的数组
np.random.choice(np.random.randint(2,3))

0

In [43]:
#将原数组顺序打乱，类似于打扑克牌中的洗牌【不好使啊】
arr = np.arange(10)
arr1 = np.random.shuffle(arr)
arr1

### 15.3 NumPy数组的基本属性
主要包括数组的形状、大小、类型和维数
○ 数组的形状 shape
  指数组有几行几列数据
○ 数组的大小 size
  数组中共有多少个元素
○ 数组的类型
  构成数组元素的类型，可以dtype方法查看，主要有5种：
  · int 整数
  · float 浮点数
  · object Python对象类型
  · string_ 字符串类型，经常用S表示，S10表示长度为10的字符串
  · unicode_ 固定长度的unicode类型，与字符串定义方式一样，经常用U表示。
○ 数组的维数
  数组的维数是指数组是几维空间的，几维空间就对应数组是几维数组，调用数组的adim方法就可以看到

In [44]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [45]:
arr.shape

(3, 3)

In [46]:
arr.size

9

In [47]:
arr.dtype

dtype('int32')

In [48]:
arr.ndim

2

### 15.4 NumPy数组的数据选取
数据选取就是通过索引的方式把想要的某些值从全部数据中抽取出来。
#### 15.4.1 一维数据选取
一维可以理解成数据就是一行或者一列数据，
○ 传入某个位置(Numpy从0开始计数)
○ 传入某个位置区间
  数组中每个元素都有一个位置，如果想要获取某些连续位置的元素，则可以将这些元素对应的位置表示成一个区间，只要写明元素开始的位置和结束位置即可。注意：位置默认是一个左闭右开的区间，即选取开始位置的元素，但不选取结束位置的元素。当你要选取某个位置之后的所有元素，只要指明开始位置即可[3:]。获取某个位置之前的所有元素，只指明结束位置即可；正序位置和倒序位置可以混用
○ 传入某个条件
  给数组传入某个判断条件，将返回符合该条件的元素

In [50]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [51]:
#获取第4位数，传入3，因为从0开始的
arr[3]

3

In [53]:
#获取末尾最后一个数值,也可以传入-1，表示从末尾数第一个
print(arr[9],arr[-1])

9 9


In [54]:
#获取位置3到5的值，不包含位置5的值
arr[3:5]

array([3, 4])

In [55]:
#选取位置3以后的所有元素
arr[3:]

array([3, 4, 5, 6, 7, 8, 9])

In [56]:
#选取位置3以前的所有元素
arr[:3]

array([0, 1, 2])

In [57]:
#获取从第3位到倒数第2位的元素（不能包含倒数第2位）
arr[3:-2]

array([3, 4, 5, 6, 7])

In [58]:
#获取数组中大于3的元素
arr[arr>3]

array([4, 5, 6, 7, 8, 9])

In [None]:
#### 15.4.2 多维数据选取
○ 获取某行数据 直接传入行的位置
○ 获取某些行数据，直接传入这些行的区间
○ 获取某列数据，直接在列位置处传入列位置，要用冒号进行区分，冒号前是行的位置，后是列
○ 获取某些列数据，传入这些列的位置区间
○ 行列同时获取，分别在行位置、列位置处指明要获取的行、列位置数 

In [3]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [61]:
#获取第2行数据
arr[1]

array([4, 5, 6])

In [62]:
#获取第2行和第3行的数据,包括第3行
arr[1:3]

array([[4, 5, 6],
       [7, 8, 9]])

In [63]:
#获取第3行之前的所有数据,不包括第3行
arr[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [64]:
#获取第2列的数据
arr[:,1]

array([2, 5, 8])

In [4]:
#获取第1到3列的数据，不包括第3列
arr[:,0:2]

array([[1, 2],
       [4, 5],
       [7, 8]])

In [5]:
#获取第3列之前的所有列，不包括第3列
arr[:,:2]

array([[1, 2],
       [4, 5],
       [7, 8]])

In [6]:
#获取第2列之后的所有列，包括第2列
arr[:,1:]

array([[2, 3],
       [5, 6],
       [8, 9]])

In [7]:
#获取第1到2行、第2到3列的数据
arr[0:2,1:3]

array([[2, 3],
       [5, 6]])

### 15.5 NumPy数组的数据预处理
#### 15.5.1 NumPy数组的类型转换
不同类型的数值可以做的运算是不一样的，所以我们要把拿到的数据转换成我们想要的数据类型。在NumPy数组中转换数据类型用到的方法是astype()，在astype后的括号中指明要转换的目标类型即可
#### 15.5.2 NumPy数组的缺失值处理
缺失值处理分两步，第一步先判断是否含有缺失值，将缺失值找出来；第二步，对缺失值进行填充。
查找缺失值用的方法是isnan()，在判断缺失值之前，先创建一个含有缺失值的数组，在NumPy中缺失值用np.nan表示
#### 15.5.3 NumPy数组的重复值处理
重复值处理比较简单，直接调用unique()方法即可

In [8]:
arr = np.arange(5)
arr

array([0, 1, 2, 3, 4])

In [9]:
#数组arr的原数据类型为int32
arr.dtype

dtype('int32')

In [10]:
#将arr数组从int类型转换为float类型
arr_float = arr.astype(np.float64)
arr_float

array([0., 1., 2., 3., 4.])

In [11]:
arr_float.dtype

dtype('float64')

In [12]:
#将arr数组从int类型转换为str类型
arr_str = arr.astype(np.string_)
arr_str

array([b'0', b'1', b'2', b'3', b'4'], dtype='|S11')

In [13]:
#创建一个含有缺失值的数组，nan表示缺失值
arr = np.array([1,2,np.nan,4])
arr

array([ 1.,  2., nan,  4.])

In [14]:
#第3位为缺失值
np.isnan(arr)

array([False, False,  True, False])

In [18]:
#用0填充
arr[np.isnan(arr)] = 0
arr

array([1., 2., 0., 4.])

In [19]:
#处理重复值
arr = np.array([1,2,3,2,1])
np.unique(arr)

array([1, 2, 3])

### 15.6 NumPy数组重塑
所谓数组重塑，就是更改数组的形状，比如将原来3行4列的数组重塑成4行3列的数组。在NumPy中用reshape方法来实现数组重塑。前提是要保证重塑前后数组中元素的个数不变。
#### 15.6.1 一维数组重塑
将数组从一行或1列重塑为多行多列的数组
#### 15.6.2 多维数组重塑
#### 15.6.3 数组转置
数组转置就是将数组的行旋转为列，用到的方法是.T

In [20]:
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [21]:
#将数组重塑为2行4列的多维数组
arr.reshape(2,4)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [22]:
#将数组重塑为4行2列的多维数组
arr.reshape(4,2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [23]:
arr = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [24]:
#将数组重塑为4行3列的
arr.reshape(4,3)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [26]:
#将数组重塑为2行6列的
arr.reshape(2,6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [28]:
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [27]:
arr.T

array([[ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

### 15.7 numPy数组合并
#### 15.7.1 横向合并
横向合并就是将两个行数相等的数组在行方向上进行简单拼接。与DataFrame合并不太一样，NumPy数组合并不需要公共列，只是将两个数组简单拼接在一起，有concatenate、hstack、column_stack三种方法可以实现
 ○ concatenate 将两个待合并的数组以列表的形式传给concatenate，并通过设置axis参数来指明在行方向还是在列方向上进行合并。
 ○ hstack直接将两个待合并数组以元组的形式传给hstack即可，不需要设置axis
 ○ column_stack 与hstack方法基本一样，也是将两个待合并的数组以元组的形式传参即可
#### 15.7.2 纵向合并
横向合并是将两个行数相等的数组在行的方向上进行拼接，纵向合并与横向合并类似，它将两个列数相等的数组在列的方向进行拼接，有concatenate、vstack、row_stack三种方法
 ○ concatenate 对数组进行纵向合并时，参数axis的值必须为0.
 ○ vstack 与hstack对应的方法，同样只要将待合并的数组以元组形式传给vstack即可
 ○ row_stack是与column_stack相对应的方法，将两个待合并的数组以元组的形式传给row_stack即可。

In [29]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[7,8,9],[10,11,12]])
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [30]:
arr2

array([[ 7,  8,  9],
       [10, 11, 12]])

In [31]:
np.concatenate([arr1,arr2],axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [33]:
np.concatenate([arr1,arr2],axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [34]:
np.hstack((arr1,arr2))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [35]:
np.column_stack((arr1,arr2))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [36]:
np.vstack((arr1,arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [37]:
np.row_stack((arr1,arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

### 15.8 常用数据分析函数
#### 15.8.1 元素级函数
元素级函数就是针对数组中的每个元素执行相同的函数操作，主要函数及其说明如下：
○ abs: 绝对值
○ sqrt: 平方根
○ square：平方
○ exp: 以e为底的指数
○ log、log10、log2、logIp：分别计算以e为底、10为底、2为底的对数，以及log(1+x)
○ modf：适用于浮点数，将小数和整数部分以独立的数组返回
○ isnan：判断是否是NaN，返回一个布尔值
#### 15.8.2 描述统计函数
描述统计函数是对整个NumPy数组或某条轴的数据进行统计运算，主要的函数及说明如下：
○ sum：对数组中全部元素或某行某列的元素求和
○ mean：求平均值
○ std、var：标准差和方差
○ min、max：最小值和最大值
○ argmin、argmax：最大值和最小值对应的索引
○ cumsun：所有元素的累计和，结果以数组的形式返回
○ cumprod：所有元素的累计积
#### 15.8.3 条件函数
NumPy数组中的条件函数np.where(condition,x,y)类似于Excel的if(condition,x,y)函数，如果条件为真，返回x，否则返回y。
#### 15.8.4 集合关系
每个数组都可以当作一个集合，集合的关系其实就是两个数组之间的关系，主要有包含、交集、并集、差集四种。

In [38]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [40]:
#对整个数组进行求和
arr.sum()

45

In [41]:
#对数组中的每一行分别求和
arr.sum(axis=1)

array([ 6, 15, 24])

In [44]:
#对整个数组求均值
arr.mean()

5.0

In [46]:
#对数组中的每一行求均值
arr.mean(axis=1)

array([2., 5., 8.])

In [48]:
#对数组中的每一列分别求均值
arr.mean(axis=0)

array([4., 5., 6.])

In [49]:
#对整个数组求最大值
arr.max()

9

In [50]:
#对数组中的每一行求最小值
arr.min(axis=1)

array([1, 4, 7])

In [51]:
#对数组中的每一列求最大值
arr.max(axis=0)

array([7, 8, 9])

In [2]:
import numpy as np
arr = np.array([56,61,65])
np.where(arr>60,"及格","不及格")

array(['不及格', '及格', '及格'], dtype='<U3')

In [3]:
#返回满足条件的值对应的位置
np.where(arr>60)

(array([1, 2], dtype=int64),)

In [5]:
arr1 = np.array([1,2,3,4])
arr2 = np.array([1,2,5])
np.in1d(arr1,arr2)

array([ True,  True, False, False])

In [6]:
np.intersect1d(arr1,arr2)

array([1, 2])

In [7]:
np.union1d(arr1,arr2)

array([1, 2, 3, 4, 5])

In [8]:
np.setdiff1d(arr1,arr2)

array([3, 4])