# 4 数据统计分析
## 4.1 创建数组对象

In [1]:
import numpy as np #导入 NumPy 库 
arr1 = np.array([1, 2, 3, 4]) #创建一维数组 
print('创建的数组为： ',arr1)
print('索引结果为：',arr1[3])
print('索引结果为：',arr1[2:4])
print('索引结果为：',arr1[:1])
print('索引结果为：',arr1[-1])

创建的数组为：  [1 2 3 4]
索引结果为： 4
索引结果为： [3 4]
索引结果为： [1]
索引结果为： 4


In [2]:
# 创建二维数组
arr2 = np.array([[1, 2, 3, 4],[4, 5, 6, 7], [7, 8, 9, 10]])
print('创建的数组为：\n',arr2)
print('数组类型为：',arr2.dtype)  #查看数组类型
print('数组元素个数为：',arr2.size)  #查看数组元素个数
print('数组每个元素大小为：',arr2.itemsize)  #查看数组每个元素大小、

创建的数组为：
 [[ 1  2  3  4]
 [ 4  5  6  7]
 [ 7  8  9 10]]
数组类型为： int64
数组元素个数为： 12
数组每个元素大小为： 8


## 4.2 创建矩阵对象

In [3]:
import numpy as np  #导入NumPy库
matr1 = np.mat("1 2 3;4 5 6;7 8 9") #使用分号隔开数据
print('创建的矩阵为：\n',matr1)

matr2 = np.matrix([[123],[456],[789]])
print('创建的矩阵为：\n',matr2)

创建的矩阵为：
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
创建的矩阵为：
 [[123]
 [456]
 [789]]


In [4]:
matr1 = np.mat("1 2 3;4 5 6;7 8 9")  #创建矩阵
print('创建的矩阵为：\n',matr1)

matr2 = matr1*3  #矩阵与数相乘
print('创建的矩阵为：\n',matr2)
print('矩阵相加结果为：\n',matr1+matr2)  #矩阵相加
print('矩阵相减结果为：\n',matr1-matr2)  #矩阵相减
print('矩阵相乘结果为：\n',matr1*matr2)  #矩阵相乘
print('矩阵对应元素相乘结果为：\n',np.multiply(matr1,matr2))

创建的矩阵为：
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
创建的矩阵为：
 [[ 3  6  9]
 [12 15 18]
 [21 24 27]]
矩阵相加结果为：
 [[ 4  8 12]
 [16 20 24]
 [28 32 36]]
矩阵相减结果为：
 [[ -2  -4  -6]
 [ -8 -10 -12]
 [-14 -16 -18]]
矩阵相乘结果为：
 [[ 90 108 126]
 [198 243 288]
 [306 378 450]]
矩阵对应元素相乘结果为：
 [[  3  12  27]
 [ 48  75 108]
 [147 192 243]]


## 4.3 简单统计分析

In [5]:
np.random.seed(42)  #设置随机种子
arr = np.random.randint(1,10,size = 10)  #生成随机数
print('创建的数组为：',arr)

arr.sort()  #直接排序
print('排序后数组为：',arr)
print('去重后的数组为：',np.unique(arr))

创建的数组为： [7 4 8 5 7 3 7 8 5 4]
排序后数组为： [3 4 4 5 5 7 7 7 8 8]
去重后的数组为： [3 4 5 7 8]


## 4.4 拆分数据
### groupby方法

In [6]:
import pandas as pd
import numpy as np

detail = pd.read_table('../data/meal_order_detail.csv', sep = ',',encoding = 'utf')
detailGroup = detail[['order_id','counts', 'amounts']].groupby(by = 'order_id')
print('分组后的订单详情表为：',detailGroup)
print('订单详情表分组后前5组每组的均值为：\n', detailGroup.mean().head())

分组后的订单详情表为： <pandas.core.groupby.generic.DataFrameGroupBy object at 0x7ffd7b5b2e10>
订单详情表分组后前5组每组的均值为：
             counts    amounts
order_id                     
137       1.500000  32.333333
165       1.166667  52.944444
166       1.400000  48.200000
171       1.428571  36.285714
177       1.000000  34.250000


## 4.5 聚合数据
### agg方法

In [7]:
print('订单详情表的菜品销量与售价的和与均值为：\n',
      detail[['counts','amounts']].agg([np.sum,np.mean]))

订单详情表的菜品销量与售价的和与均值为：
            counts        amounts
sum   3088.000000  125992.000000
mean     1.111191      45.337172


### apply方法

In [8]:
print('订单详情表的菜品销量与售价的均值为：\n',
      detail[['counts','amounts']].apply(np.mean))

订单详情表的菜品销量与售价的均值为：
 counts      1.111191
amounts    45.337172
dtype: float64


### transform方法

In [9]:
print('订单详情表的菜品销量与售价的两倍为：\n',
      detail[['counts','amounts']].transform(lambda x:x*2).head(4))

订单详情表的菜品销量与售价的两倍为：
    counts  amounts
0       2       98
1       2       96
2       2       60
3       2       50


## 4.6 创建透视表

In [10]:
import pandas as pd
import numpy as np

detail = pd.read_table('../data/meal_order_detail.csv', sep = ',',encoding = 'utf')
detailPivot = pd.pivot_table(detail[[
      'order_id','counts','amounts']],
      index = 'order_id')
print('以order_id作为分组键创建的订单透视表为：\n',
       detailPivot.head(10))

以order_id作为分组键创建的订单透视表为：
             amounts    counts
order_id                     
137       32.333333  1.500000
165       52.944444  1.166667
166       48.200000  1.400000
171       36.285714  1.428571
177       34.250000  1.000000
193       29.750000  1.000000
201       29.500000  1.250000
203       34.000000  1.000000
239       45.500000  1.000000
242       32.500000  1.833333


## 4.7 创建交叉表

In [11]:
detailCross = pd.crosstab(
      index=detail['order_id'],
      columns=detail['dishes_name'],
      values = detail['counts'],aggfunc = np.sum)
print('以order_id和dishes_name为分组键counts为值的透视表前5行5列为：\n',detailCross.iloc[:5,:5])

以order_id和dishes_name为分组键counts为值的透视表前5行5列为：
 dishes_name   42度海之蓝   北冰洋汽水   38度剑南春   50度古井贡酒  52度泸州老窖 
order_id                                                 
137              NaN      NaN      NaN      NaN       NaN
165              NaN      NaN      1.0      NaN       NaN
166              NaN      NaN      NaN      NaN       NaN
171              NaN      NaN      NaN      NaN       NaN
177              NaN      NaN      NaN      NaN       NaN
