In [1]:
#导入包
import numpy as np
import pandas as pd

## 二维数据分析：NumPy

In [2]:
'''
Numpy二维数据结构：Array
'''
#定义二维数组
a=np.array([
    [1,2,3,4],
    [5,6,7,8],
    [9,10,11,12]
])

In [4]:
#获取行号是0，列号是2的元素a[0,2]
a[0, 2]

3

In [5]:
#获取第1行
a[:,0]

array([1, 5, 9])

In [6]:
#获取第1列
a[0,:]

array([1, 2, 3, 4])

Numpy数轴参数：axis

In [7]:
#如果没有指定数轴参数，会计算整个数组的平均值
a.mean()

6.5

In [8]:
#按轴计算：axis=1计算每一行
a.mean(axis=1)

array([ 2.5,  6.5, 10.5])

## Pandas二维数组：数据框（DataFrame） 

定义数据框

In [19]:
'''
Pandas二维数组：数据框（DataFrame） 
'''
#第1步：定义一个字典，映射列名与对应列的值
salesDict={
    '购药时间':['2018-01-01 星期五','2018-01-02 星期六','2018-01-06 星期三'],
    '社保卡号':['001616528','001616528','0012602828'],
    '商品编码':[236701,236701,236701],
    '商品名称':['强力VC银翘片','清热解毒口服液','感康'],
    '销售数量':[6,1,2],
    '应收金额':[82.8,28,16.8],
    '实收金额':[69,24.64,15]
}

'''
不导入有序字典，需要指定columns，很繁琐
salesDf=pd.DataFrame(salesDict,
                    columns = ['购药时间','社保卡号','商品编码','商品名称','销售数量','应收金额','实收金额'])
'''

#导入有序字典
from collections import OrderedDict
#定义一个有序字典
salesOrderDict=OrderedDict(salesDict)

#定义数据框：传入字典，列名
salesDf=pd.DataFrame(salesOrderDict)

In [20]:
salesDf

Unnamed: 0,购药时间,社保卡号,商品编码,商品名称,销售数量,应收金额,实收金额
0,2018-01-01 星期五,1616528,236701,强力VC银翘片,6,82.8,69.0
1,2018-01-02 星期六,1616528,236701,清热解毒口服液,1,28.0,24.64
2,2018-01-06 星期三,12602828,236701,感康,2,16.8,15.0


In [25]:
#平均值：是按每列来求平均值
salesDf.mean()

商品编码    236701.000000
销售数量         3.000000
应收金额        42.533333
实收金额        36.213333
dtype: float64

查询数据：iloc属性用于根据位置获取值

In [22]:
'''
iloc属性用于根据位置获取值
'''
#查询第1行第2列的元素
salesDf.iloc[0,1]

'001616528'

In [66]:
#获取第1行，:代表所有列
salesDf.iloc[0,:]

商品名称           强力VC银翘片
商品编码            236701
实收金额                69
应收金额              82.8
社保卡号         001616528
购药时间    2018-01-01 星期五
销售数量                 6
Name: 0, dtype: object

In [67]:
#获取第1列，:代表所有行
salesDf.iloc[:,0]

0    强力VC银翘片
1    清热解毒口服液
2         感康
Name: 商品名称, dtype: object

查询数据：loc属性用于根据索引获取值

In [70]:
'''
loc属性用于根据索引获取值
'''
#查询第1行第1列的元素
salesDf.loc[0,'商品编码']

236701

In [73]:
#获取第1行
salesDf.loc[0,:]

商品名称           强力VC银翘片
商品编码            236701
实收金额                69
应收金额              82.8
社保卡号         001616528
购药时间    2018-01-01 星期五
销售数量                 6
Name: 0, dtype: object

In [9]:
#获取“商品名称”这一列
#salesDf.loc[:,'商品名称']
#简单方法：获取“商品名称”这一列
salesDf['商品名称']

0    强力VC银翘片
1    清热解毒口服液
2         感康
Name: 商品名称, dtype: object

数据框复杂查询：切片功能

In [13]:
#通过列表来选择某几列的数据
salesDf[['商品名称','销售数量']]

Unnamed: 0,商品名称,销售数量
0,强力VC银翘片,6
1,清热解毒口服液,1
2,感康,2


In [19]:
#通过切片功能，获取指定范围的列
salesDf.loc[:,'购药时间':'销售数量']

Unnamed: 0,购药时间,社保卡号,商品编码,商品名称,销售数量
0,2018-01-01 星期五,1616528,236701,强力VC银翘片,6
1,2018-01-02 星期六,1616528,236701,清热解毒口服液,1
2,2018-01-06 星期三,12602828,236701,感康,2


数据框复杂查询：条件判断

In [20]:
#通过条件判断筛选
#第1步：构建查询条件
querySer=salesDf.loc[:,'销售数量']>1

In [22]:
type(querySer)

pandas.core.series.Series

In [21]:
querySer

0     True
1    False
2     True
Name: 销售数量, dtype: bool

In [118]:
salesDf.loc[querySer,:]

Unnamed: 0,购药时间,社保卡号,商品编码,商品名称,销售数量,应收金额,实收金额
0,2018-01-01 星期五,1616528,236701,强力VC银翘片,6,82.8,69.0
2,2018-01-06 星期三,12602828,236701,感康,2,16.8,15.0


查看数据集描述统计信息

In [76]:
#读取Ecxcel数据
fileNameStr='./朝阳医院2018年销售数据.xlsx'
xls = pd.ExcelFile(fileNameStr)
salesDf = xls.parse('Sheet1')

In [77]:
#打印出前3行，以确保数据运行正常
salesDf.head(3)

Unnamed: 0,购药时间,社保卡号,商品编码,商品名称,销售数量,应收金额,实收金额
0,2018-01-01 星期五,1616528.0,236701.0,强力VC银翘片,6.0,82.8,69.0
1,2018-01-02 星期六,1616528.0,236701.0,清热解毒口服液,1.0,28.0,24.64
2,2018-01-06 星期三,12602828.0,236701.0,感康,2.0,16.8,15.0


In [78]:
#有多少行，多少列
salesDf.shape

(6578, 7)

In [79]:
#查看某一列的数据类型
salesDf.loc[:,'销售数量'].dtype

dtype('float64')

In [80]:
#查看每一列的统计数值
salesDf.describe()

Unnamed: 0,社保卡号,商品编码,销售数量,应收金额,实收金额
count,6576.0,6577.0,6577.0,6577.0,6577.0
mean,6091254000.0,1015869.0,2.386194,50.473803,46.31751
std,4889284000.0,513115.3,2.375202,87.595925,80.976702
min,1616528.0,236701.0,-10.0,-374.0,-374.0
25%,101423400.0,861456.0,1.0,14.0,12.32
50%,10016500000.0,861507.0,2.0,28.0,26.6
75%,10048820000.0,869069.0,2.0,59.6,53.0
max,12836120000.0,2367012.0,50.0,2950.0,2650.0


In [None]:
salesDf[0:5,]