- 数据读取
- DataFrame常用属性与方法
- 基础时间数据处理方法
- 分组聚合的原理与方法
- 透视表与交叉表的制作

# 读写不同数据源的数据

## 数据库数据的读写

- 需使用 pandas 和 SQLAlchemy（建立对应数据库的连接） 库
- SQLAlchemy配合相应数据库的python连接工具，MySQL需安装mysqlclient或者pymysql库【命令行窗口==》conda info -e==》查看环境，记住想安装库到相应环境的环境名==》 activate 环境名（要安装pymysql的环境）==》 pip intall pymysql】，oracle需安装cx_oracle库
- 使用create_engine函数建立一个数据库连接

### 数据库数据的读取

- read_sql_table ==> 读取数据库的一个表格，不能实现查询操作
- read_sql_query ==> 只能实现查询操作，不能读取数据库的某个表
- read_sql ========> 两者的综合

``` python
pd.read_sql_table(table_name, con, schema=None, index_col=None, coerce_float=True, parse_dates=None, columns=None, chunksize=None)
pd.read_sql_query(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, chunksize=None)
pd.read_sql(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, columns=None, chunksize=None)
```

In [1]:
import pandas as pd

In [2]:
from sqlalchemy import create_engine
# 创建MySQL连接器，用户名root，密码1234
# 地址127.0.0.1 ， 数据库名称 testdb，编码UTF-8
engine = create_engine('mysql+pymysql://root:123000@127.0.0.1:3306/testdb?charset=utf8')
print(engine)

Engine(mysql+pymysql://root:***@127.0.0.1:3306/testdb?charset=utf8)


- create_engine的输入参数格式（MySQL和oracle）：
    - `数据库产品名+连接工具名+://用户名:密码@数据库IP地址:数据库端口号/数据库名称?charset=数据库数据编码`
- 三个读取函数的参数说明
<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>sql或table_name</td>
        <td>string——读取的数据库的表明或sql语句</td>
    </tr>
    <tr>
        <td>con</td>
        <td>数据库连接——数据库的连接信息</td>
    </tr>
    <tr>
        <td>index_col</td>
        <td>int、sequence、False——设定的列作为行名，如果是一个数列，是多重索引</td>
    </tr>
    <tr>
        <td>coerce_float</td>
        <td>boolean——将数据库的decimal类型数据转换为pandas中的float64类型</td>
    </tr>
    <tr>
        <td>columns</td>
        <td>list——读取数据的列名</td>
    </tr>
</table>

- 数据库服务启动
    - net start mysql
    - mysql -u root -p 
- 设置密码
    - SET PASSWORD FOR 'root'@'localhost' ='123000';
- 创建数据库
    - CREATE DATABASE testdb;
    - use testdb;
- 运行sql代码：
    - source: E:\Program Files\Mysql\mysql-8.0.11-winx64\Data\testdb\meal_order_detail1.sql

- 错误 -- sqlalchemy.exc.InternalError: (pymysql.err.InternalError) (1193, "Unknown system variable 'tx_isolation'")
- 在sqlalchemy包文件所在目录中找到base.py，打开，将tx_isolation改为transaction_isolation
- ![2018-07-22_164619.png](https://i.loli.net/2018/07/22/5b5444a760e76.png)

In [4]:
## 使用read_sql_query查看tesdb中的数据表数目
formlist = pd.read_sql_query('show tables', con = engine)
print('testdb数据库数据表清单为:','\n',formlist)

testdb数据库数据表清单为: 
      Tables_in_testdb
0  meal_order_detail1
1  meal_order_detail2
2  meal_order_detail3


In [5]:
## 使用read_sql_table读取订单详情表
detail1 = pd.read_sql_table('meal_order_detail1',con=engine)
print('使用read_sql_table读取订单详情表的长度为:',len(detail1))

使用read_sql_table读取订单详情表的长度为: 2779


In [6]:
## 使用read_sql读取订单详情表

detail2 = pd.read_sql('select * from meal_order_detail2',con=engine)
print('使用read_sql函数+sql语句读取的订单详情表长度为:',len(detail2))
detail3 = pd.read_sql('meal_order_detail3',con=engine)
print('使用read_sql函数+表格名称读取的订单详情表长度为:', len(detail3))

使用read_sql函数+sql语句读取的订单详情表长度为: 3647
使用read_sql函数+表格名称读取的订单详情表长度为: 3611


###  数据库数据的写入

- 同样需要SQLAlchemy库的create_engine的连接
- pd.DataFrame.to_sql(self, name, con, flavor=None, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None)
<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>name</td>
        <td>string——数据库的表名</td>
    </tr>
    <tr>
        <td>con</td>
        <td>数据库连接——数据库的连接信息</td>
    </tr>
    <tr>
        <td>if_exists</td>
        <td>fail、replace、append——分别表示 表明存在则不写入，将原数据库删除再重新创建，原数据库基础上追加数据</td>
    </tr>
    <tr>
        <td>index</td>
        <td>boolean——是否将行索引作为数据传入数据库</td>
    </tr>
    <tr>
        <td>index_lable</td>
        <td>string或sequence——是否引用索引名称，若index为true，则此参数为None，使用默认名称，如果为多重索引，须使用sequence形式</td>
    </tr>
    <tr>
        <td>dtype</td>
        <td>dict——写入的数据类型，列名为key，数据格式为values</td>
    </tr>
</table>

In [7]:
## 使用to_sql存储orderData
detail1.to_sql('test1',con=engine,index=False,if_exists='replace')
## 使用read_sql读取test表
formlist1 = pd.read_sql_query('show tables', con=engine)
print('新增一个表格后testdb数据库数据表清单为：','\n',formlist1)

新增一个表格后testdb数据库数据表清单为： 
      Tables_in_testdb
0  meal_order_detail1
1  meal_order_detail2
2  meal_order_detail3
3               test1


## 读写文本文件

- pd.read_table(filepath_or_buffer, sep='\t', header='infer', names=None, index_col=None, dtype=None, engine=None, nrows=None, encoding=None)
- pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, dtype=None, engine=None, nrows=None, encoding=None)
<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>filepath</td>
        <td>string——路径</td>
    </tr>
    <tr>
        <td>sep</td>
        <td>string——分隔符，read_csv默认为“,”，read_table默认为“Tab”</td>
    </tr>
    <tr>
        <td>names</td>
        <td>array——列名</td>
    </tr>
    <tr>
        <td>index_col</td>
        <td>int、False或sequence——索引列的位置，sequence为多重索引</td>
    </tr>
    <tr>
        <td>engine</td>
        <td>c或python——数据解析引擎，默认为C</td>
    </tr>
    <tr>
        <td>dtype</td>
        <td>dict——写入的数据类型，列名为key，数据格式为values</td>
    </tr>
    <tr>
        <td>nrows</td>
        <td>int——读取前n行</td>
    </tr>
</table>

In [8]:
## 使用read_table读取订单信息表
order = pd.read_table('./pandas/data/meal_order_info.csv', sep = ',',encoding = 'gbk')
print('使用read_table读取的订单信息表的长度为：',len(order))

使用read_table读取的订单信息表的长度为： 945


In [9]:
## 使用read_csv读取订单信息表
order1 = pd.read_csv('./pandas/data/meal_order_info.csv', encoding = 'gbk')
print('使用read_csv读取的订单信息表的长度为：',len(order1))

使用read_csv读取的订单信息表的长度为： 945


- 读取菜品订单信息表

In [10]:
## 使用read_table读取菜品订单信息表,sep = ';'
order2 = pd.read_table('./pandas/data/meal_order_info.csv', sep = ';',encoding = 'gbk')
print('分隔符为;时订单信息表为：\n',order2[:10])

分隔符为;时订单信息表为：
   info_id,"emp_id","number_consumers","mode","dining_table_id","dining_table_name","expenditure","dishes_count","accounts_payable","use_start_time","check_closed","lock_time","cashier_id","pc_id","order_number","org_id","print_doc_bill_num","lock_table_info","order_status","phone","name"
0  417,1442,4,NA,1501,1022,165,5,165,"2016/8/1 11...                                                                                                                                                                                                                                            
1  301,1095,3,NA,1430,1031,321,6,321,"2016/8/1 11...                                                                                                                                                                                                                                            
2  413,1147,6,NA,1488,1009,854,15,854,"2016/8/1 1...                                                                  

In [11]:
## 使用read_csv读取菜品订单信息表,header=None
order3 = pd.read_csv('./pandas/data/meal_order_info.csv', sep = ',',header = None,encoding = 'gbk')
print('订单信息表为：','\n',order3[:5])

订单信息表为： 
         0       1                 2     3                4   \
0  info_id  emp_id  number_consumers  mode  dining_table_id   
1      417    1442                 4   NaN             1501   
2      301    1095                 3   NaN             1430   
3      413    1147                 6   NaN             1488   
4      415    1166                 4   NaN             1502   

                  5            6             7                 8   \
0  dining_table_name  expenditure  dishes_count  accounts_payable   
1               1022          165             5               165   
2               1031          321             6               321   
3               1009          854            15               854   
4               1023          466            10               466   

                  9   ...                  11          12     13  \
0     use_start_time  ...           lock_time  cashier_id  pc_id   
1  2016/8/1 11:05:36  ...   2016/8/1 11:11:46         NaN   

In [12]:
## 使用utf-8解析菜品订单信息表
order4 = pd.read_csv('./pandas/data/meal_order_info.csv', sep = ',',encoding = 'utf-8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 0: invalid continuation byte

- pd.DataFrame.to_csv(path_or_buf=None, sep=',', na_rep='', columns=None, header=True, index=True, index_label=None, mode='w', encoding=None)
<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>path_or_buf</td>
        <td>string——路径</td>
    </tr>
    <tr>
        <td>sep</td>
        <td>string——分隔符，read_csv默认为“,”</td>
    </tr>
    <tr>
        <td>na_rep</td>
        <td>string——缺失值</td>
    </tr>
    <tr>
        <td>columns</td>
        <td>list——写出的列名</td>
    </tr>
    <tr>
        <td>header</td>
        <td>boolean——是否将列名写出</td>
    </tr>
    <tr>
        <td>index</td>
        <td>boolean——是否将行名（索引）写出</td>
    </tr>
    <tr>
        <td>index_label</td>
        <td>sequence——索引名</td>
    </tr>
    <tr>
        <td>mode</td>
        <td>特定string——写入模式</td>
    </tr>
        <tr>
        <td>encoding</td>
        <td>特定string——存储文件编码格式</td>
    </tr>
</table>

In [13]:
import os
print('订单信息表写入文本文件前目录内文件列表为：\n', os.listdir('./pandas'))
order.to_csv('./pandas/orderInfo.csv', sep=';', index=False)
print('订单信息表写入文本文件后目录内文件列表为：\n', os.listdir('./pandas'))

订单信息表写入文本文件前目录内文件列表为：
 ['data']
订单信息表写入文本文件后目录内文件列表为：
 ['data', 'orderInfo.csv']


- 读写excel

- pd.read_excel(io, sheetname=0, header=0, index_col=None, names=None, dtype=None)
<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>io</td>
        <td>string——路径</td>
    </tr>
    <tr>
        <td>sheetname</td>
        <td>string, int——excel表内数据的分表位置</td>
    </tr>
    <tr>
        <td>names</td>
        <td>array——列名</td>
    </tr>
    <tr>
        <td>header</td>
        <td>int或sequence——将某行数据作为列名，int表示将该列作为列名，sequence表示多重索引</td>
    </tr>
    <tr>
        <td>index_col</td>
        <td>int、sequence、False——索引列位置，sequence为多重索引</td>
    </tr>
    <tr>
        <td>dtype</td>
        <td>dict——写入的数据类型，（列名，数据格式）</td>
    </tr>
    </table>

In [15]:
user = pd.read_excel('./pandas/data/users.xlsx')## 读取user.xlsx文件
print('客户信息表长度为：',len(user))

客户信息表长度为： 734


- excel 存储

 ``` 
pd.DataFrame.to_excel(self, excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None,
                 header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None,
                 merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None)```
                       

In [17]:
print('客户信息表写入excel文件前目录内文件列表为：\n', os.listdir('./pandas'))
user.to_excel('./pandas/userInfo.xlsx')
print('客户信息表写入excel文件后目录内文件列表为：\n', os.listdir('./pandas'))

客户信息表写入excel文件前目录内文件列表为：
 ['data', 'orderInfo.csv']
客户信息表写入excel文件后目录内文件列表为：
 ['data', 'orderInfo.csv', 'userInfo.xlsx']


- 小任务
    - 根据餐饮企业给出的数据（以数据库形式存在，IP 127.0.0.1，用户名root，密码123000，数据库名testdb，表名meal_order_detail），读取订单详情数据库的数据

In [2]:
from sqlalchemy import create_engine
import pandas as pd

## 创建一个mysql连接器，用户名为root，密码为1234
## 地址为127.0.0.1，数据库名称为testdb
engine = create_engine('mysql+pymysql://root:123000@127.0.0.1:3306/testdb?charset=utf8')
## 使用read_sql_table读取订单详情表格
order1 = pd.read_sql_table('meal_order_detail1',con=engine)
print("订单详情表1的长度为：",len(order1))
order2 = pd.read_sql_table('meal_order_detail2',con=engine)
print("订单详情表2的长度为：",len(order2))
order3 = pd.read_sql_table('meal_order_detail3',con=engine)
print("订单详情表3的长度为：",len(order3))

  result = self._query(query)
  result = self._query(query)


订单详情表1的长度为： 2779
订单详情表2的长度为： 3647
订单详情表3的长度为： 3611


- 读取订单信息 csv数据
- 分隔符','，编码'UTF-8'

In [3]:
## 使用read_table读取订单信息表
orderInfo = pd.read_table('./pandas/data/meal_order_info.csv', sep = ',',encoding = 'gbk')
print('订单信息表的长度为：',len(orderInfo))

订单信息表的长度为： 945


- 读取客户信息Excel数据
- 表名 Sheet1

In [4]:
## 读取user.xlsx文件
userInfo = pd.read_excel('./pandas/data/users.xlsx', sheetname = 'users1')
print('客户信息表的长度为：',len(userInfo))

客户信息表的长度为： 734


# DataFrame的常用操作

- 查看数据的 大小 维度 等基本信息
- 查看销售菜品数据的基本统计信息
- 剔除 全为空值 或者 所有元素取值相同的列

## DataFrame的常用属性

- values index columns dtypes ===  元素  索引 列名  类型

In [1]:
from sqlalchemy import create_engine
import pandas as pd
## 创建数据库连接
engine = create_engine('mysql+pymysql://root:123000@127.0.0.1:3306/testdb?charset=utf8')
detail= pd.read_sql_table('meal_order_detail1',con = engine)
print('订单详情表的索引为：', detail.index)

  result = self._query(query)
  result = self._query(query)


订单详情表的索引为： RangeIndex(start=0, stop=2779, step=1)


In [2]:
print('订单详情表的所有值为：','\n', detail.values)

订单详情表的所有值为： 
 [['2956' '417' '610062' ..., 'NA' 'caipu/104001.jpg' '1442']
 ['2958' '417' '609957' ..., 'NA' 'caipu/202003.jpg' '1442']
 ['2961' '417' '609950' ..., 'NA' 'caipu/303001.jpg' '1442']
 ..., 
 ['6756' '774' '609949' ..., 'NA' 'caipu/404005.jpg' '1138']
 ['6763' '774' '610014' ..., 'NA' 'caipu/302003.jpg' '1138']
 ['6764' '774' '610017' ..., 'NA' 'caipu/302006.jpg' '1138']]


In [3]:
print('订单详情表的列名为：','\n', detail.columns)

订单详情表的列名为： 
 Index(['detail_id', 'order_id', 'dishes_id', 'logicprn_name',
       'parent_class_name', 'dishes_name', 'itemis_add', 'counts', 'amounts',
       'cost', 'place_order_time', 'discount_amt', 'discount_reason',
       'kick_back', 'add_inprice', 'add_info', 'bar_code', 'picture_file',
       'emp_id'],
      dtype='object')


In [4]:
print('订单详情表的数据类型为：','\n', detail.dtypes)

订单详情表的数据类型为： 
 detail_id                    object
order_id                     object
dishes_id                    object
logicprn_name                object
parent_class_name            object
dishes_name                  object
itemis_add                   object
counts                      float64
amounts                     float64
cost                         object
place_order_time     datetime64[ns]
discount_amt                 object
discount_reason              object
kick_back                    object
add_inprice                  object
add_info                     object
bar_code                     object
picture_file                 object
emp_id                       object
dtype: object


- size ndim shape <==> 元素个数  维度数  数据形状

In [5]:
## 查看DataFrame的元素个数
print('订单详情表的元素个数为：', detail.size)
print('订单详情表的维度数为：', detail.ndim) ## 查看DataFrame的维度数
print('订单详情表的形状为：', detail.shape) ## 查看DataFrame的形状

订单详情表的元素个数为： 52801
订单详情表的维度数为： 2
订单详情表的形状为： (2779, 19)


- T  ==>  转置

In [6]:
print('订单详情表转置前形状为：',detail.shape)
print('订单详情表转置后形状为为：',detail.T.shape)

订单详情表转置前形状为： (2779, 19)
订单详情表转置后形状为为： (19, 2779)


## 增删改查

- 增加/删除一行/一列
- 修改某一值
- 在某个区间进行值替换

- DataFrame的单列数据是一个Series
- DataFrame是一个带标签的二维数组，标签相当于列名
- 以字典访问某一个key的值的方式使用对应的列名，即可实现数据访问

In [7]:
## 使用访问字典方式取出orderInfo中的某一列
order_id = detail['order_id']
print('订单详情表中的order_id的形状为:','\n',order_id.shape)

订单详情表中的order_id的形状为: 
 (2779,)


- 也可以以访问属性的方式访问数据，不建议使用，与方法重名就不好了

In [8]:
order_id = detail.order_id
print('订单详情表中的order_id的形状为:','\n',order_id.shape)

订单详情表中的order_id的形状为: 
 (2779,)


- 单列多行数据获取

In [9]:
dishes_name5 = detail['dishes_name'][:5]
print('订单详情表中的dishes_name前5个元素为：','\n',dishes_name5)

订单详情表中的dishes_name前5个元素为： 
 0     蒜蓉生蚝
1    蒙古烤羊腿
2     大蒜苋菜
3    芝麻烤紫菜
4      蒜香包
Name: dishes_name, dtype: object


- 多列数据

In [10]:
orderDish = detail[['order_id','dishes_name']][:5]
print('订单详情表中的order_id和dishes_name前5个元素为：', '\n',orderDish)

订单详情表中的order_id和dishes_name前5个元素为： 
   order_id dishes_name
0      417        蒜蓉生蚝
1      417       蒙古烤羊腿
2      417        大蒜苋菜
3      417       芝麻烤紫菜
4      417         蒜香包


- 部分行数据

In [11]:
order5 = detail[:][1:6]
print('订单详情表的1-6行元素为：','\n',order5)

订单详情表的1-6行元素为： 
   detail_id order_id dishes_id logicprn_name parent_class_name dishes_name  \
1      2958      417    609957            NA                NA       蒙古烤羊腿   
2      2961      417    609950            NA                NA        大蒜苋菜   
3      2966      417    610038            NA                NA       芝麻烤紫菜   
4      2968      417    610003            NA                NA         蒜香包   
5      1899      301    610019            NA                NA         白斩鸡   

  itemis_add  counts  amounts cost    place_order_time discount_amt  \
1          0     1.0     48.0   NA 2016-08-01 11:07:00           NA   
2          0     1.0     30.0   NA 2016-08-01 11:07:00           NA   
3          0     1.0     25.0   NA 2016-08-01 11:11:00           NA   
4          0     1.0     13.0   NA 2016-08-01 11:11:00           NA   
5          0     1.0     88.0   NA 2016-08-01 11:15:00           NA   

  discount_reason kick_back add_inprice add_info bar_code      picture_file  \
1       

- head  tail

In [12]:
print('订单详情表中前五行数据为','\n',detail.head()[['detail_id', 'order_id', 'dishes_id', 'dishes_name', 'amounts', 'place_order_time']])
print('订单详情表中后五个元素为：','\n',detail.tail()[['detail_id', 'order_id', 'dishes_id', 'dishes_name', 'amounts', 'place_order_time']])

订单详情表中前五行数据为 
   detail_id order_id dishes_id dishes_name  amounts    place_order_time
0      2956      417    610062        蒜蓉生蚝     49.0 2016-08-01 11:05:00
1      2958      417    609957       蒙古烤羊腿     48.0 2016-08-01 11:07:00
2      2961      417    609950        大蒜苋菜     30.0 2016-08-01 11:07:00
3      2966      417    610038       芝麻烤紫菜     25.0 2016-08-01 11:11:00
4      2968      417    610003         蒜香包     13.0 2016-08-01 11:11:00
订单详情表中后五个元素为： 
      detail_id order_id dishes_id dishes_name  amounts    place_order_time
2774      6750      774    610011       白饭/大碗     10.0 2016-08-10 21:56:00
2775      6742      774    609996         牛尾汤     40.0 2016-08-10 21:56:00
2776      6756      774    609949      意文柠檬汁      13.0 2016-08-10 22:01:00
2777      6763      774    610014        金玉良缘     30.0 2016-08-10 22:03:00
2778      6764      774    610017        酸辣藕丁     33.0 2016-08-10 22:04:00


- loc iloc
- loc  ==> 索引名称的切片方法 ==》 实现所有单层索引操作
- pd.DataFrame.loc[行索引名称 或 条件, 列索引名称]
- iloc  ==》 接收的必须是 行索引 和 列索引 的位置
- pd.DataFrame.iloc[行索引位置, 列索引位置]

In [13]:
dishes_name1 = detail.loc[:, 'dishes_name']
print('使用loc提取dishes_name列的size为：', dishes_name1.size)
print()
dishes_name1[:5]

使用loc提取dishes_name列的size为： 2779



0     蒜蓉生蚝
1    蒙古烤羊腿
2     大蒜苋菜
3    芝麻烤紫菜
4      蒜香包
Name: dishes_name, dtype: object

In [14]:
dishes_name2 = detail.iloc[:,5]
print('使用iloc提取第5列的size为：', dishes_name2.size)
print()
dishes_name2[:5]

使用iloc提取第5列的size为： 2779



0     蒜蓉生蚝
1    蒙古烤羊腿
2     大蒜苋菜
3    芝麻烤紫菜
4      蒜香包
Name: dishes_name, dtype: object

- 多列切片

In [15]:
orderDish1 = detail.loc[:,['order_id','dishes_name']]
print('使用loc提取order_id和dishes_name列的size为：', orderDish1.size)

使用loc提取order_id和dishes_name列的size为： 5558


In [16]:
orderDish2 = detail.iloc[:,[1,3]]
print('使用iloc提取第1和第3列的size为：', orderDish1.size)

使用iloc提取第1和第3列的size为： 5558


- 花式切片

In [17]:
print('列名为order_id和dishes_name的行名为3的数据为：\n', detail.loc[3,['order_id','dishes_name']])
print('----------------------------')
print('列名为order_id和dishes_name行名为2,3,4,5,6的数据为：\n', detail.loc[2:6,['order_id','dishes_name']])
print('----------------------------')
print('列位置为1和3行位置为3的数据为：\n',detail.iloc[3,[1,3]])
print('----------------------------')
print('列位置为1和3行位置为2,3,4,5,6的数据为：\n', detail.iloc[2:7,[1,3]])

列名为order_id和dishes_name的行名为3的数据为：
 order_id         417
dishes_name    芝麻烤紫菜
Name: 3, dtype: object
----------------------------
列名为order_id和dishes_name行名为2,3,4,5,6的数据为：
   order_id dishes_name
2      417        大蒜苋菜
3      417       芝麻烤紫菜
4      417         蒜香包
5      301         白斩鸡
6      301        香烤牛排
----------------------------
列位置为1和3行位置为3的数据为：
 order_id         417
logicprn_name     NA
Name: 3, dtype: object
----------------------------
列位置为1和3行位置为2,3,4,5,6的数据为：
   order_id logicprn_name
2      417            NA
3      417            NA
4      417            NA
5      301            NA
6      301            NA


- 可以看出  loc  若行索引名称是一个区间，则前后均是闭区间
-        iloc 行索引位置或列索引位置是一个区间，则前闭后开区间

- 条件切片

In [18]:
## loc内部传入表达式
print('detail中order_id为458的dishes_name为：\n', detail.loc[detail['order_id']=='458', ['order_id','dishes_name']])

detail中order_id为458的dishes_name为：
     order_id dishes_name
145      458       蒜香辣花甲
146      458        剁椒鱼头
147      458     凉拌蒜蓉西兰花
148      458        木须豌豆
149      458        辣炒鱿鱼
150      458        酸辣藕丁
151      458       炝炒大白菜
152      458       香菇鸡肉粥
153      458        干锅田鸡
154      458     桂圆枸杞鸽子汤
155      458       五香酱驴肉
156      458    路易拉菲红酒干红
157      458       避风塘炒蟹
158      458       白饭/大碗


In [20]:
print('detail中order_id为458的第1,5列数据为：\n', detail.iloc[(detail['order_id']=='458').values,[1,5]])

detail中order_id为458的第1,5列数据为：
     order_id dishes_name
145      458       蒜香辣花甲
146      458        剁椒鱼头
147      458     凉拌蒜蓉西兰花
148      458        木须豌豆
149      458        辣炒鱿鱼
150      458        酸辣藕丁
151      458       炝炒大白菜
152      458       香菇鸡肉粥
153      458        干锅田鸡
154      458     桂圆枸杞鸽子汤
155      458       五香酱驴肉
156      458    路易拉菲红酒干红
157      458       避风塘炒蟹
158      458       白饭/大碗


In [21]:
(detail['order_id']=='458').values

array([False, False, False, ..., False, False, False], dtype=bool)

- ix
- loc 和 iloc的融合，既可以接收索引名称，又可以接收位置

In [23]:
print('列名为dishes_name，行名为2,3,4,5,6的数据：\n', detail.loc[2:6, 'dishes_name'])

列名为dishes_name，行名为2,3,4,5,6的数据：
 2     大蒜苋菜
3    芝麻烤紫菜
4      蒜香包
5      白斩鸡
6     香烤牛排
Name: dishes_name, dtype: object


In [24]:
print('列位置为5,行位置为2至6的数据为：\n',detail.iloc[2:6,5])

列位置为5,行位置为2至6的数据为：
 2     大蒜苋菜
3    芝麻烤紫菜
4      蒜香包
5      白斩鸡
Name: dishes_name, dtype: object


In [25]:
print('列位置为5行名为2至6的数据为：', '\n',detail.ix[2:6,5])

列位置为5行名为2至6的数据为： 
 2     大蒜苋菜
3    芝麻烤紫菜
4      蒜香包
5      白斩鸡
6     香烤牛排
Name: dishes_name, dtype: object


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  if __name__ == '__main__':


- 使用ix参数时，尽量保持行索引名称和行索引位置重叠，使用时就无需考虑取值区间的问题，一律为闭区间
- 数据量巨大时，效率低于loc 和 iloc

- **更改DataFrame数据**

In [26]:
detail.loc[detail['order_id']=='458', 'order_id'] = '45800'
print('更改后detail中order_id为458的order_id为：\n', detail.loc[detail['order_id']=='458','order_id'])
print('更改后detail中order_id为45800的order_id为：\n', detail.loc[detail['order_id']=='45800','order_id'])

更改后detail中order_id为458的order_id为：
 Series([], Name: order_id, dtype: object)
更改后detail中order_id为45800的order_id为：
 145    45800
146    45800
147    45800
148    45800
149    45800
150    45800
151    45800
152    45800
153    45800
154    45800
155    45800
156    45800
157    45800
158    45800
Name: order_id, dtype: object


- 直接对DataFrame更改，操作无法撤销，注意备份

- **DataFrame增添数据**

In [27]:
detail['payment'] =  detail['counts']*detail['amounts']
print('detail新增列payment的前五行为：','\n', detail['payment'].head())

detail新增列payment的前五行为： 
 0    49.0
1    48.0
2    30.0
3    25.0
4    13.0
Name: payment, dtype: float64


- 若新增一列值是相同的，直接赋常量即可

In [28]:
detail['pay_way'] = '现金支付'
print('detail新增列pay_way的前五行为：','\n', detail['pay_way'].head())

detail新增列pay_way的前五行为： 
 0    现金支付
1    现金支付
2    现金支付
3    现金支付
4    现金支付
Name: pay_way, dtype: object


- **删除某列或某行**

- `pd.DataFrame.drop(self, labels, axis=0, level=None, inplace=False, errors='raise')`
<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>labels</td>
        <td>string或array——删除的行或列的标签</td>
    </tr>
    <tr>
        <td>axis</td>
        <td>0或 1——操作轴向，默认0</td>
    </tr>
    <tr>
        <td>levels</td>
        <td>int或索引名——标签所在级别</td>
    </tr>
    <tr>
        <td>inplace</td>
        <td>boolean——是否对原数据生效</td>
    </tr>
</table>

- 删除某列

In [29]:
print('删除pay_way前deatil的列索引为：','\n',detail.columns)
detail.drop(labels = 'pay_way',axis = 1,inplace = True)
print('删除pay_way后detail的列索引为：','\n',detail.columns)

删除pay_way前deatil的列索引为： 
 Index(['detail_id', 'order_id', 'dishes_id', 'logicprn_name',
       'parent_class_name', 'dishes_name', 'itemis_add', 'counts', 'amounts',
       'cost', 'place_order_time', 'discount_amt', 'discount_reason',
       'kick_back', 'add_inprice', 'add_info', 'bar_code', 'picture_file',
       'emp_id', 'payment', 'pay_way'],
      dtype='object')
删除pay_way后detail的列索引为： 
 Index(['detail_id', 'order_id', 'dishes_id', 'logicprn_name',
       'parent_class_name', 'dishes_name', 'itemis_add', 'counts', 'amounts',
       'cost', 'place_order_time', 'discount_amt', 'discount_reason',
       'kick_back', 'add_inprice', 'add_info', 'bar_code', 'picture_file',
       'emp_id', 'payment'],
      dtype='object')


- 删除某行
- labels参数换位对应的行索引，axis设为0

In [30]:
print('删除1-10行前detail的长度为：',len(detail))
detail.drop(labels = range(1,11),axis = 0,inplace = True)
print('删除1-10行后detail的列索引为：',len(detail))

删除1-10行前detail的长度为： 2779
删除1-10行后detail的列索引为： 2769


- **描述分析DataFrame数据**

- 数值型数据

<table>
    <tr>
        <td>函数</td>
        <td>说明</td>
        <td>函数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>np.min</td>
        <td>最小值</td>
        <td>np.max</td>
        <td>最大值</td>
    </tr>
    <tr>
        <td>np.mean</td>
        <td>均值</td>
        <td>np.ptp</td>
        <td>极差</td>
    </tr>
    <tr>
        <td>np.median</td>
        <td>中位数</td>
        <td>np.std</td>
        <td>标准差</td>
    </tr>
    <tr>
        <td>np.std</td>
        <td>方差</td>
        <td>np.cov</td>
        <td>协方差</td>
    </tr>
</table>
- pandas库基于numpy

In [31]:
import numpy as np
print('订单详情表中amount（价格）的平均值为：', np.mean(detail['amounts']))

订单详情表中amount（价格）的平均值为： 45.3430841459


In [32]:
print('订单详情表中amount（价格）的平均值为：', detail['amounts'].mean())

订单详情表中amount（价格）的平均值为： 45.3430841459


- describe方法，一次性得到 数值特征的 非空值数目，均值，四分位数，标准差

In [33]:
print('订单详情表counts和amounts两列的描述性统计为：\n', detail[['counts','amounts']].describe())

订单详情表counts和amounts两列的描述性统计为：
             counts      amounts
count  2769.000000  2769.000000
mean      1.111593    45.343084
std       0.626521    36.841316
min       1.000000     1.000000
25%       1.000000    25.000000
50%       1.000000    35.000000
75%       1.000000    56.000000
max      10.000000   178.000000


- 类别型特征的描述性统计
- 频数统计

In [34]:
print('订单详情表dishes_name频数统计结果前10为：\n', detail['dishes_name'].value_counts()[0:10])

订单详情表dishes_name频数统计结果前10为：
 白饭/大碗        91
凉拌菠菜         77
谷稻小庄         72
麻辣小龙虾        65
白饭/小碗        60
五色糯米饭(七色)    58
焖猪手          55
芝士烩波士顿龙虾     55
辣炒鱿鱼         53
水煮鱼          47
Name: dishes_name, dtype: int64


- pandas提供category类，可使用astype方法将目标特征的数据类型转换为category类型

In [35]:
detail['dishes_name'] = detail['dishes_name'].astype('category')
print('订单信息表dishes_name列转变数据类型后为：',detail['dishes_name'].dtypes)

订单信息表dishes_name列转变数据类型后为： category


- pandas支持对category类型数据进行描述性统计，非空元素的数目，类别的数目，数目最多的类别，数目最多类别的数目

In [36]:
print('订单信息表dishes_name的描述统计结果为：\n', detail['dishes_name'].describe())

订单信息表dishes_name的描述统计结果为：
 count      2769
unique      145
top       白饭/大碗
freq         91
Name: dishes_name, dtype: object


- **小任务**
    - 查看餐饮数据的大小与维度
    - 统计餐饮菜品的销售情况
    - 剔除全为空值或所有元素取值相同的列
   

In [39]:
from sqlalchemy import create_engine
import pandas as pd
engine = create_engine('mysql+pymysql://root:123000@127.0.0.1:3306/testdb?charset=utf8')
detail = pd.read_sql_table('meal_order_detail1', con = engine)
order = pd.read_table('./pandas/data/meal_order_info.csv', sep = ',',encoding = 'gbk')
user = pd.read_excel('./pandas/data/users.xlsx')
print('订单详情表的维度为：', detail.ndim)
print('订单信息表的维度为：', order.ndim)
print('客户信息表的维度为：', user.ndim)

print('订单详情表的形状为：', detail.shape)
print('订单信息表的形状为：', order.shape)
print('客户信息表的形状为：', user.shape)

print('订单详情表的元素个数为：', detail.size)
print('订单信息表的元素个数为：', order.size)
print('客户信息表的元素个数为：', user.size)


  result = self._query(query)
  result = self._query(query)


订单详情表的维度为： 2
订单信息表的维度为： 2
客户信息表的维度为： 2
订单详情表的形状为： (2779, 19)
订单信息表的形状为： (945, 21)
客户信息表的形状为： (734, 37)
订单详情表的元素个数为： 52801
订单信息表的元素个数为： 19845
客户信息表的元素个数为： 27158


In [40]:
print('------------------------------------------------')
print('---------------餐饮菜品的销售情况---------------')
print('------------------------------------------------')
print('订单详情表counts和amounts两列的描述性统计为：\n', detail.loc[:, ['counts','amounts']].describe())

detail['order_id'] = detail['order_id'].astype('category')
detail['dishes_name'] = detail['dishes_name'].astype('category')
print('''订单信息表order_id(订单编号)与dishes_name(菜品名称)的描述性统计结果为：''', '\n', detail[['order_id','dishes_name']].describe())

------------------------------------------------
---------------餐饮菜品的销售情况---------------
------------------------------------------------
订单详情表counts和amounts两列的描述性统计为：
             counts      amounts
count  2779.000000  2779.000000
mean      1.111191    45.337172
std       0.625428    36.808550
min       1.000000     1.000000
25%       1.000000    25.000000
50%       1.000000    35.000000
75%       1.000000    56.000000
max      10.000000   178.000000
订单信息表order_id(订单编号)与dishes_name(菜品名称)的描述性统计结果为： 
        order_id dishes_name
count      2779        2779
unique      278         145
top         392       白饭/大碗
freq         24          92


In [60]:
print('--------------------------------------------------------------------')
print('-----------------剔除全为空值或所有元素取值相同的列-----------------')
print('''----------即describe().loc['count'] == 0的列和标准差为0的列---------''')
print('--------------------------------------------------------------------')
## 定义一个函数去除全为空值的列和标准差为0的列
def dropNullStd(data):
    beforelen = data.shape[1]
    colisNull = data.describe().loc['count'] == 0
    for i in range(len(colisNull)):
        if colisNull[i]:
            data.drop(colisNull.index[i],axis = 1,inplace =True)

    stdisZero = data.describe().loc['std'] == 0
    for i in range(len(stdisZero)):
        if stdisZero[i]:
            data.drop(stdisZero.index[i],axis = 1,inplace =True)
    afterlen = data.shape[1]
    print('去除的列的数目为：',beforelen-afterlen)
    print('去除后数据的形状为：',data.shape)
dropNullStd(detail)

##使用dropNullStd函数对订单信息表操作
dropNullStd(order)

##使用dropNullStd函数对客户信息表操作
dropNullStd(user)


--------------------------------------------------------------------
-----------------剔除全为空值或所有元素取值相同的列-----------------
----------即describe().loc['count'] == 0的列和标准差为0的列---------
--------------------------------------------------------------------
去除的列的数目为： 0
去除后数据的形状为： (2779, 19)
去除的列的数目为： 7
去除后数据的形状为： (945, 14)
去除的列的数目为： 13
去除后数据的形状为： (734, 24)


# 转换与处理时间序列

- 将订单信息表数据中的时间转换为标准的时间格式
- 提取订单信息表数据中的年月日和星期信息
- 查看餐饮的数据时间分布

- **转换字符串时间为标准时间**

<table>
    <tr>
        <td>函数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>Timestamp</td>
        <td>表示某个时间点，大部分场景数据都是该形式</td>
     </tr>
    <tr>
        <td>Period</td>
        <td>时间跨度，或某个时间段</td>
    </tr>
    <tr>
        <td>Timedelta</td>
        <td>不同单位的时间，如1d 1.5h  3min  4s</td>
    </tr>
    <tr>
        <td>DatetimeIndex</td>
        <td>TimeStamp构成的index，用来作为Series或DataFrame的索引</td>
    </tr>
    <tr>
        <td>PeriodIndex</td>
        <td>Period构成的index，用来作为Series或DataFrame的索引</td>
    </tr>
    <tr>
        <td>TimedeltaIndex</td>
        <td>Timedelta构成的index，用来作为Series或DataFrame的索引</td>
    </tr>
</table>



- 多数情况将字符串转换为Timestamp
- to_datetime函数

In [61]:
import pandas as pd
order = pd.read_table('./pandas/data/meal_order_info.csv', sep = ',',encoding = 'gbk')
print('进行转换前订单信息表lock_time的类型为：', order['lock_time'].dtypes)
order['lock_time'] = pd.to_datetime(order['lock_time'])
print('进行转换后订单信息表lock_time的类型为：', order['lock_time'].dtypes)

进行转换前订单信息表lock_time的类型为： object
进行转换后订单信息表lock_time的类型为： datetime64[ns]


- 表示时间范围限制

In [62]:
print('最小时间为：', pd.Timestamp.min)
print('最大时间为：', pd.Timestamp.max)

最小时间为： 1677-09-21 00:12:43.145225
最大时间为： 2262-04-11 23:47:16.854775807


- 将数据提取出来，转换为DatetimeIndex和PeriodIndex

In [63]:
dateIndex = pd.DatetimeIndex(order['lock_time'])
print('转换为DatetimeIndex后数据的类型为：\n',type(dateIndex))

转换为DatetimeIndex后数据的类型为：
 <class 'pandas.core.indexes.datetimes.DatetimeIndex'>


In [64]:
periodIndex = pd.PeriodIndex(order['lock_time'],freq = 'S')
print('转换为DatetimeIndex后数据的类型为：\n',type(periodIndex))

转换为DatetimeIndex后数据的类型为：
 <class 'pandas.core.indexes.period.PeriodIndex'>


In [66]:
periodIndex[:5]

PeriodIndex(['2016-08-01 11:11:46', '2016-08-01 11:31:55',
             '2016-08-01 12:54:37', '2016-08-01 13:08:20',
             '2016-08-01 13:07:16'],
            dtype='period[S]', name='lock_time', freq='S')

- 使用 PeriodIndex 时，要通过freq指定时间间隔，Y M D H M S 

- **提取时间序列数据信息**

- 提取 年份 月份等数据
- Timestamp类属性

|属性|说明|属性|说明|
|-:-|-:-|-:-|-:-|
|day|日|dayofweek|一周第几天|
|dayofyear|一年第几天|hour|时|
|is_leap_year|是否闰年|minute|分|
|month|月|quarter|季节|
|second|秒|week|周|
|weekofyear|一年第几周|year|年|
|date|日期|time|时间|


- 提取时间序列数据

In [67]:
year1 = [i.year for i in order['lock_time']]
print('lock_time中的年份数据前5个为：',year1[:5])
month1 = [i.month for i in order['lock_time']]
print('lock_time中的月份数据前5个为：',month1[:5])
day1 = [i.day for i in order['lock_time']]
print('lock_time中的日期数据前5个为：',day1[:5])
weekday1 = [i.weekday_name for i in order['lock_time']]
print('lock_time中的星期名称数据前5个为：',weekday1[:5])

lock_time中的年份数据前5个为： [2016, 2016, 2016, 2016, 2016]
lock_time中的月份数据前5个为： [8, 8, 8, 8, 8]
lock_time中的日期数据前5个为： [1, 1, 1, 1, 1]
lock_time中的星期名称数据前5个为： ['Monday', 'Monday', 'Monday', 'Monday', 'Monday']


In [68]:
print('dateIndex中的星期名称数据前5个为：\n', dateIndex.weekday_name[:5])
print('periodIndex中的星期标号数据前5个为：', periodIndex.weekday[:5])

dateIndex中的星期名称数据前5个为：
 Index(['Monday', 'Monday', 'Monday', 'Monday', 'Monday'], dtype='object', name='lock_time')
periodIndex中的星期标号数据前5个为： Int64Index([0, 0, 0, 0, 0], dtype='int64', name='lock_time')


- **时间数据加减**

- Timedelta类
- Timedelta类函数中时间周期没有年和月
    - weeks days hours minutes seconds milliseconds

- 加运算

In [69]:
## 将lock_time数据向后平移一天
time1 = order['lock_time']+pd.Timedelta(days = 1) 
print('lock_time在加上一天前前5行数据为：\n',order['lock_time'][:5])
print('lock_time在加上一天前前5行数据为：\n',time1[:5])

lock_time在加上一天前前5行数据为：
 0   2016-08-01 11:11:46
1   2016-08-01 11:31:55
2   2016-08-01 12:54:37
3   2016-08-01 13:08:20
4   2016-08-01 13:07:16
Name: lock_time, dtype: datetime64[ns]
lock_time在加上一天前前5行数据为：
 0   2016-08-02 11:11:46
1   2016-08-02 11:31:55
2   2016-08-02 12:54:37
3   2016-08-02 13:08:20
4   2016-08-02 13:07:16
Name: lock_time, dtype: datetime64[ns]


- 减运算

In [70]:
timeDelta = order['lock_time'] - pd.to_datetime('2017-1-1')
print('lock_time减去2017年1月1日0点0时0分后的数据：\n', timeDelta[:5])
print('lock_time减去time1后的数据类型为：',timeDelta.dtypes)

lock_time减去2017年1月1日0点0时0分后的数据：
 0   -153 days +11:11:46
1   -153 days +11:31:55
2   -153 days +12:54:37
3   -153 days +13:08:20
4   -153 days +13:07:16
Name: lock_time, dtype: timedelta64[ns]
lock_time减去time1后的数据类型为： timedelta64[ns]


- **小任务**
    - 订单信息表中的两个时间特征由字符串格式转换为标准时间格式
    - 提取菜品数据中的年月日和星期信息
    - 查看订单信息表时间统计信息

In [71]:
import pandas as pd
order = pd.read_table('./pandas/data/meal_order_info.csv', sep = ',',encoding = 'gbk')
order['use_start_time'] = pd.to_datetime(order['use_start_time'])
order['lock_time'] = pd.to_datetime(order['lock_time'])
print('进行转换后订单信息表use_start_time和lock_time的类型为：\n', order[['use_start_time','lock_time']].dtypes)

进行转换后订单信息表use_start_time和lock_time的类型为：
 use_start_time    datetime64[ns]
lock_time         datetime64[ns]
dtype: object


In [72]:
year = [i.year for i in order['lock_time']]## 提取年份信息
month = [i.month for i in order['lock_time']]## 提取月份信息
day = [i.day for i in  order['lock_time']]## 提取日期信息
week = [i.week for i in  order['lock_time']]## 提取周信息
weekday = [i.weekday() for i in  order['lock_time']]##提取星期信息
## 提取星期名称信息
weekname = [i.weekday_name for i in  order['lock_time']]
print('订单详情表中的前5条数据的年份信息为：',year[:5])
print('订单详情表中的前5条数据的月份信息为：',month[:5])
print('订单详情表中的前5条数据的日期信息为：',day[:5])
print('订单详情表中的前5条数据的周信息为：',week[:5])
print('订单详情表中的前5条数据的星期信息为：',weekday[:5])
print('订单详情表中的前5条数据的星期名称信息为：',weekname[:5])

订单详情表中的前5条数据的年份信息为： [2016, 2016, 2016, 2016, 2016]
订单详情表中的前5条数据的月份信息为： [8, 8, 8, 8, 8]
订单详情表中的前5条数据的日期信息为： [1, 1, 1, 1, 1]
订单详情表中的前5条数据的周信息为： [31, 31, 31, 31, 31]
订单详情表中的前5条数据的星期信息为： [0, 0, 0, 0, 0]
订单详情表中的前5条数据的星期名称信息为： ['Monday', 'Monday', 'Monday', 'Monday', 'Monday']


In [73]:
timemin = order['lock_time'].min()
timemax = order['lock_time'].max()
print('订单最早的时间为：',timemin)
print('订单最晚的时间为：',timemax)
print('订单持续的时间为：',timemax-timemin)

chekTime = order['lock_time'] - order['use_start_time']
print('平均点餐时间为：',chekTime.mean())
print('最小点餐时间为：',chekTime.min())
print('最大点餐时间为：',chekTime.max())

订单最早的时间为： 2016-08-01 11:11:46
订单最晚的时间为： 2016-08-31 21:56:12
订单持续的时间为： 30 days 10:44:26
平均点餐时间为： 0 days 01:12:10.326923
最小点餐时间为： -1 days +00:05:03
最大点餐时间为： 16 days 00:08:00


- 通过求取最早时间和最晚时间的差值计算订单时间跨度
- use_start_time 与 lock_time加减运算，可以看出开始点餐至结算订单的时间
- 可以看出最短时间和最长时间均为异常值

# 分组与聚合

- 按照时间对菜品订单数据进行拆分
- 使用agg方法计算单日菜品销售的总额
- 使用apply方法统计单日菜品销售数目

- 分组聚合原理示意图
![IMG_20180724_110755.jpg](https://i.loli.net/2018/07/24/5b569a5db489d.jpg)

- groupby
<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>by</td>
        <td>接收list、string、mapping或generator.用于确定进行分组的依据。如果传入的是一个函数，则对索引进行计算并分组；如果传入的是一个字典或者Series，则字典或者Series的值用来作为分组依据；如果传入一个Numpy数组，则数据的元素作为分组依据；如果传入的是字符串或者字符串列表，则使用这些字符串所代表的字段作为分组侬据。无默认
</td>
     </tr>
    <tr>
        <td>axis</td>
        <td>接收int。表示操作的轴向，默认对列进行操作。默认为0</td>
    </tr>
    <tr>
        <td>level</td>
        <td>接收int或者索引名。代表标签所在级别。默认为None</td>
    </tr>
    <tr>
        <td>as_index</td>
        <td>接收boolean，表示聚合后的聚合标签是否以DataFrame索引形式输出。默认为True</td>
    </tr>
    <tr>
        <td>sort</td>
        <td>接收boolean，表示是否对分组依据、分组标签进行排序。默认为True</td>
    </tr>
    <tr>
        <td>groupkeys</td>
        <td>接收boolea1E表示是否显示分组标签的名称。默认为True</td>
    </tr>
    <tr>
        <td>squeeze</td>
        <td>接收boolean，表不是否在允许的情况下对返回数据进行降维、默认为False</td>
    </tr>
</table>

- 对菜品订单详情表依据订单编号进行分组

In [74]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:123000@127.0.0.1:3306/testdb?charset=utf8')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detailGroup = detail[['order_id','counts','amounts']].groupby(by = 'order_id')
print('分组后的订单详情表为：',detailGroup)

分组后的订单详情表为： <pandas.core.groupby.DataFrameGroupBy object at 0x0000000009D00390>


  result = self._query(query)
  result = self._query(query)


- 分组后结果不能直接查看，被存储在内存中，输出的是内存地址
- 数据对象Groupby类似于Series与DataFrame

<table>
    <tr>
        <td>Groupby方法</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>count</td>
        <td>计算分组的数目，包括缺失值(NAN)</td>
     </tr>
    <tr>
        <td>head</td>
        <td>返回每组的前n个值</td>
    </tr>
    <tr>
        <td>max</td>
        <td>返回每组最大值</td>
    </tr>
    <tr>
        <td>mean</td>
        <td>返回每组的均值</td>
    </tr>
    <tr>
        <td>median</td>
        <td>返回每组的中位数</td>
    </tr>
    <tr>
        <td>cumcount</td>
        <td>对每个分组中的组员进行标记，0~n-1</td>
    </tr>
    <tr>
        <td>size</td>
        <td>返回每组的大小，不包括NAN</td>
    </tr>
    <tr>
        <td>min</td>
        <td>返回每组最小值</td>
    </tr>
    <tr>
        <td>std</td>
        <td>返回每组的标准差</td>
    </tr>
    <tr>
        <td>sum</td>
        <td>返回每组的和</td>
    </tr>
</table>

- 菜品订单表经过分组操作后的每一组的均值、标准差、中位数

In [75]:
print('订单详情表分组后前5组每组的均值为：\n', detailGroup.mean().head())

订单详情表分组后前5组每组的均值为：
           counts  amounts
order_id                 
1002      1.0000   32.000
1003      1.2500   30.125
1004      1.0625   43.875
1008      1.0000   63.000
1011      1.0000   57.700


In [76]:
print('订单详情表分组后前5组每组的标准差为：\n', detailGroup.std().head())

订单详情表分组后前5组每组的标准差为：
            counts    amounts
order_id                    
1002      0.00000  16.000000
1003      0.46291  21.383822
1004      0.25000  31.195886
1008      0.00000  64.880660
1011      0.00000  50.077828


In [77]:
print('订单详情表分组后前5组每组的大小为：','\n', detailGroup.size().head())

订单详情表分组后前5组每组的大小为： 
 order_id
1002     7
1003     8
1004    16
1008     5
1011    10
dtype: int64


In [78]:
print('订单详情表分组后前5组每组的大小为：','\n', detailGroup.count().head())

订单详情表分组后前5组每组的大小为： 
           counts  amounts
order_id                 
1002           7        7
1003           8        8
1004          16       16
1008           5        5
1011          10       10


- **使用 agg 方法聚合**

- agg 、aggregate都支持对每个分组应用某函数
```
    DataFrame.agg(func, axis=0, *agrs, **kwargs)
    DataFrame.aggregate(func, axis=0, *agrs, **kwargs)
```    
<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>func</td>
        <td>list、dict、fuction——应用于每列或没行的函数</td>
    </tr>
    <tr>
        <td>axis</td>
        <td>0或1——操作轴向</td>
    </tr>
</table>


- 使用agg求当前数据对应的统计量

In [80]:
print('订单详情表的菜品销量与售价的和与均值为：\n', detail[['counts','amounts']].agg([np.sum,np.mean]))


订单详情表的菜品销量与售价的和与均值为：
            counts        amounts
sum   3088.000000  125992.000000
mean     1.111191      45.337172


- 求取字段的不同统计量

In [81]:
print('订单详情表的菜品销量总和与售价的均值为：\n', detail.agg({'counts':np.sum,'amounts':np.mean}))

订单详情表的菜品销量总和与售价的均值为：
 counts     3088.000000
amounts      45.337172
dtype: float64


- 求取某些字段的多个统计量

In [82]:
print('菜品订单详情表的菜品销量总和与售价的总和与均值为：\n', detail.agg({'counts':np.sum,'amounts':[np.mean,np.sum]}))

菜品订单详情表的菜品销量总和与售价的总和与均值为：
       counts        amounts
mean     NaN      45.337172
sum   3088.0  125992.000000


- 自定义函数

In [83]:
##自定义函数求两倍的和
def DoubleSum(data):
    s = data.sum()*2
    return s
print('菜品订单详情表的菜品销量两倍总和为：','\n', detail.agg({'counts':DoubleSum},axis = 0))


菜品订单详情表的菜品销量两倍总和为： 
 counts    6176.0
dtype: float64


- 在自定义函数中使用numpy库中的函数（np.sum,np.mean,nu.std...）时，
    - 若计算单个列，则无法得到想要的结果；
    - 多列数据同时计算不会出现这个问题

In [84]:
##自定义函数求两倍的和
def DoubleSum1(data):
    s = np.sum(data)*2
    return s

print('订单详情表的菜品销量两倍总和为：\n', detail.agg({'counts':DoubleSum1},axis = 0).head())

订单详情表的菜品销量两倍总和为：
    counts
0     2.0
1     2.0
2     2.0
3     2.0
4     2.0


![2018-07-24_160041.png](https://i.loli.net/2018/07/24/5b56dcdbf010a.png)

In [85]:
print('订单详情表的菜品销量与售价的和的两倍为：\n', detail[['counts','amounts']].agg(DoubleSum1))

订单详情表的菜品销量与售价的和的两倍为：
 counts       6176.0
amounts    251984.0
dtype: float64


- 对每个字段的每一组使用相同的函数

In [86]:
print('订单详情表分组后前3组每组的均值为：\n', detailGroup.agg(np.mean).head(3))

订单详情表分组后前3组每组的均值为：
           counts  amounts
order_id                 
1002      1.0000   32.000
1003      1.2500   30.125
1004      1.0625   43.875


In [87]:
print('订单详情表分组后前3组每组的标准差为：\n', detailGroup.agg(np.std).head(3))

订单详情表分组后前3组每组的标准差为：
            counts    amounts
order_id                    
1002      0.00000  16.000000
1003      0.46291  21.383822
1004      0.25000  31.195886


- 对不同字段应用不同函数

In [88]:
print('订单详情分组前3组每组菜品总数和售价均值为：\n', detailGroup.agg({'counts':np.sum, 'amounts':np.mean}).head(3))

订单详情分组前3组每组菜品总数和售价均值为：
           counts  amounts
order_id                 
1002         7.0   32.000
1003        10.0   30.125
1004        17.0   43.875


- **apply方法聚合**

- 与agg类似，
- 但与apply相比，agg方法传入的函数只能作用于整个DataFrame或Series
- apply可以返回多列数据

`pd.DataFrame.apply(self, func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)`



<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>func</td>
        <td>fuction——应用于每列或每行的函数</td>
    </tr>
    <tr>
        <td>axis</td>
        <td>0或1——操作轴向</td>
    </tr>
    <tr>
        <td>broadcast</td>
        <td>boolean——是否进行广播</td>
    </tr>
    <tr>
        <td>raw</td>
        <td>boolean——是否直接将ndarray对象传递给函数</td>
    </tr>
    <tr>
        <td>reduce</td>
        <td>boolean或None——返回值的格式</td>
    </tr>
</table>


- 基本使用，与agg类似

In [89]:
print('订单详情表的菜品销量与售价的均值为：\n', detail[['counts','amounts']].apply(np.mean))

订单详情表的菜品销量与售价的均值为：
 counts      1.111191
amounts    45.337172
dtype: float64


- apply对Groupby对象进行聚合的方法和agg方法相同，只是，使用agg方法能实现对不同字段应用不同函数，而apply不行

In [90]:
print('订单详情表分组后前3组每组的均值为：','\n', detailGroup.apply(np.mean).head(3))

订单详情表分组后前3组每组的均值为： 
           amounts  counts
order_id                 
1002       32.000  1.0000
1003       30.125  1.2500
1004       43.875  1.0625


In [91]:
print('订单详情表分组后前3组每组的标准差为：','\n', detailGroup.apply(np.std).head(3))

订单详情表分组后前3组每组的标准差为： 
             amounts    counts
order_id                     
1002      14.813122  0.000000
1003      20.002734  0.433013
1004      30.205287  0.242061


- **transform方法聚合数据**

- 只有一个参数  --func

- 使用transform将销量和售价翻倍

In [92]:
print('订单详情表的菜品销量与售价的两倍为：\n', detail[['counts','amounts']].transform(lambda x:x*2).head(4))

订单详情表的菜品销量与售价的两倍为：
    counts  amounts
0     2.0     98.0
1     2.0     96.0
2     2.0     60.0
3     2.0     50.0


- 组内利差标准化

In [93]:
print('订单详情表分组后实现组内离差标准化后前五行为：\n', detailGroup.transform(lambda x:(x.mean()-x.min())/(x.max()-x.min())).head())

  if __name__ == '__main__':


订单详情表分组后实现组内离差标准化后前五行为：
    counts   amounts
0     NaN  0.555556
1     NaN  0.555556
2     NaN  0.555556
3     NaN  0.555556
4     NaN  0.555556


- NaN 出现是由于销量中的许多订单的最大最小值相同

- **按照时间对菜品订单详情表进行拆分**
    - 通过分组聚合将每天的数据放在一个组内，从而方便地对每个组的内容进行分析

In [94]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

engine = create_engine('mysql+pymysql://root:123000@127.0.0.1:3306/testdb?charset=utf8')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detail['place_order_time'] = pd.to_datetime(detail['place_order_time'])
detail['date'] = [i.date() for i in detail['place_order_time']]
detailGroup = detail[['date','counts','amounts']].groupby(by='date')
print('订单详情表前5组每组的数目为：\n',detailGroup.size().head())

订单详情表前5组每组的数目为：
 date
2016-08-01    217
2016-08-02    138
2016-08-03    157
2016-08-04    144
2016-08-05    193
dtype: int64


  result = self._query(query)
  result = self._query(query)


- **使用agg方法计算单日菜品销售的平均单价和售价中位数**
    - 对已经拆分完的订单详情进行聚合，得出每组销售均值和售价中位数

In [98]:
dayMean = detailGroup.agg({'amounts':np.mean})
print('订单详情表前五组每日菜品均价为：\n',dayMean.head())

订单详情表前五组每日菜品均价为：
               amounts
date                 
2016-08-01  43.161290
2016-08-02  44.384058
2016-08-03  43.885350
2016-08-04  52.423611
2016-08-05  44.927461


In [99]:
dayMedian = detailGroup.agg({'amounts':np.median})
print('订单详情表前五组每日菜品售价中位数为：\n',dayMedian.head())

订单详情表前五组每日菜品售价中位数为：
             amounts
date               
2016-08-01     33.0
2016-08-02     35.0
2016-08-03     38.0
2016-08-04     39.0
2016-08-05     37.0


- **使用apply方法统计单日菜品销售数目**
    - 计算单日总销售的菜品数目

In [100]:
daySaleSum = detailGroup.apply(np.sum)['counts']
print('订单详情表前五组每日菜品售出数目为：\n',daySaleSum.head())

订单详情表前五组每日菜品售出数目为：
 date
2016-08-01    233.0
2016-08-02    151.0
2016-08-03    192.0
2016-08-04    169.0
2016-08-05    224.0
Name: counts, dtype: float64


# 创建透视表与交叉表

数据透视表，根据一个或多个键值对数据进行聚合，根据行或列的分组将数据划分到各个区域

- **使用pivot_table函数制作菜品日销量透视表**
- **使用crosstab函数制作菜品销量交叉表**


- **使用pivot_table函数制作菜品日销量透视表**
- `pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')`
<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>data</td>
        <td>DataFrame——创建表的数据</td>
    </tr>
    <tr>
        <td>values</td>
        <td>string——聚合的数据字段名，默认全部数据</td>
    </tr>
    <tr>
        <td>index</td>
        <td>string 或 list——行分组键</td>
    </tr>
    <tr>
        <td>columns</td>
        <td>string 或 list——列分组键</td>
    </tr>
    <tr>
        <td>aggfunc</td>
        <td>functions——聚合函数，默认mean</td>
    </tr>
    <tr>
        <td>margins</td>
        <td>boolean——汇总（total）功能的开关，true==》结果集中会出现all的行和列</td>
    </tr>
    <tr>
        <td>dropna</td>
        <td>boolean——是否删掉全为NAN的列</td>
    </tr>
</table>

- 使用订单详情制作简单透视表
    - 订单号作为透视表的索引

In [101]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:123000@127.0.0.1:3306/testdb?charset=utf8')
detail = pd.read_sql_table('meal_order_detail1', con = engine)
detailPivot = pd.pivot_table(detail[['order_id','counts','amounts']],index = 'order_id')
print('以order_id作为分组键创建的订单透视表为：\n', detailPivot.head())

以order_id作为分组键创建的订单透视表为：
           amounts  counts
order_id                 
1002       32.000  1.0000
1003       30.125  1.2500
1004       43.875  1.0625
1008       63.000  1.0000
1011       57.700  1.0000


  result = self._query(query)
  result = self._query(query)


In [115]:
detail.loc[detail['order_id']=='1002',['order_id','counts','amounts']]

Unnamed: 0,order_id,counts,amounts
1147,1002,1.0,35.0
1149,1002,1.0,45.0
1150,1002,1.0,58.0
1160,1002,1.0,30.0
1166,1002,1.0,27.0
1184,1002,1.0,10.0
1189,1002,1.0,19.0


- 可以看出，默认使用numpy.mean聚合，可通过aggfunc修改聚合函数
- 修改聚合函数后的透视表

In [116]:
detailPivot1 = pd.pivot_table(detail[[ 'order_id','counts','amounts']], index = 'order_id',aggfunc = np.sum)
print('以order_id作为分组键创建的订单销量与售价总和透视表为：\n', detailPivot1.head())

以order_id作为分组键创建的订单销量与售价总和透视表为：
           amounts  counts
order_id                 
1002        224.0     7.0
1003        241.0    10.0
1004        702.0    17.0
1008        315.0     5.0
1011        577.0    10.0


- 与Groupby类似，pivot_table可以分组键index可以有多个

In [117]:
detailPivot2 = pd.pivot_table(detail[[ 'order_id','dishes_name', 'counts','amounts']], 
                              index = ['order_id','dishes_name'], aggfunc = np.sum)
print('以order_id和dishes_name作为分组键创建的订单销量与售价总和透视表为：\n',detailPivot2.head())

以order_id和dishes_name作为分组键创建的订单销量与售价总和透视表为：
                       amounts  counts
order_id dishes_name                 
1002     凉拌菠菜            27.0     1.0
         南瓜枸杞小饼干         19.0     1.0
         焖猪手             58.0     1.0
         独家薄荷鲜虾牛肉卷       45.0     1.0
         白胡椒胡萝卜羊肉汤       35.0     1.0


- 通过设置columns指定列分组，应该有两个列索引，一个是最上层的amounts和counts（数据太长，看不到），另一个是菜品名称
- 数据不存在时，以NAN填充

In [118]:
detailPivot2 = pd.pivot_table(detail[['order_id','dishes_name','counts','amounts']],
                              index = 'order_id', 
                              columns = 'dishes_name', 
                              aggfunc = np.sum)
print('以order_id和dishes_name作为行列分组键创建的透视表前5行4列为：\n',detailPivot2.iloc[:5,:4])

以order_id和dishes_name作为行列分组键创建的透视表前5行4列为：
             amounts                        
dishes_name  42度海之蓝  北冰洋汽水  38度剑南春  50度古井贡酒
order_id                                   
1002            NaN     NaN     NaN     NaN
1003            NaN     NaN     NaN     NaN
1004            NaN     NaN     NaN     NaN
1008            NaN     NaN     NaN     NaN
1011           99.0     NaN     NaN     NaN


- 全部数据列很多时，只显示关心的列，通过指定values实现

In [120]:
detailPivot4 = pd.pivot_table(detail[[ 'order_id','dishes_name','counts','amounts']],
                              index = 'order_id',
                              values = 'counts',
                              aggfunc = np.sum)
print('以order_id作为行分组键counts作为值创建的透视表前5行为：\n',detailPivot4.head())

以order_id作为行分组键counts作为值创建的透视表前5行为：
           counts
order_id        
1002         7.0
1003        10.0
1004        17.0
1008         5.0
1011        10.0


- 不使用NAN填充，通过fill_value指定

In [121]:
detailPivot5 = pd.pivot_table(detail[['order_id','dishes_name','counts','amounts']],
                              index = 'order_id',
                              columns = 'dishes_name',
                              aggfunc = np.sum,fill_value = 0)
print('空值填0后以order_id和dishes_name为行列分组键创建透视表前5行4列为：\n',detailPivot5.iloc[:5,:4])

空值填0后以order_id和dishes_name为行列分组键创建透视表前5行4列为：
             amounts                        
dishes_name  42度海之蓝  北冰洋汽水  38度剑南春  50度古井贡酒
order_id                                   
1002              0       0       0       0
1003              0       0       0       0
1004              0       0       0       0
1008              0       0       0       0
1011             99       0       0       0


- 更改margins参数，查看汇总数据

In [123]:
detailPivot6 = pd.pivot_table(detail[[ 'order_id','dishes_name','counts','amounts']],
                              index = 'order_id',
                              columns = 'dishes_name',
                              aggfunc = np.sum,
                              fill_value = 0,
                              margins = True)
print('添加margins后以order_id和dishes_name为分组键的透视表前5行后4列为：\n',detailPivot6.iloc[:5,-4:])

添加margins后以order_id和dishes_name为分组键的透视表前5行后4列为：
             counts                    
dishes_name 黄油曲奇饼干 黄花菜炒木耳 黑米恋上葡萄   All
order_id                              
1002           0.0    0.0    0.0   7.0
1003           0.0    0.0    0.0  10.0
1004           0.0    1.0    0.0  17.0
1008           0.0    0.0    0.0   5.0
1011           0.0    0.0    0.0  10.0


- **crosstab创建交叉表**

- 交叉表主要用于计算分组频率
- `pd.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)`
<table>
    <tr>
        <td>参数</td>
        <td>说明</td>
    </tr>
    <tr>
        <td>values</td>
        <td>array——聚合数据</td>
    </tr>
    <tr>
        <td>index</td>
        <td>string 或 list——行索引键</td>
    </tr>
    <tr>
        <td>columns</td>
        <td>string 或 list——列索引键</td>
    </tr>
    <tr>
        <td>rownames</td>
        <td>行分组键名</td>
    </tr>
    <tr>
        <td>colnames</td>
        <td>列分组键名</td>
    </tr>

    <tr>
        <td>aggfunc</td>
        <td>functions——聚合函数，默认mean</td>
    </tr>
    <tr>
        <td>margins</td>
        <td>boolean——汇总（total）功能的开关，true==》结果集中会出现all的行和列</td>
    </tr>
    <tr>
        <td>dropna</td>
        <td>boolean——是否删掉全为NAN的列</td>
    </tr>
    <tr>
        <td>normalize</td>
        <td>boolean——是否对值进行标准化</td>
    </tr>    
</table>
- 交叉表是透视表的一种，参数与pivottable基本相同，
- crosstab中的index、columns、values，输入的都是从DataFrame中取出的某一列

In [124]:
detailCross = pd.crosstab(index=detail['order_id'],
                          columns=detail['dishes_name'],
                          values = detail['counts'],aggfunc = np.sum)
print('以order_id和dishes_name为分组键counts为值的透视表前5行5列为：\n',detailCross.iloc[:5,:5])

以order_id和dishes_name为分组键counts为值的透视表前5行5列为：
 dishes_name   42度海之蓝   北冰洋汽水   38度剑南春   50度古井贡酒  52度泸州老窖 
order_id                                                 
1002             NaN      NaN      NaN      NaN       NaN
1003             NaN      NaN      NaN      NaN       NaN
1004             NaN      NaN      NaN      NaN       NaN
1008             NaN      NaN      NaN      NaN       NaN
1011             1.0      NaN      NaN      NaN       NaN


- **小任务**
    - 创建单日菜品成交总额与总数均价透视表

- 创建单日菜品成交总额与总数均价透视表
    - 用于分析营业状况，利润

In [125]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:123000@127.0.0.1:3306/testdb?charset=utf8')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detail['place_order_time'] = pd.to_datetime(detail['place_order_time'])
detail['date'] = [i.date() for i in detail['place_order_time']]
PivotDetail = pd.pivot_table(detail[['date','dishes_name','counts','amounts']],
                             index ='date',aggfunc = np.sum,
                             margins = True)
print('订单详情表单日菜品成交总额与总数透视表前5行5列为：\n', PivotDetail.head())


订单详情表单日菜品成交总额与总数透视表前5行5列为：
             amounts  counts
date                       
2016-08-01   9366.0   233.0
2016-08-02   6125.0   151.0
2016-08-03   6890.0   192.0
2016-08-04   7549.0   169.0
2016-08-05   8671.0   224.0


  result = self._query(query)
  result = self._query(query)


- 创建单个菜品单日成交总额透视表
    - 单日成交总额对后续菜品价格调整，菜品种类调整有十分重要的作用

In [128]:
CrossDetail = pd.crosstab(index=detail['date'],
                          columns=detail['dishes_name'],
                          values = detail['amounts'],
                          aggfunc = np.sum,margins = True)
print('订单详情表单日单个菜品成交总额交叉表后5行5列为：\n',CrossDetail.iloc[-5:,-5:])

订单详情表单日单个菜品成交总额交叉表后5行5列为：
 dishes_name  黄尾袋鼠西拉子红葡萄酒  黄油曲奇饼干  黄花菜炒木耳  黑米恋上葡萄       All
date                                                      
2016-08-07         230.0    32.0   105.0    99.0   31306.0
2016-08-08          46.0     NaN     NaN    33.0    6532.0
2016-08-09         138.0     NaN    35.0    99.0    7155.0
2016-08-10          46.0     NaN    70.0    33.0   10231.0
All                736.0    80.0   525.0   561.0  125992.0


# 实训

## 实训1 读取并查看P2P网络贷款数据主表的基本信息
- 训练要点
    - （1）掌握CSV数据读取方法。
    - （2）掌握DataFrame的常用属性与方法。
    - （3）掌握pandas描述性统计方法。
- 2，需求说明
    - P2P网络贷款主表数据主要存放了网贷用户的基本信息。探索数据的基本信息，能够洞察数据的整体分布、数据的类属关系，从而发现数据间的关联。
- 3 实现思路及步骤
    - （1）使用ndim、shape、memory-usage属性分别查看维度、大小、占用内存信息
    - （2）使用describe方法进行描述性统计，并剔除值相同或全为空的列。


In [1]:
import pandas as pd
import numpy as np

In [2]:
import os

In [3]:
os.listdir('.\pandas\data_train')

['Training_LogInfo.csv',
 'Training_Master.csv',
 'Training_Userupdate.csv',
 '文件说明.xlsx']

In [5]:
detail = pd.read_csv('.\pandas\data_train\Training_Master.csv', encoding='gbk')
detail.head()

Unnamed: 0,Idx,UserInfo_1,UserInfo_2,UserInfo_3,UserInfo_4,WeblogInfo_1,WeblogInfo_2,WeblogInfo_3,WeblogInfo_4,WeblogInfo_5,...,SocialNetwork_10,SocialNetwork_11,SocialNetwork_12,SocialNetwork_13,SocialNetwork_14,SocialNetwork_15,SocialNetwork_16,SocialNetwork_17,target,ListingInfo
0,10001,1.0,深圳,4.0,深圳,,1.0,,1.0,1.0,...,222,-1,0,0,0,0,0,1,0,2014/3/5
1,10002,1.0,温州,4.0,温州,,0.0,,1.0,1.0,...,1,-1,0,0,0,0,0,2,0,2014/2/26
2,10003,1.0,宜昌,3.0,宜昌,,0.0,,2.0,2.0,...,-1,-1,-1,1,0,0,0,0,0,2014/2/28
3,10006,4.0,南平,1.0,南平,,,,,,...,-1,-1,-1,0,0,0,0,0,0,2014/2/25
4,10007,5.0,辽阳,1.0,辽阳,,0.0,,1.0,1.0,...,-1,-1,-1,0,0,0,0,0,0,2014/2/27


In [22]:
print("detail 基本信息\n*******************************")
print("ndim:\t", detail.ndim)
print("***********************************************")
print("shape:\t", detail.shape)
print("***********************************************")
print("size:\t", detail.size)
print("***********************************************")
print("dtype:\t", detail.dtypes[:10])
print("***********************************************")
print("colums:\n", detail.columns)
print("***********************************************")
print("describe:\n", detail.describe().iloc[:5,:5])
print("***********************************************")
print("memory_usage:\n", detail.memory_usage()[:10])


detail 基本信息
*******************************
ndim:	 2
***********************************************
shape:	 (30000, 228)
***********************************************
size:	 6840000
***********************************************
dtype:	 Idx               int64
UserInfo_1      float64
UserInfo_2       object
UserInfo_3      float64
UserInfo_4       object
WeblogInfo_1    float64
WeblogInfo_2    float64
WeblogInfo_3    float64
WeblogInfo_4    float64
WeblogInfo_5    float64
dtype: object
***********************************************
colums:
 Index(['Idx', 'UserInfo_1', 'UserInfo_2', 'UserInfo_3', 'UserInfo_4',
       'WeblogInfo_1', 'WeblogInfo_2', 'WeblogInfo_3', 'WeblogInfo_4',
       'WeblogInfo_5',
       ...
       'SocialNetwork_10', 'SocialNetwork_11', 'SocialNetwork_12',
       'SocialNetwork_13', 'SocialNetwork_14', 'SocialNetwork_15',
       'SocialNetwork_16', 'SocialNetwork_17', 'target', 'ListingInfo'],
      dtype='object', length=228)
********************************

In [26]:
before_len = detail.shape[1]
std_zero = detail.describe().loc['std']==0
col_null = detail.describe().loc['count']==0
for i in range(len(col_null)):
    if col_null[i]:
        detail.drop(col_null.index[i],axis = 1,inplace=True)
for i in range(len(std_zero)):
    if std_zero[i]:
        detail.drop(std_zero.index[i], axis = 1, inplace=True)

after_len = detail.shape[1]
print('去除的列的数目为：',before_len-after_len)
print('去除后数据的形状为：',detail.shape)

去除的列的数目为： 0
去除后数据的形状为： (30000, 226)


## 实训2提取用户信息更新表和登录信息表的时间信息
- 1. 训练要点
    - （1）掌握时间字符串和标准时间的转换方法。
    - （2）掌握时间信息提取的方法。
    - （3）掌握时间数据的算术运算。
- 2. 需求说明
    - 用户信息更新表和登录信息表中均存在大量的时间数据，提取时间数据内存在的信息，
    - 一方面可以加深对数据的理解，另一方面能够探索这部分信息和目标的关联程度。
    - 同时用户登录时间、借款成交时间、用户信息更新时间这些时间的时间差信息也能够反映出网络贷款不同用户的行为信息。
- 3. 实现思路及步骤
    - （1）使用to_datetime函数转换用户信息更新表和登录信息表的时间字符串。
    - （2）使用year、month、week等方法提取用户信息更新表和登录信息表中的时间信息
    - （3）计算用户信息更新表和登录信息表中两时间的差，分别以日、小时、分钟计算。


In [30]:
os.listdir(".\pandas\data_train")

['Training_LogInfo.csv',
 'Training_Master.csv',
 'Training_Userupdate.csv',
 '文件说明.xlsx']

In [34]:
detail_user = pd.read_csv(".\pandas\data_train\Training_Userupdate.csv", encoding='gbk')
detail_log = pd.read_csv(".\pandas\data_train\Training_LogInfo.csv", encoding='gbk')
print("detail_log:\n", detail_log.head(), "\n************************")
print("detail_user:\n", detail_user.head(), "\n************************")

detail_log:
      Idx Listinginfo1  LogInfo1  LogInfo2    LogInfo3
0  10001   2014-03-05       107         6  2014-02-20
1  10001   2014-03-05       107         6  2014-02-23
2  10001   2014-03-05       107         6  2014-02-24
3  10001   2014-03-05       107         6  2014-02-25
4  10001   2014-03-05       107         6  2014-02-27 
************************
detail_user:
      Idx ListingInfo1    UserupdateInfo1 UserupdateInfo2
0  10001   2014/03/05       _EducationId      2014/02/20
1  10001   2014/03/05         _HasBuyCar      2014/02/20
2  10001   2014/03/05    _LastUpdateDate      2014/02/20
3  10001   2014/03/05  _MarriageStatusId      2014/02/20
4  10001   2014/03/05       _MobilePhone      2014/02/20 
************************


In [38]:
detail_user['ListingInfo1'] = pd.to_datetime(detail_user['ListingInfo1'])
detail_user['UserupdateInfo2'] = pd.to_datetime(detail_user['UserupdateInfo2'])
detail_log['Listinginfo1'] = pd.to_datetime(detail_log['Listinginfo1'])
detail_log['LogInfo3'] = pd.to_datetime(detail_log['LogInfo3'])
print("detail_log:\n", detail_log.head(), "\n************************")
print("detail_user:\n", detail_user.head(), "\n************************")

detail_log:
      Idx Listinginfo1  LogInfo1  LogInfo2   LogInfo3
0  10001   2014-03-05       107         6 2014-02-20
1  10001   2014-03-05       107         6 2014-02-23
2  10001   2014-03-05       107         6 2014-02-24
3  10001   2014-03-05       107         6 2014-02-25
4  10001   2014-03-05       107         6 2014-02-27 
************************
detail_user:
      Idx ListingInfo1    UserupdateInfo1 UserupdateInfo2
0  10001   2014-03-05       _EducationId      2014-02-20
1  10001   2014-03-05         _HasBuyCar      2014-02-20
2  10001   2014-03-05    _LastUpdateDate      2014-02-20
3  10001   2014-03-05  _MarriageStatusId      2014-02-20
4  10001   2014-03-05       _MobilePhone      2014-02-20 
************************


In [None]:
time_delta = detail_user['UserupdateInfo2'] - detail_log

## 实训3使用分组聚合方法进一步分析用户信息更新表和登录信息表
- 1、训练要点
    - （1）掌握分组聚合的原理与步骤。
    - （2）掌握agg、apply聚合方法。
    - （3）掌握transform聚合方法。
- 2. 需求说明
    - 分析用户信息更新表和登录信息表时，除了提取时间本身的信息外，
    - 还可以结合用户编号进行分组聚合，然后进行组内分析。
    - 通过组内分析可以得出每组组内的最早和最晚信息更新时间、最早和最晚登录时间、信息更新的次数、登录的次数等信息。
- 3 实现思路及步骤
    - （1）使用groupby方法对用户信息更新表和登录信息表进行分组。
    - （2）使用agg方法求取分组后的最早和最晚更新及登录时间。
    - （3）使用size方法求取分组后的数据的信息更新次数与登录次数。

## 实训4对用户信息更新表和登录信息表进行长宽表转换
- 1 训练要点
    - （1）掌握透视表的制作方法。
    - （2）掌握交叉表的制作方法。
- 2 需求说明
    - 通过对数据的描述性统计，以及时间数据信息提取，分组聚合操作已经获得了相当多的信息，
    - 但用户信息更新表和登录信息表是长表，而主表是宽表，需要通过长宽表转换将数据合并在一张以用户编号为主键的表内。
- 3 实现思路及步骤
    - （1）使用pivot_table函数进行长宽表转换。
    - （2）使用crosstab方法进行长宽表转换。