# $$用户消费行为分析$$

## 数据基础

### 数据导入清理

导入相关库*斜体* **粗体** ***斜粗体***  [baidu](http://www.baidu.com)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
plt.style.use('Solarize_Light2')

导入文件CDNOW_master.txt

In [None]:
data = pd.read_csv('CDNOW_master.txt',names=['用户ID','购买日期','订单数','金额'],sep='\s+')

In [None]:
data.head()

In [None]:
data.describe()

In [None]:
data.isnull().sum()

日期转换方式，按月统计

In [None]:
data_date = pd.to_datetime(data['购买日期'],format='%Y%m%d')
data['购买日期'] = data_date
data_month = data_date.values.astype('datetime64[M]')

In [None]:
data_month

In [None]:
data['月份'] = data_month

In [None]:
data

用户总计趋势消费分析

聚合处理，按月进行聚合统计,用户数量，订单数和金额

In [None]:
data_pivot = data.pivot_table(index='月份',
                 values=['用户ID','订单数','金额'],
                 aggfunc={
                     '用户ID':'count',
                     '订单数':'sum',
                     '金额':'sum'
                 })

In [None]:
data_pivot

每月产生的总订单数

In [None]:
plt.plot(data_pivot['订单数'])
plt.title('每月产生的总订单数曲线图')
plt.xlabel('月份')
plt.ylabel('订单数')

每月产生的总消费金额

In [None]:
plt.plot(data_pivot['金额'])
plt.title('每月产生的总消费金额曲线图')
plt.xlabel('月份')
plt.ylabel('美元')

每月消费的总人数

In [None]:
plt.plot(data_pivot['用户ID'])
plt.title('每月消费的总人数曲线图')
plt.xlabel('月份')
plt.ylabel('人')

In [None]:
data_pivot['每月平均每人产生的订单数'] = data_pivot['订单数']/data_pivot['用户ID']

In [None]:
data_pivot

In [None]:
plt.plot(data_pivot['每月平均每人产生的订单数'])
plt.title('每月平均每人产生的订单数曲线图')
plt.xlabel('月份')
plt.ylabel('订单数')

In [None]:
data_pivot['每月平均每人产生的消费金额'] = data_pivot['金额']/data_pivot['用户ID']
data_pivot

In [None]:
plt.plot(data_pivot['每月平均每人产生的消费金额'])
plt.title('每月平均每人产生的消费金额曲线图')
plt.xlabel('月份')
plt.ylabel('金额')

修改列名

In [None]:
data_pivot.rename(
    columns = {
        '用户ID':'每月消费的总人数',
        '订单数':'每月产生的总订单数',
        '金额':'每月产生的总消费金额'
    },
    inplace = True)

In [None]:
data_pivot

用户个体消费行为分析

In [None]:
data

第一次消费的人数和时间关系图

In [None]:
data_min = data.pivot_table(
        index='用户ID',
    values='购买日期',
    aggfunc={
        '购买日期':'min'
    })

In [None]:
data_min

统计相同日期下第一次消费的用户人数

In [None]:
data_min['购买日期'].value_counts()

In [None]:
data_min_count = data_min.iloc[:,0].value_counts()

In [None]:
data_min_count

In [None]:
plt.plot(data_min_count)

In [None]:
data_min_count.plot()
plt.title('第一次消费的人数与时间的关系图')
plt.xlabel('日期')
plt.ylabel('人数')