# 项目 : 创建客户分类

## 加载数据
这个项目的数据集能够在[UCI机器学习信息库](https://archive.ics.uci.edu/ml/datasets/Wholesale+customers)中找到.因为这个项目的目的，分析将不会包括 'Channel' 和 'Region' 这两个特征——重点集中在6个记录的客户购买的产品类别上。

In [1]:
# 检查你的Python版本
from sys import version_info
if version_info.major != 3:
    raise Exception('请使用Python 3.x 来完成此项目')
import warnings
warnings.filterwarnings('ignore')

In [2]:
# 引入这个项目需要的库
import numpy as np
import pandas as pd
import visuals as vs
from IPython.display import display # 使得我们可以对DataFrame使用display()函数
# 设置以内联的形式显示matplotlib绘制的图片（在notebook中显示更美观）
%matplotlib inline
# 高分辨率显示
# %config InlineBackend.figure_format='retina'

# 载入整个客户数据集
try:
    data = pd.read_csv("customers.csv")
    data.drop(['Region', 'Channel'], axis = 1, inplace = True)
    print("数据加载成功 有 {} 条数据 {}个特征每条数据.".format(*data.shape))
except:
    print("数据加载失败")

数据加载成功 有 440 条数据 6个特征每条数据.


## 分析数据
在这部分，将开始分析数据，通过可视化和代码来理解每一个特征和其他特征的联系。将会看到关于数据集的统计描述，考虑每一个属性的相关性，然后从数据集中选择若干个样本数据点，在整个项目中一直跟踪研究这几个数据点。

这个数据集包含了6个重要的产品类型：**'Fresh'**, **'Milk'**, **'Grocery'**, **'Frozen'**, **'Detergents_Paper'**和 **'Delicatessen'**。想一下这里每一个类型代表你会购买什么样的产品。

In [3]:
# 显示数据集的一个描述
display(data.describe())

np.percentile(data, 90, axis = 0)

Unnamed: 0,Fresh,Milk,Grocery,Frozen,Detergents_Paper,Delicatessen
count,440.0,440.0,440.0,440.0,440.0,440.0
mean,12000.297727,5796.265909,7951.277273,3071.931818,2881.493182,1524.870455
std,12647.328865,7380.377175,9503.162829,4854.673333,4767.854448,2820.105937
min,3.0,55.0,3.0,25.0,3.0,3.0
25%,3127.75,1533.0,2153.0,742.25,256.75,408.25
50%,8504.0,3627.0,4755.5,1526.0,816.5,965.5
75%,16933.75,7190.25,10655.75,3554.25,3922.0,1820.25
max,112151.0,73498.0,92780.0,60869.0,40827.0,47943.0


array([27090.5, 12229.9, 18910.1,  7545.3,  7438.3,  2945.9])

In [4]:
data[(data.Milk>=12000) & (data.Detergents_Paper >= 7438) &(data.Grocery >= 18910)] #咖啡馆
data[(data.Fresh>=20000) & (data.Delicatessen >= 3000)]#饭店
data[(data.Fresh<10000)&(data.Delicatessen >= 3000)&(data.Grocery >= 18910)&(data.Frozen>=3000)]#超市

Unnamed: 0,Fresh,Milk,Grocery,Frozen,Detergents_Paper,Delicatessen
92,9198,27472,32034,3232,18906,5130
251,6134,23133,33586,6746,18594,5121


###  选择样本

不断尝试，尽量找找到三个明显不同的客户

In [5]:
# 从数据集中选择三个你希望抽样的数据点的索引
indices = [65,87,251]

# 为选择的样本建立一个DataFrame
samples = pd.DataFrame(data.loc[indices], columns = data.keys()).reset_index(drop = True)
print("Chosen samples of wholesale customers dataset:")
display(samples) #percentile

Chosen samples of wholesale customers dataset:


Unnamed: 0,Fresh,Milk,Grocery,Frozen,Detergents_Paper,Delicatessen
0,85,20959,45828,36,24231,1423
1,43265,5025,8117,6312,1579,14351
2,6134,23133,33586,6746,18594,5121
