TGI指数，全称Target Group Index，可以反映目标群体在特定研究范围内强势或者弱势。简单的说，TGI指数是反应偏好的一种指标。

**TGI指数 = 目标群体中具有某一特征的群体所占比例 / 总体中具有相同特征的群体所占比例  * 标准数100**

**TGI指数大于100，代表着某类用户更具有相应的倾向或者偏好，数值越大则倾向和偏好越强；小于100，则说明该类用户相关倾向较弱（和平均相比）；而等于100则表示在平均水平。**

## 01  指标拆解

三个关键点：**某一特征**，**总体**，**目标群体**

假设要研究A公司脱发TGI指数：

- **某一特征**：就是要分析的某种行为或者状态，这里是脱发（或者说受脱发困扰）
- **总体**：是研究的所有对象，即A公司所有人
- **目标群体**：是总体中感兴趣的一个分组，假设关注的分组是数据部，那目标群体就是数据部

于是，公式中的分子“目标群体中具有某一特征的群体所占比例”可以理解为“数据部脱发人数占数据部的比例”，假设数据部有15个人，有9个人受脱发困扰，那数据部脱发人数占比就是9/15，等于60%。

分母“总体中具有相同特征的群体所占比例”，等同于“全公司受脱发困扰人数占公司总人数的比例”，假设公司一共500人，有120人受脱发困扰，那这个比例是24%。

所以，数据部脱发TGI指数，可以用 60% / 24%  *  100 = 250，其他部门脱发TGI指数计算逻辑是一样的，用本部门脱发人数占比 / 公司脱发人数占比 × 100即可。

数据部脱发TGI指数是250，远远高于100，说明搞数据的脱发风险极高。

## 02  TGI实例分析

公司最近要推出一款客单比较高的产品，打算在一些城市先试销，要求分析出哪些城市的人有高客单偏好，并筛选出前5名的城市。

In [1]:
import pandas as pd
import numpy as np

### 导入数据

In [2]:
df = pd.read_excel('TGI指数案例数据.xlsx')
df.head()

Unnamed: 0,品牌名称,买家昵称,付款日期,订单状态,实付金额,邮费,省份,城市,购买数量
0,viva la vida,做快淘饭,2019-04-18 00:03:00,交易成功,22.32,0,北京,北京市,1
1,viva la vida,作自有世祟,2019-02-17 00:03:51,交易成功,87.0,0,上海,上海市,1
2,viva la vida,作雪白室,2019-04-18 00:01:43,交易成功,97.66,0,福建省,福州市,2
3,viva la vida,作美女购物主,2019-01-11 23:35:01,交易成功,37.23,0,河南省,安阳市,3
4,viva la vida,作美女购物主,2019-02-18 14:16:03,交易成功,29.5,0,河南省,安阳市,2


### 数据概览

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28832 entries, 0 to 28831
Data columns (total 9 columns):
品牌名称    28832 non-null object
买家昵称    28832 non-null object
付款日期    28832 non-null datetime64[ns]
订单状态    28832 non-null object
实付金额    28832 non-null float64
邮费      28832 non-null int64
省份      28832 non-null object
城市      28832 non-null object
购买数量    28832 non-null int64
dtypes: datetime64[ns](1), float64(1), int64(2), object(5)
memory usage: 2.0+ MB


### 明确数据需求

1. 客单比较高的定义？

    就产品线和历史数据来看，单次购买大于50元就算高客单的客户。
    

2. 按照高客单偏好给城市排序。这里的偏好，可以用**TGI指数**来衡量：
    - **特征**：高客单，即客户单次购买超过50元
    - **目标群体**：各个城市，可以分别计算出所有城市客户的高客单偏好
    - **总体**：涉及到的所有客户
    
 故分析的关键就在于，计算出不同城市的高客单人数及所占的比例。

### 单个用户打标

先判断每个用户是否属于高客单的人群，所以先按用户昵称进行分组，看每位用户的平均支付金额。这里用平均，是因为有的客户多次购买，而每次下单金额也不一样，故平均之。

In [4]:
# 按用户昵称分组，计算每位用户的平均支付金额
gp_user = df.groupby(['买家昵称'])['实付金额'].mean().reset_index()
gp_user.head()

Unnamed: 0,买家昵称,实付金额
0,.blue_ram,49.45
1,.christiny,22.0
2,.willn1,34.57
3,.托托m,37.475
4,0000妮,13.5


In [5]:
# 自定义判断函数，若单个用户平均支付金额大于50，定义为“高客单”的类别，否则为低客单：
def if_high(x):
    if x > 50:
        return '高客单'
    else:
        return '低客单'


# 使用apply调用判断函数
gp_user['客单类别'] = gp_user['实付金额'].apply(if_high)
gp_user.head(10)

Unnamed: 0,买家昵称,实付金额,客单类别
0,.blue_ram,49.45,低客单
1,.christiny,22.0,低客单
2,.willn1,34.57,低客单
3,.托托m,37.475,低客单
4,0000妮,13.5,低客单
5,0009797王,94.5,高客单
6,000xyx0,99.25,高客单
7,000米粒儿米粒0,24.5,低客单
8,00556旭79618,23.86,低客单
9,00不哭0,53.545,高客单


### 匹配城市

In [6]:
df_drop = df.drop_duplicates('买家昵称')  # 按昵称去重,避免匹配结果出现多个重复数据
df_merge = pd.merge(left=gp_user,
                    right=df_drop,
                    left_on='买家昵称',
                    right_on='买家昵称',
                    how='left')  # 补充每个用户的地域字段
df_merge.head()

Unnamed: 0,买家昵称,实付金额_x,客单类别,品牌名称,付款日期,订单状态,实付金额_y,邮费,省份,城市,购买数量
0,.blue_ram,49.45,低客单,viva la vida,2019-02-04 17:49:34.000,交易成功,49.45,0,上海,上海市,1
1,.christiny,22.0,低客单,viva la vida,2019-01-29 14:17:15.000,交易成功,22.0,0,江苏省,南京市,1
2,.willn1,34.57,低客单,viva la vida,2019-01-11 03:46:18.000,交易成功,34.57,0,山东省,烟台市,2
3,.托托m,37.475,低客单,viva la vida,2019-01-11 02:26:33.000,交易成功,37.475,0,上海,上海市,3
4,0000妮,13.5,低客单,viva la vida,2019-06-28 16:53:26.458,交易成功,13.5,0,广东省,揭阳市,1


### 高客单TGI指数计算

In [7]:
df_merge = df_merge[['省份', '城市', '买家昵称', '客单类别']]  # 筛选出需要的列
result = df_merge.pivot_table(index=['省份', '城市'],
                              columns='客单类别',
                              aggfunc='count')  # 透视得到每个城市高客单、低客单的人数分别是多少
result.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,买家昵称,买家昵称
Unnamed: 0_level_1,客单类别,低客单,高客单
省份,城市,Unnamed: 2_level_2,Unnamed: 3_level_2
上海,上海市,2818.0,2374.0
云南省,临沧市,3.0,2.0
云南省,丽江市,1.0,3.0
云南省,保山市,6.0,2.0
云南省,大理白族自治州,9.0,8.0


In [14]:
tgi = pd.merge(result['买家昵称']['高客单'].reset_index(),
               result['买家昵称']['低客单'].reset_index(),
               left_on=['省份', '城市'],
               right_on=['省份', '城市'],
               how='inner')  # 将多层索引转换为单索引
tgi.head()

Unnamed: 0,省份,城市,高客单,低客单
0,上海,上海市,2374.0,2818.0
1,云南省,临沧市,2.0,3.0
2,云南省,丽江市,3.0,1.0
3,云南省,保山市,2.0,6.0
4,云南省,大理白族自治州,8.0,9.0


In [15]:
tgi['总客单'] = tgi['低客单'] + tgi['高客单']  # 计算各城市总客单数
tgi['高客单占比'] = tgi['高客单'] / tgi['总客单']  # 计算各城市高客单占总客单的比例

tgi.head()

Unnamed: 0,省份,城市,高客单,低客单,总客单,高客单占比
0,上海,上海市,2374.0,2818.0,5192.0,0.457242
1,云南省,临沧市,2.0,3.0,5.0,0.4
2,云南省,丽江市,3.0,1.0,4.0,0.75
3,云南省,保山市,2.0,6.0,8.0,0.25
4,云南省,大理白族自治州,8.0,9.0,17.0,0.470588


有些非常小众的城市，高客单或者低客单人数等于1甚至没有，而这些值尤其是空值会影响结果的计算，因此需要提前检核数据：

In [16]:
tgi.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 346 entries, 0 to 345
Data columns (total 6 columns):
省份       346 non-null object
城市       346 non-null object
高客单      332 non-null float64
低客单      329 non-null float64
总客单      315 non-null float64
高客单占比    315 non-null float64
dtypes: float64(4), object(2)
memory usage: 18.9+ KB


In [17]:
tgi[tgi.isnull().values == True].drop_duplicates()  # 查看数据集中存在空值的行

Unnamed: 0,省份,城市,高客单,低客单,总客单,高客单占比
42,四川省,巴中市,,2.0,,
49,四川省,甘孜藏族自治州,,2.0,,
61,宁夏回族自治区,固原市,,1.0,,
62,宁夏回族自治区,石嘴山市,,2.0,,
145,新疆维吾尔自治区,克孜勒苏柯尔克孜自治州,1.0,,,
147,新疆维吾尔自治区,博尔塔拉蒙古自治州,,2.0,,
151,新疆维吾尔自治区,塔城地区,,1.0,,
155,新疆维吾尔自治区,阿克苏地区,5.0,,,
156,新疆维吾尔自治区,阿勒泰地区,2.0,,,
157,新疆维吾尔自治区,阿拉尔市,,1.0,,


高客单和低客单都有空值（可以理解为0），导致总客单也存在空值，而TGI指数对于空值来说意义不大，故剔除掉存在空值的行：

In [18]:
tgi.dropna(inplace=True)  # 删除存在空值的行

In [19]:
total_percentage = tgi['高客单'].sum() / tgi['总客单'].sum()  # 计算所有城市的总客单数中高客单群体所占比例
total_percentage

0.41528303343887557

In [21]:
tgi['高客单TGI指数'] = tgi['高客单占比'] / total_percentage * 100  # 计算高客单群体的TGI指数
tgi = tgi.sort_values('高客单TGI指数', ascending=False).reset_index(drop=True)
tgi.head(10)

Unnamed: 0,省份,城市,高客单,低客单,总客单,高客单占比,高客单TGI指数
0,新疆维吾尔自治区,哈密市,4.0,1.0,5.0,0.8,192.639702
1,新疆维吾尔自治区,巴音郭楞蒙古自治州,10.0,3.0,13.0,0.769231,185.230483
2,云南省,丽江市,3.0,1.0,4.0,0.75,180.599721
3,甘肃省,白银市,3.0,1.0,4.0,0.75,180.599721
4,吉林省,辽源市,2.0,1.0,3.0,0.666667,160.533085
5,四川省,广安市,6.0,3.0,9.0,0.666667,160.533085
6,广西壮族自治区,河池市,4.0,2.0,6.0,0.666667,160.533085
7,内蒙古自治区,锡林郭勒盟,2.0,1.0,3.0,0.666667,160.533085
8,黑龙江省,鹤岗市,2.0,1.0,3.0,0.666667,160.533085
9,山西省,临汾市,9.0,5.0,14.0,0.642857,154.799761


结果中存在一个严重的问题：**高客单TGI指数排名靠前的城市，总客户数几乎不超过10人**，这样的高客单人口占比，完全没有说服力。

- 注意：**TGI指数能够显示偏好的强弱，但很容易让人忽略具体的样本量大小**

为了加强数据整体的信度，最终决定先对总客单数进行筛选，用总人数的平均值作为阈值，只保留总客单数大于平均值的城市：

In [30]:
tgi.loc[tgi['总客单'] > tgi['总客单'].mean(), :].sort_values(
    '高客单TGI指数', ascending=False).reset_index(drop=True).head(10)

Unnamed: 0,省份,城市,高客单,低客单,总客单,高客单占比,高客单TGI指数
0,福建省,福州市,145.0,135.0,280.0,0.517857,124.699807
1,广东省,珠海市,49.0,52.0,101.0,0.485149,116.823582
2,北京,北京市,1203.0,1298.0,2501.0,0.481008,115.82645
3,福建省,厦门市,105.0,118.0,223.0,0.470852,113.380991
4,广东省,佛山市,118.0,135.0,253.0,0.466403,112.309708
5,江西省,南昌市,63.0,73.0,136.0,0.463235,111.546887
6,四川省,成都市,287.0,334.0,621.0,0.462158,111.287429
7,上海,上海市,2374.0,2818.0,5192.0,0.457242,110.103682
8,江苏省,无锡市,135.0,162.0,297.0,0.454545,109.454376
9,广东省,深圳市,438.0,528.0,966.0,0.453416,109.18244


- 分析结果：
    
    基于各城市高客单TGI指数，可以看出福州、珠海、北京、厦门和佛山，是高客单偏好排名前5的城市！公司要试销的高客单新产品，仅从客单角度，可以优先考虑这些城市！