﻿## 练习：星巴克
<br>

<img src="https://opj.ca/wp-content/uploads/2018/02/New-Starbucks-Logo-1200x969.jpg" width="200" height="200">
<br>
<br>
 
#### 背景信息

此练习将提供一个数据集，星巴克原先使用该数据集作为面试题。这道练习的数据包含 120,000 个数据点，按照 2:1 的比例划分为训练文件和测试文件。数据模拟的实验测试了一项广告宣传活动，看看该宣传活动能否吸引更多客户购买定价为 10 美元的特定产品。由于公司分发每份宣传资料的成本为 0.15 美元，所以宣传资料最好仅面向最相关的人群。每个数据点都有一列表示是否向某个人发送了产品宣传资料，另一列表示此人最终是否购买了该产品。每个人还有另外 7 个相关特征，表示为 V1-V7。

#### 优化策略

你的任务是通过训练数据了解 V1-V7 存在什么规律表明应该向用户分发宣传资料。具体而言，你的目标是最大化以下指标：

* **增量响应率 (IRR)** 

IRR 表示与没有收到宣传资料相比，因为推广活动而购买产品的客户增加了多少。从数学角度来说，IRR 等于推广小组的购买者人数与购买者小组客户总数的比例 (_treatment_) 减去非推广小组的购买者人数与非推广小组的客户总数的比例 (_control_)。

$$ IRR = \frac{purch_{treat}}{cust_{treat}} - \frac{purch_{ctrl}}{cust_{ctrl}} $$


* **净增量收入 (NIR)**

NIR 表示分发宣传资料后获得（丢失）了多少收入。从数学角度来讲，NIR 等于收到宣传资料的购买者总人数的 10 倍减去分发的宣传资料份数的 0.15 倍，再减去没有收到宣传资料的购买者人数的 10 倍。

$$ NIR = (10\cdot purch_{treat} - 0.15 \cdot cust_{treat}) - 10 \cdot purch_{ctrl}$$

要详细了解星巴克提供给应聘者的数据集，请参阅[此处的说明](https://drive.google.com/open?id=18klca9Sef1Rs6q8DW4l7o349r8B70qXM)。

下面是训练数据。研究数据和不同的优化策略。

#### 如何测试你的策略？

如果你想到了优化策略，请完成要传递给 `test_results` 函数的 `promotion_strategy` 函数。  
根据以往的数据，我们知道有四种可能的结果：

实际推广客户与预测推广客户表格：  

<table>
<tr><th></th><th colspan = '2'>实际</th></tr>
<tr><th>预测</th><th>是</th><th>否</th></tr>
<tr><th>是</th><td>I</td><td>II</td></tr>
<tr><th>否</th><td>III</td><td>IV</td></tr>
</table>

我们仅针对预测应该包含推广活动的个人比较了指标，即第一象限和第二象限。由于收到宣传资料的第一组客户（在训练集中）是随机收到的，因此第一象限和第二象限的参与者人数应该大致相同。  

比较第一象限与第二象限可以知道宣传策略未来效果如何。 

首先阅读以下数据。看看每个变量或变量组合与推广活动对购买率有何影响。你想到谁应该接收宣传资料的策略后，请使用在最后的 `test_results` 函数中使用的测试数据集测试你的策略。

In [None]:
# load in packages
from itertools import combinations

from test_results import test_results, score
import numpy as np
import pandas as pd
import scipy as sp
import sklearn as sk

import matplotlib.pyplot as plt
import seaborn as sb
%matplotlib inline

# load in the data
train_data = pd.read_csv('./training.csv')
train_data.head()

<div>
<style>
    .dataframe thead tr:only-child th {
        text-align: right;
    }

In [None]:
.dataframe thead th {
    text-align: left;
}

.dataframe tbody tr th {
    vertical-align: top;
}
</style>
<table border="1" class="dataframe">
  <thead>
<tr style="text-align: right;">
  <th></th>
  <th>ID</th>
  <th>宣传</th>
  <th>购买</th>
  <th>V1</th>
  <th>V2</th>
  <th>V3</th>
  <th>V4</th>
  <th>V5</th>
  <th>V6</th>
  <th>V7</th>
</tr>
  </thead>
  <tbody>
<tr>
  <th>0</th>
  <td>1</td>
  <td>否</td>
  <td>0</td>
  <td>2</td>
  <td>30.443518</td>
  <td>-1.165083</td>
  <td>1</td>
  <td>1</td>
  <td>3</td>
  <td>2</td>
</tr>
<tr>
  <th>1</th>
  <td>3</td>
  <td>否</td>
  <td>0</td>
  <td>3</td>
  <td>32.159350</td>
  <td>-0.645617</td>
  <td>2</td>
  <td>3</td>
  <td>2</td>
  <td>2</td>
</tr>
<tr>
  <th>2</th>
  <td>4</td>
  <td>否</td>
  <td>0</td>
  <td>2</td>
  <td>30.431659</td>
  <td>0.133583</td>
  <td>1</td>
  <td>1</td>
  <td>4</td>
  <td>2</td>
</tr>
<tr>
  <th>3</th>
  <td>5</td>
  <td>否</td>
  <td>0</td>
  <td>0</td>
  <td>26.588914</td>
  <td>-0.212728</td>
  <td>2</td>
  <td>1</td>
  <td>4</td>
  <td>2</td>
</tr>
<tr>
  <th>4</th>
  <td>8</td>
  <td>是</td>
  <td>0</td>
  <td>3</td>
  <td>28.044332</td>
  <td>-0.385883</td>
  <td>1</td>
  <td>1</td>
  <td>2</td>
  <td>2</td>
</tr>
  </tbody>
</table>
</div>




In [None]:
# Cells for you to work and document as necessary - 
# definitely feel free to add more cells as you need

In [None]:
def promotion_strategy(df):
    '''
    INPUT 
    df - a dataframe with *only* the columns V1 - V7 (same as train_data)

    OUTPUT
    promotion_df - np.array with the values
                   'Yes' or 'No' related to whether or not an 
                   individual should recieve a promotion 
                   should be the length of df.shape[0]
                
    Ex:
    INPUT: df
    
    V1	V2	  V3	V4	V5	V6	V7
    2	30	-1.1	1	1	3	2
    3	32	-0.6	2	3	2	2
    2	30	0.13	1	1	4	2
    
    OUTPUT: promotion
    
    array(['Yes', 'Yes', 'No'])
    indicating the first two users would recieve the promotion and 
    the last should not.
    '''
    
    
    
    
    return promotion

```python
# This will test your results, and provide you back some information 
# on how well your promotion_strategy will work in practice

test_results(promotion_strategy)
```