### Thinking1
问：关联规则中的支持度、置信度和提升度代表的什么，如何计算

答：支持度：指某个商品组合出现的次数占总次数的比例；  
&emsp;&emsp;置信度（A->B)：指在购买商品组合A的情况下购买商品组合B的概率，可以用商品组合{A,B}的支持度除以商品组合A的支持度得到，是一个条件概率；  
&emsp;&emsp;提升度（A->B)：置信度（A->B）与商品组合B的支持度的比值，用以表示在商品组合A的出现，对商品组合B的出现概率提升的程度，提升度大于1表示有提升，等于1表示没有提升也没有下降，小于1表示有下降。

### Thinking2
问：关联规则与协同过滤的区别

答：协同过滤是通过分析基于用户或基于商品的相似度来进行个性化的商品推荐，适用于Amazon等没有实物展示的网络商城，可以基于用户历史行为进行分析，旨在能让每一位用户都能走进为自己量身打造的商店，从而提高销量；而关联规则是基于购物订单的频繁项集挖掘，对整体找规律，没有“用户偏好”，适用于WalMart等实体商店，用户通常是一次购买，旨在通过对群体行为的分析来寻找潜在的商机。

### Thinking3
问：为什么我们需要多种推荐算法

答：由于不同的推荐算法有不同的原理，因而可能适用于不同的场景（例如Thinking2中提到的情况），而在实际生活中问题的场景往往复杂多变的，有综合性，所以我们需要多种推荐算法来应对。

### Thinking4
问：关联规则中的最小支持度、最小置信度该如何确定

答：关于最小支持度、最小置信度的设定没有绝对的规则，通常需要根据需要不断地尝试实验，从而得到合适的取值。

### Thinking5
问：都有哪些常见的回归分析方法，评价指标是什么

答：常见的回归分析问题有一元回归分析的多元回归分析（区别在于有一个还是多个自变量），简单回归分析和多重回归分析（区别在于有一个还是多个因变量），线性回归分析和非线性回归分析（区别在于因变量与自变量之间的关系是线性还是非线性）。  
&emsp;&emsp;常用的评价指标有：R方（用于表示因变量与自变量之间的相关性，取值范围[0,1]，R方越接近于1，相关性越大，回归分析越有价值），MSE（均方误差，真实值与预测值之差的平方的求和平均），MAE（平均绝对误差）

### Action1
针对MarketBasket数据集进行购物篮分析（频繁项集及关联规则挖掘）
https://www.kaggle.com/dragonheir/basket-optimisation

In [3]:
import os
os.getcwd()

'C:\\Users\\80566\\BI\\week2'

In [36]:
import pandas as pd
import time
data = pd.read_csv('./datasets_8127_11403_Market_Basket_Optimisation.csv', header=None)

# 数据探索
print(data.shape)
print(data.values[2,2])
print(type(data.values[2,2]))
data.head()

(7501, 20)
nan
<class 'float'>


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,


In [95]:
# 采用efficient_apriori工具包
def rule1():
    from efficient_apriori import apriori
    start = time.time()
    transactions = []
    for i in range(data.shape[0]):
        temp = set()
        for j in range(data.shape[1]):
            if str(data.values[i,j]) != 'nan':
                temp.add(str(data.values[i,j]).lower())
        transactions.append(temp)
    
    #挖掘频繁项集和关联规则
    fre_sets, rules = apriori(transactions, min_support = 0.02, min_confidence=0.3)
    print('频繁项集为', fre_sets)
    print('关联规则为', rules)
    print('关联规则第1条为：', rules[0])
    end = time.time()
    print('用时为：', end-start)

rule1()

频繁项集为 {1: {('salmon',): 319, ('mineral water',): 1788, ('frozen smoothie',): 475, ('olive oil',): 494, ('vegetables mix',): 193, ('cottage cheese',): 239, ('avocado',): 250, ('green tea',): 991, ('energy drink',): 200, ('shrimp',): 536, ('honey',): 356, ('almonds',): 153, ('tomato juice',): 228, ('low fat yogurt',): 574, ('eggs',): 1348, ('meatballs',): 157, ('burgers',): 654, ('turkey',): 469, ('milk',): 972, ('energy bar',): 203, ('whole wheat rice',): 439, ('french fries',): 1282, ('whole wheat pasta',): 221, ('soup',): 379, ('frozen vegetables',): 715, ('spaghetti',): 1306, ('cookies',): 603, ('cooking oil',): 383, ('champagne',): 351, ('chicken',): 450, ('chocolate',): 1229, ('oil',): 173, ('tomatoes',): 513, ('fresh tuna',): 167, ('pepper',): 199, ('red wine',): 211, ('pancakes',): 713, ('ham',): 199, ('grated cheese',): 393, ('fresh bread',): 323, ('escalope',): 595, ('ground beef',): 737, ('herb & pepper',): 371, ('strawberries',): 160, ('cake',): 608, ('hot dogs',): 243, ('bro

In [97]:
def encode_units(x):
    if x <= 0:
        return 0
    if x>= 1:
        return 1
    
# 采用mlxtend.frequent.patterns工具包    
def rule2():
    from mlxtend.frequent_patterns import apriori
    from mlxtend.frequent_patterns import association_rules
    start = time.time()
    temp = []
    for i in range(data.shape[0]):
        for j in range(data.shape[1]):
            temp.append([i+1, data.values[i,j]])
    df = pd.DataFrame(temp, columns=['transaction', 'item'])
    OHE_df = df.groupby(['transaction', 'item'])['item'].count().unstack().fillna(0)
    OHE_df = OHE_df.applymap(encode_units)
    fre_sets = apriori(OHE_df, min_support = 0.02, use_colnames=True)
    rules = association_rules(fre_sets, metric='lift', min_threshold=0.5)
    print('频繁项集为', fre_sets)
    print('关联规则为', rules[(rules['lift']>1) & (rules['confidence']>0.3)])
    end = time.time()
    print('用时为：', end-start)

rule2()

频繁项集为       support                           itemsets
0    0.020397                          (almonds)
1    0.033329                          (avocado)
2    0.033729                         (brownies)
3    0.087188                          (burgers)
4    0.030129                           (butter)
..        ...                                ...
98   0.020131  (whole wheat rice, mineral water)
99   0.022930             (olive oil, spaghetti)
100  0.025197              (pancakes, spaghetti)
101  0.021197                (spaghetti, shrimp)
102  0.020931              (spaghetti, tomatoes)

[103 rows x 2 columns]
关联规则为             antecedents      consequents  antecedent support  \
1             (burgers)           (eggs)            0.087188   
8                (cake)  (mineral water)            0.081056   
10            (chicken)  (mineral water)            0.059992   
24          (chocolate)  (mineral water)            0.163845   
28        (cooking oil)  (mineral water)            0.05