# Thinkeing 1 :关联规则中的支持度、置信度和提升度代表的什么，如何计算?

答：   
1. 支持度：每个商品（商品组合）在总体购物小票中的出现概率：  $ Support_i = \frac{包含 商品 （i） 的小票个数}{总体小票个数} $   

2. 置信度：当某一商品（商品组合） j 购买时，另一个其他商品（商品组合） i 会购买的概率： $ Confidence(i|j) = \frac{商品（i，j）同时出现的小票数量}{商品（j）出现的小票数量} $  

3. 支持度：当某一组合 （i | j） 组合售卖时，j 的出现对 i 商品售卖的提升程度：$ Lift(i|j) = \frac{Confidence(i|j)}{Support(i)}$ 

# Thinking 2 : 关联规则与协同过滤的区别?

答：  
1. 关联规则是静态的，其基于所有的整体数据，没有用到具体用户的数据，超市只有一个超市，没有冷启动问题。  

2. 协同过滤是动态的过程，基于用户（UserCF）之间，商品（ItemCF）之间的相似度，为用户提供更好的个性化商场，强调“千人千面”，每个人都有不同的商场，在数据量不够大时，存在冷启动问题

# Thinking 3 : 为什么我们需要多种推荐算法?

答：  
1. 首先对于推荐系统的 ‘EE’ 问题，需要我们使用多种推荐算法：Exploit可以充分挖掘已有信息，但会造成信息茧房问题；Explore 可以猜测用户的其他新兴趣，但准确率较低，猜测时必然会存在误差。为了满足不同的需求，必然需要多种推荐算法混合使用。

2. 推荐系统是一种信息过滤系统，存在多种评判规则，“用户满意度、预测准确度、覆盖率、多样性、新颖性、惊喜度、实时性、内容时效性、内容质量、商业目标”等等，一种推荐系统不可能满足所有的目标，因此使用多种推荐系统先粗排，然后按照不同的评判标准排序后，输出最后的结果

3. 推荐系统存在冷启动问题，静态与动态的不同推荐系统相结合，才能达到满足各类用户的需求。

# Thinking 4 : 关联规则中的最小支持度、最小置信度该如何确定?

答：
1. 支持度表示商品（商品组合）在总体中的出现概率，总体小票数量越大，最小支持度 $ {min}\_ {support} $ 应该设置的越小，以保证可以存在频繁项集。频繁项集越少时，应当调小最小支持度。

2. 置信度表示一个商品（商品组合）的出现，另一商品（商品组合）出现的概率，总体数量越多，最小置信度应当越小。当关联规则太少时，应当调小最小置信度

# Thinking 5 : 都有哪些常见的回归分析方法，评价指标是什么?

答：
一、 回归分析方法有很多种：
1. 参数回归分析方法：
    1. 线性回归方法：
        1. 一元线性回归/多元线性回归
        2. 加权最小二乘回归（解决异方差问题）
        3. 岭回归，Lasso回归，Elastic回归分析（解决多重共线性，以及高维变量的变量选择）
        4. Logistic回归分析（基于Logistic的一系列分类回归分析方法）
        5. Probit、Tobit回归分析（对于受限因变量的回归分析）
        6. 针对一系列时间序列的回归分析方法
        7. 针对面板数据的一系列回归分析方法
        8. 针对空间数据的一系列回归分析方法  
        等  
    2. 非线性回归分析（可转化为线性回归分析的多项式回归分析等，以及不可转化为线性回归的非线性回归） 
    
    
2. 非参数回归分析方法（大样本条件下，不考虑变量的具体分布形式，一般用于解决非线性问题）：
    1. 分位数回归分析
    2. 中位数回归分析
    3. 局部线性回归分析（局部多项式等）
    4. 稳健回归
    5. 近邻回归（KNN等）
    6. 决策树回归分析
    7. SVM回归
    8. 非参数问题中的：岭回归，Lasso回归，Elastic回归分析  
    等  
   
二、 评价指标：
1. MAE（Mean Absolute Error）平均绝对差值
2. MSE(Mean Square Error)均方误差，是回归任务最常用的性能度量，最小二乘估计也是使用均方误差
3. log对数损失函数（逻辑回归）：交叉熵损失，其实是由最大似然估计推导而来
4. RMSE(Root Mean Square error)均方根误差
5. Normalized root-mean-square deviation归一化均方差跟偏差
6. $ R^2 (以及R^2_{adjust}) $
7. Pearson's Correlation Coefficient(皮尔逊相关系数)
8. concordance correlation coefficient(一致性相关系数)
9. LR似然比检验
10. AIC、BIC  
等

### 资料等
https://www.cnblogs.com/sumuncle/p/5647722.html  
https://www.zhihu.com/question/19628902  
极大似然估计方法：  
https://blog.csdn.net/zengxiantao1994/article/details/72787849/  
非参数统计理论：  
https://baike.baidu.com/item/%E9%9D%9E%E5%8F%82%E6%95%B0%E7%BB%9F%E8%AE%A1/7763503?fr=aladdin  
机器学习检验指标：  
https://blog.csdn.net/qq_28935065/article/details/84286559  
https://blog.csdn.net/tox33/article/details/81141485

# Action 针对MarketBasket数据集进行购物篮分析（频繁项集及关联规则挖掘）

## 使用Apriori第一种方法

In [171]:
import pandas as pd
import numpy as np
from efficient_apriori import apriori

#加载数据
data = pd.read_csv('c:/Users/10109/Documents/Jupyter notebook/人工智能课程(BI方向)/商业智能和推荐系统/lesson2 挖掘数据中的关联规则/homework/Market_Basket_Optimisation.csv', header = None)
data = data.fillna(0)
#print(data)
#将数据整理成Transaction列表
transaction = []
for i in range(data.shape[0]):
    temp = set()
    for j in range(data.shape[1]):
        if data.iloc[i, j] != 0:
            temp.add(data.iloc[i, j])
    transaction.append(temp)
# print(transaction)
print('总计有{}张小票'.format(data.shape[0]),'\n')
itemsets, rules = apriori(transaction, min_support = 0.03, min_confidence = 0.3)

print('频繁项集为：\n', itemsets,'\n')
print('关联规则为：\n', rules)


总计有7501张小票 

Wall time: 0 ns
频繁项集为：
 {1: {('frozen smoothie',): 475, ('low fat yogurt',): 574, ('cottage cheese',): 239, ('mineral water',): 1788, ('green tea',): 991, ('avocado',): 250, ('olive oil',): 494, ('tomato juice',): 228, ('salmon',): 319, ('shrimp',): 536, ('honey',): 356, ('burgers',): 654, ('eggs',): 1348, ('turkey',): 469, ('whole wheat rice',): 439, ('milk',): 972, ('french fries',): 1282, ('soup',): 379, ('spaghetti',): 1306, ('frozen vegetables',): 715, ('cookies',): 603, ('cooking oil',): 383, ('champagne',): 351, ('chocolate',): 1229, ('chicken',): 450, ('tomatoes',): 513, ('pancakes',): 713, ('grated cheese',): 393, ('fresh bread',): 323, ('escalope',): 595, ('ground beef',): 737, ('herb & pepper',): 371, ('cake',): 608, ('hot dogs',): 243, ('brownies',): 253, ('butter',): 226}, 2: {('green tea', 'mineral water'): 233, ('milk', 'mineral water'): 360, ('eggs', 'mineral water'): 382, ('eggs', 'spaghetti'): 274, ('mineral water', 'spaghetti'): 448, ('chocolate', 'eggs'

## 使用Apriori第二种方法输出详细结果

In [170]:
import pandas as pd
import numpy as np
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
from pandas import DataFrame

#加载数据
data = pd.read_csv('c:/Users/10109/Documents/Jupyter notebook/人工智能课程(BI方向)/商业智能和推荐系统/lesson2 挖掘数据中的关联规则/homework/Market_Basket_Optimisation.csv', header = None)
data = data.fillna(0)

#将数据整理成Transaction列表
transaction = []
for i in range(data.shape[0]):
    temp = str()
    for j in range(data.shape[1]):
        if data.iloc[i, j] != 0:
            temp += str(data.iloc[i, j]) + str(',')
    transaction.append(temp)

transactions = DataFrame({'Item':transaction})
one_hot = transactions.drop('Item', 1).join(transactions.Item.str.get_dummies(','))

#使用onehot数据进行关联分析
frequent = apriori(one_hot, min_support = 0.05, use_colnames = True)
rules = association_rules(frequent, metric = 'lift', min_threshold = 1)

print('总计有{}张小票'.format(one_hot.shape[0]),'\n')
print('频繁项集为：\n', frequent,'\n')
print('关联规则为：\n', rules)


Wall time: 0 ns
Wall time: 0 ns
总计有7501张小票 

频繁项集为：
      support                    itemsets
0   0.087188                   (burgers)
1   0.081056                      (cake)
2   0.059992                   (chicken)
3   0.163845                 (chocolate)
4   0.080389                   (cookies)
5   0.051060               (cooking oil)
6   0.179709                      (eggs)
7   0.079323                  (escalope)
8   0.170911              (french fries)
9   0.063325           (frozen smoothie)
10  0.095321         (frozen vegetables)
11  0.052393             (grated cheese)
12  0.132116                 (green tea)
13  0.098254               (ground beef)
14  0.076523            (low fat yogurt)
15  0.129583                      (milk)
16  0.238368             (mineral water)
17  0.065858                 (olive oil)
18  0.095054                  (pancakes)
19  0.071457                    (shrimp)
20  0.050527                      (soup)
21  0.174110                 (spaghetti)
22  

## 使用spark 中的 FPGrowth方法  
>### FPGrowth 源码构造方式
https://zhuanlan.zhihu.com/p/140745153?utm_source=wechat_session&utm_medium=social&utm_oi=936633886726053888   
>### pyspark FPGrowth 使用方式
https://blog.csdn.net/qq_23860475/article/details/90748080?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param

In [1]:
import pandas as pd
import numpy as np
from efficient_apriori import apriori

#加载数据
data = pd.read_csv('c:/Users/10109/Documents/Jupyter notebook/人工智能课程(BI方向)/商业智能和推荐系统/lesson2 挖掘数据中的关联规则/homework/Market_Basket_Optimisation.csv', header = None)
data = data.fillna(0)
#print(data)
#将数据整理成Transaction列表
transaction = []
for i in range(data.shape[0]):
    temp = set()
    for j in range(data.shape[1]):
        if data.iloc[i, j] != 0:
            temp.add(data.iloc[i, j])
    transaction.append(temp)

transactions = []
for i in transaction:
    temp_list = []
    for j in i:
        temp_list.append(j)
    transactions.append([temp_list])
    
from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.ml.fpm import FPGrowth
import datetime
if __name__ == "__main__":
    t1=datetime.datetime.now()
    appname = "FPgrowth"
    master ="local[4]" 

    #spark配置
    conf = SparkConf().setAppName(appname).setMaster(master)                  
    spark = SparkSession.builder.config(conf = conf).getOrCreate()
    
    #加载数据
    data = transactions    
    #将数据转为spark中的dataframe
    data = spark.createDataFrame(data, ["items"])
    
    #模型建立
    fp = FPGrowth(minSupport=0.03, minConfidence=0.2)
    #模型拟合
    fpm  = fp.fit(data)
    #在控制台显示前五条频繁项集
    fpm.freqItemsets.show(10)
    #强关联规则
    assRule=fpm.associationRules
    assRule.show(5)
    
    #转为python中的dataframe
    assRuleDf = assRule.toPandas()  
    #由 lift 按照降序排列
    assRuleDf = assRuleDf.sort_values(by = "lift", ascending = False)
    print('强关联规则：\n',assRuleDf)
    
    #新的前项数据
    new_data = spark.createDataFrame([(["milk"], )], ["items"])
    #预测后项
    print('后项预测：\n',fpm.transform(new_data).first().prediction)               
    spark.stop()#关闭spark
    t2=datetime.datetime.now()
    print('spent ts:',t2-t1)
    #遇到 'NoneType' object has no attribute 'setCallSite' 记得 restart kernel
    
    #接收data类型为如下格式：
    
    #     data_list=[[['r', 'z', 'h', 'k', 'p']]\
#                ,[['z', 'y', 'x', 'w', 'v', 'u', 't', 's']]\
#                ,[['s', 'x', 'o', 'n', 'r']]\
#                ,[['x', 'z', 'y', 'm', 't', 's', 'q', 'e']]\
#                ,[['z']]\
#                ,[['x', 'z', 'y', 'r', 'q', 't', 'p']]]#数据集

+--------------------+----+
|               items|freq|
+--------------------+----+
|          [hot dogs]| 243|
| [frozen vegetables]| 715|
|[frozen vegetable...| 268|
|           [chicken]| 450|
|         [chocolate]|1229|
|[chocolate, spagh...| 294|
|   [chocolate, eggs]| 249|
|[chocolate, frenc...| 258|
|[chocolate, miner...| 395|
|          [tomatoes]| 513|
+--------------------+----+
only showing top 10 rows

+---------------+---------------+-------------------+------------------+
|     antecedent|     consequent|         confidence|              lift|
+---------------+---------------+-------------------+------------------+
|         [milk]|    [spaghetti]| 0.2736625514403292|1.5717785592296396|
|         [milk]|    [chocolate]|0.24794238683127573|  1.51327570677087|
|         [milk]|         [eggs]|0.23765432098765432| 1.322436989412756|
|         [milk]|[mineral water]|0.37037037037037035|1.5537741320739082|
|[mineral water]|    [chocolate]|  0.220917225950783| 1.348332068231752

### 购物篮课程代码复现

In [172]:
import numpy as np
import pandas as pd
from efficient_apriori import apriori

#加载数据
data = pd.read_csv('BreadBasket_DMS.csv')
data

#注意到Item中含有NONE
data = data.drop(data[data.Item == 'NONE'].index)
order_set = data.set_index('Transaction')['Item']

#将数据转换为可使用的格式
transaction = []
temp_i = 0
for i, v in order_set.items():
    if i != temp_i:
        temp_i = i
        temp_set = set()
        temp_set.add(v)
        transaction.append(temp_set)
        #Python中list拼接的是一个变量，变量是一个关于对象的引用，因此list中其实是一个个指针构成的，指向位置的内存发生改变就会导致list变化
    else:
        temp_set.add(v)
transaction

#使用关联规则对Transaction进行数据挖掘
print('共有{}张小票'.format(data['Transaction'].max()))
itemsets, rules = apriori(transaction, min_support = 0.03, min_confidence = 0.1)
print('频繁项集:\n', itemsets)
print('关联规则:\n', rules)

共有9684张小票
频繁项集:
 {1: {('Cookies',): 515, ('Hot chocolate',): 552, ('Muffin',): 364, ('Coffee',): 4528, ('Bread',): 3096, ('Pastry',): 815, ('Medialuna',): 585, ('Tea',): 1350, ('Farm House',): 371, ('Juice',): 365, ('Soup',): 326, ('Cake',): 983, ('Sandwich',): 680, ('Alfajores',): 344, ('Brownie',): 379, ('Toast',): 318, ('Scone',): 327}, 2: {('Bread', 'Coffee'): 852, ('Coffee', 'Pastry'): 450, ('Coffee', 'Medialuna'): 333, ('Coffee', 'Tea'): 472, ('Cake', 'Coffee'): 518, ('Coffee', 'Sandwich'): 362}}
关联规则:
 [{Coffee} -> {Bread}, {Bread} -> {Coffee}, {Pastry} -> {Coffee}, {Medialuna} -> {Coffee}, {Tea} -> {Coffee}, {Coffee} -> {Tea}, {Coffee} -> {Cake}, {Cake} -> {Coffee}, {Sandwich} -> {Coffee}]


In [3]:
import numpy as np
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

#加载数据
data = pd.read_csv('BreadBasket_DMS.csv')
data = data.drop(data[data.Item == 'NONE'].index)

#将数据变为ONEHOT编码
transaction = data.groupby(['Transaction', 'Item']).Item.count().unstack().fillna(0)

#数据为float数，转换为0，1编码
def encode_units(x):
    if x <= 0 :
        return 0
    if x >= 1:
        return 1
        
transaction = transaction.applymap(lambda x: encode_units(x))
pd.options.display.max_columns=100
transaction

#使用关联规则进行数据挖掘
frequentset = apriori(transaction, min_support = 0.03, use_colnames = True)
rules = association_rules(frequentset, metric = 'lift', min_threshold = 1)

print('频繁项集：\n', frequentset,'\n')
print('关联规则：\n', rules)

频繁项集：
      support             itemsets
0   0.036348          (Alfajores)
1   0.327134              (Bread)
2   0.040046            (Brownie)
3   0.103867               (Cake)
4   0.478445             (Coffee)
5   0.054417            (Cookies)
6   0.039201         (Farm House)
7   0.058326      (Hot chocolate)
8   0.038567              (Juice)
9   0.061813          (Medialuna)
10  0.038462             (Muffin)
11  0.086116             (Pastry)
12  0.071851           (Sandwich)
13  0.034552              (Scone)
14  0.034446               (Soup)
15  0.142646                (Tea)
16  0.033601              (Toast)
17  0.090025      (Coffee, Bread)
18  0.054734       (Coffee, Cake)
19  0.035186  (Coffee, Medialuna)
20  0.047549     (Pastry, Coffee)
21  0.038250   (Coffee, Sandwich)
22  0.049873        (Tea, Coffee) 

关联规则：
    antecedents  consequents  antecedent support  consequent support   support  \
0     (Coffee)       (Cake)            0.478445            0.103867  0.054734   
1     