# 某彩电企业用户偏好分析

国内某彩电企业为了摆脱价格战，提高核心竞争力，从用户入手，针对不同用户偏好，展开差异化营销。同样地，我们需要明确研究目的和研究内容。

研究目的很简单，就是**开展差异化营销**。差异化营销是使得企业最大限度地满足用户需求，从而提高企业的营业业绩；那么差异化营销在该企业是否可行，就需要考虑多个维度的因素，基于时间思维和结构思维进行分析，将用户偏好分为五个阶段和七个要素。

研究内容就围绕五个阶段和七个要素进行展开：
* 产生需求阶段：购买的原因（why）、决策时间（when）、了解程度（how much）
* 信息收集阶段：获取信息的渠道（where）、关注哪些信息（what）
* 方案比选阶段：比较时考虑的因素（what）、各因素考虑的程度（how）
* 购买决策阶段：最终买的是什么（what）
* 购后行为阶段：如何使用彩电（how）

## 调查问卷

根据以上的研究内容，设计一份调查问卷，来获得相应的调查数据，来进行定量分析。

问卷由以下几个问题组成：
1. 问卷编号
2. 是否购买彩电：S1甄别问题
3. 产生需求阶段：Q1购买原因，Q2决策时间，Q3了解程度
4. 信息收集阶段：Q4信息渠道，Q5关注信息
5. 方案比选阶段：Q6刻录功能考虑程度，Q7耗电量考虑程度，Q8上网功能考虑程度，Q9他人推荐考虑程度，Q10促销活动考虑程度，Q11感兴趣的促销活动
6. 购买决策阶段：Q12品牌，Q13价格，Q14外观，Q15规格，Q16颜色
7. 购后行为阶段：Q17安装方式，Q18摆放位置
8. 用户背景信息：A1性别，A2年龄，A3学历，A4家庭收入，A5住房面积，A6家庭成员

## 调研计划

完成调查问卷的创建之后，紧接着进行问卷调查，这里需要明确6个问题：
* 调查方法：例如中心定点拦截访问（CIL）
* 调查对象：某天之后购买过彩电的用户
* 调查地点与样本量：
* 项目周期：
* 项目成员及职责：
  * 项目经理：负责整个项目的统筹控制，业务沟通、制定方案、控制进度及质量、团队协调沟通
  * 督导员：向项目经理汇报工作进展，招聘和监督访问员，对访问质量直接负责
  * 访问员：负责实际访问，向督导员汇报工作进度
  * 数据处理人员：调查问卷审核，数据录入，数据检查和对数据质量进行评价
  * 数据分析人员：对调查和处理好的数据进行研究分析
  * 报告撰写与宣讲人员：撰写分析报告并向相关领导汇报
* 项目质量与进度控制：安排跟访，保证数据真实有效性，并及时汇报和录入数据

## 数据处理

调查得到的数据是最原始的数据，其中可能会出现很多的问题，所以需要对数据先进行处理，主要分为四个步骤：
* 数据集成：将多个数据源的数据进行合并
* 数据转换：对数据进行标准化处理
* 数据消减：对数据进行聚合和降维，减小数据规模
* **数据清洗**：数据筛选、数据去重、填补缺失值和数据纠错。（本案例仅关注数据清洗）

### 数据编码

其中方案比选阶段的Q6-Q10数据为数值数据，可以直接进行数据分析，而其他数据均为类别数据，需要使用编码格式进行数值转换

针对**不存在大小**的分类数据，可以直接使用set容器去重，再使用map进行**硬编码**，若存在大小的，最好还是手动创建map参数。例如下面非比较类型分类数据的例子：

In [1]:
import pandas as pd
df = pd.DataFrame({'A':['一','二','一','三','一','一','三'],
                   'B':['aa','bb','cc','cc','bb','aa','dd'],
                   'C':[1,3,5,2,4,2,1]})
df

Unnamed: 0,A,B,C
0,一,aa,1
1,二,bb,3
2,一,cc,5
3,三,cc,2
4,一,bb,4
5,一,aa,2
6,三,dd,1


In [2]:
df_obj= df.select_dtypes('object')
datamap = []
for col in df_obj.columns:
    datamap.append({elem: index+1 for index, elem in enumerate(set(df[col]))})
datamap

[{'二': 1, '三': 2, '一': 3}, {'dd': 1, 'bb': 2, 'aa': 3, 'cc': 4}]

### 数据清洗

首先通过数据筛选，将`S1甄别问题`为`1`的问卷筛选出来，因为购买了彩电的用户才是我们需要分析的用户。

然后对数据进行去重，针对的是问卷编号，保证每个问卷仅出现一次。

再对处理数据中存在的缺失值，可以找到缺失值的位置，找到相应问卷进行查看并填补；若问卷上也不存在，则对数值型数据使用统计值填补，对分类型数据使用众数填补；或者少量数据可以直接删除。

最后进行数据纠错，数据的错误类型主要有两种，一种是非逻辑错误，就是在问卷调查或录入数据的时候出现差错，这需要加强调研的各个环节的质量监控；另一种是逻辑错误，例如，性别男为“1”，女为“2”，但是录入了3，这种属于逻辑错误，需要在数据编码的时候进行控制。

## 分析架构

用户偏好分析主要分为三个部分：

1. 用户基本特征描述：用户的特征不同，结论分析往往不同，可以协助业务方在下结论的时候注意应用对象。
2. 用户整体偏好分析：对于问卷中的数值数据可以使用**均值分析**用户整体偏好，对于非数值数值使用**频数统计**反映用户整体情况。
3. 各类用户偏好分析：将用户偏好和用户基本特征做**比较均值**或**交叉分析**。
  > 在此之前需要利用**方差分析**，检验不同用户之间是否存在**显著差异**，若存在，做差异对比才有意义。

## 实例演示

In [3]:
import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

In [4]:
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)

In [5]:
data = pd.read_excel('data/彩电企业用户最终数据.xls',sheet_name=3)
data_code = pd.read_excel('data/彩电企业用户最终数据.xls',sheet_name=1)

In [6]:
data_columns = data.columns
data_columns

Index(['问卷编号', 'S1甄别问题', 'Q1购买原因', 'Q2决策时间', 'Q3了解程度', 'Q4信息渠道', 'Q5关注信息',
       'Q6刻录功能考虑程度', 'Q7耗电量考虑程度', 'Q8上网功能考虑程度', 'Q9他人推荐考虑程度', 'Q10促销活动考虑程度',
       'Q11感兴趣的促销活动', 'Q12品牌', 'Q13价格', 'Q14外观', 'Q15规格', 'Q16颜色', 'Q17安装方式',
       'Q18摆放位置', 'A1性别', 'A2年龄', 'A3学历', 'A4家庭收入', 'A5住房面积', 'A6家庭成员'],
      dtype='object')

In [7]:
data_name_columns = data_code.columns
data_name_columns

Index(['编码', 'S1', 'Q1', 'Q2', 'Q3', 'Q4', 'Q5', 'Q11', 'Q12', 'Q13', 'Q14',
       'Q15', 'Q16', 'Q17', 'Q18', 'A1', 'A2', 'A3', 'A4', 'A5', 'A6'],
      dtype='object')

### 均值分析

对数值型数据计算其均值

In [8]:
def data_anom(data,data_columns_int):
    """
    data: 表格数据 dataFrame
    data_columns_int: 统计列名 index
    """
    data_int_mean = data[data_columns_int].mean() # 计算均值
    data_int_count = data[data_columns_int].count() # 统计个数
    res = pd.DataFrame({'N':data_int_count,'均值':data_int_mean},index=data_columns_int)
    return res

In [9]:
data_columns_int = data_columns[7:12]
anom_statistics = data_anom(data,data_columns_int)
anom_statistics

Unnamed: 0,N,均值
Q6刻录功能考虑程度,712,4.550562
Q7耗电量考虑程度,712,5.619382
Q8上网功能考虑程度,712,4.660112
Q9他人推荐考虑程度,712,5.271067
Q10促销活动考虑程度,712,5.51264


### 频数统计

对非数值型数据进行频数统计

In [10]:
# 统计频数和百分比
def data_frequency(data,ind,col_name,data_code,ind_code,col_code_name):
    """
    data: 表格数据 dataFrame
    ind: 编号列 str
    col_name: 统计列 str
    data_code: 编码数据 dataFrame
    ind_code: 编码编号列 str
    col_code_name: 编码名称列 str
    """
    df1 = data[[ind,col_name]].groupby(col_name).nunique().reset_index() # 统计样本频数
    df2 = data_code[[ind_code,col_code_name]].groupby(col_code_name).sum().reset_index() # 找到样本对应编码，便于直观
    res = pd.merge(df1,df2,how='left',left_on=col_name,right_on=ind_code) # 使用merge合并表
    res = res.loc[:,[ind,col_code_name]].set_index(col_code_name)
    res.rename(columns={ind:'频率'},inplace=True) # 修改列名
    res.loc[:,'百分比'] = res.loc[:,'频率'] / res.loc[:,'频率'].sum() # 计算占比
    res.loc[:,'有效百分比'] = res.loc[:,'频率'] / data.shape[0] # 计算占比
    res.loc['合计'] = res.apply(lambda x: x.sum()) # 增加合计行
    res['频率'] = res['频率'].astype('int')
    res = res.round(4) # 保留两位小数
    res.loc[:,'因素'] = col_name
    res = res.reset_index()
    res = res.set_index(['因素',col_code_name])
    return res

In [11]:
data_columns_cat = data_columns[0:7].append(data_columns[12:])
frequency_s = []
for col_name, col_code_name in zip(data_columns_cat[2:],data_name_columns[2:]):
    frequency_s.append(data_frequency(data,'问卷编号',col_name,data_code,'编码',col_code_name))

frequency_statistics = pd.concat([i for i in frequency_s])

In [12]:
frequency_statistics

Unnamed: 0_level_0,Unnamed: 1_level_0,频率,百分比,有效百分比
因素,Q1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Q1购买原因,结婚嫁妆,79,0.111,0.111
Q1购买原因,新房入住,219,0.3076,0.3076
Q1购买原因,适应新潮流,248,0.3483,0.3483
Q1购买原因,更新换代,110,0.1545,0.1545
Q1购买原因,亲朋推荐,35,0.0492,0.0492
Q1购买原因,看奥运,16,0.0225,0.0225
Q1购买原因,送人,1,0.0014,0.0014
Q1购买原因,其他,4,0.0056,0.0056
Q1购买原因,合计,712,1.0,1.0
Q2决策时间,1个月内,354,0.4972,0.4972


### 方差分析

方差分析用来判断用户特征对用户购买因素是否存在显著差异。

In [13]:
data_columns_q = data_columns[2:20]
data_columns_q

Index(['Q1购买原因', 'Q2决策时间', 'Q3了解程度', 'Q4信息渠道', 'Q5关注信息', 'Q6刻录功能考虑程度',
       'Q7耗电量考虑程度', 'Q8上网功能考虑程度', 'Q9他人推荐考虑程度', 'Q10促销活动考虑程度', 'Q11感兴趣的促销活动',
       'Q12品牌', 'Q13价格', 'Q14外观', 'Q15规格', 'Q16颜色', 'Q17安装方式', 'Q18摆放位置'],
      dtype='object')

In [14]:
data_columns_a1 = data_columns[20:]
data_columns_a1

Index(['A1性别', 'A2年龄', 'A3学历', 'A4家庭收入', 'A5住房面积', 'A6家庭成员'], dtype='object')

In [15]:
analysis_variance = {}
for a in data_columns_a1:
    anova_q = []
    for q in data_columns_q:
        anova_str = q+'~C('+a+')'
        temp= anova_lm(ols(anova_str,data=data[[a,q]]).fit()) # 使用anova进行方差分析
        temp.index = pd.Series(['组间','组内'])
        temp = temp.reset_index()
        temp.loc[:,'因素'] = q
        temp = temp.set_index(['因素','index'])
        # temp = temp.fillna('') # 将NAN使用空字符串填充，会方便查看，但是该列会变成object类型
        anova_q.append(temp)
    temp = pd.concat([anova_item for anova_item in anova_q])
    analysis_variance.update({a:temp})

In [16]:
# 使用颜色突出显示
def showColor(val):
    color = 'red' if val < 0.05 else 'green'
    return 'color:%s' %color

In [17]:
# 可以逐个查看
analysis_variance['A1性别'].style.applymap(showColor,subset=['PR(>F)'])

Unnamed: 0_level_0,Unnamed: 1_level_0,df,sum_sq,mean_sq,F,PR(>F)
因素,index,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Q1购买原因,组间,1.0,11.191308,11.191308,7.852669,0.005213
Q1购买原因,组内,710.0,1011.863468,1.42516,,
Q2决策时间,组间,1.0,6.306315,6.306315,5.295154,0.021674
Q2决策时间,组内,710.0,845.581326,1.19096,,
Q3了解程度,组间,1.0,3.568808,3.568808,10.029762,0.001606
Q3了解程度,组内,710.0,252.63344,0.355822,,
Q4信息渠道,组间,1.0,0.000137,0.000137,0.00055,0.981294
Q4信息渠道,组内,710.0,177.380481,0.249832,,
Q5关注信息,组间,1.0,3.603842,3.603842,0.761733,0.383082
Q5关注信息,组内,710.0,3359.08717,4.731109,,


In [18]:
# 单因素方差分析结果，直接汇总出所有存在显著差异的情况
anova_result_dict = {}
for a in data_columns_a1:
    temp = analysis_variance[a]
    cols = temp[temp['PR(>F)']<0.05]
    cols = cols.reset_index().set_index('因素')
    cols
    cols_name = list(cols.index)
    anova_result_dict.update({a:cols_name})

anova_result_df = pd.DataFrame(dict([(k, pd.Series(v)) for k, v in anova_result_dict.items()])).T # 从字典转化为DataFrame
anova_result_df

Unnamed: 0,0,1,2,3,4,5,6
A1性别,Q1购买原因,Q2决策时间,Q3了解程度,Q9他人推荐考虑程度,Q15规格,,
A2年龄,Q1购买原因,Q4信息渠道,Q12品牌,,,,
A3学历,Q1购买原因,Q3了解程度,Q4信息渠道,Q7耗电量考虑程度,Q8上网功能考虑程度,Q9他人推荐考虑程度,Q14外观
A4家庭收入,Q6刻录功能考虑程度,Q7耗电量考虑程度,Q12品牌,,,,
A5住房面积,Q13价格,Q15规格,Q18摆放位置,,,,
A6家庭成员,Q1购买原因,Q2决策时间,Q6刻录功能考虑程度,Q7耗电量考虑程度,Q8上网功能考虑程度,Q9他人推荐考虑程度,Q10促销活动考虑程度


## 比较均值

对反映用户偏好为数值数据的因素使用比较均值的方法进行分析。

In [19]:
data_columns_q_int = data_columns_q[5:10]
data_columns_q_int

Index(['Q6刻录功能考虑程度', 'Q7耗电量考虑程度', 'Q8上网功能考虑程度', 'Q9他人推荐考虑程度', 'Q10促销活动考虑程度'], dtype='object')

In [20]:
compare_means_result = []
for a in data_columns_a1:
    compare_means_list = [item for item in anova_result_dict[a] if item in data_columns_q_int]
    a_code = a[:2]
    for cml in compare_means_list:
        temp = data[[a,cml]].groupby(a).mean() # 男女均值
        temp = temp.reset_index()
        temp_code = data_code[['编码',a_code]].groupby(a_code).sum().reset_index() # 找到样本对应编码，便于直观
        res = pd.merge(temp,temp_code,how='left',left_on=a,right_on='编码') # 使用merge合并表
        res = res.loc[:,[a_code,cml]]
        res.columns = ['index','均值']
        res.loc['合计'] = ['合计',data[cml].mean()] # 总体均值
        res.loc[:,'自变量'] = a
        res.loc[:,'因变量'] = cml
        res = res.set_index(['自变量','因变量','index'])
        compare_means_result.append(res)

compare_means = pd.concat([cmr for cmr in compare_means_result])
compare_means

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,均值
自变量,因变量,index,Unnamed: 3_level_1
A1性别,Q9他人推荐考虑程度,男,5.088339
A1性别,Q9他人推荐考虑程度,女,5.391608
A1性别,Q9他人推荐考虑程度,合计,5.271067
A3学历,Q7耗电量考虑程度,高中及以下学历,5.682836
A3学历,Q7耗电量考虑程度,大学学历,5.622066
A3学历,Q7耗电量考虑程度,研究生及以上学历,4.611111
A3学历,Q7耗电量考虑程度,合计,5.619382
A3学历,Q8上网功能考虑程度,高中及以下学历,4.910448
A3学历,Q8上网功能考虑程度,大学学历,4.521127
A3学历,Q8上网功能考虑程度,研究生及以上学历,4.222222


### 交叉分析



In [21]:
data_columns_q_obj1 = data_columns_q[0:5].append(data_columns_q[10:])
data_columns_q_obj2 = data_name_columns[2:15]
data_columns_q_obj = pd.DataFrame({'full':data_columns_q_obj1,'simple':data_columns_q_obj2})
data_columns_q_obj

Unnamed: 0,full,simple
0,Q1购买原因,Q1
1,Q2决策时间,Q2
2,Q3了解程度,Q3
3,Q4信息渠道,Q4
4,Q5关注信息,Q5
5,Q11感兴趣的促销活动,Q11
6,Q12品牌,Q12
7,Q13价格,Q13
8,Q14外观,Q14
9,Q15规格,Q15


In [22]:
data_columns_a2 = data_name_columns[15:]
data_columns_a = pd.DataFrame({'full':data_columns_a1,'simple':data_columns_a2})
data_columns_a

Unnamed: 0,full,simple
0,A1性别,A1
1,A2年龄,A2
2,A3学历,A3
3,A4家庭收入,A4
4,A5住房面积,A5
5,A6家庭成员,A6


In [23]:
cross_analysis_result = []
data_name_columns
for a in data_columns_a1:
    compare_count_list = [item for item in anova_result_dict[a] if item in data_columns_q_obj1] # 用户特征对应的具有显著差异的因素列表
    for ccl in compare_count_list:
        temp = pd.crosstab(data[a], data[ccl], normalize=True) # 交叉分析，归一化得到百分比
        # 调整columns
        simple_q_code = data_columns_q_obj[data_columns_q_obj['full']==ccl]['simple'].values[0] # 元素对应编码表中的缩写
        dc = data_code[simple_q_code][data_code[simple_q_code].notnull()]
        dc.index = dc.index+1
        t = dict(dc)
        temp.columns = temp.columns.map(t)
        # 调整index
        simple_a_code = data_columns_a[data_columns_a['full']==a]['simple'].values[0] # 元素对应编码表中的缩写
        dc = data_code[simple_a_code][data_code[simple_a_code].notnull()]
        dc.index = dc.index+1
        t = dict(dc)
        temp.index = temp.index.map(t)
        temp.loc['合计'] = temp.apply(lambda x: x.sum()) # 总体均值
        temp.reset_index(inplace=True)
        temp.loc[:,'index'] = a
        temp.set_index(['index',a],inplace=True)
        cross_analysis_result.append(temp)

cross_analysis_result[0]

Unnamed: 0_level_0,Q1购买原因,结婚嫁妆,新房入住,适应新潮流,更新换代,亲朋推荐,看奥运,送人,其他
index,A1性别,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
A1性别,男,0.039326,0.110955,0.141854,0.058989,0.025281,0.016854,0.0,0.004213
A1性别,女,0.071629,0.196629,0.206461,0.095506,0.023876,0.005618,0.001404,0.001404
A1性别,合计,0.110955,0.307584,0.348315,0.154494,0.049157,0.022472,0.001404,0.005618


## 分析结果解读

最后根据以上得到的各个分析结果，进行可视化图像进行分析比较，得到最终结论