# 某彩电企业用户偏好分析

国内某彩电企业为了摆脱价格战，提高核心竞争力，从用户入手，针对不同用户偏好，展开差异化营销。同样地，我们需要明确研究目的和研究内容。

研究目的很简单，就是**开展差异化营销**。差异化营销是使得企业最大限度地满足用户需求，从而提高企业的营业业绩；那么差异化营销在该企业是否可行，就需要考虑多个维度的因素，基于时间思维和结构思维进行分析，将用户偏好分为五个阶段和七个要素。

研究内容就围绕五个阶段和七个要素进行展开：
* 产生需求阶段：购买的原因（why）、决策时间（when）、了解程度（how much）
* 信息收集阶段：获取信息的渠道（where）、关注哪些信息（what）
* 方案比选阶段：比较时考虑的因素（what）、各因素考虑的程度（how）
* 购买决策阶段：最终买的是什么（what）
* 购后行为阶段：如何使用彩电（how）

## 调查问卷

根据以上的研究内容，设计一份调查问卷，来获得相应的调查数据，来进行定量分析。

问卷由以下几个问题组成：
1. 问卷编号
2. 是否购买彩电：S1甄别问题
3. 产生需求阶段：Q1购买原因，Q2决策时间，Q3了解程度
4. 信息收集阶段：Q4信息渠道，Q5关注信息
5. 方案比选阶段：Q6刻录功能考虑程度，Q7耗电量考虑程度，Q8上网功能考虑程度，Q9他人推荐考虑程度，Q10促销活动考虑程度，Q11感兴趣的促销活动
6. 购买决策阶段：Q12品牌，Q13价格，Q14外观，Q15规格，Q16颜色
7. 购后行为阶段：Q17安装方式，Q18摆放位置
8. 用户背景信息：A1性别，A2年龄，A3学历，A4家庭收入，A5住房面积，A6家庭成员

## 调研计划

完成调查问卷的创建之后，紧接着进行问卷调查，这里需要明确6个问题：
* 调查方法：例如中心定点拦截访问（CIL）
* 调查对象：某天之后购买过彩电的用户
* 调查地点与样本量：
* 项目周期：
* 项目成员及职责：
  * 项目经理：负责整个项目的统筹控制，业务沟通、制定方案、控制进度及质量、团队协调沟通
  * 督导员：向项目经理汇报工作进展，招聘和监督访问员，对访问质量直接负责
  * 访问员：负责实际访问，向督导员汇报工作进度
  * 数据处理人员：调查问卷审核，数据录入，数据检查和对数据质量进行评价
  * 数据分析人员：对调查和处理好的数据进行研究分析
  * 报告撰写与宣讲人员：撰写分析报告并向相关领导汇报
* 项目质量与进度控制：安排跟访，保证数据真实有效性，并及时汇报和录入数据

## 数据处理

调查得到的数据是最原始的数据，其中可能会出现很多的问题，所以需要对数据先进行处理，主要分为四个步骤：
* 数据集成：将多个数据源的数据进行合并
* 数据转换：对数据进行标准化处理
* 数据消减：对数据进行聚合和降维，减小数据规模
* **数据清洗**：数据筛选、数据去重、填补缺失值和数据纠错。（本案例仅关注数据清洗）

### 数据编码

其中方案比选阶段的Q6-Q10数据为数值数据，可以直接进行数据分析，而其他数据均为类别数据，需要使用编码格式进行数值转换

针对**不存在大小**的分类数据，可以直接使用set容器去重，再使用map进行**硬编码**，若存在大小的，最好还是手动创建map参数。例如下面非比较类型分类数据的例子：

In [16]:
import pandas as pd
df = pd.DataFrame({'A':['一','二','一','三','一','一','三'],
                   'B':['aa','bb','cc','cc','bb','aa','dd'],
                   'C':[1,3,5,2,4,2,1]})
df

Unnamed: 0,A,B,C
0,一,aa,1
1,二,bb,3
2,一,cc,5
3,三,cc,2
4,一,bb,4
5,一,aa,2
6,三,dd,1


In [28]:
dfobj= df.select_dtypes('object')
datamap = []
for col in dfobj.columns:
    datamap.append({elem: index+1 for index, elem in enumerate(set(df[col]))})
datamap

[{'二': 1, '一': 2, '三': 3}, {'aa': 1, 'dd': 2, 'bb': 3, 'cc': 4}]

### 数据清洗

首先通过数据筛选，将`S1甄别问题`为`1`的问卷筛选出来，因为购买了彩电的用户才是我们需要分析的用户。

然后对数据进行去重，针对的是问卷编号，保证每个问卷仅出现一次。

再对处理数据中存在的缺失值，可以找到缺失值的位置，找到相应问卷进行查看并填补；若问卷上也不存在，则对数值型数据使用统计值填补，对分类型数据使用众数填补；或者少量数据可以直接删除。

最后进行数据纠错，数据的错误类型主要有两种，一种是非逻辑错误，就是在问卷调查或录入数据的时候出现差错，这需要加强调研的各个环节的质量监控；另一种是逻辑错误，例如，性别男为“1”，女为“2”，但是录入了3，这种属于逻辑错误，需要在数据编码的时候进行控制。

## 分析架构

 

In [2]:
import pandas as pd

In [4]:
data = pd.read_excel('data/彩电企业用户最终数据.xls')

In [5]:
data.columns

Index(['问卷编号', 'S1甄别问题', 'Q1购买原因', 'Q2决策时间', 'Q3了解程度', 'Q4信息渠道', 'Q5关注信息',
       'Q6刻录功能考虑程度', 'Q7耗电量考虑程度', 'Q8上网功能考虑程度', 'Q9他人推荐考虑程度', 'Q10促销活动考虑程度',
       'Q11感兴趣的促销活动', 'Q12品牌', 'Q13价格', 'Q14外观', 'Q15规格', 'Q16颜色', 'Q17安装方式',
       'Q18摆放位置', 'A1性别', 'A2年龄', 'A3学历', 'A4家庭收入', 'A5住房面积', 'A6家庭成员'],
      dtype='object')