## 项目背景

"物以类聚，人以群分"这句古语不仅揭示了物与人的自组织趋向，更隐含了“聚类”和“人群”之间的内在联系。在现代搜索引擎的个性化排序与推荐(广告)中，以物拟人，以物窥人，才是比任何大数据都要更大的前提。如何把内容精准给到需要的人，是大数据在推荐和精准营销中最核心的问题。本项目以搜索引擎中的基于行为和内容的用户画像为例，希望应用NLP技术来更细致精准地刻画用户属性。

## 项目简介

在现代搜索引擎的个性化排序与推荐(广告)系统中，多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中，基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。

在搜索引擎中，用户通过输入具体的查询词来获取相关信息。因此，用户的历史查询词与用户的基本属性及潜在需求有密切的关系。

举例如下：

1. 年龄在19岁至23岁区间的自然人会有较多的搜索行为与大学生活、社交等主题有关
2. 男性相比女性会在军事、汽车等主题有更多的搜索行为
3. 高学历人群会更加倾向于获取社会、经济等主题的信息

本题目提供用户历史一个月的查询词与用户的人口属性标签（包括性别、年龄、学历）做为训练数据，要求大家通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。

## 数据描述

### 数据集：

| 数据文件  | 备注           |
| --------- | -------------- |
| train.csv | 带标注的训练集 |
| test.csv  | 测试集         |

### 数据介绍

本数据来源于真实搜索引擎数据，ID经过加密，训练集中人口属性数据存在部分未知的情况。数据所有字段如下表所示：

| 字段       | 说明                                                         |
| ---------- | ------------------------------------------------------------ |
| ID         | 加密后的ID                                                   |
| Age        | 0：未知年龄; 1：0-18岁; 2：19-23岁; 3：24-30岁; 4：31-40岁; 5：41-50岁; 6： 51-999岁 |
| Gender     | 0：未知1：男性2：女性                                        |
| Education  | 0：未知学历; 1：博士; 2：硕士; 3：大学生; 4：高中; 5：初中; 6：小学 |
| Query List | 搜索词列表                                                   |

### 数据示例

对于train.csv中的数据记录：

| ID                               | Age  | Gender | Education | Query_List                                                   |
| -------------------------------- | ---- | ------ | --------- | ------------------------------------------------------------ |
| 00627779E16E7C09B975B2CE13C088CB | 4    | 2      | 0         | 钢琴曲欣赏100首 一个月的宝宝眼睫毛那么是黄色 宝宝右眼有眼屎 小儿抽搐怎么办 剖腹产后刀口上有线头 属羊和属鸡的配吗 |

## 任务描述

本项目提供用户历史一个月的查询词与用户的人口属性标签（包括性别、年龄、学历）做为训练数据，要求大家通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。即对test.csv文件中的每条记录进行年龄、性别、学历的判断。

## 评估准则

本项目采用分类准确率进行评价。

对提供的结果文件，全部与标准结果匹配计算准确率。其中，性别、年龄、学历分别计算准确率，最终以平均准确率作为评判依据。

具体如下：

- 准确率计算：

其中， 表示算法对第i个样本预测类别，表示第i个样本的真实类别。函数为Indicator Function，当预测结果与真实结果完全相同时输出为1，否则为零。

$$P = \frac { 1 } { N } \sum _ { N } ^ { i = 0 } \mathbb { I } \left( \hat { y } _ { i } = y _ { i } \right)$$

- 平均准确率计算：

$$\overline { P } = \frac { P _ { g e n d e r } + P _ { a g e } + P _ { \text {education} } } { 3 }$$

 - 模型的判定结果不允许出现0，即只有明确的标签才为有效结果。
 - 预设指标：平均准确率50%以上为有效成绩。

In [3]:
import pandas as pd
pd.options.display.max_rows=None

In [4]:
data_path = 'data/train.csv'

In [10]:
dataset = pd.read_csv(data_path,encoding='utf-8',sep='###__###',header = None)

  dataset = pd.read_csv(data_path,encoding='utf-8',sep='###__###',header = None)


In [12]:
dataset.head()

Unnamed: 0,0,1,2,3,4
0,22DD920316420BE2DF8D6EE651BA174B,1,1,4,柔和双沟\t女生\t中财网首页 财经\thttp://pan.baidu.com/s/1pl...
1,43CC3AF5A8D6430A3B572337A889AFE4,2,1,3,"广州厨宝烤箱\t世情薄,人情恶,雨送黄昏花易落,晓风干,泪痕\t厦门酒店用品批发市场\t我只..."
2,E97654BFF5570E2CCD433EA6128EAC19,4,1,0,钻石之泪耳机\t盘锦到沈阳\t旅顺公交\t辽宁阜新车牌\tbaidu\tk715\tk716...
3,6931EFC26D229CCFCEA125D3F3C21E57,4,2,3,最受欢迎狗狗排行榜\t舶怎么读\t场景描 写范例\t三维绘图软件\t枣和酸奶能一起吃吗\t好...
4,E780470C3BB0D340334BD08CDCC3C71A,2,2,4,干槽症能自愈吗\t太太万岁叶舒心去没去美国\t干槽症\t右眼皮下面一直跳是怎么回事\t麦当劳...


data=[]
with open(data_path, 'r',encoding='utf-8-sig') as f_input:
    for line in f_input:
        data.append(list(line.strip().split('###__###')))
dataset=pd.DataFrame(data)

In [13]:
dataset.shape

(100000, 5)