拍拍贷-第三届魔镜杯大赛

https://www.ppdai.ai/mirror/goToMirrorDetail?mirrorId=1

数据集描述

为保护用户隐私并保证比赛的公平公正，所有原始文本信息都被编码成单字ID序列和词语ID序列。单字包含单个汉字、英文字母、标点及空格等；词语包含切词后的中文词语、英文单词、标点及空格等。单字ID和词语ID存在于两个不同的命名空间，即词语中的单字词或者标点，和单字中的相同字符及相同标点不一定有同一个ID。其中，单字序列以L开头，词语序列以W开头。

char_embed.txt和word_embed.txt分别是单字级别的300维的embedding向量及词语级别的300维的embedding向量，均由google word2vec训练得到。每个文件的第一列分别表示单字的ID和词语的ID，其余的300列记录对应的字向量和词向量。

question.csv中包含了训练集和测试集中所出现的所有问题，以及他们对应的单字序列和词语序列；整个文件包含3列，分别是问题的唯一编号（qid，以Q开头），对应的词语序列（chars）和单字序列（words）。

训练数据： train.csv文件包含3列，分别是标签（label，表示问题1和问题2是否表示相同的意思，1表示相同，0表示不同），问题1的编号（q1）和问题2的编号（q2）。本文件中出现的所有问题编号均在question.csv中出现过。

比赛要求参赛选手预测测试数据中的每一对问题是否是同一个意思。

测试数据： test.csv用来打分并决定最后的比赛排名。文件包含2列，问题1编号（q1）和问题2编号（q2）。本文件中出现的所有问题编号均在question.txt中出现过。

评分标准

参赛团队需要基于训练集数据构建预测模型，使用模型计算测试集的评分，本次比赛的评价标准为logloss，logloss分数越低越好。

示例代码（python）： from sklearn.metrics import log_loss logloss = log_loss(y_true, y_pre, eps=1e-15)

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.idea		.idea
cooccurance		cooccurance
.gitignore		.gitignore
5features.py		5features.py
README.md		README.md
config.py		config.py
createFeature.py		createFeature.py
nn.py		nn.py
readdata.py		readdata.py
text.py		text.py
tool.py		tool.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

cooccurance

cooccurance

.gitignore

.gitignore

5features.py

5features.py

README.md

README.md

config.py

config.py

createFeature.py

createFeature.py

nn.py

nn.py

readdata.py

readdata.py

text.py

text.py

tool.py

tool.py

Repository files navigation

拍拍贷-第三届魔镜杯大赛

数据集描述

评分标准

About

Releases

Packages

Languages

jnuCompetition/ppdai

Folders and files

Latest commit

History

Repository files navigation

拍拍贷-第三届魔镜杯大赛

数据集描述

评分标准

About

Resources

Stars

Watchers

Forks

Languages