Skip to content

jnuCompetition/ppdai

 
 

Repository files navigation

拍拍贷-第三届魔镜杯大赛

https://www.ppdai.ai/mirror/goToMirrorDetail?mirrorId=1

数据集描述

为保护用户隐私并保证比赛的公平公正,所有原始文本信息都被编码成单字ID序列和词语ID序列。单字包含单个汉字、英文字母、标点及空格等;词语包含切词后的中文词语、英文单词、标点及空格等。单字ID和词语ID存在于两个不同的命名空间,即词语中的单字词或者标点,和单字中的相同字符及相同标点不一定有同一个ID。其中,单字序列以L开头,词语序列以W开头。

char_embed.txt和word_embed.txt分别是单字级别的300维的embedding向量及词语级别的300维的embedding向量,均由google word2vec训练得到。 每个文件的第一列分别表示单字的ID和词语的ID,其余的300列记录对应的字向量和词向量。

question.csv中包含了训练集和测试集中所出现的所有问题,以及他们对应的单字序列和词语序列;整个文件包含3列,分别是问题的唯一编号(qid,以Q开头),对应的词语序列(chars)和单字序列(words)。

训练数据: train.csv文件包含3列,分别是标签(label,表示问题1和问题2是否表示相同的意思,1表示相同,0表示不同),问题1的编号(q1)和问题2的编号(q2)。本文件中出现的所有问题编号均在question.csv中出现过。

比赛要求参赛选手预测测试数据中的每一对问题是否是同一个意思。

测试数据: test.csv用来打分并决定最后的比赛排名。文件包含2列,问题1编号(q1)和问题2编号(q2)。本文件中出现的所有问题编号均在question.txt中出现过。

评分标准

参赛团队需要基于训练集数据构建预测模型,使用模型计算测试集的评分,本次比赛的评价标准为logloss,logloss分数越低越好。

示例代码(python): from sklearn.metrics import log_loss logloss = log_loss(y_true, y_pre, eps=1e-15)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%