Skip to content

Peins/nlp_projects

 
 

Repository files navigation

nlp_projects:

NLP项目汇总,邮箱:lyj157175@163.com


1-训练词向量

  • “Distributed Representations of Words and Phrases and their Compositionality”论文的简单复现,实现skip-gram模型。用text8数据集来训练输入输出两个词向量矩阵,保存输入词向量矩阵后在simlex-999、men、wordsim353三个数据集上进行词向量的评估

2-训练语言模型

  • 使用text8作为数据集,选择LSTM模型训练并保存语言模型,在测试集上用Perplexity对语言模型评估

3-情感分类

  • 使用IMDb电影评论数据集并用torchtext做数据预处理,分别用Word Averaging/RNN/CNN三种模型来做情感分析,检测一段文本的情感是正面还是负面的,保存三种最好的训练模型结果并对其进行评估

4-机器翻译

  • 没有attention的encoder-decoder模型实现机器翻译

  • encoder-decoder+attention实现机器翻译


5-Bert文本分类

  • THUCNews数据集,包括18万条训练集,1万条验证集和1万的测试集,利用Bert预训练模型,完成各种Bert+模型的训练和文本分类

提供预训练模型下载(模型来自https://github.com/ymcui/Chinese-BERT-wwm里的RoBERTa-wwm-ext-large, Chinese):

链接:https://pan.baidu.com/s/1LonaTPprR6q9x4zPhj9uKQ 提取码:t93l

模型下载后放在 ‘bert_pretrained/roberta’ 文件夹下即可


6-文本问答系统

  • 数据集:SQuAD1.0

BiDAF模型完成阅读理解任务


7-推荐系统

  • 电影推荐:数据集MovieLens
  • 文本推荐:亚马逊商品评论数据集,模型使用双塔roberta来编码用户向量和商品向量,计算相似度

About

NLP实战项目

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 97.4%
  • Python 2.6%