A python package for word2vec
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
.images
docs/tutorial/code
entity2embedding
.gitignore
README.md
requirements.txt
setup.py

README.md

Entity2Embedding

基于 TensorFlowWord2vec / Thing2Vec 的Python package.

特性

  • 基于 TensorFlow 实现: 高效 可靠
  • 应用领域灵活,将 Word2Vec 扩展至无限可能
  • 全面功能的 Dashboard (感谢 TensorBoard)
  • 支持海量数据: 支持规模达到T级别的数据

演示

训练监控

标量监控

global_step/sec/learning_rate/loss/training_epoch scalars

计算图

graphs

分布图

distributions

柱形图

histograms

效果评估

PCA降维

pca

T-SNE

sne

距离查询

distance

教程

如下将通过Google官方的text8数据集来演示 Entity2Embedding的使用

下载数据

下载text8数据集, 执行下面的命令

curl http://mattmahoney.net/dc/text8.zip > text8.zip
unzip text8.zip

你想得到text8这个数据文件

构建项目

执行下面的命令:

python -m entity2embedding.shortcuts.preprocessor -p project -f text8

这个脚本将使用默认的设定来构建项目, -f text8指定了数据来源于text8, -p project指定了项目文件存放的位置project目录

训练模型

执行下面的命令:

python -m entity2embedding.shortcuts.train -p project

这个脚本将使用默认的设定来训练模型, -p project指定了项目的位置在project目录中.

可视化监控

启动服务器

tensorboard --logdir project/log

启动浏览器

打开浏览器,输入服务器的地址和端口6006即可查看模型训练情况.如果是本机训练和查看,请直接点击: http://localhost:6006

导出模型

执行下面的命令:

python -m entity2embedding.shortcuts.export -p project

模型数据将会以兼容gensim包的格式导出纯文本模型,模型文件gensim_compatible_word2vec.txt位于project目录中