Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

weibo数据集找不到_deseg后缀的文件 #17

Open
failable opened this issue Sep 23, 2020 · 12 comments
Open

weibo数据集找不到_deseg后缀的文件 #17

failable opened this issue Sep 23, 2020 · 12 comments

Comments

@failable
Copy link

原始数据集里只有.train/.dev/.test的文件?

Traceback (most recent call last):
  File "flat_main.py", line 254, in <module>
    only_train_min_freq=args.only_train_min_freq,
  File "/Users/user/.pyenv/versions/env-mkwPXnF--py3.7/lib/python3.7/site-packages/fastNLP/core/utils.py", line 344, in wrapper
    results = func(*args, **kwargs)
  File "../load_data.py", line 646, in load_weibo_ner
    bundle = loader.load(v)
  File "/Users/user/.pyenv/versions/env-mkwPXnF--py3.7/lib/python3.7/site-packages/fastNLP/io/loader/loader.py", line 68, in load
    paths = check_loader_paths(paths)
  File "/Users/user/.pyenv/versions/env-mkwPXnF--py3.7/lib/python3.7/site-packages/fastNLP/io/utils.py", line 63, in check_loader_paths
    raise FileNotFoundError(f"{paths} is not a valid file path.")
FileNotFoundError: /Users/user/Downloads/Flat-Lattice-Transformer/V0/WeiboNER/weiboNER_2nd_conll.train_deseg is not a valid file path.
@LeeSureman
Copy link
Owner

不好意思,我忘记这个细节了。原本的weibo数据集中是有个分词信息的,我为了使得它的格式就预处理了一份和conll格式一样的,没分词信息的文件(就是把分词标号那一列删掉),可以加我微信18158037912,我把那个预处理后的文件给你

@EricLee8
Copy link

同求一份

@Eason-zz
Copy link

Eason-zz commented Oct 8, 2020

原始数据集是哪一个文件

@LawsonAbs
Copy link

原始数据集是哪一个文件

原始数据集是叫 WeiboNER ,可以在链接https://github.com/hltcoe/golden-horse/tree/master/data 中下载()

@LeeSureman
Copy link
Owner

原始数据集是哪一个文件

原始数据集是叫 WeiboNER ,可以在链接https://github.com/hltcoe/golden-horse/tree/master/data 中下载()

感谢老哥帮忙回复

@LawsonAbs
Copy link

不好意思,我忘记这个细节了。原本的weibo数据集中是有个分词信息的,我为了使得它的格式就预处理了一份和conll格式一样的,没分词信息的文件(就是把分词标号那一列删掉),可以加我微信18158037912,我把那个预处理后的文件给你

可以告诉我们,做了哪些处理方法吗?现在我重新使用另外一个数据集,不知道该怎么处理原文本信息,还希望作者指教一下!

@LawsonAbs
Copy link

原始数据集是哪一个文件

原始数据集是叫 WeiboNER ,可以在链接https://github.com/hltcoe/golden-horse/tree/master/data 中下载()

感谢老哥帮忙回复

开源世界,这是我该做哒~

@Eason-zz
Copy link

Eason-zz commented Oct 8, 2020

原始数据集是哪一个文件

原始数据集是叫 WeiboNER ,可以在链接https://github.com/hltcoe/golden-horse/tree/master/data 中下载()

感谢

@WoJiaoWangZhenRen
Copy link

同求预处理后的文件

@sssssajfsd
Copy link

求一份预处理文件。可以帮忙发一份吗?

@WoJiaoWangZhenRen
Copy link

WoJiaoWangZhenRen commented Apr 25, 2021 via email

@shenhuaze
Copy link

我按照作者的说明,去除了weiboNER_2nd_conll数据集的分词信息,需要的可以直接下载:https://github.com/shenhuaze/weibo-ner-conll

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

8 participants