Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Словарь в JSON #5

Open
grandsbor opened this issue Mar 28, 2014 · 9 comments
Open

Словарь в JSON #5

grandsbor opened this issue Mar 28, 2014 · 9 comments

Comments

@grandsbor
Copy link
Member

http://opencorpora.reformal.ru/proj/?ia=626528
"Хотелось бы иметь возможность скачивать словарь в формате JSON. Он легче, чем XML, его удобно парсить."

@madfriend
Copy link
Member

  1. Будем дополнять новым флажком /export/dict/export_dict.pl или напишем новый скрипт?
  2. Для XML у нас есть схема, будем ли вводить схему и для JSON?

@grandsbor
Copy link
Member Author

Я бы, наверное, сделал конвертер из XML/Plaintext в JSON, чтобы базу не
грузить.

Если для JSON бывают схемы, то почему бы и нет.

@madfriend
Copy link
Member

Нашел вот такое: https://github.com/hay/xml2json
Выдает данные в таком формате:

XML                              JSON
<e/>                             "e": null
<e>text</e>                      "e": "text"
<e name="value" />               "e": { "@name": "value" }
<e name="value">text</e>         "e": { "@name": "value", "#text": "text" }
<e> <a>text</a ><b>text</b> </e> "e": { "a": "text", "b": "text" }
<e> <a>text</a> <a>text</a> </e> "e": { "a": ["text", "text"] }
<e> text <a>text</a> </e>        "e": { "#text": "text", "a": "text" }

Возможно, такой формат будет неудобен.
Еще находил древний модуль на CPAN - но на выдачу не смотрел (и не знаю, есть ли в нем консольная утилита)

@kmike
Copy link
Member

kmike commented Apr 11, 2014

Пара замечаний, не знаю, в тему-нет:

  • У json есть проблема - инкрементальные парсеры почему-то не распространены (хотя они и есть), и обычно все данные в память загружают при разборе, в отличие от XML.
  • У текущего экспорта в plaintext есть другая проблема - в нем не все данные доступны, что в xml есть.

@grandsbor
Copy link
Member Author

  • Ну, JSON нас попросили, это мы не сами придумали. Это проблема пользователя, как он будет парсить JSON :)
  • Да, есть такая проблема. Даже тикет заведу, спасибо, что напомнил.

@madfriend
Copy link
Member

в общем я поразвлекался немного с разными конвертерами xml-json. В нашем случае (для 500 мб дампа) проще всего будет добавить изначальный экспорт еще и в json, чем конвертировать

@madfriend
Copy link
Member

Дима, есть такое:
http://search.cpan.org/~mart/JSON-Streaming-Writer-0.03/lib/JSON/Streaming/Writer.pm
может, попробуем прикрутить к текущему экспорту?

@grandsbor
Copy link
Member Author

@irinfox Ира, не хочешь вспомнить перл? :)

@irinfox
Copy link
Member

irinfox commented Jul 9, 2015

Я подумаю над твоим предложением на досуге)

2015-07-10 0:51 GMT+03:00 Dmitry Granovsky notifications@github.com:

@irinfox https://github.com/irinfox Ира, не хочешь вспомнить перл? :)


Reply to this email directly or view it on GitHub
#5 (comment)
.

Ирина

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants