In [1]:
from bd import DBaseRusNLP
from db_reader import ReaderDBase
from db_writer import WriterDBase
from os import path

In [2]:
bd_m = DBaseRusNLP(path.join('..', '..', '..', 'database', 'rus_nlp.db'), path.join('..', '..', '..', 'database', 'database_metadata.json'))
reader = ReaderDBase(bd_m)
writer = WriterDBase(bd_m)

CREATE TABLE IF NOT EXISTS author (id INT PRIMARY KEY, name text, email text, affiliation text)
CREATE TABLE IF NOT EXISTS article (id INT PRIMARY KEY, title text, keywords text, abstract text, bibliography text, text text, language text, url text, common_id text, filepath text)
CREATE TABLE IF NOT EXISTS conference (id INT PRIMARY KEY, conference text, year int)
CREATE TABLE IF NOT EXISTS catalogue (id INT PRIMARY KEY, author_id INT, article_id INT, conference_id INT), CONSTRAINT catalogue_author FOREIGN KEY(author_id) REFERENCES author(id) ON DELETE CASCADE, CONSTRAINT catalogue_article FOREIGN KEY(article_id) REFERENCES article(id) ON DELETE CASCADE, CONSTRAINT catalogue_conference FOREIGN KEY(conference_id) REFERENCES conference(id) ON DELETE CASCADE
CREATE TABLE IF NOT EXISTS author_alias (id INT PRIMARY KEY, alias text, author_id INT), CONSTRAINT alias_author FOREIGN KEY(author_id) REFERENCES author(id) ON DELETE CASCADE
CREATE TABLE IF NOT EXISTS affiliation_alias (id INT PRIMAR

In [3]:
import pickle
with open(path.join('..', '..', '..', 'prepared-data', 'pickles', 'all.pickle'), 'rb') as f:
    a = pickle.load(f)

In [4]:
reader.select_articles_of_author("Klyshinskij E. S.")

SELECT DISTINCT article.title FROM catalogue JOIN author JOIN article JOIN author_alias ON author.id=author_alias.author_id AND catalogue.author_id=author.id AND catalogue.article_id=article.id WHERE author_alias.alias ="Klyshinskij E. S."


['Некоторые Сложности Автоматизированной Лемматизации Несловарных Словоформ (Some Difficulties in Automated Lemmatization of Word Forms not Contained in the Dictionary)',
 'Автоматическое Формирование Базы Сочетаемости Слов на Основе Очень Большого Корпуса Текстов (Automatic Construction of Word Combination Database Using a Huge Text Corpus)',
 'Метод Порождения Правил Межъязыковой Машинной Траскрипции',
 'Lexical Research in Russian: are Modern Corpora Flexible Enough?',
 'Corpus of Syntactic Co-occurrences: a Delayed Promise']

In [5]:
reader.select_all_from_column("year")

SELECT DISTINCT year FROM catalogue INNER JOIN conference INNER JOIN article INNER JOIN author INNER JOIN author_alias ON author.id=author_alias.author_id AND catalogue.conference_id=conference.id AND catalogue.article_id=article.id AND author.id=catalogue.author_id


[(2013,),
 (2014,),
 (2015,),
 (2012,),
 (2008,),
 (2001,),
 (2006,),
 (2007,),
 (2000,),
 (2009,),
 (2017,),
 (2010,),
 (2011,),
 (2016,),
 (2005,),
 (2002,),
 (2003,),
 (2004,)]

In [6]:
reader.select_articles_from_conference("AIST")

SELECT DISTINCT article.title FROM catalogue JOIN conference JOIN article ON catalogue.conference_id=conference.id AND catalogue.article_id=article.id WHERE conference.conference='AIST'


['Интеграция Информационных Систем с Применением Семантических Технологий',
 'Генерация Сниппетов в Поисковых Системах как Задача Автоматического Квазиреферирования',
 'Использование Ресурсов Интернета для Построения Таксономии',
 'Аннотированные Суффиксные Деревья: Особенности Реализации',
 'Серелекс: Поиск и Визуализация Семантически Связанных Слов',
 'Применение Методов Машинного Перевода для Анализа Древнерусских Музыкальных Рукописей',
 'Автоматическое Извлечение Правил Для Снятия Морфологической Неоднозначности',
 'Оценка Сниппетов в Поиске Mail.ru: Корреляция Автоматических и Ассессорских Оценок',
 '«бизнес Семантика»: Практика Интеграции Информационных Систем с Использованием Семантических Технологий',
 'Анализ Статистических Алгоритмов Снятия Морфологической Омонимии в Русском Языке',
 'Синтаксический Анализ Музыкальных Текстов',
 'Review of Relation Extraction Methods: what is New out There?',
 'Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic 

In [7]:
reader.select_author_and_title_by_id("bhj")

SELECT DISTINCT title FROM article  WHERE common_id="bhj"
SELECT DISTINCT name FROM author JOIN catalogue JOIN article ON author.id=author_id AND article_id=article.id WHERE common_id="bhj"


'No id in db'

In [8]:
reader.select_article_by_affiliation('МГУ им. М.В. Ломоносова')

SELECT DISTINCT article.title FROM catalogue JOIN author JOIN article ON article.id=article_id AND author.id=author_id WHERE author.affiliation = 'МГУ им. М.В. Ломоносова'


[('Конструкция с Творительным Формы «X Y-ом» (Describing Shape: Instrumental Construction «X Y-ом»)',),
 ('«наивная Механика» в Языке и Онтологии (“Naïve Mechanics” in Language and Ontology)',),
 ('Универсальное Терминологическое Пространство',),
 ('Метафора Мертвая и Метафора Живая:экспериментальный Подход к Паремиологии Дунганского и Китайского Языков',),
 ('Метафорика Ситуационного Образа: Когнитивный Анализ Устойчивых Сравнений',),
 ('Методы Формироваия Глоссариев в Универсальном Терминологическом Пространстве',),
 ('Формирование Лингвистических Баз Знаний: Статистика Vs. Грамматика',)]

In [9]:
bd_m.get_db_info()

[('table',
  'author',
  'author',
  2,
  'CREATE TABLE author (id INT PRIMARY KEY, name text, email text, affiliation text)'),
 ('table',
  'conference',
  'conference',
  6,
  'CREATE TABLE conference (id INT PRIMARY KEY, conference text, year int)'),
 ('table',
  'catalogue',
  'catalogue',
  8,
  'CREATE TABLE catalogue (id INT PRIMARY KEY, author_id INT, article_id INT, conference_id INT, CONSTRAINT catalogue_author FOREIGN KEY(author_id) REFERENCES author(id) ON DELETE CASCADE, CONSTRAINT catalogue_article FOREIGN KEY(article_id) REFERENCES article(id) ON DELETE CASCADE, CONSTRAINT catalogue_conference FOREIGN KEY(conference_id) REFERENCES conference(id) ON DELETE CASCADE)'),
 ('table',
  'author_alias',
  'author_alias',
  10,
  'CREATE TABLE author_alias (id INT PRIMARY KEY, alias text, author_id INT, CONSTRAINT alias_author FOREIGN KEY(author_id) REFERENCES author(id) ON DELETE CASCADE)'),
 ('table',
  'affiliation_alias',
  'affiliation_alias',
  12,
  'CREATE TABLE affiliati

In [12]:
reader.update_statistics()
reader.get_statistics()

Unnamed: 0,parameter,count
0,количество статей,1804
1,количество авторов,1326
2,количество аффилиаций,815
3,количество русских статей,1401
4,количество английских статей,403
5,объем корпуса в токенах,7515811
