In [2]:
import random
import os
import re
import time
from matplotlib import pyplot as plt

In [3]:
import numpy as np
import tensorflow as tf
from pathlib import Path
from collections import namedtuple
from tqdm import tqdm
from yargy.tokenizer import *
import string

In [4]:
FactRu = namedtuple('FactRu', ['id', 'text'])

In [5]:
devset_dir = "factRuEval-2016/devset"
testset_dir = "factRuEval-2016/testset"
result_dir = "factRuEval-2016/results"


In [6]:
def load_data(path):
    with open(path) as file:
        return file.read()

In [7]:
def read_dataset(dir_path, filetype):
    for filename in os.listdir(dir_path):
        match = re.match('book_(\d+)\.'+filetype, filename)
        if match:
            id = int(match.group(1))
            path = os.path.join(dir_path, filename)
            text = load_data(path)
            yield FactRu(id, text)

In [8]:
train_tokens = list(read_dataset(devset_dir, 'tokens'))
test_tokens = list(read_dataset(testset_dir, 'tokens'))
train_objects = list(read_dataset(devset_dir, 'objects'))
test_objects = list(read_dataset(testset_dir, 'objects'))

In [9]:
train_text = list(read_dataset(devset_dir, 'txt'))
test_text = list(read_dataset(testset_dir, 'txt'))

In [10]:
print(train_text[0].text)

Второй год подряд увеличивается число арестованных за их работу журналистов, причём каждый третий заключенный журналист — работал в Интернете. Об этом сообщает Комитет защиты журналистов (КЗЖ) (Committee to Protect Journalists).

На 1 декабря 2006 года во всём мире — 134 журналиста находятся в тюрьмах, это на 9 больше, чем в 2005 году. Журналисты арестованы в 24-х странах. Наибольшее количество арестованных журналистов в Китае, Кубе, Эритрее и в Эфиопии.

Наибольшее количество арестованных журналистов (67) — это репортёры, редакторы и фотографы. Однако в последнее время растёт количество журналистов, которые подвергаются арестам за их работу в Интернете (в этом году — 49). С 1997 года, когда был арестован первый журналист-интернетчик, количество их растёт наибольшими темпами.

Список заключенных интернет-журналистов включает репортёров из Китая, независимых авторов из Кубы, которые пишут для зарубежных Интернет страниц и американского видео-блоггера Джошуа Вольфа (Joshua Wolf), который

In [11]:
def tokenize(texts):
    result = []
    tokenizer = MorphTokenizer()
    for text in texts:
        for line in text.text.splitlines():
            result.append(FactRu(text.id, [_.value for _ in tokenizer(line)]))
    return result

In [12]:
tokenized_train_text = tokenize(train_text)
tokenized_test_text = tokenize(test_text)

In [13]:
print(tokenized_train_text[0].text, tokenized_train_text[0].id)

['Второй', 'год', 'подряд', 'увеличивается', 'число', 'арестованных', 'за', 'их', 'работу', 'журналистов', ',', 'причём', 'каждый', 'третий', 'заключенный', 'журналист', '—', 'работал', 'в', 'Интернете', '.', 'Об', 'этом', 'сообщает', 'Комитет', 'защиты', 'журналистов', '(', 'КЗЖ', ')', '(', 'Committee', 'to', 'Protect', 'Journalists', ')', '.'] 151


In [14]:
objects = tokenize(train_objects)
print(objects[0].text, objects[0].id)

['17530', 'LocOrg', '33882', '#', 'США'] 282


In [2]:
def make_labels(objects):
    result = []
    tokenized_objects = tokenize(objects)
    for _ in tokenized_objects:
        if _.text[1] == 'Person':
            index = _.text.index('#')
            result.append(FactRu(_.id, ['PER', _.text[index+1:]]))
    return result

In [1]:
#only for person
train_labels = make_labels(train_objects)
test_labels = make_labels(test_objects)
print(train_labels)

NameError: name 'make_labels' is not defined

In [17]:
def text_merge(lstlst):
    result = ''
    for lst in lstlst:
        result += lst.text
    return result

In [18]:
merged_train_text = text_merge(train_text)
print(merged_train_text)

Второй год подряд увеличивается число арестованных за их работу журналистов, причём каждый третий заключенный журналист — работал в Интернете. Об этом сообщает Комитет защиты журналистов (КЗЖ) (Committee to Protect Journalists).

На 1 декабря 2006 года во всём мире — 134 журналиста находятся в тюрьмах, это на 9 больше, чем в 2005 году. Журналисты арестованы в 24-х странах. Наибольшее количество арестованных журналистов в Китае, Кубе, Эритрее и в Эфиопии.

Наибольшее количество арестованных журналистов (67) — это репортёры, редакторы и фотографы. Однако в последнее время растёт количество журналистов, которые подвергаются арестам за их работу в Интернете (в этом году — 49). С 1997 года, когда был арестован первый журналист-интернетчик, количество их растёт наибольшими темпами.

Список заключенных интернет-журналистов включает репортёров из Китая, независимых авторов из Кубы, которые пишут для зарубежных Интернет страниц и американского видео-блоггера Джошуа Вольфа (Joshua Wolf), который

In [None]:
# import tensorflow as tf
# import numpy as np
# import string

# corpus_raw = merged_train_text

# # convert to lower case
# corpus_raw = corpus_raw.lower()
# punct = string.punctuation

# corpus_raw = re.sub('([.,!?()])', r' \1 ', corpus_raw)
# corpus_raw = re.sub('\s{2,}', ' ', corpus_raw)

# words = []
# for word in corpus_raw.split():
#     if word != punct: # because we don't want to treat . as a word
#         words.append(word)


# words = set(words) # so that all duplicate words are removed
# word2int = {}
# int2word = {}
# vocab_size = len(words) # gives the total number of unique words
# words = list(words)

# for i,word in enumerate(words):
#     word2int[word] = i
#     int2word[i] = word

# # raw sentences is a list of sentences.
# raw_sentences = corpus_raw.split('.?!')
# sentences = []
# for sentence in raw_sentences:
#     sentences.append(sentence.split())

# WINDOW_SIZE = 2

# data = []
# for sentence in sentences:
#     for word_index, word in enumerate(sentence):
#         for nb_word in sentence[max(word_index - WINDOW_SIZE, 0) : min(word_index + WINDOW_SIZE, len(sentence)) + 1] : 
#             if nb_word != word:
#                 data.append([word, nb_word])

# # function to convert numbers to one hot vectors
# def to_one_hot(data_point_index, vocab_size):
#     temp = np.zeros(vocab_size)
#     temp[data_point_index] = 1
#     return temp

# x_train = [] # input word
# y_train = [] # output word

# for data_word in data:
#     x_train.append(to_one_hot(word2int[ data_word[0] ], vocab_size))
#     y_train.append(to_one_hot(word2int[ data_word[1] ], vocab_size))

# # convert them to numpy arrays
# x_train = np.asarray(x_train)
# y_train = np.asarray(y_train)

# # making placeholders for x_train and y_train
# x = tf.placeholder(tf.float32, shape=(None, vocab_size))
# y_label = tf.placeholder(tf.float32, shape=(None, vocab_size))

# EMBEDDING_DIM = 5 # you can choose your own number
# W1 = tf.Variable(tf.random_normal([vocab_size, EMBEDDING_DIM]))
# b1 = tf.Variable(tf.random_normal([EMBEDDING_DIM])) #bias
# hidden_representation = tf.add(tf.matmul(x,W1), b1)

# W2 = tf.Variable(tf.random_normal([EMBEDDING_DIM, vocab_size]))
# b2 = tf.Variable(tf.random_normal([vocab_size]))
# prediction = tf.nn.softmax(tf.add( tf.matmul(hidden_representation, W2), b2))


# sess = tf.Session()
# init = tf.global_variables_initializer()
# sess.run(init) #make sure you do this!

# # define the loss function:
# cross_entropy_loss = tf.reduce_mean(-tf.reduce_sum(y_label * tf.log(prediction), reduction_indices=[1]))

# # define the training step:
# train_step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy_loss)

# n_iters = 100
# # train for n_iter iterations

# for _ in range(n_iters):
#     sess.run(train_step, feed_dict={x: x_train, y_label: y_train})
#     print('loss is : ', sess.run(cross_entropy_loss, feed_dict={x: x_train, y_label: y_train}))

# vectors = sess.run(W1 + b1)

# def euclidean_dist(vec1, vec2):
#     return np.sqrt(np.sum((vec1-vec2)**2))

# def find_closest(word_index, vectors):
#     min_dist = 10000 # to act like positive infinity
#     min_index = -1
#     query_vector = vectors[word_index]
#     for index, vector in enumerate(vectors):
#         if euclidean_dist(vector, query_vector) < min_dist and not np.array_equal(vector, query_vector):
#             min_dist = euclidean_dist(vector, query_vector)
#             min_index = index
#     return min_index


# from sklearn.manifold import TSNE

# model = TSNE(n_components=2, random_state=0)
# np.set_printoptions(suppress=True)
# vectors = model.fit_transform(vectors) 

# from sklearn import preprocessing

# normalizer = preprocessing.Normalizer()
# vectors =  normalizer.fit_transform(vectors, 'l2')

# print(vectors)

# import matplotlib.pyplot as plt


# fig, ax = plt.subplots()
# print(words)
# for word in words:
#     print(word, vectors[word2int[word]][1])
#     ax.annotate(word, (vectors[word2int[word]][0],vectors[word2int[word]][1] ))
# plt.show()

In [32]:
from yargy.predicates import normalized
corpus_raw = merged_train_text

# convert to lower case
corpus_raw = corpus_raw.lower()
punct = string.punctuation

corpus_raw = re.sub('([.,!?()])', r' \1 ', corpus_raw)
corpus_raw = re.sub('\s{2,}', ' ', corpus_raw)

words = []
for word in corpus_raw.split():
    if word != punct: # because we don't want to treat . as a word
        words.append(word)


words = set(words) # so that all duplicate words are removed
vocab_size = len(words) # gives the total number of unique words


In [41]:
tokenizer = MorphTokenizer().remove_types('EOL')
list(tokenizer(merged_train_text))

[MorphToken('Второй',
            [0, 6),
            'RU',
            [Form('два', Grams(ADJF,Anum,masc,nomn,sing)),
             Form('два', Grams(ADJF,Anum,femn,gent,sing)),
             Form('втора', Grams(NOUN,ablt,femn,inan,sing)),
             Form('два', Grams(ADJF,Anum,accs,inan,masc,sing)),
             Form('два', Grams(ADJF,Anum,datv,femn,sing)),
             Form('два', Grams(ADJF,Anum,ablt,femn,sing)),
             Form('два', Grams(ADJF,Anum,femn,loct,sing))]),
 MorphToken('год',
            [7, 10),
            'RU',
            [Form('год', Grams(NOUN,accs,inan,masc,sing)),
             Form('год', Grams(NOUN,inan,masc,nomn,sing))]),
 MorphToken('подряд',
            [11, 17),
            'RU',
            [Form('подряд', Grams(ADVB)),
             Form('подряд', Grams(NOUN,inan,masc,nomn,sing)),
             Form('подряд', Grams(NOUN,accs,inan,masc,sing))]),
 MorphToken('увеличивается',
            [18, 31),
            'RU',
            [Form('увеличиваться',
      

In [24]:
embeddings_filename = 'ruwikiruscorpora_upos_skipgram_300_2_2018.vec'

In [25]:
def load_embeddings(file_name):
    model = {}
    f = open(file_name, 'r')
    for line in f:
        splitline = line.split()
        word = splitline[0]
        embedding = np.array([float(val) for val in splitline[1:]])
        model[word] = embedding
    print ("Done",len(model)," words loaded!")
    return model

In [26]:
model = load_embeddings(embeddings_filename)

Done 384765  words loaded!


In [38]:
from yargy import Parser, rule, and_, or_
from yargy.interpretation import fact, attribute
from yargy.predicates import dictionary, gte, lte
from yargy.tokenizer import RULES

{'мотив', 'театром', 'высказаться', 'следствие', 'бег', 'пятнадцать', 'кёпке', 'террором', 'расчетов', '«реальным', 'отдельных', 'которых', 'кеннеди', 'кириллической', 'юрия', 'открыли', 'экономики', 'поступить', 'родины»', 'судьба', 'используя', 'чемпионате', 'петро-славянка', 'сейчас', 'выставлена', 'запрещает', 'times', '«бавария»', 'посольства', 'победитель', 'прессе»', 'подтвердил', 'ядерного', 'долгорукому', 'требования', 'результатах', 'евразийским', 'столкновениями', 'палестинское', 'продолжается»', 'дефицитом', 'повлиять', 'ближайшее', 'сети', 'смогли', 'инаркиев', 'телескоп', 'убеждена', 'полугодие', 'вайнрайх', 'сайтах', 'необходимым', 'требований', 'получат', 'отмечает', 'возвращают', 'постройкой', 'серьезных', '2602', 'африку', '«эта', 'теперь', '5000', 'оставаться', 'горацио', 'вынесем', 'эти', 'радиостанцию', 'задерживать', 'семья»', 'нидерланды', 'наконец', '«гол»', 'укладке', 'сообщить', 'технологии', 'минувшую', 'sex', 'показали', 'знаниями', 'ису', 'арабскими', 'ежег

AttributeError: 'set' object has no attribute 'normalized'