# Data

In [1]:
%load_ext autoreload
%autoreload 2
%cd /home/mi/au/spbmetro

from ipyannotate import annotate
from ipyannotate.buttons import (ValueButton as Button, BackButton, NextButton)

def check(rule, tree=False, facts=False):
    return annotate(texts, buttons=[
        Button('ok', color='green', shortcut='1'),
        Button('err', color='red', shortcut='2'),
        BackButton(shortcut='j'), NextButton(shortcut='k'),
    ], display=lambda text: test(rule, text, tree=tree, facts=facts))

from Levenshtein import distance
from yargy.tokenizer import MorphTokenizer
from yargy.predicates import gram, in_, type, normalized, eq, custom
from yargy.pipelines import morph_pipeline
from yargy.relations import gnc_relation, main
from yargy import or_, and_, not_, rule, Parser
from yargy import interpretation as interp
from yargy.interpretation import fact, attribute
from yargy import interpretation as interp
import yargy
import re

from notebook.common import *
from notebook.helper import test, test_samples


from structure import History, Subway
texts = [_.text for _ in History.load().messages.values()]

/home/mi/work/spbmetro


# Grammar

In [14]:
[t for t in TOKENIZER(' работает только на выход ')]

[MorphToken('работает',
            [1, 9),
            'RU',
            [Form('работать', Grams(3per,VERB,impf,indc,intr,pres,sing))]),
 MorphToken('только',
            [10, 16),
            'RU',
            [Form('только', Grams(PRCL)), Form('только', Grams(CONJ))]),
 MorphToken('на',
            [17, 19),
            'RU',
            [Form('на', Grams(PREP)),
             Form('на', Grams(PRCL)),
             Form('на', Grams(INTJ))]),
 MorphToken('выход',
            [20, 25),
            'RU',
            [Form('выход', Grams(NOUN,accs,inan,masc,sing)),
             Form('выход', Grams(NOUN,inan,masc,nomn,sing))])]

## Time

In [3]:
from notebook.time import TIME

test(TIME,
     ['в  12:31 но не в 33:33 и не в 09:90',               'в  12:31'],
     ['что с  1:09  по  8:09  с  8:20  до  9:00  ч вход',  '1:09', '8:09', '8:20', '9:00  ч'],
     ['что  10:02 .2018 и 10.02.2018 станция закрыта'],
     ['с16ч 04 мин до конца рабочего дня станция закрыта', '16ч 04 мин'],
     ['в 17 ч02 мин александра невского 1-2 закрыт в  18.40 и в 18- 40 ', 
                                                           'в 17 ч02 мин', 'в  18.40', 'в 18- 40'],
     ['баллончик в  18:10 ч. нарушитель, с 10-27 мин',     'в  18:10 ч.', '10-27 мин'],
     ['пункт 2. 16-40 закрыта платформа',                  '16-40'],
     facts=False, tree=False
     )

In [4]:
# annotate_time = check(TIME, facts=True);
# annotate_time
# print('failed:', len([_ for _ in annotate_time.tasks if _.value != 'ok']), '/', len(annotate_time.tasks))

## Duration

In [5]:
from notebook.duration import DURATION

test(DURATION,
     ['с  12:31 но не с 33:33 до 09:90 а до 09:30', 'с  12:31', 'до 09:30'],
     ['что с  1:09  по  8:09  с  8:20  до  9:00  ч вход', 'с  1:09  по  8:09', 'с  8:20  до  9:00  ч'],
     ['что с 10:02 .2018 и с 10.02.2018 станция закрыта'],
     ['с16ч 04 мин до конца рабочего дня станция закрыта', 'с16ч 04 мин до конца рабочего дня'],
     ['с 17 ч02 мин александра невского 1-2 до конечной станции закрыты с 18:40 и с 18- 40',
          'с 17 ч02 мин', 'с 18:40', 'с 18- 40'],
     ['с  18:10 ч. закрыта, с 10-27 мин тоже', 'с  18:10 ч.', 'с 10-27 мин'],
     ['с 17-00 до окончания будет', 'с 17-00 до окончания'],
     facts=False, tree=False
     )

## Literals

In [6]:
from notebook.literal import *

test(LITERAL, ['без двух; один, два; первый, второй', 'двух', 'один', 'два', 'первый', 'второй'], facts=False)
test(LIST_OF_NUMERALS, ['вестибюль - 1, 2;   невского 1 и 2;   восстания 1'], facts=False)
test(LIST_OF_LITERALS, ['второй и первый павильоны; первый - второй вестибюли'], facts=False)

## Vestibules

In [7]:
from notebook.vestibule import VESTIBULE

test(VESTIBULE,
    ['вестибюли 1 и 2 ст . ленинский проспект открыт', 'вестибюли 1 и 2'],
    ['Временно открыт вестибюль 2 ст. Достоевская на вход и выход.', 'вестибюль 2'],
    ['Второй и первый вестибюли открыты', 'Второй и первый вестибюли'],
    facts=True)

Vestibules(num=[1, 2])

Vestibules(num=[2])

Vestibules(num=[1, 2])

## Station titles

In [8]:
from notebook.station_title import STATION_TITLE

test(STATION_TITLE,
     ['Гостинку и гостиный двор 28 апреля 2018 года ст . приморская закрыта', 'гостиный двор', 'Гостинку', 'приморская'],
     ['техн и-т закрыт; переход тн 1 открыт, для тех кто не знал ', 'техн и-т', 'тн'],
     [' ст . технологический ин - т открыта . опасных предметов не обнаружено', 'технологический ин - т'],
     ['выход на улицу восстания и московский вокзал; спортивная сумка', ],
     ['В 19-54 ст. Ст. Деревня открыта, опасных предметов не обнаружено.', 'Ст. Деревня'],
     ['в 19 - 54 ст . . деревня открыта , ст. Ст. Гражданский пр.', 'ст . . деревня', 'Гражданский пр.'],
     ['ст . технологический - 1 и переход на ст . технолог . - 2 ', 'технологический', 'технолог .'],
     ['комментарии губернатора спб . полтавченко г . с '],
     ['ст . гостинный двор; на ст . ладожкская снято', 'гостинный двор', 'ладожкская'],
     facts=False, tree=False)

## Stations & Transfers

In [9]:
from notebook.transfer import TRANSFER

test(TRANSFER,
     ['переход Гостиный двор- Невский пр. открыт', 'переход Гостиный двор- Невский пр.'],
     ['Переход со ст. м. «Озерки» на ст.Владимирская закрыт', 'Переход со ст. м. «Озерки» на ст.Владимирская'],
     ['переход на верхнюю платформу закрыт', 'переход на верхнюю платформу'],
     ['Ст. пл. Ал.Невского2 и переход Ал.Невского1-2 закрыт', 'переход Ал.Невского1-2'],
     ['и переходы с Гостиного двора открыты', 'переходы с Гостиного двора'],
     ['переход Влад.- Достоевская закрыты', 'переход Влад.- Достоевская'],
     ['переходы на Сенную пл. и Спасскую закрыты', 'переходы на Сенную пл. и Спасскую'],
     ['переход Тн1- Тн2 открыт', 'переход Тн1- Тн2'],
     ['переход между ст. Сенная площадь и Спасская закрыт', 'переход между ст. Сенная площадь и Спасская'],
     ['переход между ст. Технологический институт 1 и 2 открыт', 'переход между ст. Технологический институт 1 и 2'],
    facts=False)

# test_samples([LIST_OF_STATIONS.named('2')], texts, fact=True)

In [29]:
from notebook.transfer import STATION_AND_TRANSFER, TRANSFER, STATION

test(STATION_AND_TRANSFER,
    ['в 14 - 09 ст . спасская и переходы на ст . садовая и ст . сенная площадь закрыты из - за бесхозного предмета'],
    ['ст . сенная площадь и переходы на ст . садовая и ст . спасская закрыты из - за ананомного сообщения'],
    ['Ст. «пл. Ал.Невского2» и переход Ал.Невского1-2 закрыт'],
    facts=False)

# test_samples([STATION_AND_TRANSFER.named(''), TRANSFER.named('1')], texts, markup=LineMarkup)

In [68]:
from notebook.working import *

test(WORKING,
    ['Станция была на вход закрыта. станция не работает.', 'была на вход закрыта', 'не работает'],
    ['Работает и на вход и на выход', 'Работает и на вход и на выход'],
    ['Девяткино закрыта на вход (на выход работает)', 'закрыта на вход', 'на выход работает'],
    ['институт закрыта на вход, на выход работает', 'закрыта на вход', 'на выход работает'],
    ['Чернышевская на выход работает, закрыта только на вход, работает только выход',
     'на выход работает', 'закрыта только на вход', 'работает только выход'],
    ['Павильон-2 работает в нормальном режиме', 'работает в нормальном режиме'],
    ['Девяткино не закрыта на вход (выход не работает)', 'не закрыта на вход', 'выход не работает'],
    facts=False)

In [11]:
import pandas as pd
from datetime import datetime as dt
%run structure.py

x = [_.date for _ in History.load()]
d = pd.DataFrame({"date": pd.to_datetime(x, unit='s')})
d['day'] = d['date'].map(lambda d: d.toordinal())

kek = d.day.value_counts()
kek
e = kek.reset_index(name='freq').set_index(kek.index.map(dt.fromordinal))
e.freq = e.freq.map(lambda x: x // 2)
# (e / 734).freq.sum()
# e