In [1]:
import pandas as pd
from random import seed, sample

from IPython.display import display

from ipymarkup import show_markup, AsciiMarkup

from yargy import (
    Parser,
    or_, rule
)
from yargy.pipelines import morph_pipeline
from yargy.predicates import (
    eq, lte, gte, gram, type, tag,
    length_eq,
    in_, in_caseless, dictionary,
    normalized, caseless,
    is_title, custom
)

from yargy.tokenizer import MorphTokenizer
from yargy import interpretation as interp
from yargy.interpretation import fact, attribute

import sys
sys.path.append('/home/bun/natasha')

from natasha_expanded.grammars import address

In [6]:
data = pd.read_csv('scrp_data_lost_and_found_22_11_2018.csv')

lines = data['msg_text'].tolist()

In [159]:
def load_lines(path):
    with open(path) as file:
        for line in file:
            yield line.rstrip('\n')
            
            
METRO_STATIONS = list(load_lines('metro.txt'))

def load_text(path):
    with open(path) as file:
        return file.read()
    
metro_names = load_text('metro_names.csv').split('\n')

In [36]:
def show_matches(rule, *lines):
    parser = Parser(rule)
    for line in lines:
        matches = parser.findall(line)
        matches = sorted(matches, key=lambda _: _.span)
        spans = [_.span for _ in matches]
        show_markup(line, spans)

In [2]:
import requests
from functools import lru_cache

YNDX_GEO_KEY = '29d541ba-6887-4e71-be53-b00d7e178147'

@lru_cache(maxsize=2**11)
def get_coordinates(geocode):
    r = requests.get(f'https://geocode-maps.yandex.ru/1.x/?apikey={YNDX_GEO_KEY}&geocode={geocode}&format=json&results=1')
    featureMember = r.json()['response']['GeoObjectCollection']['featureMember']
    if featureMember:
        r = featureMember[0]['GeoObject']['Point']['pos']
        long, lat = [float(i) for i in r.split(' ')]
        return long, lat
    else:
        return None, None

In [2]:
FIND_ADDRESS = [
    address.METRO,
    address.STREET_LEVEL,
    address.GOROD_LEVEL,
    address.RAION]

def find_address(text):
    for lev in FIND_ADDRESS:
        pars = Parser(lev)
        matc = pars.findall(text)
        facts = [_.span for _ in matc]
        if facts:
            for fact in facts:
                return text[fact[0]:fact[1]], get_coordinates(text[fact[0]:fact[1]])

In [11]:
Address = fact(
    'Address',
    [attribute('parts').repeatable()]
)

In [191]:
FIND_ADDRESS = or_(
    address.METRO.interpretation(
        Address.parts
    ),
    address.STREET_LEVEL_CUSTOM.interpretation(
        Address.parts
    ),
    address.GOROD_LEVEL.interpretation(
        Address.parts
    ),
    address.RAION.interpretation(
        Address.parts
    ),
    OTHER_OBJECTS.interpretation(
        Address.parts
    )
).interpretation(Address)

In [218]:
def find_address(text):
        pars = Parser(FIND_ADDRESS)
        matc = pars.findall(text)
        #print(list(matc))        
        facts = [_.span for _ in matc]
        return ' '.join([text[f[0]:f[1]] for f in facts])

In [219]:
text = """5.12.17 №32214 кобель, Взрослый Черный с белым,хвост пушистый,не купированный, больше темного окраса,или просто грязный. в районе Можайское шоссе, бегает собака(мальчик),грязный,похож на русского спаниеля. Заметили его дней 5-6 тому назад,близко не подходит,кажется с коричневым ошейником,упитанный.может кто ищет Найден(а) в районе Москва ул.Толбухина, ул Говорово 89163894451 Ирина mussirina@mail.ru"""

In [216]:
pars = Parser(FIND_ADDRESS)
matc = pars.findall(text)
facts = [_.fact for _ in matc]
print(facts[0].parts)

[Street(name='Можайское', type='шоссе')]


In [221]:
get_coordinates(find_address(text))

(37.395509, 55.718796)

In [116]:
show_matches(FIND_ADDRESS, text)

In [125]:
get_coordinates('Москва Метро Щукинская улице Академика Бочвара')

(37.458732, 55.804172)

In [217]:
for line in sample(lines, 10):
    show_matches(FIND_ADDRESS, line)
    print(find_address(line))

Московская Дмитровский район село Орудьево


Долгопрудный Проспект Пацаева


Можайское шоссе


фрунзенский





Первомайской





Угрешской ул. Конечная трамваев 43


Открытого шоссе открытое шоссе 8


Балашиха Московской


In [None]:
около Бц Двинцев
 у ТЦ "Сота
станция ПРАВДА
районе СНТ "Сосновый бор" 
СНТ надежда
парка Фили
Садоводство Ларионово
на киевском вокзале
ПРОСПЕКТ КОМСОМОЛЬСКИЙ
сао
ст. Ильинская-быково