### Извлечение сущностей с использованием Natasha и Yargy-parser

#### Готовые правила
Сейчас в Natasha есть правила для извлечения имён, адресов, дат, сумм денег, названий организаций и географических объектов.

#### Имена

In [None]:
!pip install yargy==0.11.0

### Извлечение данных из резюме сосискателей

#### Использование Yargy-парсера для извлечения пола, возраста, даты рождения, места проживания, гражданства и разрешения на работу

In [None]:
#клонируем репозиторий гитхаб
!git clone -l -s https://github.com/Ekaterina-Elmikeeva/Text-analytics.git
%cd Text-analytics/resources/resume_texts
!ls

### Данные

In [None]:
#читаем файлы с резюме соискателей
import os
ls = [i for i in os.listdir() if i.endswith('.txt')]
ls.sort()

texts = []
for path in ls:
    with open(path) as file:
        text = file.read()
        texts.append(text)
        
intros = [_[:700] for _ in sorted(texts)]

intros

In [None]:
# 3 примера резюме
from random import seed, sample

seed(41)
for text in sample(intros, 3):
    print(text)
    print('---' * 10)

### Установка библиотек и определение методов

In [None]:
!pip install ipymarkup

In [None]:
# импортируем необходимые билиотеки
import json

from ipymarkup import show_span_ascii_markup as show_markup

from yargy import (
    Parser,
    rule, or_, and_, not_
)
from yargy.predicates import (
    eq, in_,
    type, normalized,
    dictionary,
    gte, lte
)
from yargy.pipelines import (
    pipeline,
    morph_pipeline
)
from yargy.interpretation import (
    fact,
    attribute
)
from yargy.tokenizer import MorphTokenizer, EOL


# определяем структуру данных, которая нам нужна
Intro = fact(
    'Intro',
    ['gender', 'age', 'birth', 'location'
    ,
     'citizenship', 'permission'
    ]
)

INT = type('INT')
COMMA = eq(',')
COLON = eq(':')


def show_json(data):
    print(json.dumps(data, indent=2, ensure_ascii=False))


def show_matches(rule, *lines):
    parser = Parser(rule)
    for line in lines:
        matches = parser.findall(line)
        spans = [_.span for _ in matches]
        show_markup(line, spans)

### Пол

In [None]:
GENDERS = {
    'Женщина': 'female',
    'Мужчина': 'male'
}

GENDER = in_(GENDERS).interpretation(
    Intro.gender.custom(GENDERS.get)
)


show_matches(
    GENDER,
    'мужчина, Мужчина, мужчину',
    'Женщина'
)

### Возраст

In [None]:
AGE = rule(
    INT,
    normalized('год')
)


show_matches(
    AGE,
    '21 год, 25 лет'
)

### Дата рождения

In [None]:
Date = fact(
    'Date',
    ['year', 'month', 'day']
)


AGE = rule(
    INT.interpretation(
        Intro.age.custom(int)
    ),
    normalized('год')
)

MONTHS = {
    'январь': 1,
    'февраль': 2,
    'март': 3,
    'апрель': 4,
    'май': 5,
    'июнь': 6,
    'июль': 7,
    'август': 8,
    'сентябрь': 9,
    'октябрь': 10,
    'ноябрь': 11,
    'декабрь': 12
}

MONTH_NAME = dictionary(
    MONTHS
).interpretation(
    Date.month.normalized().custom(MONTHS.get)
)

DAY = and_(
    gte(1),
    lte(31)
).interpretation(
    Date.day.custom(int)
)

YEAR = and_(
    gte(1900),
    lte(2100)
).interpretation(
    Date.year.custom(int)
)

DATE = rule(
    DAY,
    MONTH_NAME,
    YEAR
).interpretation(
    Date
)

BIRTH = rule(
    normalized('родиться'),
    DATE.interpretation(
        Intro.birth
    )
)


show_matches(
    BIRTH,
    'родился 21 февраля 1990',
    'родиться 32 сентябрь 2000',
    'родилась 01 июля 1917',
)

### Соц-дем правило

In [None]:
SOCDEM = rule(
    GENDER, COMMA,
    AGE, COMMA,
    BIRTH
)


parser = Parser(SOCDEM)
seed(10)
for text in sample(intros, 10):
    for match in parser.findall(text):
        start, stop = match.span
        print(text[start:stop])

### Место проживания

In [None]:
def load_lines(path):
    with open(path) as file:
        for line in file:
            yield line.rstrip('\n')

In [None]:
#исползуем 2 готовых справочника - со станциями метро и районами
METRO_STATIONS = set(load_lines('/content/Text-analytics/resources/resume_dicts/metro.txt'))
AREAS = set(load_lines('/content/Text-analytics/resources/resume_dicts/areas.txt'))
seed(10)
sample(sorted(METRO_STATIONS), 10), sample(sorted(AREAS), 10)

In [None]:
Location = fact(
    'Location',
    ['area', 'metro']
)


METRO = rule(
    'м', '.',
    pipeline(METRO_STATIONS).interpretation(
        Location.metro
    )
)

AREA = pipeline(AREAS).interpretation(
    Location.area
)

LOCATION = rule(
    AREA,
    rule(
        COMMA,
        METRO
    ).optional()
).interpretation(
    Location
)


show_matches(
    LOCATION,
    'место проживания: Москва, м. Парк Победы',
    'Киев, м.Киевская',
    'Россия',
    'в Москве',
    'м. парк победы',
    'на м. Кропоткинской',
)

In [None]:
TITLE = rule(
    normalized('проживает'), COLON
)

LIVES_AT = rule(
    TITLE,
    LOCATION
)


parser = Parser(LIVES_AT)
seed(10)
for text in sample(intros, 10):
    for match in parser.findall(text):
        start, stop = match.span
        print(text[start:stop])

### Гражданство

In [None]:
TITLE = rule(
    'Гражданство', COLON
)

ITEM = AREA.interpretation(
    Intro.citizenship
)

LOCATIONS = rule(
    ITEM,
    rule(
        COMMA,
        ITEM
    ).optional()
)

CITIZENSHIP = rule(
    TITLE,
    LOCATIONS
)


show_matches(
    CITIZENSHIP,
    'Гражданство: Россия, Франция',
    'Гражданство: Россия, Франция, Украина',
)

### Наличие разрешения на работу

In [None]:
TITLE = pipeline([
    'есть разрешение на работу:'
])

ITEM = AREA.interpretation(
    Intro.permission
)

LOCATIONS = rule(
    ITEM,
    rule(
        COMMA,
        ITEM
    ).optional().repeatable()
)

PERMISSION = rule(
    TITLE,
    LOCATIONS
)


show_matches(
    PERMISSION,
    'есть разрешение на работу: Россия, Франция, Украина',
    'есть разрешение на работу: Россия',
)


### Результаты

In [None]:
INTRO = rule(
    SOCDEM,
    LIVES_AT,
    CITIZENSHIP, COMMA, PERMISSION
).interpretation(
    Intro
)


parser = Parser(INTRO, tokenizer=TOKENIZER)
seed(10)
for text in sample(intros, 10):
    for match in parser.findall(text):
        start, stop = match.span
        print(text[start:stop])
        print()