## ЛР 2. Извлечение именованных сущностей

In [145]:
import wikipedia
import re
from yargy import Parser, rule, and_, or_, not_
from yargy.tokenizer import MorphTokenizer
from yargy.pipelines import morph_pipeline
from yargy.interpretation import fact, attribute
from yargy.predicates import gram, dictionary, gte, lte, eq, type as yatype
from yargy.pipelines import pipeline, morph_pipeline
from IPython.display import display

wikipedia.set_lang("ru")


### Загрузим статью из Википедии

In [146]:
TITLE = 'Франция'

wiki = wikipedia.page(TITLE)
text = wiki.content
text = re.sub(r'==.*?==+', '', text)
len(text.split())

12731

### Сохраним статью в файл

In [147]:
FILENAME = 'france.txt'

f = open(FILENAME, "w")
f.write(text)
f.close()

### Прочитаем файл

In [148]:
f = open(FILENAME, "r")
text = f.read()
sents = text.splitlines()
len(sents)

605

In [149]:
sents[:3]

['Фра́нция (фр. France, [fʁɑ̃s]  слушать), официальное название — Францу́зская Респу́блика (фр. République française, [ʁe.py.blik fʁɑ̃.sɛz]  слушать) — трансконтинентальное государство, включающее основную территорию в Западной Европе и ряд заморских регионов и территорий. Столица — Париж. Девиз Республики — «Свобода, равенство, братство», её принцип — правление народа, народом и для народа.',
 'Название страны происходит от этнонима древнегерманского племени франков. Большинство населения Франции имеет смешанное галло-романское происхождение и говорит на языке романской группы.',
 'Население — 62 814 233 человека в метрополии и 67 848 156 человек — с учётом заморских владений (оценка на 1 июля 2020), в том числе около 90 % — граждане Франции. Состав населения Франции по вероисповеданию по состоянию на 2019 год: католики — 41 %, нерелигиозные — 40 %, мусульмане — 5 %, другие религии — 5 %, лютеране — 2 %, православные — 2 %, другие христиане — 2 %, буддисты — 1 % , иудеи — 1 %, нет дан

In [150]:
# Применение парсера
def parse(rules):
    parser = Parser(rules)
    for sent in sents:
        for match in parser.findall(sent):
            display(match.fact)

## Определение именованных сущностей

### Персоны с должностями

In [151]:
Person = fact(
    'Person',
    ['position', 'name']
)
Name = fact(
    'Name',
    ['first', 'last']
)


POSITION = morph_pipeline([
    'президент',
    'король'
])

NAME = rule(
    gram('Name').interpretation(
        Name.first.inflected()
    ),
    gram('Surn').interpretation(
        Name.last.inflected()
    )
).interpretation(
    Name
)

PERSON = rule(
    POSITION.interpretation(
        Person.position.inflected()
    ),
    NAME.interpretation(
        Person.name
    )
).interpretation(
    Person
)


parse(PERSON)

Person(
    position='президент',
    name=Name(
        first='жак',
        last='ширак'
    )
)

### Полные даты

In [152]:
Date = fact(
    'Date',
    ['year', 'month', 'day']
)


MONTHS = {
    'январь',
    'февраль',
    'март',
    'апрель',
    'май',
    'июнь',
    'июль',
    'август',
    'сентябрь',
    'октябрь',
    'ноябрь',
    'декабрь'
}


MONTH_NAME = dictionary(MONTHS)
DAY = and_(
    gte(1),
    lte(31)
)
YEAR = and_(
    gte(400),
    lte(2100)
)
DATE = rule(
    DAY.interpretation(
        Date.day
    ),
    MONTH_NAME.interpretation(
        Date.month
    ),
    YEAR.interpretation(
        Date.year
    ).optional()
).interpretation(
    Date
)

parse(DATE)

Date(
    year='2020',
    month='июля',
    day='1'
)

Date(
    year='1970',
    month='ноября',
    day='9'
)

Date(
    year='1995',
    month='мая',
    day='17'
)

Date(
    year='2007',
    month='мая',
    day='16'
)

Date(
    year='2007',
    month='мая',
    day='16'
)

Date(
    year='2008',
    month='июля',
    day='21'
)

Date(
    year='2012',
    month='мая',
    day='6'
)

Date(
    year='1967',
    month='марта',
    day='1'
)

Date(
    year='1958',
    month='октября',
    day='4'
)

Date(
    year='2020',
    month='июля',
    day='3'
)

Date(
    year='2017',
    month='июня',
    day='18'
)

Date(
    year='2007',
    month='июня',
    day='17'
)

Date(
    year='2009',
    month='апреля',
    day='4'
)

Date(
    year='2008',
    month='августа',
    day='12'
)

Date(
    year='2017',
    month='января',
    day='1'
)

Date(
    year='2020',
    month='января',
    day='1'
)

Date(
    year='2011',
    month='июня',
    day='1'
)

Date(
    year='2021',
    month='апреля',
    day='14'
)

Date(
    year=None,
    month='июня',
    day='21'
)

Date(
    year='2021',
    month='апреля',
    day='14'
)

Date(
    year='2021',
    month='апреля',
    day='14'
)

Date(
    year='2021',
    month='апреля',
    day='14'
)

### Названия в кавычках

In [153]:
Item = fact(
    'Item',
    [attribute('titles').repeatable()]
)

TITLE = rule(
    '«',
    not_(eq('»')).repeatable(),
    '»'
)
ITEM = rule(
    TITLE.interpretation(
        Item.titles
    ),
    eq(',').optional()
).repeatable().interpretation(
    Item
)

parse(ITEM)

Item(
    titles=['«Свобода, равенство, братство»']
)

Item(
    titles=['«Франция»']
)

Item(
    titles=['«Франкия»']
)

Item(
    titles=['«страна франков»']
)

Item(
    titles=['«франки»']
)

Item(
    titles=['«Франция»']
)

Item(
    titles=['«остров Франции»']
)

Item(
    titles=['«франк»']
)

Item(
    titles=['«свободный»']
)

Item(
    titles=['«франк»']
)

Item(
    titles=['«свободный»']
)

Item(
    titles=['«франк»']
)

Item(
    titles=['«копьё»']
)

Item(
    titles=['«франциска»']
)

Item(
    titles=['«государство в государстве»']
)

Item(
    titles=['«короля-солнца»']
)

Item(
    titles=['«американизации»']
)

Item(
    titles=['«восстановлению величия Франции»']
)

Item(
    titles=['«ядерному клубу»']
)

Item(
    titles=['«Союз за французскую демократию»']
)

Item(
    titles=['«Союз за народное движение»']
)

Item(
    titles=['«О судебной власти»']
)

Item(
    titles=['«R.F»']
)

Item(
    titles=['«Объединения в поддержку республики»']
)

Item(
    titles=['«Вставай, республика»']
)

Item(
    titles=['«Европа Экология»']
)

Item(
    titles=['«Зелёных»']
)

Item(
    titles=['«Конвергенция и альтернативы»']
)

Item(
    titles=['«Союз за народное движение»']
)

Item(
    titles=['«Центристский Союз»']
)

Item(
    titles=['«Европейское демократическое и социальное объединение»']
)

Item(
    titles=['«Союз за народное Движение»']
)

Item(
    titles=['«Левый союз»']
)

Item(
    titles=['«Социалистической партией»']
)

Item(
    titles=['«Европа-экология»']
)

Item(
    titles=['«Левый Фронт»']
)

Item(
    titles=['«Союз за народное движение»']
)

Item(
    titles=['«Левый союз»']
)

Item(
    titles=['«Национального фронта»']
)

Item(
    titles=['«Национальный Фронт»']
)

Item(
    titles=['«великой державой»']
)

Item(
    titles=['«знаменосцем»']
)

Item(
    titles=['«европейской оборонной идентичности»']
)

Item(
    titles=['«специализации»']
)

Item(
    titles=['«восточном»']
)

Item(
    titles=['«западной семьи»']
)

Item(
    titles=['«Буря в пустыне»']
)

Item(
    titles=['«ограниченного ядерного арсенала на минимально необходимом уровне»']
)

Item(
    titles=['«национальное меньшинство»']
)

Item(
    titles=['«национальность»']
)

Item(
    titles=['«nationalité»']
)

Item(
    titles=['«гражданство»']
)

Item(
    titles=['«national, nationale»']
)

Item(
    titles=['«nation»']
)

Item(
    titles=['«корси»']
)

Item(
    titles=['«говорящие по-баскски»']
)

Item(
    titles=['«да»']
)

Item(
    titles=['«частью наследия страны»']
)

Item(
    titles=['«крупной»']
)

Item(
    titles=['«терруар»']
)

Item(
    titles=['«апелласьон»']
)

Item(
    titles=['«Вина Франции»']
)

Item(
    titles=['«Électricité de France»']
)

Item(
    titles=['«Газ де Франс»']
)

Item(
    titles=['«пламенеющей готики»']
)

Item(
    titles=['«Барбизонской школы»']
)

Item(
    titles=['«Гаргантюа и Пантагрюэль»']
)

Item(
    titles=['«Опытах»']
)

Item(
    titles=['«Облагородить»']
)

Item(
    titles=['«Плеяды»']
)

Item(
    titles=['«Манон Леско»',
     '«Опасные связи»',
     '«Кандид»']
)

Item(
    titles=['«поэт чувства»']
)

Item(
    titles=['«Человеческая комедия»']
)

Item(
    titles=['«Мадам Бовари»']
)

Item(
    titles=['«Саламбо»']
)

Item(
    titles=['«Мадам Бовари»']
)

Item(
    titles=['«школа Флобера»']
)

Item(
    titles=['«искусства ради искусства»']
)

Item(
    titles=['«проклятых поэтов»']
)

Item(
    titles=['«Цветы зла»']
)

Item(
    titles=['«неистового»']
)

Item(
    titles=['«роман-поток»']
)

Item(
    titles=['«В поисках утраченного времени»']
)

Item(
    titles=['«Нувель Ревю Франсез»']
)

Item(
    titles=['«расиновскому»']
)

Item(
    titles=['«театра абсурда»']
)

Item(
    titles=['«новый роман»']
)

Item(
    titles=['«Шестёрки»']
)

Item(
    titles=['«спектральной музыки»']
)

Item(
    titles=['«уличный»']
)

Item(
    titles=['«Пармская обитель»']
)

Item(
    titles=['«Красное и чёрное»']
)

Item(
    titles=['«Тереза Ракен»']
)

Item(
    titles=['«Хиросима, любовь моя»']
)

Item(
    titles=['«новой волны»']
)

Item(
    titles=['«Шербурские зонтики»']
)

Item(
    titles=['«Девушки из Рошфора»']
)

Item(
    titles=['«Сезар»']
)

Item(
    titles=['«Les Confrères de la Passion»']
)

Item(
    titles=['«Театр дю солей»']
)

Item(
    titles=['«новый цирк»']
)

Item(
    titles=['«L’Equipe»']
)

Item(
    titles=['«Les Echos»']
)

Item(
    titles=['«20 minutes»']
)

Item(
    titles=['«Direct matin»']
)

Item(
    titles=['«Metro»']
)

Item(
    titles=['«Ouest-France»']
)

### Описание страны через прилагательные

In [154]:
Country = fact(
    'Country',
    ['adj', 'subj']
)

COUNTRY = rule(
    rule(
        gram('ADJF').repeatable()
    ).interpretation(Country.adj),
    rule(
        dictionary({'страна', 'Франция', 'государство'})
    ).interpretation(Country.subj)
).interpretation(Country)

parse(COUNTRY)

Country(
    adj='трансконтинентальное',
    subj='государство'
)

Country(
    adj='Франкское',
    subj='государство'
)

Country(
    adj='Франкского',
    subj='государства'
)

Country(
    adj='современной',
    subj='Франции'
)

Country(
    adj='Франкское',
    subj='государство'
)

Country(
    adj='франкское',
    subj='государство'
)

Country(
    adj='современной',
    subj='Франции'
)

Country(
    adj='самой',
    subj='Франции'
)

Country(
    adj='дальнейшем',
    subj='Франция'
)

Country(
    adj='католической',
    subj='Франции'
)

Country(
    adj='соседние',
    subj='страны'
)

Country(
    adj='других',
    subj='странах'
)

Country(
    adj='северной',
    subj='Франции'
)

Country(
    adj='южной',
    subj='Франции'
)

Country(
    adj='восточной',
    subj='Франции'
)

Country(
    adj='восточной',
    subj='Франции'
)

Country(
    adj='европейской',
    subj='Франции'
)

Country(
    adj='европейской',
    subj='Франции'
)

Country(
    adj='континентальной',
    subj='Франции'
)

Country(
    adj='Главой',
    subj='государства'
)

Country(
    adj='карибских',
    subj='государств'
)

Country(
    adj='отдельными',
    subj='странами'
)

Country(
    adj='французского',
    subj='государства'
)

Country(
    adj='которого',
    subj='Франция'
)

Country(
    adj='немногих',
    subj='стран'
)

Country(
    adj='светская',
    subj='страна'
)

Country(
    adj='религиозных',
    subj='стран'
)

Country(
    adj='северной',
    subj='Франции'
)

Country(
    adj='высокоразвитая постиндустриальная',
    subj='страна'
)

Country(
    adj='многих',
    subj='стран'
)

Country(
    adj='другим',
    subj='странам'
)

Country(
    adj='европейской',
    subj='страны'
)

Country(
    adj='этом',
    subj='Франция'
)

Country(
    adj='других',
    subj='стран'
)

Country(
    adj='привлекательные',
    subj='страны'
)

Country(
    adj='соседними',
    subj='странами'
)

Country(
    adj='всеми соседними',
    subj='странами'
)

Country(
    adj='все',
    subj='страны'
)

Country(
    adj='которого',
    subj='Франция'
)

Country(
    adj='других',
    subj='стран'
)

Country(
    adj='Южной',
    subj='Франции'
)

Country(
    adj='средневековой',
    subj='Франции'
)

Country(
    adj='сборная',
    subj='Франции'
)

Country(
    adj='Сборная',
    subj='Франции'
)

### Количественные показатели (в процентах)

In [155]:
Percent = fact(
    'Percent',
    ['count', 'subj']
)

PERCENT = rule(
    rule(
        yatype('INT'),
        '%'
    ).interpretation(Percent.count),
    gram('NOUN').interpretation(Percent.subj)
).interpretation(Percent)

parse(PERCENT)

Percent(
    count='30 %',
    subj='населения'
)

Percent(
    count='10 %',
    subj='населения'
)

Percent(
    count='2 %',
    subj='населения'
)

Percent(
    count='2 %',
    subj='территории'
)

Percent(
    count='27 %',
    subj='территории'
)

Percent(
    count='12 %',
    subj='и'
)

Percent(
    count='54 %',
    subj='голосов'
)

Percent(
    count='18 %',
    subj='голосов'
)

Percent(
    count='87 %',
    subj='голосов'
)

Percent(
    count='20 %',
    subj='избирателей'
)

Percent(
    count='1 %',
    subj='населения'
)

Percent(
    count='90 %',
    subj='населения'
)

Percent(
    count='9 %',
    subj='населения'
)

Percent(
    count='9 %',
    subj='населения'
)

Percent(
    count='30 %',
    subj='населения'
)

Percent(
    count='10 %',
    subj='семей'
)

Percent(
    count='4 %',
    subj='ВВП'
)

Percent(
    count='25 %',
    subj='продукции'
)

Percent(
    count='82 %',
    subj='территории'
)

Percent(
    count='30 %',
    subj='территории'
)

Percent(
    count='14 %',
    subj='стоимости'
)

Percent(
    count='64 %',
    subj='расходов'
)

Percent(
    count='40 %',
    subj='времени'
)

### Количественные показатели с учетом грамматики (в процентах)

In [156]:
Percent = fact(
    'Percent',
    ['count', 'subj']
)

PERCENT = rule(
    or_(
        gram('NOUN'),
        gram('ADJF')
    ).interpretation(Percent.subj),
    '—',
    rule(
        yatype('INT'),
        '%'
    ).interpretation(Percent.count),
    gram('NOUN').optional().interpretation(Percent.subj)
).interpretation(Percent)

parse(PERCENT)

Percent(
    count='41 %',
    subj='католики'
)

Percent(
    count='40 %',
    subj='нерелигиозные'
)

Percent(
    count='5 %',
    subj='мусульмане'
)

Percent(
    count='5 %',
    subj='религии'
)

Percent(
    count='2 %',
    subj='лютеране'
)

Percent(
    count='2 %',
    subj='православные'
)

Percent(
    count='2 %',
    subj='христиане'
)

Percent(
    count='1 %',
    subj='буддисты'
)

Percent(
    count='1 %',
    subj='иудеи'
)

Percent(
    count='1 %',
    subj='данных'
)

Percent(
    count='45 %',
    subj='религии'
)

Percent(
    count='43 %',
    subj='Католики'
)

Percent(
    count='8 %',
    subj='Мусульмане'
)

Percent(
    count='2 %',
    subj='Протестанты'
)

Percent(
    count='1 %',
    subj='Православные'
)

Percent(
    count='1 %',
    subj='Иудеи'
)

Percent(
    count='1 %',
    subj='Буддисты'
)

Percent(
    count='1 %',
    subj='Прочие'
)

Percent(
    count='13 %',
    subj='миру'
)

Percent(
    count='23 %',
    subj='миру'
)

Percent(
    count='59 %',
    subj='миру'
)

Percent(
    count='5 %',
    subj='миру'
)

Percent(
    count='41 %',
    subj='католики'
)

Percent(
    count='5 %',
    subj='мусульмане'
)

Percent(
    count='5 %',
    subj='религии'
)

Percent(
    count='2 %',
    subj='лютеране'
)

Percent(
    count='2 %',
    subj='православные'
)

Percent(
    count='2 %',
    subj='христиане'
)

Percent(
    count='1 %',
    subj='буддисты'
)

Percent(
    count='1 %',
    subj='иудеи'
)

Percent(
    count='1 %',
    subj='данных'
)

### Определения и названия политических партий

In [157]:
Party = fact(
    'Party',
    ['main']
)

PARTY = rule(
    gram('ADJF').repeatable(),
    'партия',
    TITLE.optional(), # Используем одно из написанных правил - название в кавычках
    or_(
        gram('ADJF'),
        gram('NOUN'),
    ).optional().repeatable(),
).interpretation(Party.main).interpretation(Party)

parse(PARTY)

Party(
    main='Рабочая партия'
)

Party(
    main='Социалистическая партия Франции'
)

Party(
    main='Французская социалистическая партия'
)

Party(
    main='ультраправая националистическая партия'
)

Party(
    main='Основная консервативная партия'
)

Party(
    main='правоконсервативная голлистская партия'
)

Party(
    main='правоцентристская голлистская партия'
)

Party(
    main='консервативная голлистская партия'
)

Party(
    main='евроскептическая голлистская партия с'
)

Party(
    main='традиционалистская партия'
)

Party(
    main='либеральная партия'
)

Party(
    main='Радикальная партия'
)

Party(
    main='политическая партия Франции'
)

Party(
    main='либеральная партия'
)

Party(
    main='реформистская партия'
)

Party(
    main='Радикальная левая партия'
)

Party(
    main='леволиберальная партия'
)

Party(
    main='Социалистическая партия'
)

Party(
    main='основная социалистическая партия страны'
)

Party(
    main='экологистская партия левого толка'
)

Party(
    main='Французская коммунистическая партия'
)

Party(
    main='Левая партия'
)

Party(
    main='левосоциалистическая партия'
)

Party(
    main='Новая антикапиталистическая партия'
)

Party(
    main='радикальная левая партия'
)

Party(
    main='троцкистская партия'
)

Party(
    main='Независимая рабочая партия'
)

Party(
    main='левая евроскептическая партия'
)

Party(
    main='левопопулистская евроскептическая партия'
)

Party(
    main='президентская партия «Союз за народное движение»'
)

### Деньги

In [158]:
Money = fact(
    'Money',
    ['value', 'currency']
)

Float = fact(
    'Float',
    ['value']
)


INT = yatype('INT')
FLOAT = rule(
    INT,
    ',',
    INT
)

MONEY = rule(
    rule(
        FLOAT,
        dictionary({
            'тысяча',
            'миллион',
            'млрд',
            'тыс',
            'млн'
        }).optional()
    ).interpretation(
        Money.value
    ),
    eq('евро').interpretation(
        Money.currency
    )
).interpretation(
    Money
)

parse(MONEY)

Money(
    value='1539,42',
    currency='евро'
)

Money(
    value='47,7 млрд',
    currency='евро'
)

Money(
    value='32,78 млрд',
    currency='евро'
)

Money(
    value='17,53 млрд',
    currency='евро'
)