In [20]:
from yargy import Parser, rule, and_, or_
from yargy.predicates import is_capitalized
from yargy.interpretation import fact
from yargy.relations import gnc_relation

In [21]:
Name = fact(
    "Name",
    ["first", "last"]
)

BirthDate = fact(
    "BirthDate",
    ["date"]
)

BirthPlace = fact(
    "BirthPlace",
    ["in_", "place"]
)

Entry = fact(
    "Entry",
    ["name", "birth_date", "birth_place"]
)

# Паттерн для даты

In [22]:
from yargy.predicates import gte, lte
from yargy.predicates import caseless, normalized, dictionary


MONTHS = {
    'январь',
    'февраль',
    'март',
    'апрель',
    'мая',
    'июнь',
    'июль',
    'август',
    'сентябрь',
    'октябрь',
    'ноябрь',
    'декабрь'
}
YEAR_WORDS = or_(
    rule(caseless('г'), '.'),
    rule(normalized('год'))
)
Date = fact(
    'Date',
    ['year', 'month', 'day']
)

DAY = and_(
    gte(1),
    lte(31)
).interpretation(
    Date.day
)
MONTH = and_(
    gte(1),
    lte(12)
).interpretation(
    Date.month
)
YEAR = and_(
    gte(1),
    lte(2025)
).interpretation(
    Date.year
)
MONTH_NAME = dictionary(
    MONTHS
).interpretation(
    Date.month
)
DATE = rule(
    normalized("в").optional(),
    DAY.optional(),
    MONTH_NAME.optional(),
    YEAR,
    YEAR_WORDS.optional()
).interpretation(Date)

# Паттерн для имени

In [23]:
gnc = gnc_relation()

NAME = rule(
    is_capitalized().interpretation(Name.first.inflected()).optional(),
    is_capitalized().interpretation(Name.last.inflected()),
).interpretation(
    Name
)

In [24]:
parser = Parser(NAME)
text = "Борис Васильев родился 21 мая 1924 года в Смоленске."

for match in parser.findall(text):
    print(match.fact)

Name(first='борис', last='васильев')
Name(first=None, last='смоленск')


# Паттерн для места рождения

In [25]:
PLACE = rule(
    rule(normalized("в")).interpretation(BirthPlace.in_),
    rule(is_capitalized()).interpretation(BirthPlace.place),
).interpretation(
    BirthPlace
)

parser = Parser(PLACE)
text = "Борис Васильев родился 21 мая 1924 года в Смоленске."

for match in parser.findall(text):
    print(match.fact)

BirthPlace(in_='в', place='Смоленске')


# Общий паттерн

In [26]:
PlaceDate = fact(
    "PlaceDate",
    ["place", "date"]
)

DatePlace = fact(
    "DatePlace",
    ["date", "place"]
)

RULE = rule(
    NAME.interpretation(Entry.name),
    normalized("родился"),
    or_(
        rule(
            PLACE.interpretation(Entry.birth_place),
            DATE.interpretation(Entry.birth_date)
        ).interpretation(PlaceDate),
        rule(
            DATE.interpretation(Entry.birth_date),
            PLACE.interpretation(Entry.birth_place)
        ).interpretation(DatePlace),
    )
).interpretation(Entry)

parser = Parser(RULE)
text = "Борис Васильев родился 21 мая 1924 года в Смоленске."

for match in parser.findall(text):
    print(match.fact)
    print([_.value for _ in match.tokens])

Entry(name=Name(first='борис', last='васильев'), birth_date=None, birth_place=None)
['Борис', 'Васильев', 'родился', '21', 'мая', '1924', 'года', 'в', 'Смоленске']


In [27]:
PlaceDate = fact(
    "PlaceDate",
    ["place", "date"]
)

DatePlace = fact(
    "DatePlace",
    ["date", "place"]
)


RULE = rule(
    NAME.interpretation(Entry.name),
    caseless("родился"),
    or_(
        rule(
            PLACE.interpretation(Entry.birth_place),
            DATE.interpretation(Entry.birth_date)
        ),
        rule(
            DATE.interpretation(Entry.birth_date),
            PLACE.interpretation(Entry.birth_place)
        ),
    )
).interpretation(Entry)

parser = Parser(RULE)
text = "Борис Васильев родился 21 мая 1924 года в Смоленске."

for match in parser.findall(text):
    print(match.fact.name)
    print(match.fact.birth_date)
    print(match.fact.birth_place)

Name(first='борис', last='васильев')
Date(year='1924', month='мая', day='21')
BirthPlace(in_='в', place='Смоленске')


# Парсинг из всех данных

In [None]:
import gzip

from dataclasses import dataclass

@dataclass
class Text:
    label: str
    title: str
    text: str


def read_texts(fn):
    with gzip.open(fn, "rt", encoding="utf-8") as f:
        for line in f:
            yield Text(*line.strip().split("\t"))

texts = list(read_texts("./data/news.txt.gz"))

In [29]:
texts[:10]

[Text(label='style', title='Rolex наградит победителей регаты', text='Парусная гонка Giraglia Rolex Cup пройдет в Средиземном море в 64-й раз. Победители соревнования, проводимого с 1953 года Yacht Club Italiano, помимо других призов традиционно получают в подарок часы от швейцарского бренда Rolex. Об этом сообщается в пресс-релизе, поступившем в редакцию «Ленты.ру» в среду, 8 мая. Rolex Yacht-Master 40 Фото: пресс-служба Mercury Соревнования будут проходить с 10 по 18 июня. Первый этап: ночной переход из Сан-Ремо в Сен-Тропе 10-11 июня (дистанция 50 морских миль — около 90 километров). Второй этап: серия прибрежных гонок в бухте Сен-Тропе с 11 по 14 июня. Финальный этап пройдет с 15 по 18 июня: оффшорная гонка по маршруту Сен-Тропе — Генуя (243 морских мили — 450 километров). Маршрут проходит через скалистый остров Джиралья к северу от Корсики и завершается в Генуе.Регата, с 1997 года проходящая при поддержке Rolex, считается одной из самых значительных яхтенных гонок в Средиземноморь

In [30]:
from tqdm import tqdm

matches = []

for text in tqdm(texts):
    for match in parser.findall(text.text):
        print(match.fact)
        matches.append((text, match))

  9%|▉         | 902/10000 [00:35<05:02, 30.04it/s]

Entry(name=Name(first=None, last='трэмиел'), birth_date=Date(year='1928', month=None, day=None), birth_place=BirthPlace(in_='в', place='Польше'))


 12%|█▏        | 1198/10000 [00:49<05:35, 26.20it/s]

Entry(name=Name(first=None, last='он'), birth_date=Date(year='1865', month='сентября', day='11'), birth_place=BirthPlace(in_='в', place='Польше'))


 12%|█▏        | 1231/10000 [00:50<05:24, 27.02it/s]

Entry(name=Name(first=None, last='ребёнок'), birth_date=Date(year='25', month=None, day=None), birth_place=BirthPlace(in_='в', place='Калифорнии'))


 15%|█▌        | 1545/10000 [01:07<08:01, 17.58it/s]

Entry(name=Name(first='дмитрий', last='чернявский'), birth_date=Date(year='1992', month='марта', day='5'), birth_place=BirthPlace(in_='в', place='Артемовске'))


 17%|█▋        | 1708/10000 [01:16<06:08, 22.51it/s]

Entry(name=Name(first=None, last='миллиардер'), birth_date=Date(year='1938', month=None, day=None), birth_place=BirthPlace(in_='в', place='Лондоне'))


 18%|█▊        | 1841/10000 [01:21<04:25, 30.68it/s]

Entry(name=Name(first='яковлевюрий', last='яковлев'), birth_date=Date(year='1928', month=None, day=None), birth_place=BirthPlace(in_='в', place='Москве'))


 24%|██▍       | 2447/10000 [01:46<05:01, 25.03it/s]

Entry(name=Name(first=None, last='патрик'), birth_date=Date(year='1990', month=None, day=None), birth_place=BirthPlace(in_='в', place='Бронксе'))


 25%|██▌       | 2530/10000 [01:50<05:27, 22.83it/s]

Entry(name=Name(first='николай', last='караченцов'), birth_date=Date(year='1944', month='октября', day='27'), birth_place=BirthPlace(in_='в', place='Москве'))


 32%|███▏      | 3232/10000 [02:17<03:36, 31.28it/s]

Entry(name=Name(first=None, last='живописец'), birth_date=Date(year='1927', month='мая', day='25'), birth_place=BirthPlace(in_='в', place='Сочи'))


 38%|███▊      | 3783/10000 [02:38<02:58, 34.77it/s]

Entry(name=Name(first='игорь', last='доценко'), birth_date=Date(year='1953', month=None, day=None), birth_place=BirthPlace(in_='в', place='Хмельницкой'))


 42%|████▏     | 4153/10000 [02:52<04:19, 22.57it/s]

Entry(name=Name(first=None, last='энгельбарт'), birth_date=Date(year='1925', month=None, day=None), birth_place=BirthPlace(in_='в', place='США'))


 52%|█████▏    | 5235/10000 [03:35<03:38, 21.80it/s]

Entry(name=Name(first=None, last='гамильтон'), birth_date=Date(year='1922', month=None, day=None), birth_place=BirthPlace(in_='в', place='Лондоне'))


 53%|█████▎    | 5308/10000 [03:38<02:28, 31.69it/s]

Entry(name=Name(first='раймонд', last='паулс'), birth_date=Date(year='1936', month='января', day='12'), birth_place=BirthPlace(in_='в', place='Риге'))


 60%|█████▉    | 5980/10000 [04:05<02:36, 25.63it/s]

Entry(name=Name(first='эдвард', last='мунк'), birth_date=Date(year='1863', month='декабря', day='12'), birth_place=BirthPlace(in_='в', place='Летене'))


 65%|██████▌   | 6517/10000 [04:26<02:19, 25.00it/s]

Entry(name=Name(first=None, last='рахлина'), birth_date=Date(year='1938', month=None, day=None), birth_place=BirthPlace(in_='в', place='Ленинграде'))


 65%|██████▌   | 6526/10000 [04:27<02:25, 23.86it/s]

Entry(name=Name(first='владимир', last='высоцкий'), birth_date=Date(year='1938', month=None, day=None), birth_place=BirthPlace(in_='в', place='Москве'))


 66%|██████▌   | 6580/10000 [04:28<02:08, 26.68it/s]

Entry(name=Name(first=None, last='монро'), birth_date=Date(year='1969', month=None, day=None), birth_place=BirthPlace(in_='в', place='Ленинграде'))


 69%|██████▉   | 6886/10000 [04:40<02:38, 19.59it/s]

Entry(name=Name(first=None, last='ельчин'), birth_date=Date(year='1989', month='марта', day='11'), birth_place=BirthPlace(in_='в', place='Ленинграде'))


 74%|███████▍  | 7378/10000 [04:59<01:55, 22.62it/s]

Entry(name=Name(first='борис', last='васильев'), birth_date=Date(year='1924', month='мая', day='21'), birth_place=BirthPlace(in_='в', place='Смоленске'))


 80%|████████  | 8034/10000 [05:22<01:04, 30.54it/s]

Entry(name=Name(first='оскар', last='нимейер'), birth_date=Date(year='1907', month='декабря', day='15'), birth_place=BirthPlace(in_='в', place='Рио'))


 86%|████████▌ | 8566/10000 [05:41<00:44, 32.17it/s]

Entry(name=Name(first='александр', last='луи'), birth_date=Date(year='22', month=None, day=None), birth_place=BirthPlace(in_='в', place='Лондоне'))


 87%|████████▋ | 8687/10000 [05:45<00:43, 30.09it/s]

Entry(name=Name(first='евгений', last='гришковец'), birth_date=Date(year='1967', month=None, day=None), birth_place=BirthPlace(in_='в', place='Кемерово'))


 92%|█████████▏| 9169/10000 [06:02<00:28, 29.10it/s]

Entry(name=Name(first='игорь', last='кваша'), birth_date=Date(year='1933', month=None, day=None), birth_place=BirthPlace(in_='в', place='Москве'))


 94%|█████████▍| 9398/10000 [06:10<00:21, 28.32it/s]

Entry(name=Name(first=None, last='споканимая'), birth_date=Date(year='1931', month='марта', day='26'), birth_place=BirthPlace(in_='в', place='Бостоне'))


 97%|█████████▋| 9685/10000 [06:20<00:10, 31.21it/s]

Entry(name=Name(first=None, last='казенин'), birth_date=Date(year='1937', month='мая', day='21'), birth_place=BirthPlace(in_='в', place='Кирове'))


 99%|█████████▊| 9858/10000 [06:26<00:04, 32.45it/s]

Entry(name=Name(first='алексей', last='ремиз'), birth_date=Date(year='1877', month=None, day=None), birth_place=BirthPlace(in_='в', place='Москве'))


 99%|█████████▉| 9898/10000 [06:28<00:03, 27.73it/s]

Entry(name=Name(first='михаил', last='алгаш'), birth_date=Date(year='1988', month=None, day=None), birth_place=BirthPlace(in_='в', place='Омске'))


100%|██████████| 10000/10000 [06:31<00:00, 25.55it/s]


Проверяем

In [31]:
for item in matches:
    text = item[0]
    match = item[1]
    left, right = match.tokens[0].span.start, match.tokens[-1].span.stop
    print(f"Extracted from: {text.text[left:right]}\nmatched: {match.fact}")
    print('-' * 80)

Extracted from: Трэмиел родился в 1928 году в Польше
matched: Entry(name=Name(first=None, last='трэмиел'), birth_date=Date(year='1928', month=None, day=None), birth_place=BirthPlace(in_='в', place='Польше'))
--------------------------------------------------------------------------------
Extracted from: Он родился в Польше 11 сентября 1865 года
matched: Entry(name=Name(first=None, last='он'), birth_date=Date(year='1865', month='сентября', day='11'), birth_place=BirthPlace(in_='в', place='Польше'))
--------------------------------------------------------------------------------
Extracted from: Ребенок родился в Калифорнии 25
matched: Entry(name=Name(first=None, last='ребёнок'), birth_date=Date(year='25', month=None, day=None), birth_place=BirthPlace(in_='в', place='Калифорнии'))
--------------------------------------------------------------------------------
Extracted from: Дмитрий Чернявский родился в Артемовске 5 марта 1992 года
matched: Entry(name=Name(first='дмитрий', last='чернявск