Выберите регулярное выражение, которое приведёт к указанной токенизации.

Входное предложение:

"Пожалуйста, отправляйте свои заявки на адрес электронной почты inbox@example.com или по телефону 123456.".

Ожидаемая токенизация:

['Пожалуйста', ',', 'отправляйте', 'свои', 'заявки', 'на', 'адрес', 'электронной', 'почты', 'inbox@example.com', 'или', 'по', 'телефону', '123456', '.']

In [1]:
import re

txt = "Пожалуйста, отправляйте свои заявки на адрес электронной почты inbox@example.com или по телефону 123456."

reg_exps = [r'\S+', r'\w+|\S', r' ', r'((?:\w+@\w+\.\w+)|\w+|\S)']
for reg_exp in reg_exps:
    tokenize_regex = re.compile(reg_exp, re.I)
    tokens = tokenize_regex.findall(txt)

    print(reg_exp)
    print("Result:", tokens)
    print("OK:", tokens == ['Пожалуйста', ',', 'отправляйте', 'свои', 'заявки', 'на', 'адрес', 'электронной', 'почты', 'inbox@example.com', 'или', 'по', 'телефону', '123456', '.'])
    print()

\S+
Result: ['Пожалуйста,', 'отправляйте', 'свои', 'заявки', 'на', 'адрес', 'электронной', 'почты', 'inbox@example.com', 'или', 'по', 'телефону', '123456.']
OK: False

\w+|\S
Result: ['Пожалуйста', ',', 'отправляйте', 'свои', 'заявки', 'на', 'адрес', 'электронной', 'почты', 'inbox', '@', 'example', '.', 'com', 'или', 'по', 'телефону', '123456', '.']
OK: False

 
Result: [' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
OK: False

((?:\w+@\w+\.\w+)|\w+|\S)
Result: ['Пожалуйста', ',', 'отправляйте', 'свои', 'заявки', 'на', 'адрес', 'электронной', 'почты', 'inbox@example.com', 'или', 'по', 'телефону', '123456', '.']
OK: True



Выберите все задачи лингвистического анализа, которые можно решать в два этапа:

1. выделение всех кандидатов (это могут быть слова, токены, сущности состоящие из нескольких слов)


2. обучение классификатора, принимающего пару кандидатов, и предсказывающего класс отношения между ними.

Попробуйте предположить и выбрать все варианты, где такая схема могла бы применяться, даже если в лекциях непосредственно такой вариант не упоминался.


- Извлечение отношений между сущностями внутри предложения (построение графа, описывающего отношения между упоминаемыми в предложении объектами)


- POS-теггинг (снятие частеречной неоднозначности, т.е. выбор наиболее правдоподобного сочетания частей речи для токенов в предложении)


- Извлечение именованных сущностей (англ. Named Entity Recognition: классификация токенов, классы соответствуют видам сущностей)


- Морфологический анализ (предсказание морфологических характеристик отдельных токенов)


- Разрешение анафорических связей (англ. anaphora resolution: построение графа, в котором рёбра связывают референта и ссылающиеся на него местоимения или словосочетания; референт - некоторый объект, который может именоваться в тексте разными способами)


- Синтаксический анализ (построение дерева, описывающего структуру фраз, грамматическое подчинение и согласование слов)


- Семантический анализ (построение графа, описывающего высокоуровневую ситуацию - кто какое действие с чем выполняет, когда, почему и т.п.; в вершинах такого графа обычно находятся отдельные слова или фразы)