## Скрипт для парсинга диалогов

Необходимо написать скрипт для парсинга диалогов из файла
test_data.csv.

Главные задачи, которые должен выполнять скрипт:
- Извлекать реплики с приветствием – где менеджер поздоровался.
- Извлекать реплики, где менеджер представил себя.
- Извлекать имя менеджера.
- Извлекать название компании.
- Извлекать реплики, где менеджер попрощался.
- Проверять требование к менеджеру: «В каждом диалоге
обязательно необходимо поздороваться и попрощаться с
клиентом»

## Решение

Для решения задачи используем Yargy parser. Подготовим правила для парсинга и затем последовательно применим их к диалогам.

In [1]:
#импорт библиотек
from yargy import rule, Parser, or_
from ipymarkup import show_span_box_markup as show_markup
from yargy.pipelines import morph_pipeline
from yargy.interpretation import fact
from yargy.predicates import gram
from yargy.relations import gnc_relation

from datetime import datetime
import os

import pandas as pd

pd.set_option('display.max_colwidth', None)

In [2]:
#читаем данные
df = pd.read_csv('msg/test_data.csv')

In [3]:
'''
Правило для имени менеджера
1. Объявляем факт Name
2. Создаем грамему с именами
3. Создаем граммему с фамилиями
4. Создаем словарь возможных вводных слов
5. Создаем правило NAME_RULE с различнми вариантами последовательносте имя-фамилия
6. Создаем правило NAME
'''
Name = fact(
    'Name',
    ['introduce', 'first', 'last']
)

# согласование по gender, number и case (падежу, числу и роду)
gnc = gnc_relation() 

#имя
FIRST = gram('Name').interpretation(
    Name.first.inflected().custom(lambda x: x.title())
).match(gnc)

#фамилия
LAST = gram('Surn').interpretation(
    Name.last.inflected().custom(lambda x: x.title())
).match(gnc)

#вводные слова
INTRODUCE = morph_pipeline({
    'зовут',
    'это',
    'меня',
    'меня зовут',
}).interpretation(
    Name.introduce.normalized()
)

#правила написания имени и фамилии (ИФ/ФИ/И)
NAME_RULE = or_(
    rule(
        FIRST,
        LAST
    ),
    rule(
        LAST,
        FIRST
    )
    ,
    rule(
        FIRST
    )
)
#правило для представления менеджера
NAME = rule(
    INTRODUCE,
    NAME_RULE
).interpretation(
    Name
)

In [4]:
'''
Правило для прощания
1. Объявляем факт Goodbye
2. Создаем словарь прощаний
3. Создаем правило GOODBYE_LOC
'''

Goodbye  = fact(
    'Goodbye',
    ['word']
)

GOODBYE_WORD = morph_pipeline([
    'до свидания',
    'хорошего вечера',
    'хорошего дня',
    'всего доброго'
]).interpretation(
    Goodbye.word.normalized().custom(lambda x: x.capitalize())
)

GOODBYE_LOC = rule(
    GOODBYE_WORD
).interpretation(
    Goodbye
)

In [5]:
'''
Правило для названия компании
1. Объявляем факт Company
2. Создаем словарь словоформ для слова компания
3. Создаем словарь названий компаний
4. Создаем правило COMPANY_LOC
'''

Company  = fact(
    'Company',
    ['form','name']
)

COMPANY_FORM = morph_pipeline([
    'компания',
    'фирма'
]).interpretation(
    Company.form.normalized()
)

COMPANY_NAME = morph_pipeline([
    'диджитал бизнес',
    'китобизнес'
]).interpretation(
    Company.name.normalized().custom(lambda x: x.title())
)

COMPANY_LOC = rule(
    COMPANY_FORM.optional(),
    COMPANY_NAME
).interpretation(
    Company
)

In [6]:
'''
Правило для приветствия
1. Объявляем факт Greetings
2. Создаем словарь приветствий
3. Создаем правило GRITINGS_LOC
'''
Greetings  = fact(
    'Greetings',
    ['word']
)

GREETINGS_WORD = morph_pipeline([
    'здравствуйте',
    'добрый день',
    'доброе утро',
    'добрый вечер',
    'доброй ночи',
    'привет',
    'здравствуй',
    'приветствую вас'
]).interpretation(
    Greetings.word.normalized().custom(lambda x: x.capitalize())
)

GREETINGS_LOC = rule(
    GREETINGS_WORD
).interpretation(
    Greetings
)

## Первый вариант выгрузки решения

Добавим необходимые столбцы прямо в изначальную таблицу.

In [7]:
#функции для подготовки столбцов
def greeting_or_goodbye_parser(parser, row) -> str:
    '''
    Обработка приветствия и прощания
    На входе получаем парсер и сроку
    Если 'role' == 'manager' парсим текст и возвращаем результат, иначе возвращаем пустую строку
    '''
    if row['role'] == 'manager':
        return ', '.join([match.fact.word for match in parser.findall(row['text'])])
    else:
        return ''

def name_parser(parser, row) -> str:
    '''
    Обработка имени менеджера
    На входе получаем парсер и сроку
    Если 'role' == 'manager' парсим текст и возвращаем результат, иначе возвращаем пустую строку
    '''
    if row['role'] == 'manager':
        return ', '.join([match.fact.first+(' ' + match.fact.last if match.fact.last else '')  for match in parser.findall(row['text'])])
    else:
        return ''
    
def company_parser(parser, row) -> str:
    '''
    Обратотка названия компании
    На входе получаем парсер и сроку
    Если 'role' == 'manager' парсим текст и возвращаем результат, иначе возвращаем пустую строку
    '''
    if row['role'] == 'manager':
        return ', '.join([(match.fact.form+' ' if match.fact.form else '') + match.fact.name for match in parser.findall(row['text'])])
    else:
        return ''

In [8]:
#Запускаем парсинг по очереди применяя каждое правило
#ищем приветсвие
parser = Parser(GREETINGS_LOC)
df['greeting'] = df.apply(lambda x: greeting_or_goodbye_parser(parser, x), axis =1)
#ищем как представился менеджер
parser = Parser(NAME)
df['manager_name'] = df.apply(lambda x: name_parser(parser, x), axis =1)
#ищем название компании
parser = Parser(COMPANY_LOC)
df['company'] = df.apply(lambda x: company_parser(parser, x), axis =1)
#ищем прощание
parser = Parser(GOODBYE_LOC)
df['goodbye'] = df.apply(lambda x: greeting_or_goodbye_parser(parser, x), axis =1)

In [9]:
#Добавим столбец с фактом приветсвия и фактом прощания
df['is_greeting'] = (df['greeting']!='')*1
df['is_goodbye'] = (df['goodbye']!='')*1

In [10]:
#распечатаем отчет по каждому диалогу поздоровался ли и попрощался менеджер

for dlg_id in df.dlg_id.unique():
    greeting_flag =sum(df.loc[(df['dlg_id'] == dlg_id)]['is_greeting'])
    goodbye_flag =sum(df.loc[(df['dlg_id'] == dlg_id)]['is_goodbye'])
    
    if greeting_flag > 0 and goodbye_flag > 0:
        print(f'В диалоге №{dlg_id} менеджер поздоровался и попрощался.')
    elif greeting_flag > 0 and goodbye_flag < 1:
        print(f'Внимание! В диалоге №{dlg_id} менеджер поздоровался, но не попрощался.')
    elif greeting_flag < 1 and goodbye_flag > 0:
        print(f'Внимание! В диалоге №{dlg_id} менеджер не поздоровался, но попрощался.')
    else:
        print(f'Внимание! В диалоге №{dlg_id} менеджер не поздоровался и не попрощался.')

В диалоге №0 менеджер поздоровался и попрощался.
В диалоге №1 менеджер поздоровался и попрощался.
Внимание! В диалоге №2 менеджер поздоровался, но не попрощался.
В диалоге №3 менеджер поздоровался и попрощался.
Внимание! В диалоге №4 менеджер не поздоровался, но попрощался.
Внимание! В диалоге №5 менеджер не поздоровался, но попрощался.


In [11]:
#выгрузим результат работы обратно в файл
df.to_csv('msg/test_data_done.csv')

### Второй вариант выгрузки решения

Перенесем в отдельный DataFrame все реплики менеджера и dlg_id для удобства исследования.

In [12]:
#создаем пустой список
dialog = []

#Заполняем список репликами менеджера с разбивкой по dlg_id
for dlg_id in df.dlg_id.unique():
    dialog.append([dlg_id, '. '.join(x for x in df.loc[(df['dlg_id'] == dlg_id) & (df['role'] == 'manager')]['text'])])

#из полученного списка делаем DataFrame с колонками 'dlg_id', 'text'
manager = pd.DataFrame(dialog, columns = ['dlg_id', 'text'])

In [13]:
#Запускаем парсинг по очереди применяя каждое правило
#ищем приветсвие
parser = Parser(GREETINGS_LOC)
manager['greeting'] = manager.text.apply(lambda x: ', '.join(
    [match.fact.word for match in parser.findall(x)]))
#ищем как представился менеджер
parser = Parser(NAME)
manager['manager_name'] = manager.text.apply(lambda x: ', '.join(
    [match.fact.first+(' ' + match.fact.last if match.fact.last else '')  for match in parser.findall(x)]))
#ищем название компании
parser = Parser(COMPANY_LOC)
manager['company'] = manager.text.apply(lambda x: ', '.join(
    [(match.fact.form+' ' if match.fact.form else '') + match.fact.name for match in parser.findall(x)]))
#ищем прощание
parser = Parser(GOODBYE_LOC)
manager['goodbye'] = manager.text.apply(lambda x: ', '.join(
    [match.fact.word for match in parser.findall(x)]))

In [14]:
#сами реплики менеджера не выводим по соображениям конфиденциальности
manager[['dlg_id', 'greeting', 'manager_name', 'company', 'goodbye']]

Unnamed: 0,dlg_id,greeting,manager_name,company,goodbye
0,0,Здравствуйте,Ангелина,компания Диджитал Бизнес,До свидания
1,1,Здравствуйте,Ангелина,компания Диджитал Бизнес,До свидания
2,2,Здравствуйте,Ангелина,"компания Диджитал Бизнес, Диджитал Бизнес",
3,3,Добрый день,Максим,компания Китобизнес,Всего доброго
4,4,,,,До свидания
5,5,,Анастасия,,"До свидания, Хорошего вечера"


In [15]:
manager['is_greeting'] = (manager['greeting']!='')*1
manager['is_goodbye'] = (manager['goodbye']!='')*1
manager['is_right'] = (manager['goodbye']!='')*1 & (manager['greeting']!='')*1

In [16]:
#сами реплики менеджера не выводим по соображениям конфиденциальности
manager[['dlg_id', 'greeting', 'is_greeting', 'manager_name', 'company', 'goodbye', 'is_goodbye', 'is_right']]

Unnamed: 0,dlg_id,greeting,is_greeting,manager_name,company,goodbye,is_goodbye,is_right
0,0,Здравствуйте,1,Ангелина,компания Диджитал Бизнес,До свидания,1,1
1,1,Здравствуйте,1,Ангелина,компания Диджитал Бизнес,До свидания,1,1
2,2,Здравствуйте,1,Ангелина,"компания Диджитал Бизнес, Диджитал Бизнес",,0,0
3,3,Добрый день,1,Максим,компания Китобизнес,Всего доброго,1,1
4,4,,0,,,До свидания,1,0
5,5,,0,Анастасия,,"До свидания, Хорошего вечера",1,0


In [17]:
#Выгрузка отчета. В название отчета добавим текщее время в выгрузим в подпапку msg
file_path = os.path.abspath(os.curdir)
path = os.path.join(file_path, "msg", 'report_'+str(datetime.now().strftime("%d_%m_%Y_%H_%M_%S"))+'.csv')
manager[['dlg_id', 'greeting', 'is_greeting', 'manager_name', 'company', 'goodbye', 'is_goodbye', 'is_right']].to_csv(path, sep = ';', encoding='utf-8-sig')

### Вывод

Диалоги парсятся с помощью правил, подготовленных с использованием библиотеки Yargy parser. Реализованы два варианта сохранения результатов парсинга:
1. все сохраняется прямо в текущий файл
2. готовится отдельный файл, содержащий в себе номера диалогов и отчет по каждому номеру (сжатая форма)

Таблица с результатами парсинга содержит следующие столбцы:
- greeting столбец приветствий
- is_greeting столбец проверки наличия приветствия
- manager_name имя менеджера
- company упоминания компании внутри диалога
- goodbye столбец с репликами прощания
- is_goodbye столбец проверки наличия прощания
- is_right столбец проверки наличия и приветствия и прощания (только во второй форме выгрузки)

У каждого диалога для идентификации сохранен номер из изначального файла для возможности сопоставления диалогов.

У сущностей приветствие, название компании, прощание сопоставление идет по словарю, который легко может быть отредактирован, если у компании есть определенный стандарт приветствий и прощаний. Кроме того, если у компании есть определенный крипт продаж с ключевыми моментами, которые менеджер должен проговорить, то поиск таких сущностей тоже можно добавить.