### Тестовое задание в bewise по парсингу диалогов (с использованием BERT).

In [2]:
import pandas as pd
import numpy as np
import re
from transformers import pipeline
%load_ext snakeviz

Загружаем данные в pandas.

In [3]:
raw_data = pd.read_csv("test_data.csv")

Заворачиваем всю логику в класс Managers

In [4]:
class Managers:
    """Managers dialogue parsing.
        Args:
            managers_names: list of company managers names, 
            valid_greetings: list of valid greetings for managers, 
            valid_farewells: list of valid farewells for managers,
            company_names: list of known companies for extracting,
            company_prefixes: list of words, preceding company name,
            nevec_path: path to navec pretrained model,
            truecaser_path: path to pytorch-truecaser pretrained model,
            slovnet_path: path to natasha-slovnet pretrained model,
            name_threshold: minimal NER model confidence for manager name extraction,
            company_threshold: minimal NER model confidence for company name extraction
        """
    def __init__(self, 
                 managers_names: list, 
                 valid_greetings: list, 
                 valid_farewells: list,
                 known_company_names: list,
                 company_prefixes: list,
                 bert_ner_model: str,
                 name_threshold: float = 0.5,
                 company_threshold: float = 0.5):
        """Init."""
        self.managers_names = managers_names
        self.name_threshold = name_threshold
        self.company_threshold = company_threshold
        self.greeting_pattern = re.compile(r"(^|\b)(" + "|".join(valid_greetings) + ")(\W|\Z)", re.I)
        self.farewell_pattern = re.compile(r"(^|\b)(" + "|".join(valid_farewells) + ")(\W|\Z)", re.I)
        self.company_name_pattern = re.compile(r"(^|\b)(" + "|".join(known_company_names) + ")(\W|\Z)", re.I)
        self.company_stop = {"которая", "как", "хорошо"}
        self.names_pattern = re.compile(r"(^|\b)(" + "|".join(managers_names) + ")(\W|\Z)", re.I)
        presents = list()
        for name in managers_names:
            presents += self.presents(name)
        self.present_pattern = re.compile(r"(^|\b)(" + "|".join(presents) + ")(\W|\Z)", re.I)
        self.company_pattern = re.compile(r"(" + "|".join(company_prefixes) + ") (\w+)", re.I)
        
        self.ner_pipeline = pipeline("token-classification", 
                                     model=bert_ner_model, 
                                     aggregation_strategy="average")
                        
    def presents(self, name: str):
        """Prepare introduce strings for managers.
            Args:
                name: manager name.
            Returns:
                List of introduce strings for extracting from dialogue.
        """
        return [f"меня зовут {name}", f"это {name}", f"меня {name} зовут", f"я {name}"]
        
    def greeting(self, text: str) -> str:
        """Extract greeting.
            Args:
                text: text of manager speech.
            Returns:
                Greeting text if found, empy string if not.
        """
        matches = re.search(self.greeting_pattern, text)
        result = "" if matches is None else matches[0]
        return result
    
    def farewell(self, text: str) -> str:
        """Extract farewell.
            Args:
                text: text of manager speech.
            Returns:
                Farewell text if found, empy string if not.
        """
        matches = re.search(self.farewell_pattern, text)
        result = "" if matches is None else matches[0]
        return result
    
    def manager_introducing(self, text: str) -> str:
        """Extract text of manager self introducing.
            Args:
                text: text of manager speech.
            Returns:
                Introducing text if found, empy string if not.
        """
        matches = re.search(self.present_pattern, text)
        result = "" if matches is None else matches[0]
        return result
    
    def manager_name_from_list(self, text: str) -> str:
        """Extract manager name from list of known managers.
            Args:
                text: text of manager speech.
            Returns:
                Name if found, empy string if not.
        """
        matches = re.search(self.names_pattern, text)
        name = "" if matches is None else matches[0]
        return name.capitalize()
    
    def manager_name_ner(self, text: str) -> str:
        """Extract manager name with external NER instrument (LaBSE_ner_nerel).
            Args:
                text: text of manager speech.
            Returns:
                Name if found, empy string if not.
        """
        matches = self.ner_pipeline(text)
        for match in matches:
            if match['entity_group'] == 'PERSON' and match['score'] > self.name_threshold:
                return match['word'].capitalize()
        return ""
    
    def company(self, text: str) -> str:
        """Extract company name with RegEx.
            Args:
                text: text of manager speech.
            Returns:
                Company name if found, empy string if not.
        """
        matches = re.search(self.company_name_pattern, text)
        if matches is None:
            matches = re.search(self.company_pattern, text)
        name = "" if matches is None else matches.groups()[1]
        name = "" if (len(name) < 3) or (name in self.company_stop) else name
        return name.capitalize()
    
    def company_ner(self, text: str) -> str:
        """Extract manager name with external NER instrument (LaBSE_ner_nerel).
            Args:
                text: text of manager speech.
            Returns:
                Company name if found, empy string if not.
        """
        matches = self.ner_pipeline(text.lower())
        for match in matches:
            if match['entity_group'] == 'ORGANIZATION' and match['score'] > self.company_threshold:
                return match['word']
        return ""
        
m = Managers(managers_names=["Ангелина", "Максим", "Анастасия", "Игорь"], 
             valid_greetings=["Здравствуйте", "Доброе утро", "Добрый день", "Добрый вечер"], 
             valid_farewells=["До свидания", "Всего доброго", "Приятного вечера"],
             known_company_names=["Диджитал бизнес", ], 
             company_prefixes=["компания", "ооо", "зао", "ао", "оао", "акционерное общество", "ип", "компания называется"],
             bert_ner_model="LaBSE_ner_nerel/LaBSE_nerel_last_checkpoint/",
             name_threshold=0.3,
             company_threshold=0.95)


#### 1. Извлекать реплики с приветствием – где менеджер поздоровался. 

Выбираем только реплики менеджера

In [5]:
data_maneger = raw_data[raw_data.role == "manager"].drop(["role"], axis=1)
print(data_maneger.head(10))

    dlg_id  line_n                                               text
1        0       1                                  Алло здравствуйте
3        0       3  Меня зовут ангелина компания диджитал бизнес з...
5        0       5  Угу ну возможно вы рассмотрите и другие вариан...
8        0       8      Угу а на что вы обращаете внимание при выборе
11       0      11                              Что для вас приоритет
15       0      15  Ну у вас срок заканчивается поэтому мы набрали...
29       0      29  А так нет не только поэтому просто я обратила ...
34       0      34  А если вы 19 являетесь то лучше то идти бесплатно
36       0      36                                         Ага хорошо
45       0      45  Индивидуальным поэтому не все то есть сотрудни...


Выбираем первую и вторую реплики менеджера.

In [6]:
index = (data_maneger.dlg_id.rolling(2).min() != data_maneger.dlg_id)
data_maneger12 = data_maneger[index | index.shift(1, fill_value=False)].copy()
data_maneger12

Unnamed: 0,dlg_id,line_n,text
1,0,1,Алло здравствуйте
3,0,3,Меня зовут ангелина компания диджитал бизнес з...
110,1,1,Алло здравствуйте
111,1,2,Меня зовут ангелина компания диджитал бизнес з...
166,2,2,Алло здравствуйте
167,2,3,Меня зовут ангелина компания диджитал бизнес з...
250,3,1,Алло дмитрий добрый день
251,3,2,Добрый меня максим зовут компания китобизнес у...
305,4,3,Вот по виду платежи пообщаться помните мы вот ...
308,4,6,Я понял ну мы хотели бы просто предложить тако...


In [7]:
raw_data["greetings"] = data_maneger12.text.apply(m.greeting)

#### 2. Извлекать реплики, где менеджер представил себя. 

In [8]:
raw_data["manager_introducing"] = data_maneger12.text.apply(m.manager_introducing)

#### 3. Извлекать имя менеджера.

In [11]:
# With RegEx
# raw_data["manager_name"] = data_maneger12.text.apply(m.manager_name_from_list)

# With Natasha NER
raw_data["manager_name"] = data_maneger12.text.apply(m.manager_name_ner)

#### 4. Извлекать название компании. 

In [12]:
# With RegEx
# raw_data["company"] = raw_data.text.apply(m.company)

# With Natasha NER
raw_data["company"] = raw_data.text.apply(m.company_ner)

#### 5. Извлекать реплики, где менеджер попрощался.

Выбираем предпоследнюю и последнюю реплики менеджера.

In [13]:
index = ((data_maneger.dlg_id - data_maneger.dlg_id.shift(-1, fill_value=-1)).abs() > 0.1)
data_maneger_last = data_maneger[index | index.shift(-1, fill_value=False)]

In [14]:
raw_data["farewell"] = data_maneger_last.text.apply(m.farewell)

#### 6. Проверять требование к менеджеру: «В каждом диалоге обязательно необходимо поздороваться и попрощаться с клиентом».

In [15]:
raw_data.fillna('', inplace=True)
raw_data.greetings = raw_data.greetings.apply(lambda t: 1 if len(t) > 0 else 0)
raw_data.farewell = raw_data.farewell.apply(lambda t: 1 if len(t) > 0 else 0)
managers = raw_data.groupby('dlg_id').max().reset_index()[["manager_name", "greetings", "farewell"]]
managers["greetings and farewell"] = (managers.greetings * managers.farewell).astype('bool')
managers = managers[["manager_name", "greetings and farewell"]]
raw_data.drop(["greetings", "farewell"], axis=1, inplace=True)
managers

Unnamed: 0,manager_name,greetings and farewell
0,Ангелина,True
1,Ангелина,True
2,Ангелина,False
3,Максим,True
4,,False
5,Анастасия,False


Результат со всеми извлеченными сущностями:

In [16]:
raw_data.to_csv("result_bert.csv", index=None)

In [None]:
pd.read_csv("result_bert.csv").fillna('')