In [1]:
import requests

DEFAULT_MESSAGE_TEMPLATE = "<s>{role}\n{content}</s>"
DEFAULT_RESPONSE_TEMPLATE = "<s>bot\n"
DEFAULT_SYSTEM_PROMPT = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."

class Conversation:
    def __init__(
        self,
        message_template=DEFAULT_MESSAGE_TEMPLATE,
        system_prompt=DEFAULT_SYSTEM_PROMPT,
        response_template=DEFAULT_RESPONSE_TEMPLATE
    ):
        self.message_template = message_template
        self.response_template = response_template
        self.messages = [{
            "role": "system",
            "content": system_prompt
        }]

    def add_user_message(self, message):
        self.messages.append({
            "role": "user",
            "content": message
        })

    def add_bot_message(self, message):
        self.messages.append({
            "role": "bot",
            "content": message
        })

    def get_prompt(self):
        final_text = ""
        for message in self.messages:
            message_text = self.message_template.format(**message)
            final_text += message_text
        final_text += DEFAULT_RESPONSE_TEMPLATE
        return final_text.strip()

In [2]:
import pandas as pd

df = pd.read_csv('../RuSentNE-evaluation/val.csv')
df

Unnamed: 0,sentence,entity,pos,opinion_words,label
0,Однако в четверг представитель неправительстве...,Цвангираи,"[206, 215]",['катастрофой'],-1
1,"Речь идет о скандальном деле Mediaset, в рамка...",Mediaset,"[29, 37]",['скандальном'],-1
2,А вот у Bruins неожиданно блещут Давид Крейчи ...,Давид Крейчи,"[33, 45]",['блещут'],1
3,Президенту Бразилии Дилме Руссефф грозит импич...,Дилме Руссефф,"[20, 33]",['импичмент'],-1
4,ODS в лице своего нового председателя Мартина ...,технического правительства,"[103, 129]",['не поддержит'],-1
5,Ключевым свидетелем против Насера стал его соб...,Насера,"[27, 33]",['свидетелем против'],-1
6,Чавес является ярым критиком Соединенных Штато...,США,"[118, 121]",['недружелюбно'],-1
7,Некоторые коллеги зовут канадскую писательницу...,писательницу,"[34, 46]",['интересных коротких рассказов'],1
8,"С другой стороны, премьер-министр Белиза Дин Б...",Джона Макафи,"[59, 71]",['параноиком'],-1
9,"В пресс-релизе говорится, что Леонард Пелтиер ...",Леонард Пелтиер,"[30, 45]",['сомнений в справедливости его осуждения'],1


In [3]:
INSTRUCTION = 'Определи какая тональность по отношению к сущности в предложении, врианты ответа: положительная, негативная. Помимо тональности точно извлеки из предложения одно или несколько слов, которые выражают данную тональность. Результат приведи в формате json с полями \"тональность\" и \"оценочное слово\".'
PROMPT = '''Определи какая тональность по отношению к сущности в предложении, врианты ответа: положительная, негативная. Помимо тональности точно извлеки из предложения одно или несколько слов, которые выражают данную тональность. Результат приведи в формате json с полями \"тональность\" и \"оценочное слово\".
Предложение: {sent}
Сущность: {entity}'''

In [50]:
print(prompt_raw)

Определи какая тональность по отношению к сущности в предложении, врианты ответа: положительная, негативная. Помимо тональности точно извлеки из предложения одно или несколько слов, которые выражают данную тональность. Результат приведи в формате json с полями "тональность" и "оценочное слово".
Предложение: А вот у Bruins неожиданно блещут Давид Крейчи (десять голов) и Натан Хортон (восемь шайб).
Сущность: Давид Крейчи


In [68]:
few_shot_examples = df.sample(1)
few_shot_examples

Unnamed: 0,sentence,entity,pos,opinion_words,label
42,Netflix закрывает сериал «Карточный домик» на ...,Кевином Спейси,"[62, 76]",['скандала'],-1


In [69]:
answers = []
answer_prompt = '{\n  \"тональность\": \"{sentiment}\",\n  \"оценочное слово\": \"{words}\"\n}'
for i, row in few_shot_examples.iterrows():
    sentiment = 'положительная' if row['label'] == 1 else 'негативная'
    words = ';'.join(eval(row['opinion_words']))
    answers.append(answer_prompt.replace('{sentiment}', sentiment).replace('{words}', words))
answers

['{\n  "тональность": "негативная",\n  "оценочное слово": "скандала"\n}']

In [70]:
few_shot_examples['answers'] = answers

In [None]:
few_shot_examples['answer'] = few_shot_examples.apply(lambda row: '{\n  "тональность": "положительная",\n  "оценочное слово": "блещут"\n}',axis=1)

In [71]:
conversation = Conversation()
for i, row in few_shot_examples.iterrows():
    sent = row['sentence']
    entity = row['entity']
    prompt_raw = PROMPT.replace('{sent}', sent).replace('{entity}', entity)
    conversation.add_user_message(prompt_raw)
    conversation.add_bot_message(row['answers'])
print(conversation.get_prompt())

<s>system
Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.</s><s>user
Определи какая тональность по отношению к сущности в предложении, врианты ответа: положительная, негативная. Помимо тональности точно извлеки из предложения одно или несколько слов, которые выражают данную тональность. Результат приведи в формате json с полями "тональность" и "оценочное слово".
Предложение: Netflix закрывает сериал «Карточный домик» на фоне скандала с Кевином Спейси
Сущность: Кевином Спейси</s><s>bot
{
  "тональность": "негативная",
  "оценочное слово": "скандала"
}</s><s>bot


In [None]:
few_shot_prompt = PROMPT

In [4]:
import copy 
from tqdm import tqdm
import requests
import json
host = 'http://localhost:5005/generate'

predict = []
for i, row in tqdm(df.iterrows()):
    #if i < 11:
    #    continue
    sent = row['sentence']
    entity = row['entity']
    prompt_raw = PROMPT.replace('{sent}', sent).replace('{entity}', entity)
    #conv = copy.deepcopy(conversation)
    conv = Conversation()
    conv.add_user_message(prompt_raw)
    prompt = conv.get_prompt()
    r = requests.post(host, json.dumps({'model_name': 'mistral_ru', 'prompt': prompt, 'temperature': 0.01}))
    predict.append(json.loads(r.text)['text'])
    #break
#print(row)
#print(json.loads(r.text)['text'])


50it [00:57,  1.15s/it]


In [5]:
from nltk import edit_distance

def find_lcs(s1, s2):
    max_lcs = ""
    for i in range(len(s1)):
        for j in range(i + 1, len(s1) + 1):
            ss1 = s1[i:j]
            if ss1 in s2 and len(ss1) > len(max_lcs):
                max_lcs = ss1
    return max_lcs

def clean_rucos_response(response, entities):
    answers = []
    for answer in entities:
        lcs = find_lcs(response.strip(), answer.strip())
        answers.append((len(lcs), answer))
    return max(answers)


In [6]:
import numpy as np
def eval_words(response, answers):
    res = []
    for answer in answers:
        lcs = find_lcs(response.strip().lower(), answer.strip().lower())
        edit = edit_distance(response.lower().strip(), answer.lower().strip())
        lcs_metric = len(lcs) / max(len(response.strip()), len(answer.strip()))
        edit_metric = 1 / np.log2(2 + edit)
        res.append([np.mean([lcs_metric, edit_metric]), lcs_metric, edit_metric, answer])
    res = sorted(res, key=lambda x: -x[0])
    return res[0]

In [41]:
df

Unnamed: 0,sentence,entity,pos,opinion_words,label
0,Однако в четверг представитель неправительстве...,Цвангираи,"[206, 215]",['катастрофой'],-1
1,"Речь идет о скандальном деле Mediaset, в рамка...",Mediaset,"[29, 37]",['скандальном'],-1
2,А вот у Bruins неожиданно блещут Давид Крейчи ...,Давид Крейчи,"[33, 45]",['блещут'],1
3,Президенту Бразилии Дилме Руссефф грозит импич...,Дилме Руссефф,"[20, 33]",['импичмент'],-1
4,ODS в лице своего нового председателя Мартина ...,технического правительства,"[103, 129]",['не поддержит'],-1
5,Ключевым свидетелем против Насера стал его соб...,Насера,"[27, 33]",['свидетелем против'],-1
6,Чавес является ярым критиком Соединенных Штато...,США,"[118, 121]",['недружелюбно'],-1
7,Некоторые коллеги зовут канадскую писательницу...,писательницу,"[34, 46]",['интересных коротких рассказов'],1
8,"С другой стороны, премьер-министр Белиза Дин Б...",Джона Макафи,"[59, 71]",['параноиком'],-1
9,"В пресс-релизе говорится, что Леонард Пелтиер ...",Леонард Пелтиер,"[30, 45]",['сомнений в справедливости его осуждения'],1


In [11]:
def create_submit(predict):
    sentiment_list = []
    words_list = []
    for i, pred in enumerate(predict):
        sentiment = -1
        words = ''
        try:
            pred = eval(pred)
            sentiment = pred['тональность'].strip().lower()
            words = pred['оценочное слово'].strip().lower()
            sentiment = -1 if sentiment == 'негативная' else 1
        except:
            pass
        sentiment_list.append(sentiment)
        words_list.append(words)

    df_pred = pd.DataFrame()
    df_pred['sentiment'] = sentiment_list
    df_pred['opinion_words'] = words_list
    return df_pred

In [15]:
df

Unnamed: 0,sentence,entity,pos,opinion_words,label
0,Однако в четверг представитель неправительстве...,Цвангираи,"[206, 215]",['катастрофой'],-1
1,"Речь идет о скандальном деле Mediaset, в рамка...",Mediaset,"[29, 37]",['скандальном'],-1
2,А вот у Bruins неожиданно блещут Давид Крейчи ...,Давид Крейчи,"[33, 45]",['блещут'],1
3,Президенту Бразилии Дилме Руссефф грозит импич...,Дилме Руссефф,"[20, 33]",['импичмент'],-1
4,ODS в лице своего нового председателя Мартина ...,технического правительства,"[103, 129]",['не поддержит'],-1
5,Ключевым свидетелем против Насера стал его соб...,Насера,"[27, 33]",['свидетелем против'],-1
6,Чавес является ярым критиком Соединенных Штато...,США,"[118, 121]",['недружелюбно'],-1
7,Некоторые коллеги зовут канадскую писательницу...,писательницу,"[34, 46]",['интересных коротких рассказов'],1
8,"С другой стороны, премьер-министр Белиза Дин Б...",Джона Макафи,"[59, 71]",['параноиком'],-1
9,"В пресс-релизе говорится, что Леонард Пелтиер ...",Леонард Пелтиер,"[30, 45]",['сомнений в справедливости его осуждения'],1


In [12]:
submit = create_submit(predict)
submit

Unnamed: 0,sentiment,opinion_words
0,-1,катастрофа
1,-1,скандальном
2,1,блещут
3,-1,грозит
4,-1,не поддержит
5,-1,против
6,-1,критик
7,1,нашим чеховым
8,-1,параноик
9,1,символом


In [13]:
len(df), len(submit)

(50, 50)

In [14]:
from sklearn.metrics import accuracy_score

accuracy_score(df['label'], submit['sentiment'])

0.92

In [21]:
def eval_submit(submit, df):
    lcs_score = []
    edit_score = []
    for i in range(len(submit)):
        answers = eval(df.iloc[i]['opinion_words'])
        response = submit.iloc[i]['opinion_words']
        eval_res = eval_words(response, answers)
        lcs_score.append(eval_res[1])
        edit_score.append(eval_res[2])
    return accuracy_score(df['label'], submit['sentiment']), np.mean(lcs_score), np.mean(edit_score)

In [22]:
eval_submit(submit, df)

(0.92, 0.577101848373248, 0.5609813097308293)

In [None]:
for 

In [18]:
lcs_score = []
edit_score = []
for i in range(len(submit)):
    answers = eval(df.iloc[i]['opinion_words'])
    response = submit.iloc[i]['opinion_words']
    eval_res = eval_words(response, answers)
    lcs_score.append(eval_res[1])
    edit_score.append(eval_res[2])
np.mean(lcs_score), np.mean(edit_score)

(0.577101848373248, 0.5609813097308293)

In [20]:
edit_score

[0.5,
 1.0,
 1.0,
 0.3010299956639812,
 1.0,
 0.27023815442731974,
 0.27023815442731974,
 0.20801459767650948,
 0.5,
 0.19342640361727081,
 0.23137821315975915,
 1.0,
 0.43067655807339306,
 0.24465054211822604,
 0.5,
 1.0,
 1.0,
 0.6309297535714575,
 0.22106472945750374,
 0.43067655807339306,
 0.27023815442731974,
 0.27023815442731974,
 1.0,
 0.5,
 1.0,
 0.6309297535714575,
 0.23981246656813146,
 0.3333333333333333,
 1.0,
 0.3333333333333333,
 0.21810429198553155,
 0.5,
 0.20584683246043448,
 0.26264953503719357,
 1.0,
 1.0,
 1.0,
 0.27894294565112987,
 0.227670248696953,
 0.5,
 1.0,
 0.2103099178571525,
 0.6309297535714575,
 0.5,
 1.0,
 1.0,
 0.5,
 0.21533827903669653,
 0.2890648263178879,
 1.0]

In [19]:
lcs_score

[0.8181818181818182,
 1.0,
 1.0,
 0.1111111111111111,
 1.0,
 0.35294117647058826,
 0.08333333333333333,
 0.06896551724137931,
 0.8,
 0.05128205128205128,
 0.05,
 1.0,
 0.75,
 0.11764705882352941,
 0.7777777777777778,
 1.0,
 1.0,
 0.875,
 0.12,
 0.6666666666666666,
 0.3888888888888889,
 0.15384615384615385,
 1.0,
 0.7142857142857143,
 1.0,
 0.875,
 0.058823529411764705,
 0.6,
 1.0,
 0.0,
 0.0,
 0.7777777777777778,
 0.15151515151515152,
 0.07692307692307693,
 1.0,
 1.0,
 1.0,
 0.09090909090909091,
 0.125,
 0.5,
 1.0,
 0.0,
 0.875,
 0.8,
 1.0,
 1.0,
 0.8333333333333334,
 0.037037037037037035,
 0.15384615384615385,
 1.0]

In [17]:
eval_res

[0.6590909090909092, 0.8181818181818182, 0.5, 'катастрофой']

In [None]:
predict_sentiment_res = []
for i, pred in enumerate(predict):
    sentiment = -1
    try:
        pred = eval(pred)
        sentiment = pred['тональность'].strip().lower()
        words = pred['ценочное слово'].strip().lower()

        sentiment = -1 if sentiment == 'негативная' else 1
        predict_sentiment_res
    except:
        pass

In [40]:
predict

['{\n  "тональность": "негативная",\n  "оценочное слово": "катастрофа"\n}',
 '{\n  "тональность": "негативная",\n  "оценочное слово": "скандальном"\n}',
 '{\n  "тональность": "положительная",\n  "оценочное слово": "блещут"\n}',
 '{\n  "тональность": "негативная",\n  "оценочное слово": "грозит"\n}',
 '{\n  "тональность": "негативная",\n  "оценочное слово": "не поддержит"\n}',
 '{\n  "тональность": "негативная",\n  "оценочное слово": "против"\n}',
 '{\n  "тональность": "негативная",\n  "оценочное слово": "критик"\n}',
 '{\n  "тональность": "положительная",\n  "оценочное слово": "нашим Чеховым"\n}',
 '{\n  "тональность": "негативная",\n  "оценочное слово": "параноик"\n}',
 '{\n  "тональность": "положительная",\n  "оценочное слово": "символом"\n}',
 '{\n  "тональность": "негативная",\n  "оценочное слово": "никак нельзя назвать"\n}',
 '{\n  "тональность": "негативная",\n  "оценочное слово": "глубокую озабоченность"\n}',
 '{\n  "тональность": "положительная",\n  "оценочное слово": "легендарн

In [37]:
answers.append('катастрофический')

In [30]:
answers.append('катастрофа')

In [38]:
eval(response, answers)

[[1.0, 1.0, 1.0, 'катастрофа'],
 [0.6590909090909092, 0.8181818181818182, 0.5, 'катастрофой'],
 [0.4389824383928644, 0.5625, 0.31546487678572877, 'катастрофический'],
 [0.4389824383928644, 0.5625, 0.31546487678572877, 'катастрофический']]

In [33]:
find_lcs(response.strip().lower(), answers[-1].strip().lower())

'катастроф'

In [32]:
response

'катастрофа'

In [None]:
final_response = clean_func(response, record["entities"])
record["prediction"] = final_response
answers = record["answers"]
if answers:
    all_count += 1
    prediction = record["prediction"].strip().lower()
    for answer in answers:
        answer = answer.strip().lower()
        if edit_distance(answer, prediction) <= 2:
            correct_count += 1
            break

In [89]:
len(LCS_HIRSHBERG('катастрофа', 'катастрофой'))

9

In [None]:
def check

In [79]:
print(prompt)

<s>system
Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.</s><s>user
Определи какая тональность по отношению к сущности в предложении, врианты ответа: положительная, негативная. Помимо тональности точно извлеки из предложения одно или несколько слов, которые выражают данную тональность. Результат приведи в формате json с полями "тональность" и "оценочное слово".
Предложение: Речь идет о скандальном деле Mediaset, в рамках которого Берлускони обвинялся в масштабных финансовых махинациях.
Сущность: Mediaset</s><s>bot


In [67]:
r.text

'{"status":"ok","text":"обвинениями\\"\\n}"}'

In [64]:
print(prompt)

<s>system
Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.</s><s>user
Определи какая тональность по отношению к сущности в предложении, врианты ответа: положительная, негативная. Помимо тональности точно извлеки из предложения одно или несколько слов, которые выражают данную тональность. Результат приведи в формате json с полями "тональность" и "оценочное слово".
Предложение: В этой публикации утверждается, что президент стала жертвой «заговора коппрумпированных политиков», направленного против Бразилии, демократии и, в первую очередь, против граждан страны.
Сущность: политиков</s><s>bot
{
  "тональность": "негативная",
  "оценочное слово": "коппрумпированных"
}</s><s>user
Определи какая тональность по отношению к сущности в предложении, врианты ответа: положительная, негативная. Помимо тональности точно извлеки из предложения одно или несколько слов, которые выражают данную тональность. Результат приведи в формате json с полями "тональност

In [54]:
json.loads(r.text)['text']

'{\n  "тональность": "положительная",\n  "оценочное слово": "блещут"\n}'

In [2]:
inputs = ["?"]
for inp in inputs:
    conversation = Conversation()
    conversation.add_user_message(inp)
    prompt = conversation.get_prompt()

In [9]:
import json
host = 'http://localhost:5005/generate'
r = requests.post(host, json.dumps({'model_name': 'mistral_ru', 'prompt': prompt}))

In [10]:
r.text

'{"status":"ok","text":"Зеленый цвет у растений обусловлен наличием в них хлорофилла - пигмента, который позволяет растениям совершать фотосинтез. Фотосинтез - это процесс, благодаря которому растения превращают свет в энергию, используя его для роста и развития. Хлорофилл поглощает световые волны длиной 430-450 нм (синий цвет) и 670-680 нм (красный цвет), что создает ощущение зеленого цвета."}'