# Анализ тональности по отношению к выбранному объекту

Конечной целью исследования является отладка модели для определения тональности текста по отношению к выбранному объекту текста, например, к упомянутой в тексте персоне, организации и т.д. 

Такой анализ является более точным, чем стандартный анализ тональности, и представляет больший интерес для конечных пользователей, поскольку дает оценку отношения к конкретному объекту, а не ко всему тексту.

## Подготовка окружения

In [1]:
%%capture
#@title Установка окружения

!pip install -q sklearn==0.22.2.post1
!pip install mendelai-brat-parser==0.0.4
!pip install smart_open==5.1.0
!pip install tensorflow-text=2.5.0


In [3]:
%%capture
#@title Импорт библиотек

import numpy as np
import pandas as pd
import os

from shutil import copyfile
from brat_parser import get_entities_relations_attributes_groups

from sklearn.model_selection import train_test_split

import tensorflow as tf
import tensorflow_hub as hub
import tensorflow_text as text  # для загрузки universal-sentence-encoder-cmlm/multilingual-preprocess
from tensorflow.keras import layers
from tensorflow.keras.layers.experimental import preprocessing

In [4]:
%%capture
#@title Определение рабочих директорий с данными
SOURCE_DIR1 = 'done/'
SOURCE_DIR2 = 'done1/'
BASE_DIR = 'train_test/'
main_csv_file = 'sent_quotes_done.csv'

## Изучение и подготовка данных

Данные представлены в виде текстовых файлов и файлов аннотаций в формате BRAT.
Все файлы находятся в двух папках done и done1. Файлы внутри папок не разделены по классам. Если в одном файле упоминается несколько объектов, по отношению к которым определяется тональность, данные находятся в одном файле ann.

Для работы в Tensorflow датасет может быть представлен в двух форматах:
1) как структурированный файл (например, csv), где каждая колонка является либо признаком, либо меткой класса;
2) набор файлов, распределенных по директориям-классам. 

Кроме того, необходимо создать копии

Подготовим данные для работы с Tensorflow
(**для последующей работы с Google Colab в дальнейшем будет использоваться сохраненный файл csv, исполнение следующих двух ячеек не требуется**).

In [12]:
%%capture
#@title Функция для перевода данных в читаемый TensorFlow формат

def files_to_df(source_dir, target_dir):
    """Собираем список файлов txt. 
    Идём по списку файлов, для каждого файла извлекаем текст сообщения (из txt), 
    текст объекта (ann), его индексы (ann), тональность (ann). 
    Раскладываем файлы на папки по классам, параллельно записываем в 
    dataframe pandas"""

    if (target_dir[:-1] not in os.listdir()):
      os.mkdir(target_dir)

    file_names = [fn[:-4] for fn in os.listdir(source_dir) if fn[-3:]=='txt']
    
    text_to_process = []
    
    for fn in file_names:
        txt_file_path = source_dir + fn +'.txt'
        
        with open(txt_file_path, encoding="utf8") as f:
            txt = f.read()
        
        ann_file_path = source_dir + fn +'.ann'
        entities, relations, attributes, groups = get_entities_relations_attributes_groups(ann_file_path)
        entities_keys = list(entities.keys())
        
        for key in entities_keys:
            class_dir = entities[key].type
            if (class_dir not in os.listdir(target_dir)):
                os.mkdir(target_dir + class_dir)
                
            entity_id = entities[key].id

            text_to_process.append({'filename':fn+'_'+entity_id, 'text': txt, 'entity_id': entities[key].id, 
                                    'entity_text': entities[key].text, 'entity_span': entities[key].span[0],
                                   'label': entities[key].type})
            
            txt_new_file_path = target_dir + class_dir + '/' + fn + '_' + entity_id +'.txt'
            copyfile(txt_file_path, txt_new_file_path)
            ent_new_file_path = target_dir + class_dir + '/' + fn + '_' + entity_id + '_entity' +'.txt'
            with open(ent_new_file_path, mode ='w', encoding ="utf8") as f:
              f.write(entities[key].text)
    
    df = pd.DataFrame.from_dict(text_to_process)
    return df


In [13]:
%%capture
#@title Изменение структуры папок, перенос данных в csv

df1 = files_to_df(SOURCE_DIR1, BASE_DIR)
df2 = files_to_df(SOURCE_DIR2, BASE_DIR)
df = pd.concat([df1, df2])
df.to_csv(main_csv_file)

Для работы в Google Colab требуется загрузка csv-файла.

In [36]:
%%capture
#@title Чтение файл csv

csv_file = main_csv_file
dataframe = pd.read_csv(csv_file)

ParserError: ignored

Изучим распределение датасета по классам

In [34]:
%%capture
#@title Распределение классов

dataframe.value_counts('label')

Классы несбалансированы. Класс Mixed_all состоит всего из 15 экземпляров. Укрупним классы, объединив классы с постфиксом _all с одноименными без префикса.
Также приведем метки классов к числовым категориям

In [14]:
%%capture
#@title Объединение классов, приведение меток классов к категориальному формату

classes = {'Positive': 0, 'Positive_all': 0, 'Negative': 1, 'Negative_all': 1,  
           'Mixed': 2, 'Mixed_all': 2, 'Neutral': 3, 'Neutral_all': 3}
dataframe['label'] = dataframe['type'].apply(lambda x: classes[x])

Разделим датасет на набор данных для тренировки и для тестирования.
В тестовом датасете выделим набор для валидации

In [15]:
%%capture
#@title Объединение классов, приведение меток классов к категориальному формату

train, test = train_test_split(dataframe, test_size=0.2)
train, val = train_test_split(train, test_size=0.2)
print(len(train), 'train examples')
print(len(val), 'validation examples')
print(len(test), 'test examples')

Поскольку классы не сбалансированы, проверим распределение по классам внутри тренировочного, тестового и валидационного датасетов

In [27]:
%%capture
#@title Проверка распределения классов

print('Нормализованное распределение по классам в начальном датасете')
print(dataframe.value_counts('label', normalize=True))

print('Нормализованное распределение по классам в датасете train')
print(train.value_counts('label', normalize=True))

print('Нормализованное распределение по классам в датасете test')
print(test.value_counts('label', normalize=True))

print('Нормализованное распределение по классам в датасете val')
print(val.value_counts('label', normalize=True))

Нормализованное распределение по классам в начальном датасете
type
3    0.759205
1    0.127446
0    0.107456
2    0.005893
dtype: float64
Нормализованное распределение по классам в датасете train
type
3    0.757289
1    0.128517
0    0.108085
2    0.006108
dtype: float64
Нормализованное распределение по классам в датасете test
type
3    0.757558
1    0.128635
0    0.108415
2    0.005392
dtype: float64
Нормализованное распределение по классам в датасете val
type
3    0.768925
1    0.121675
0    0.103743
2    0.005657
dtype: float64


Распределение классов одинаково во всех наборах.

## Преобразование данных в датасет Tensorflow

In [None]:
y_train = tf.keras.utils.to_categorical(train.label, num_classes=4)
y_val = tf.keras.utils.to_categorical(val.label, num_classes=4)
y_test = tf.keras.utils.to_categorical(test.label, num_classes=4)

In [32]:
def df_to_dataset(dataframe, shuffle=True, batch_size=32):
  dataframe = dataframe.copy()
  labels = dataframe.pop('type')
  ds = tf.data.Dataset.from_tensor_slices((dict(dataframe), labels))
  if shuffle:
    ds = ds.shuffle(buffer_size=len(dataframe))
  ds = ds.batch(batch_size)
  ds = ds.prefetch(batch_size)
  return ds

batch_size = 5
train_ds = df_to_dataset(train[['text', 'entity_text','type']], batch_size=batch_size)

[(train_features, label_batch)] = train_ds.take(1)
print('Every feature:', list(train_features.keys()))
print('A batch of targets:', label_batch )
print('A batch of features (text):',train_features['text'])
print('A batch of features (entity_text):',train_features['entity_text'])

Every feature: ['text', 'entity_text']
A batch of targets: tf.Tensor([3 0 3 3 3], shape=(5,), dtype=int64)
A batch of features (text): tf.Tensor(
[b'\xd0\x9d\xd0\xbe \xd1\x82\xd0\xbe\xd0\xb3\xd0\xb4\xd0\xb0, \xd0\x9d\xd0\xb8\xd0\xba\xd0\xb8\xd1\x82\xd0\xb0 \xd0\xa1\xd0\xb5\xd1\x80\xd0\xb3\xd0\xb5\xd0\xb5\xd0\xb2\xd0\xb8\xd1\x87, \xd1\x8f \xd0\xbf\xd1\x80\xd0\xb8\xd0\xb7\xd1\x8b\xd0\xb2\xd0\xb0\xd1\x8e \xd0\xb2\xd0\xb0\xd1\x81 \xd0\xb1\xd1\x8b\xd1\x82\xd1\x8c \xd0\xbf\xd0\xbe\xd1\x81\xd0\xbb\xd0\xb5\xd0\xb4\xd0\xbe\xd0\xb2\xd0\xb0\xd1\x82\xd0\xb5\xd0\xbb\xd1\x8c\xd0\xbd\xd1\x8b\xd0\xbc. \xd0\x92\xd0\xb5\xd1\x80\xd0\xbd\xd0\xb8\xd1\x82\xd0\xb5 \xd0\xb2\xd0\xb0\xd1\x88\xd0\xb5\xd0\xb3\xd0\xbe \xd0\x9e\xd1\x81\xd0\xba\xd0\xb0\xd1\x80\xd0\xb0 \xd0\xbc\xd0\xb5\xd1\x80\xd0\xb7\xd0\xba\xd0\xb8\xd0\xbc \xd0\xb0\xd0\xbc\xd0\xb5\xd1\x80\xd0\xb8\xd0\xba\xd0\xb0\xd0\xbd\xd1\x86\xd0\xb0\xd0\xbc, \xd0\xba\xd0\xbe\xd1\x82\xd0\xbe\xd1\x80\xd1\x8b\xd0\xb5 "\xd0\xb1\xd0\xbe\xd0\xbc\xd0\xb1\xd1\x8f\xd1\x8

## Выбор модели энкодера


Для работы выбрана модель [LaBSE](https://tfhub.dev/google/LaBSE/2) (Language-agnostic BERT sentence embedding model) как одна из наиболее актуальных моделей, показывающих хорошие результаты для русского языка.

Данные для этого энкодера должны быть предварительно обработаны препроцессором [universal-sentence-encoder-cmlm/multilingual-preprocess](https://tfhub.dev/google/universal-sentence-encoder-cmlm/multilingual-preprocess/2)

In [None]:
labse_preprocessor = hub.KerasLayer(
    "https://tfhub.dev/google/universal-sentence-encoder-cmlm/multilingual-preprocess/2")
labse_encoder = hub.KerasLayer("https://tfhub.dev/google/LaBSE/2")

## Изменение стандартного препроцессора

Стандартный препроцессор получает на вход текст и выдает в качестве output словарь из трех тензоров:  
- `input_word_ids`: id поданных на вход слов  
- `input_mask`: маска из 1 и 0, где 1 находится на позициях значимых слов, 0 на позициях паддинга  
- `input_type_ids`: маска для передачи дополнительной информации о токенах.

Нам необходимо изменить препроцессор таким образом, что в маске `input_type_ids` на позициях токенов интересующего нас объекта стояли 1, на всех остальных позициях - 0.

In [None]:
preprocessor = hub.load(
    "https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/2")

# Step 1: tokenize batches of text inputs.
text_inputs = [tf.keras.layers.Input(shape=(), dtype=tf.string),
               ...] # This SavedModel accepts up to 2 text inputs.
tokenize = hub.KerasLayer(preprocessor.tokenize)
tokenized_inputs = [tokenize(segment) for segment in text_inputs]

# Step 2 (optional): modify tokenized inputs.
pass

# Step 3: pack input sequences for the Transformer encoder.
seq_length = 128  # Your choice here.
bert_pack_inputs = hub.KerasLayer(
    preprocessor.bert_pack_inputs,
    arguments=dict(seq_length=seq_length))  # Optional argument.
encoder_inputs = bert_pack_inputs(tokenized_inputs)

In [None]:
text_test = ['"да, я допустил неточность, а посол Мюррей ссылается на слухи... но зато теперь мы накопали много РЕАЛЬНОЙ информации на Усманова']
token_text = ['Мюррей']
text_preprocessed = preprocessor(text_test)
token_preprocessed = preprocessor(token_text)

In [None]:
def rolling_window(a, window):
    shape = a.shape[:-1] + (a.shape[-1] - window + 1, window)
    strides = a.strides + (a.strides[-1],)
    return np.lib.stride_tricks.as_strided(a, shape=shape, strides=strides)
           
def findFirst_numpy(a, b):
    temp = rolling_window(a, len(b))
    result = np.where(np.all(temp == b, axis=1))
    return result[0][0] if result else None

In [None]:
def change_typeid(text_preprocessed, token_text):
  
  token_preprocessed = preprocessor(token_text)
  token_numpy = token_preprocessed['input_word_ids'].numpy()[0]
  start = 1
  end = np.where(token_numpy == 102)[0][0]
  token_codes = token_numpy[start:end]

  text_numpy = text_preprocessed['input_word_ids'].numpy()[0]

  indx_start = findFirst_numpy(text_numpy, token_codes)
  indx_end = indx_start+len(token_codes)

  pattern_to_modify = text_preprocessed["input_type_ids"][0].numpy()
  pattern_to_modify[indx_start: indx_end] = 1
  pattern_to_modify = [pattern_to_modify]

  text_preprocessed["input_type_ids"] = tf.add (text_preprocessed["input_type_ids"], pattern_to_modify)
  return pattern_to_modify


In [None]:
print(f'Type Ids   : {text_preprocessed["input_type_ids"][0, :30]}')

Type Ids   : [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]


In [None]:
change_typeid(text_preprocessed, token_text)

[array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int32)]

[   677 162813 108855]
13
16
[array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int32)]


In [None]:
text_preprocessed["input_type_ids"]

<tf.Tensor: shape=(1, 128), dtype=int32, numpy=
array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],
      dtype=int32)>

In [None]:
bert_results = encoder(text_preprocessed)


In [None]:
def build_classifier_model():
  text_input = tf.keras.layers.Input(shape=(), dtype=tf.string, name='text')
  preprocessing_layer = labse_preprocessor 
  encoder_inputs = preprocessing_layer(text_input)
  encoder = labse_encoder
  outputs = encoder(encoder_inputs)
  net = outputs['pooled_output']
  net = tf.keras.layers.Dropout(0.1)(net)
  net = tf.keras.layers.Dense(1, activation=None, name='classifier')(net)
  return tf.keras.Model(text_input, net)

In [None]:
classifier_model = build_classifier_model()
bert_raw_result = classifier_model(tf.constant(text_test))
print(tf.sigmoid(bert_raw_result))

tf.Tensor([[0.48670408]], shape=(1, 1), dtype=float32)


In [None]:
loss = tf.keras.losses.BinaryCrossentropy(from_logits=True)
metrics = tf.metrics.BinaryAccuracy()

In [None]:
epochs = 5
steps_per_epoch = tf.data.experimental.cardinality(train_ds).numpy()
num_train_steps = steps_per_epoch * epochs
num_warmup_steps = int(0.1*num_train_steps)

init_lr = 3e-5
optimizer = optimization.create_optimizer(init_lr=init_lr,
                                          num_train_steps=num_train_steps,
                                          num_warmup_steps=num_warmup_steps,
                                          optimizer_type='adamw')

NameError: ignored

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.layers.experimental import preprocessing

data = [
    "ξεῖν᾽, ἦ τοι μὲν ὄνειροι ἀμήχανοι ἀκριτόμυθοι",
    "γίγνοντ᾽, οὐδέ τι πάντα τελείεται ἀνθρώποισι.",
    "δοιαὶ γάρ τε πύλαι ἀμενηνῶν εἰσὶν ὀνείρων:",
    "αἱ μὲν γὰρ κεράεσσι τετεύχαται, αἱ δ᾽ ἐλέφαντι:",
    "τῶν οἳ μέν κ᾽ ἔλθωσι διὰ πριστοῦ ἐλέφαντος,",
    "οἵ ῥ᾽ ἐλεφαίρονται, ἔπε᾽ ἀκράαντα φέροντες:",
    "οἱ δὲ διὰ ξεστῶν κεράων ἔλθωσι θύραζε,",
    "οἵ ῥ᾽ ἔτυμα κραίνουσι, βροτῶν ὅτε κέν τις ἴδηται.",
]
layer = preprocessing.TextVectorization()
layer.adapt(data)
vectorized_text = layer(data)
print(vectorized_text)

StringLookup

tf.Tensor(
[[37 12 25  5  9 20 21  0  0]
 [51 34 27 33 29 18  0  0  0]
 [49 52 30 31 19 46 10  0  0]
 [ 7  5 50 43 28  7 47 17  0]
 [24 35 39 40  3  6 32 16  0]
 [ 4  2 15 14 22 23  0  0  0]
 [36 48  6 38 42  3 45  0  0]
 [ 4  2 13 41 53  8 44 26 11]], shape=(8, 9), dtype=int64)
