# Классификаторы

## Предварительное

1) Импортируем всё необходимое. Данные лежат как флоаты, записанные через запятую.

In [1]:
import numpy as np
import os
from sklearn import metrics, tree
from sklearn.neural_network import MLPClassifier

2.1) Функция для чтения данных и преобразования их в массив флоатов из строк. Каждый раз, когда заканчивается работа с каким-то файлом, его название печататется.

In [2]:
def read_file(path):
    ready_data = []
    with open(path, 'r', encoding='utf-8') as f:
        data = [line.strip('\n') for line in f.readlines()]
    for item in data:
        array = [float(array_item) for array_item in item.split(', ')]
        ready_data.append(array)
    return ready_data

2.2) Функция для чтения всего из файлов.

In [3]:
def all_data(folder):
    for item in os.listdir(folder):
        if item.endswith('.txt'):
            full_path =  folder + os.sep + item
            if 'train' in item:
                if 'features' in item:
                    train_features = read_file(full_path)
                elif 'results' in item:
                    train_results = read_file(full_path)
            elif 'test' in item:
                if 'features' in item:
                    test_features = read_file(full_path)
                elif 'results' in item:
                    test_results = read_file(full_path)
            print('Теперь есть содержимое из: {}'.format(full_path))
    return train_features, train_results, test_features, test_results

## Дерево решений
### Кореферентна ли пара меншенов?

In [4]:
# чтение данных
pairs_path = '.' + os.sep + 'data_ready' + os.sep + 'pairs'
pairs_train_features, pairs_train_results, pairs_test_features, pairs_test_results = all_data(pairs_path)

Теперь есть содержимое из: .\data_ready\pairs\1_test_features.txt
Теперь есть содержимое из: .\data_ready\pairs\1_test_results.txt
Теперь есть содержимое из: .\data_ready\pairs\1_train_features.txt
Теперь есть содержимое из: .\data_ready\pairs\1_train_results.txt


In [5]:
# классификатор и его обучение fit
clf_pairs = tree.DecisionTreeClassifier()
clf_pairs = clf_pairs.fit(pairs_train_features, pairs_train_results)

# "прогон" на тестовой выборке predict
pairs_test_out = clf_pairs.predict(pairs_test_features)

# считаем цифры
precision = metrics.precision_score(pairs_test_results, pairs_test_out)
recall = metrics.recall_score(pairs_test_results, pairs_test_out)
f1 = metrics.f1_score(pairs_test_results, pairs_test_out)

print('Precision/точность: {0:.4f}, recall/полнота: {1:.4f}, F1-мера: {2:.4f}'.format(precision, recall, f1))

Precision/точность: 0.7097, recall/полнота: 0.6003, F1-мера: 0.6504


### Является ли токен меншеном?

In [6]:
# чтение данных
mentions_path = '.' + os.sep + 'data_ready' + os.sep + 'mentions'
mentions_train_features, mentions_train_results, mentions_test_features, mentions_test_results = all_data(mentions_path)

Теперь есть содержимое из: .\data_ready\mentions\1_test_features.txt
Теперь есть содержимое из: .\data_ready\mentions\1_test_results.txt
Теперь есть содержимое из: .\data_ready\mentions\1_train_features.txt
Теперь есть содержимое из: .\data_ready\mentions\1_train_results.txt


In [7]:
for item, res in zip(mentions_train_features[:5], mentions_train_results[:5]):
    print(item, res)

[0.084445, 0.126005, -0.014148, 0.081389, 4105.0, 1440.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0] [1.0]
[0.035364, -0.019608, 0.049433, -0.049013, 4559.0, 1440.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0] [0.0]
[-0.082982, 0.023175, -0.018279, -0.109374, 4150.0, 329.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0] [0.0]
[-0.004722, 0.005383, -0.014413, -0.018328, 4184.0, 5272.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0] [0.0]
[0.048718, -0.091589, 0.01619, -0.066449, 4143.0, 2156.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0] [0.0]


In [13]:
# классификатор и его обучение fit
clf_mentions = tree.DecisionTreeClassifier()
clf_mentions = clf_mentions.fit(mentions_train_features, mentions_train_results)

# "прогон" на тестовой выборке predict
mentions_test_out = clf_mentions.predict(mentions_test_features)
for feature, predict, actual in zip(mentions_test_features[:5], mentions_test_out[:5], mentions_test_results[:5]):
    print(feature, predict, actual)

# считаем цифры
precision = metrics.precision_score(mentions_test_results, mentions_test_out)
recall = metrics.recall_score(mentions_test_results, mentions_test_out)
f1 = metrics.f1_score(mentions_test_results, mentions_test_out)

print('Precision/точность: {0:.4f}, recall/полнота: {1:.4f}, F1-мера: {2:.4f}'.format(precision, recall, f1))

[0.000774, -0.114928, 0.064845, 0.005316, 4143.0, 2156.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0] 0.0 [0.0]
[0.000774, -0.114928, 0.064845, 0.005316, 4517.0, 70.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0] 0.0 [1.0]
[-0.040441, 0.014054, 0.08216, -0.000298, 4401.0, 3373.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0] 0.0 [0.0]
[-0.022995, -0.008026, -0.084798, 0.130307, 4573.0, 1204.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0] 0.0 [1.0]
[-0.056055, 0.031917, 0.081976, -0.044163, 4841.0, 5186.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0] 1.0 [0.0]
Precision/точность: 0.1429, recall/полнота: 0.1429, F1-мера: 0.1429


## Нейросети

### Кореферентна ли пара меншенов?

In [9]:
# подготовка: результаты нужно транспонировать
X_pairs = np.array(pairs_train_features)
Y_pairs = np.ravel(pairs_train_results)
print('X_pairs: {}, Y_pairs: {}'.format(X_pairs.shape, Y_pairs.shape))

# работа с нейронной сетью
neural_pairs = MLPClassifier(solver='lbfgs', hidden_layer_sizes=(32))
neural_pairs = neural_pairs.fit(X_pairs, Y_pairs)

X_pairs: (9250, 32), Y_pairs: (9250,)


In [10]:
Y_predict = neural_pairs.predict(np.array(pairs_test_features))

# считаем цифры
precision = metrics.precision_score(pairs_test_results, Y_predict)
recall = metrics.recall_score(pairs_test_results, Y_predict)
f1 = metrics.f1_score(pairs_test_results, Y_predict)

print('Precision/точность: {0:.4f}, recall/полнота: {1:.4f}, F1-мера: {2:.4f}'.format(precision, recall, f1))

Precision/точность: 0.7811, recall/полнота: 0.4701, F1-мера: 0.5869


### Является ли токен меншеном?

In [12]:
Y1 = np.ravel(mentions_train_results)
X1 = np.array(mentions_train_features)
print('X1: {}, Y1: {}'.format(X1.shape, Y1.shape))

# работа с нейронной сетью
neural_mentions = MLPClassifier(solver='lbfgs', hidden_layer_sizes=(5))
neural_mentions = neural_pairs.fit(X1, Y1)

# результаты
Y1_goal = np.ravel(mentions_test_results)
Y1_predict = neural_mentions.predict(np.array(mentions_test_features))

# считаем цифры
precision = metrics.precision_score(Y1_goal, Y1_predict)
recall = metrics.recall_score(Y1_goal, Y1_predict)
f1 = metrics.f1_score(Y1_goal, Y1_predict)

print('Precision/точность: {0:.4f}, recall/полнота: {1:.4f}, F1-мера: {2:.4f}'.format(precision, recall, f1))

X1: (109, 18), Y1: (109,)
Precision/точность: 0.0000, recall/полнота: 0.0000, F1-мера: 0.0000


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
