## Функции для получения верхнеуровневой структуры предложения

Коды:
- t – текст
- R – текст, содержащий корень
- p – причастный оборот
- P – деепричастный оборот

In [1]:
from src.deptree import build_high_level_structure

Already downloaded a model for the 'ru' language


In [2]:
text = 'Мы, радующиеся неожиданной передышке, побежали к речке.'

In [3]:
build_high_level_structure(text)

['t', 'p', 'R']

Разбор происходит правильно не всегда

In [4]:
build_high_level_structure('Рассерженная на Алексея, мать молчала весь вечер.')

['P', 'R']

In [5]:
from src.deptree import get_sentence_hash

In [6]:
text = 'Услышав стук колес подъезжающей телеги, дедушка Евсей открыл ворота настежь.'

In [7]:
get_sentence_hash(text)

'PR'

## Кодирование термов их положением в дереве зависимостей

In [8]:
from src.deptree import syntax_encode

In [9]:
text = 'Я всегда мечтал стать моряком.'

In [10]:
syntax_encode(text)

['ROOT>nsubj',
 'ROOT>advmod',
 'ROOT',
 'ROOT>xcomp',
 'ROOT>xcomp>obl',
 'ROOT>punct']

## Загрузка данных

In [11]:
from src.datasets.csv_dataset import CSVDataset

russian_classics_train = CSVDataset('./data/russian_classics/train_4_10_1000.csv')
russian_classics_test = CSVDataset('./data/russian_classics/test_4_40_600.csv')

proza_ru_train = CSVDataset('./data/proza_ru/proza_train.csv')
proza_ru_test = CSVDataset('./data/proza_ru/proza_test.csv')

## Вероятностная модель

In [14]:
from src.models.prob_model import ProbModel

In [14]:
model = ProbModel()

model.train(russian_classics_train)
model.evaluate(russian_classics_test)

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:06<00:00,  2.98it/s]
Accuracy: 0.47: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 160/160 [03:28<00:00,  1.30s/it]


[1mCorrect / Wrong:[0m 76 / 84
[1mAccuracy:[0m 0.475


 [1m [1m [1m [1m [1m [1m [1m [1m [1mАндреев Бианки Булгаков Бунин[0m

[1m Андреев[0m [1m[32m     26[0m      2[0m        4[0m     8[0m 
[1m  Бианки[0m       0[0m [1m[32m    34[0m        0[0m     6[0m 
[1mБулгаков[0m       5[0m [1m[31m    16[0m        7[0m    12[0m 
[1m   Бунин[0m      12[0m      4[0m [1m[31m      15[0m     9[0m 



              precision    recall  f1-score   support

     Андреев       0.60      0.65      0.63        40
      Бианки       0.61      0.85      0.71        40
    Булгаков       0.27      0.17      0.21        40
       Бунин       0.26      0.23      0.24        40

    accuracy                           0.48       160
   macro avg       0.43      0.48      0.45       160
weighted avg       0.43      0.47      0.45       160






In [15]:
model = ProbModel()

model.train(proza_ru_train)
model.evaluate(proza_ru_test)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 933/933 [12:39<00:00,  1.23it/s]
Accuracy: 0.53: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 253/253 [20:07<00:00,  4.77s/it]


[1mCorrect / Wrong:[0m 133 / 120
[1mAccuracy:[0m 0.525691699604743


 [1m [1m [1m [1m [1m [1m [1m [1m [1m [1m [1m [1mSolveig alexander49 avmironoff tchsemsha tlev66 vbrtybyf[0m

[1m    Solveig[0m [1m[32m     18[0m           0[0m          0[0m         0[0m      0[0m        0[0m 
[1malexander49[0m       0[0m [1m[32m         49[0m          2[0m         0[0m      1[0m        0[0m 
[1m avmironoff[0m      10[0m          19[0m [1m[32m        23[0m         3[0m      5[0m       14[0m 
[1m  tchsemsha[0m       2[0m           3[0m          2[0m [1m[32m        7[0m      5[0m        1[0m 
[1m     tlev66[0m       4[0m          11[0m         11[0m         2[0m [1m[32m    21[0m        7[0m 
[1m   vbrtybyf[0m       1[0m           7[0m          7[0m         1[0m      2[0m [1m[32m      15[0m 



              precision    recall  f1-score   support

     Solveig       0.51      1.00      0.68        18
 alexander49       0.55   




## Вероятностная модель глубины 2

In [3]:
from src.models.deep_prob_model import DeepProbModel

In [4]:
model = DeepProbModel()

model.train(russian_classics_train)
model.evaluate(russian_classics_test)

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:07<00:00,  2.82it/s]
Accuracy: 0.45: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 160/160 [03:41<00:00,  1.38s/it]


[1mCorrect / Wrong:[0m 72 / 88
[1mAccuracy:[0m 0.45


 [1m [1m [1m [1m [1m [1m [1m [1m [1mАндреев Бианки Булгаков Бунин[0m

[1m Андреев[0m [1m[32m     28[0m      0[0m        0[0m    12[0m 
[1m  Бианки[0m       0[0m [1m[32m    25[0m        0[0m    15[0m 
[1mБулгаков[0m       4[0m      8[0m        7[0m [1m[31m   21[0m 
[1m   Бунин[0m [1m[31m     13[0m      3[0m       12[0m    12[0m 



              precision    recall  f1-score   support

     Андреев       0.62      0.70      0.66        40
      Бианки       0.69      0.62      0.66        40
    Булгаков       0.37      0.17      0.24        40
       Бунин       0.20      0.30      0.24        40

    accuracy                           0.45       160
   macro avg       0.47      0.45      0.45       160
weighted avg       0.47      0.45      0.45       160






In [5]:
model = DeepProbModel()

model.train(proza_ru_train)
model.evaluate(proza_ru_test)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 933/933 [13:09<00:00,  1.18it/s]
Accuracy: 0.54: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 253/253 [20:03<00:00,  4.76s/it]


[1mCorrect / Wrong:[0m 137 / 116
[1mAccuracy:[0m 0.541501976284585


 [1m [1m [1m [1m [1m [1m [1m [1m [1m [1m [1m [1mSolveig alexander49 avmironoff tchsemsha tlev66 vbrtybyf[0m

[1m    Solveig[0m [1m[32m     18[0m           0[0m          0[0m         0[0m      0[0m        0[0m 
[1malexander49[0m       0[0m [1m[32m         47[0m          2[0m         2[0m      1[0m        0[0m 
[1m avmironoff[0m      16[0m          16[0m [1m[32m        27[0m         2[0m     10[0m        3[0m 
[1m  tchsemsha[0m       4[0m           4[0m          3[0m         4[0m [1m[31m     5[0m        0[0m 
[1m     tlev66[0m       6[0m           9[0m         13[0m         3[0m [1m[32m    24[0m        1[0m 
[1m   vbrtybyf[0m       1[0m           9[0m          5[0m         0[0m      1[0m [1m[32m      17[0m 



              precision    recall  f1-score   support

     Solveig       0.40      1.00      0.57        18
 alexander49       0.55   




## Векторизация текстов по хэшам

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier

from src.models.structure_model import StructureModel
from src.models.vectorizers import TrigramTfIdfVectorizer, BigramTfIdfVectorizer, WordTrigramTfIdfVectorizer

Already downloaded a model for the 'ru' language


In [10]:
model = StructureModel(
    RandomForestClassifier(n_jobs=14),
    TfidfVectorizer(),
)

model.train(russian_classics_train)
model.evaluate(russian_classics_test)


[[18 17  2  3]
 [ 3 31  1  5]
 [ 6 18  8  8]
 [ 4 10 14 12]]

              precision    recall  f1-score   support

     Андреев       0.58      0.45      0.51        40
      Бианки       0.41      0.78      0.53        40
    Булгаков       0.32      0.20      0.25        40
       Бунин       0.43      0.30      0.35        40

    accuracy                           0.43       160
   macro avg       0.43      0.43      0.41       160
weighted avg       0.43      0.43      0.41       160


F1-score: 0.41015500869156274


In [11]:
model = StructureModel(
    RandomForestClassifier(n_jobs=14),
    TfidfVectorizer(),
)

model.train(proza_ru_train)
model.evaluate(proza_ru_test)


[[ 8  0  1  0  9  0]
 [ 0 29  5  1 15  2]
 [ 1  5 48  2 16  2]
 [ 0  4  5  0 11  0]
 [ 5 14 12  0 25  0]
 [ 1  1 14  1  4 12]]

              precision    recall  f1-score   support

     Solveig       0.53      0.44      0.48        18
 alexander49       0.55      0.56      0.55        52
  avmironoff       0.56      0.65      0.60        74
   tchsemsha       0.00      0.00      0.00        20
      tlev66       0.31      0.45      0.37        56
    vbrtybyf       0.75      0.36      0.49        33

    accuracy                           0.48       253
   macro avg       0.45      0.41      0.42       253
weighted avg       0.48      0.48      0.47       253


F1-score: 0.41640766655432904


## TF.IDF + кодирование термов

In [3]:
from src.models.vector_model import SKVectorModel

from src.deptree import syntax_preprocessor

In [4]:
model = SKVectorModel(
    RandomForestClassifier(n_estimators=1000, n_jobs=14),
    TfidfVectorizer(),
    syntax_preprocessor,
)

model.train(russian_classics_train)
model.evaluate(russian_classics_test)


[[34  2  2  2]
 [ 0 24  5 11]
 [ 3  6 21 10]
 [ 6  6  9 19]]

              precision    recall  f1-score   support

     Андреев       0.79      0.85      0.82        40
      Бианки       0.63      0.60      0.62        40
    Булгаков       0.57      0.53      0.55        40
       Бунин       0.45      0.47      0.46        40

    accuracy                           0.61       160
   macro avg       0.61      0.61      0.61       160
weighted avg       0.61      0.61      0.61       160


F1-score: 0.6108827258548093


In [5]:
model = SKVectorModel(
    RandomForestClassifier(n_estimators=1000, n_jobs=14),
    TfidfVectorizer(),
    syntax_preprocessor,
)

model.train(proza_ru_train)
model.evaluate(proza_ru_test)


[[15  2  0  0  1  0]
 [ 1 49  2  0  0  0]
 [ 0  0 63  0  5  6]
 [ 0  2  2  5 11  0]
 [ 1  2  4  0 48  1]
 [ 0  0  5  0  3 25]]

              precision    recall  f1-score   support

     Solveig       0.88      0.83      0.86        18
 alexander49       0.89      0.94      0.92        52
  avmironoff       0.83      0.85      0.84        74
   tchsemsha       1.00      0.25      0.40        20
      tlev66       0.71      0.86      0.77        56
    vbrtybyf       0.78      0.76      0.77        33

    accuracy                           0.81       253
   macro avg       0.85      0.75      0.76       253
weighted avg       0.83      0.81      0.80       253


F1-score: 0.7594091708713354


## Триграммы по верхнеуровлевой структуре

In [6]:
model = StructureModel(
    RandomForestClassifier(n_estimators=1000, n_jobs=14),
    TrigramTfIdfVectorizer(),
)

model.train(russian_classics_train)
model.evaluate(russian_classics_test)


[[26  3  4  7]
 [ 0 35  0  5]
 [ 6 14  8 12]
 [ 8  4 15 13]]

              precision    recall  f1-score   support

     Андреев       0.65      0.65      0.65        40
      Бианки       0.62      0.88      0.73        40
    Булгаков       0.30      0.20      0.24        40
       Бунин       0.35      0.33      0.34        40

    accuracy                           0.51       160
   macro avg       0.48      0.51      0.49       160
weighted avg       0.48      0.51      0.49       160


F1-score: 0.4889087436195645


In [7]:
model = StructureModel(
    RandomForestClassifier(n_estimators=1000, n_jobs=14),
    TrigramTfIdfVectorizer(),
)

model.train(proza_ru_train)
model.evaluate(proza_ru_test)


[[11  2  3  0  2  0]
 [ 0 42  5  1  4  0]
 [ 2  7 43  1 16  5]
 [ 1  5  7  1  6  0]
 [ 3  9  9  0 35  0]
 [ 0  0 11  1  3 18]]

              precision    recall  f1-score   support

     Solveig       0.65      0.61      0.63        18
 alexander49       0.65      0.81      0.72        52
  avmironoff       0.55      0.58      0.57        74
   tchsemsha       0.25      0.05      0.08        20
      tlev66       0.53      0.62      0.57        56
    vbrtybyf       0.78      0.55      0.64        33

    accuracy                           0.59       253
   macro avg       0.57      0.54      0.54       253
weighted avg       0.58      0.59      0.58       253


F1-score: 0.535378431366352


In [13]:
model = ProbModel()

model.train(russian_classics_train)
model.evaluate(russian_classics_test)

100%|███████████████████████████████████████████| 40/40 [00:20<00:00,  1.95it/s]
Accuracy: 0.54: 100%|█████████████████████████| 160/160 [03:21<00:00,  1.26s/it]


[1mCorrect / Wrong:[0m 86 / 74
[1mAccuracy:[0m 0.5375


 [1m [1m [1m [1m [1m [1m [1m [1m [1mАндреев Бианки Булгаков Бунин[0m

[1m Андреев[0m [1m[32m     30[0m      1[0m        4[0m     5[0m 
[1m  Бианки[0m       0[0m [1m[32m    27[0m       12[0m     1[0m 
[1mБулгаков[0m       5[0m      8[0m [1m[32m      19[0m     8[0m 
[1m   Бунин[0m [1m[31m     18[0m      4[0m        8[0m    10[0m 



              precision    recall  f1-score   support

     Андреев       0.57      0.75      0.65        40
      Бианки       0.68      0.68      0.68        40
    Булгаков       0.44      0.47      0.46        40
       Бунин       0.42      0.25      0.31        40

    accuracy                           0.54       160
   macro avg       0.52      0.54      0.52       160
weighted avg       0.52      0.54      0.52       160






In [12]:
russian_classics_train = CSVDataset('./data/russian_classics/train_23_5_600.csv')
russian_classics_test = CSVDataset('./data/russian_classics/test_23_40_600.csv')

In [15]:
model = ProbModel()

model.train(russian_classics_train)
model.evaluate(russian_classics_test)

100%|█████████████████████████████████████████| 115/115 [00:36<00:00,  3.17it/s]
Accuracy: 0.10: 100%|███████████████████████| 917/917 [1:51:10<00:00,  7.27s/it]


[1mCorrect / Wrong:[0m 94 / 823
[1mAccuracy:[0m 0.1025081788440567


 [1m [1m [1m [1m [1m [1m [1m [1m [1m [1m [1m [1m [1mАндреев Бианки Булгаков Бунин Гоголь Гончаров Горький Достоевский Житков Замятин Карамзин Лермонтов Носов Платонов Пришвин Пушкин Солженицын Сологуб Толстой Тургенев Чернышевский Чехов Шолохов[0m

[1m     Андреев[0m       4[0m      0[0m        0[0m     2[0m      0[0m        0[0m       1[0m           0[0m      1[0m       1[0m        0[0m         0[0m     1[0m        1[0m       2[0m      0[0m          3[0m       1[0m [1m[31m     16[0m        2[0m            1[0m     2[0m       2[0m 
[1m      Бианки[0m       0[0m      8[0m        0[0m     1[0m      0[0m        0[0m       0[0m           0[0m [1m[31m    13[0m       0[0m        0[0m         0[0m     2[0m        0[0m       0[0m      2[0m          2[0m       9[0m       0[0m        1[0m            2[0m     0[0m       0[0m 
[1m    Булгаков[0m       0[0


