Text preprocessing

In [1]:
import os, re
import pandas as pd
import ufal.udpipe
import conllu

import my_parsers
import classifier_preprocessing
from voters import decision

In [2]:
DATA = os.path.join(os.getcwd(), 'Gold_standard_for_validation.txt')

In [3]:
with open(DATA, mode='r', encoding='utf-16') as data:
    corpus = data.read()

In [4]:
with open(DATA, mode='r', encoding='utf-16') as data:
    df = pd.read_csv(data, sep='\t', header=None, names=['sentence', 'class'])

In [5]:
# df = df.drop(['nan'], axis=1).drop([181])

In [6]:
df

Unnamed: 0,sentence,class
0,"Борис сказал, что придёт.",coreference resolution
1,Борис взял и начал читать,TRUE
2,Борис взял и он начал читать,FALSE
3,Борис встал и вышел,TRUE
4,Борис встал и он вышел,TRUE
...,...,...
176,"Я скоро увижу Лену и я искренно надеюсь, что о...",TRUE
177,"Я только что видел Лену. Она сказала, что наш ...",TRUE
178,"Я только что видел Лену. Сказала, что наш дом ...",FALSE
179,"Я только что встретил Лену. Cказала, что их от...",FALSE


In [7]:
df['sentence'] = df['sentence'].apply(lambda x: classifier_preprocessing.preprocess(x))

In [8]:
%%time
# df['evaluation'] = df['sentence'].apply(lambda x: decision(x))

CPU times: user 6 µs, sys: 1 µs, total: 7 µs
Wall time: 14.3 µs


In [9]:
df

Unnamed: 0,sentence,class
0,"Борис сказал, что придёт.",coreference resolution
1,Борис взял и начал читать.,TRUE
2,Борис взял и он начал читать.,FALSE
3,Борис встал и вышел.,TRUE
4,Борис встал и он вышел.,TRUE
...,...,...
176,"Я скоро увижу Лену и я искренно надеюсь, что о...",TRUE
177,"Я только что видел Лену. Она сказала, что наш ...",TRUE
178,"Я только что видел Лену. Сказала, что наш дом ...",FALSE
179,"Я только что встретил Лену. Cказала, что их от...",FALSE


In [10]:
%%time
decision('Борис сказал, что придет.')

CPU times: user 12.8 ms, sys: 120 µs, total: 12.9 ms
Wall time: 219 ms


'coreference resolution'

In [11]:
%%time
decision('Борис сказал, что он придет.')

CPU times: user 14 ms, sys: 358 µs, total: 14.3 ms
Wall time: 210 ms


'TRUE'

In [12]:
%%time 
decision('Миша узнал, что нужно делать, когда он придёт домой.')

CPU times: user 11.3 ms, sys: 0 ns, total: 11.3 ms
Wall time: 204 ms


'TRUE'

In [13]:
%%time 
decision('Борис сказал, что богат.')

CPU times: user 12.7 ms, sys: 2.52 ms, total: 15.3 ms
Wall time: 180 ms


'coreference resolution'

In [14]:
%%time
decision("Борис сказал, он зайдет.")

CPU times: user 9.19 ms, sys: 0 ns, total: 9.19 ms
Wall time: 193 ms


'TRUE'

In [15]:
%%time 
decision("Он сел рядом со мной на дивание недалеко от камина и после долгого молчания, во время которого я стала чувствовать себя всё более неуютно, он начал говорить.")

CPU times: user 10.8 ms, sys: 546 µs, total: 11.3 ms
Wall time: 357 ms


'TRUE'

In [16]:
%%time 
decision("Он встал и он вышел")

CPU times: user 6.65 ms, sys: 2.12 ms, total: 8.76 ms
Wall time: 181 ms


'FALSE'

In [17]:
decision("Дима распорядился, чтобы было объявлено, что он покинул страну.")

'TRUE'

In [18]:
decision("Лина хочет, чтобы выиграла")

'FALSE'

In [19]:
decision("Дима сказал маме Кирилла, чтобы она приходила поскорее.")

'TRUE'

In [20]:
decision("Дима сказал маме Кирилла, чтобы приходила поскорее.")

'coreference resolution'

In [21]:
decision("Дима сказал маме Кирилла, чтобы она приходила поскорее")

'TRUE'

## Classifier

In [22]:
import numpy as np

In [23]:
with open(DATA, mode='r', encoding='utf-16') as data:
    df_clas = pd.read_csv(data, sep='\t', header=None, names=['sentence', 'class'])

In [24]:
df_clas['sentence'] = df_clas['sentence'].apply(lambda x: classifier_preprocessing.preprocess(x))

In [25]:
df_clas['class'] = df_clas['class'].apply(lambda x: classifier_preprocessing.class2id(x))

In [26]:
df_clas

Unnamed: 0,sentence,class
0,"Борис сказал, что придёт.",2
1,Борис взял и начал читать.,1
2,Борис взял и он начал читать.,0
3,Борис встал и вышел.,1
4,Борис встал и он вышел.,1
...,...,...
176,"Я скоро увижу Лену и я искренно надеюсь, что о...",1
177,"Я только что видел Лену. Она сказала, что наш ...",1
178,"Я только что видел Лену. Сказала, что наш дом ...",0
179,"Я только что встретил Лену. Cказала, что их от...",0


In [27]:
import my_parsers

In [28]:
%%time
df_clas['conll'] = df_clas['sentence'].apply(lambda x: my_parsers.udpipe_req(x))

CPU times: user 900 ms, sys: 69.9 ms, total: 970 ms
Wall time: 34.1 s


In [29]:
df_clas['cconj'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_conj(x, 'CCONJ'))

In [30]:
df_clas['sconj'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_conj(x, 'SCONJ'))

In [31]:
df_clas['tokens'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_tokens(x))

In [32]:
df_clas['nullp'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_null_pron(x))

In [33]:
df_clas['overtp'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_overt_pron(x))

In [34]:
df_clas['adj'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_adjuncts(x))

In [35]:
df_clas['whq'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_whquestions(x))

In [36]:
df_clas['relc'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_relclauses(x))

In [37]:
df_clas['datdep'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_case_nodes(x, 'Dat'))

In [38]:
df_clas['nomdep'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_case_nodes(x, 'Nom'))

In [39]:
df_clas['rootlen'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.get_root_length(x))

In [48]:
df_clas['rootdeps'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_root_dependents(x))

In [41]:
df_clas['rootpos'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.get_root_pos(x))

In [42]:
df_clas['rootmatch'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.is_there_exact_string_match(x))

In [43]:
df_clas['rootdatdep'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_root_case_dep(x, 'Dat'))

In [44]:
df_clas['rootnomdep'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.count_root_case_dep(x, 'Nom'))

In [45]:
df_clas['att'] = df_clas['conll'].apply(lambda x: classifier_preprocessing.is_there_att_verb(x))

In [49]:
df_clas.head()

Unnamed: 0,sentence,class,conll,cconj,sconj,tokens,nullp,overtp,adj,whq,relc,datdep,nomdep,rootlen,rootdeps,rootpos,rootmatch,rootdatdep,rootnomdep,att
0,"Борис сказал, что придёт.",2,"[[{'id': 1, 'form': 'Борис', 'lemma': 'Борис',...",0,1,4,1,0,0,0,0,0,1,6,3,0,1,0,1,1
1,Борис взял и начал читать.,1,"[[{'id': 1, 'form': 'Борис', 'lemma': 'Борис',...",1,0,5,1,0,0,0,0,0,1,4,3,0,1,0,1,0
2,Борис взял и он начал читать.,0,"[[{'id': 1, 'form': 'Борис', 'lemma': 'Борис',...",1,0,6,0,1,0,0,0,0,2,4,3,0,1,0,1,0
3,Борис встал и вышел.,1,"[[{'id': 1, 'form': 'Борис', 'lemma': 'Борис',...",1,0,4,1,0,0,0,0,0,1,5,3,0,1,0,1,0
4,Борис встал и он вышел.,1,"[[{'id': 1, 'form': 'Борис', 'lemma': 'Борис',...",1,0,5,0,1,0,0,0,0,2,5,3,0,1,0,1,0


# Data description

In [56]:
df_clas = df_clas.drop(['conll', 'sentence'], axis=1)

Number of 'FALSE' sentences

In [153]:
len(df_clas[df_clas['class'] == 0])

38

Number of 'TRUE' sentences

In [154]:
len(df_clas[df_clas['class'] == 1])

136

Number of 'coreference resolution' sentences

In [155]:
len(df_clas[df_clas['class'] == 2])

7

In [159]:
df_clas = df_clas[df_clas['class'] != 2]

In [160]:
dataset = df_clas.to_numpy()

In [161]:
# target, data
target = dataset[:,0]
data = dataset[:,1:]

# Evaluation

In [168]:
from sklearn.metrics import confusion_matrix, classification_report

### Support Vector Classification

In [190]:
from sklearn.svm import SVC

In [191]:
clf = SVC()

In [192]:
clf.set_params(kernel='linear').fit(data, target)

SVC(kernel='linear')

In [193]:
pred = clf.predict(data)

In [194]:
target, pred

(array([1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0,
        1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1,
        1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1,
        1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1,
        1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1]),
 array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1

In [195]:
cm = confusion_matrix(target, pred, labels=[0, 1])

In [196]:
tn, fp, fn, tp = cm.ravel()
tn, fp, fn, tp

(0, 38, 0, 136)

In [197]:
print(classification_report(target, pred, zero_division='warn'))

              precision    recall  f1-score   support

           0       0.00      0.00      0.00        38
           1       0.78      1.00      0.88       136

    accuracy                           0.78       174
   macro avg       0.39      0.50      0.44       174
weighted avg       0.61      0.78      0.69       174



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### KNearestNeighbour Classifier

In [198]:
from sklearn.neighbors import KNeighborsClassifier

In [199]:
neigh = KNeighborsClassifier(n_neighbors=3)

In [200]:
neigh.fit(data, target)

KNeighborsClassifier(n_neighbors=3)

In [201]:
pred = neigh.predict(data)

In [202]:
pred

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1])

In [203]:
print(classification_report(target, pred, zero_division='warn'))

              precision    recall  f1-score   support

           0       0.82      0.47      0.60        38
           1       0.87      0.97      0.92       136

    accuracy                           0.86       174
   macro avg       0.84      0.72      0.76       174
weighted avg       0.86      0.86      0.85       174



### Random Forest Classifier

In [204]:
from sklearn.ensemble import RandomForestClassifier

In [213]:
clf = RandomForestClassifier(max_depth=2, random_state=0)

In [214]:
clf.fit(data, target)

RandomForestClassifier(max_depth=2, random_state=0)

In [215]:
pred = clf.predict(data)
pred

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [217]:
print(classification_report(target, pred, zero_division='warn'))

              precision    recall  f1-score   support

           0       1.00      0.05      0.10        38
           1       0.79      1.00      0.88       136

    accuracy                           0.79       174
   macro avg       0.90      0.53      0.49       174
weighted avg       0.84      0.79      0.71       174

