In [1]:
import numpy as np
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from sklearn.model_selection import train_test_split
import pprint, time
import math
import random

In [2]:
nltk.download('treebank')

[nltk_data] Downloading package treebank to /root/nltk_data...
[nltk_data]   Unzipping corpora/treebank.zip.


True

In [3]:
corpus=list(nltk.corpus.treebank.tagged_sents())

In [5]:
corpus[3]

[('A', 'DT'),
 ('form', 'NN'),
 ('of', 'IN'),
 ('asbestos', 'NN'),
 ('once', 'RB'),
 ('used', 'VBN'),
 ('*', '-NONE-'),
 ('*', '-NONE-'),
 ('to', 'TO'),
 ('make', 'VB'),
 ('Kent', 'NNP'),
 ('cigarette', 'NN'),
 ('filters', 'NNS'),
 ('has', 'VBZ'),
 ('caused', 'VBN'),
 ('a', 'DT'),
 ('high', 'JJ'),
 ('percentage', 'NN'),
 ('of', 'IN'),
 ('cancer', 'NN'),
 ('deaths', 'NNS'),
 ('among', 'IN'),
 ('a', 'DT'),
 ('group', 'NN'),
 ('of', 'IN'),
 ('workers', 'NNS'),
 ('exposed', 'VBN'),
 ('*', '-NONE-'),
 ('to', 'TO'),
 ('it', 'PRP'),
 ('more', 'RBR'),
 ('than', 'IN'),
 ('30', 'CD'),
 ('years', 'NNS'),
 ('ago', 'IN'),
 (',', ','),
 ('researchers', 'NNS'),
 ('reported', 'VBD'),
 ('0', '-NONE-'),
 ('*T*-1', '-NONE-'),
 ('.', '.')]

In [6]:
tagged_words=[tup for sent in corpus for tup in sent]
print(len(tagged_words))

100676


In [7]:
tagged_words[:50]

[('Pierre', 'NNP'),
 ('Vinken', 'NNP'),
 (',', ','),
 ('61', 'CD'),
 ('years', 'NNS'),
 ('old', 'JJ'),
 (',', ','),
 ('will', 'MD'),
 ('join', 'VB'),
 ('the', 'DT'),
 ('board', 'NN'),
 ('as', 'IN'),
 ('a', 'DT'),
 ('nonexecutive', 'JJ'),
 ('director', 'NN'),
 ('Nov.', 'NNP'),
 ('29', 'CD'),
 ('.', '.'),
 ('Mr.', 'NNP'),
 ('Vinken', 'NNP'),
 ('is', 'VBZ'),
 ('chairman', 'NN'),
 ('of', 'IN'),
 ('Elsevier', 'NNP'),
 ('N.V.', 'NNP'),
 (',', ','),
 ('the', 'DT'),
 ('Dutch', 'NNP'),
 ('publishing', 'VBG'),
 ('group', 'NN'),
 ('.', '.'),
 ('Rudolph', 'NNP'),
 ('Agnew', 'NNP'),
 (',', ','),
 ('55', 'CD'),
 ('years', 'NNS'),
 ('old', 'JJ'),
 ('and', 'CC'),
 ('former', 'JJ'),
 ('chairman', 'NN'),
 ('of', 'IN'),
 ('Consolidated', 'NNP'),
 ('Gold', 'NNP'),
 ('Fields', 'NNP'),
 ('PLC', 'NNP'),
 (',', ','),
 ('was', 'VBD'),
 ('named', 'VBN'),
 ('*-1', '-NONE-'),
 ('a', 'DT')]

In [8]:
tags=[pair[1] for pair in tagged_words]
unique_tags=set(tags)
len(unique_tags)

46

In [9]:
unique_tags

{'#',
 '$',
 "''",
 ',',
 '-LRB-',
 '-NONE-',
 '-RRB-',
 '.',
 ':',
 'CC',
 'CD',
 'DT',
 'EX',
 'FW',
 'IN',
 'JJ',
 'JJR',
 'JJS',
 'LS',
 'MD',
 'NN',
 'NNP',
 'NNPS',
 'NNS',
 'PDT',
 'POS',
 'PRP',
 'PRP$',
 'RB',
 'RBR',
 'RBS',
 'RP',
 'SYM',
 'TO',
 'UH',
 'VB',
 'VBD',
 'VBG',
 'VBN',
 'VBP',
 'VBZ',
 'WDT',
 'WP',
 'WP$',
 'WRB',
 '``'}

In [16]:
import spacy
nlp = spacy.load("en_core_web_sm")
for i in unique_tags:
  explained_tag = spacy.explain(i)
  if explained_tag is not None:
    print(f"{i}  :  {explained_tag}")
  else:
    print(f"{i}  :  No explanation available in spacy")

LS  :  list item marker
NNP  :  noun, proper singular
WRB  :  wh-adverb
,  :  punctuation mark, comma
JJR  :  adjective, comparative
FW  :  foreign word
RP  :  adverb, particle
WP$  :  wh-pronoun, possessive
VBD  :  verb, past tense
-LRB-  :  left round bracket
DT  :  determiner
PDT  :  predeterminer
-RRB-  :  right round bracket
VB  :  verb, base form
VBG  :  verb, gerund or present participle
#  :  symbol, number sign
WDT  :  wh-determiner
NN  :  noun, singular or mass
PRP  :  pronoun, personal
-NONE-  :  No explanation available in spacy
VBP  :  verb, non-3rd person singular present
JJS  :  adjective, superlative
.  :  punctuation mark, sentence closer
NNS  :  noun, plural
CD  :  cardinal number
RBR  :  adverb, comparative
UH  :  interjection
TO  :  infinitival "to"
WP  :  wh-pronoun, personal
EX  :  existential there
``  :  opening quotation mark
NNPS  :  noun, proper plural
POS  :  possessive ending
MD  :  verb, modal auxiliary
VBN  :  verb, past participle
JJ  :  adjective (Engli



In [17]:
from collections import Counter

tag_counts=Counter(tags)
tag_counts

Counter({'NNP': 9410,
         ',': 4886,
         'CD': 3546,
         'NNS': 6047,
         'JJ': 5834,
         'MD': 927,
         'VB': 2554,
         'DT': 8165,
         'NN': 13166,
         'IN': 9857,
         '.': 3874,
         'VBZ': 2125,
         'VBG': 1460,
         'CC': 2265,
         'VBD': 3043,
         'VBN': 2134,
         '-NONE-': 6592,
         'RB': 2822,
         'TO': 2179,
         'PRP': 1716,
         'RBR': 136,
         'WDT': 445,
         'VBP': 1321,
         'RP': 216,
         'PRP$': 766,
         'JJS': 182,
         'POS': 824,
         '``': 712,
         'EX': 88,
         "''": 694,
         'WP': 241,
         ':': 563,
         'JJR': 381,
         'WRB': 178,
         '$': 724,
         'NNPS': 244,
         'WP$': 14,
         '-LRB-': 120,
         '-RRB-': 126,
         'PDT': 27,
         'RBS': 35,
         'FW': 4,
         'UH': 3,
         'SYM': 1,
         'LS': 13,
         '#': 16})

In [18]:
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [19]:
bank=[pair[1] for pair in tagged_words if pair[0].lower()=='bank']
print(bank)

['NN', 'NNP', 'NN', 'NNP', 'NN', 'NNP', 'NN', 'NNP', 'NN', 'NN', 'NN', 'NNP', 'NNP', 'NNP', 'NNP', 'NN', 'NN', 'NN', 'NN', 'NN', 'NNP', 'NNP', 'NNP', 'NN', 'NNP', 'NNP', 'NN', 'NNP', 'NNP', 'NN', 'NN', 'NNP', 'NN', 'NN', 'NN', 'NNP', 'NN', 'NN', 'NN', 'NN', 'NN', 'NNP', 'NNP', 'NNP', 'NN', 'NNP', 'NNP', 'NNP', 'NNP', 'NNP', 'NNP', 'NNP', 'NNP', 'NNP', 'NN', 'NN', 'NNP', 'NN', 'NN', 'NNP', 'NN', 'NN', 'NN', 'NN', 'NN', 'NN', 'NN', 'NN', 'NNP', 'NN']


In [21]:
run=[pair[1] for pair in tagged_words if pair[0].lower()=='run']
print(run)

['VBP', 'VBN', 'VBN', 'NN', 'VB', 'VBN', 'VB', 'VB', 'VBN', 'VB', 'VB', 'VB', 'NN', 'VBP', 'VBN', 'VB', 'VBN', 'VB']


In [24]:
participle_verbs=[pair for pair in tagged_words if pair[1]=='VBG']
ing_verbs=[pair for pair in tagged_words if pair[0].endswith('ing')]
print(len(ing_verbs)/len(participle_verbs))

1.7342465753424658


In [28]:
tags=[ pair[1] for pair in tagged_words]
tags

['NNP',
 'NNP',
 ',',
 'CD',
 'NNS',
 'JJ',
 ',',
 'MD',
 'VB',
 'DT',
 'NN',
 'IN',
 'DT',
 'JJ',
 'NN',
 'NNP',
 'CD',
 '.',
 'NNP',
 'NNP',
 'VBZ',
 'NN',
 'IN',
 'NNP',
 'NNP',
 ',',
 'DT',
 'NNP',
 'VBG',
 'NN',
 '.',
 'NNP',
 'NNP',
 ',',
 'CD',
 'NNS',
 'JJ',
 'CC',
 'JJ',
 'NN',
 'IN',
 'NNP',
 'NNP',
 'NNP',
 'NNP',
 ',',
 'VBD',
 'VBN',
 '-NONE-',
 'DT',
 'JJ',
 'NN',
 'IN',
 'DT',
 'JJ',
 'JJ',
 'NN',
 '.',
 'DT',
 'NN',
 'IN',
 'NN',
 'RB',
 'VBN',
 '-NONE-',
 '-NONE-',
 'TO',
 'VB',
 'NNP',
 'NN',
 'NNS',
 'VBZ',
 'VBN',
 'DT',
 'JJ',
 'NN',
 'IN',
 'NN',
 'NNS',
 'IN',
 'DT',
 'NN',
 'IN',
 'NNS',
 'VBN',
 '-NONE-',
 'TO',
 'PRP',
 'RBR',
 'IN',
 'CD',
 'NNS',
 'IN',
 ',',
 'NNS',
 'VBD',
 '-NONE-',
 '-NONE-',
 '.',
 'DT',
 'NN',
 'NN',
 ',',
 'NN',
 ',',
 'VBZ',
 'RB',
 'JJ',
 'IN',
 'PRP',
 'VBZ',
 'DT',
 'NNS',
 ',',
 'IN',
 'RB',
 'JJ',
 'NNS',
 'TO',
 'PRP',
 'VBG',
 'NNS',
 'WDT',
 '-NONE-',
 'VBP',
 'RP',
 'NNS',
 'JJ',
 ',',
 'NNS',
 'VBD',
 '-NONE-',
 '-NONE-',
 

In [29]:
jj_tags=[t for t in tags if t=='JJ']
jj_tags

['JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',
 'JJ',

In [37]:
jj_nn_tags=[(t,tags[index+1]) for index,t in enumerate(tags)
           if t=='JJ' and tags[index+1]=='NN']
jj_nn_tags

[('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'NN'),
 ('JJ', 'N

In [38]:
len(jj_tags),len(jj_nn_tags),len(jj_nn_tags)/len(jj_tags)

(5834, 2611, 0.4475488515598217)

In [39]:
tags=[pair[1] for pair in tagged_words]
tags

['NNP',
 'NNP',
 ',',
 'CD',
 'NNS',
 'JJ',
 ',',
 'MD',
 'VB',
 'DT',
 'NN',
 'IN',
 'DT',
 'JJ',
 'NN',
 'NNP',
 'CD',
 '.',
 'NNP',
 'NNP',
 'VBZ',
 'NN',
 'IN',
 'NNP',
 'NNP',
 ',',
 'DT',
 'NNP',
 'VBG',
 'NN',
 '.',
 'NNP',
 'NNP',
 ',',
 'CD',
 'NNS',
 'JJ',
 'CC',
 'JJ',
 'NN',
 'IN',
 'NNP',
 'NNP',
 'NNP',
 'NNP',
 ',',
 'VBD',
 'VBN',
 '-NONE-',
 'DT',
 'JJ',
 'NN',
 'IN',
 'DT',
 'JJ',
 'JJ',
 'NN',
 '.',
 'DT',
 'NN',
 'IN',
 'NN',
 'RB',
 'VBN',
 '-NONE-',
 '-NONE-',
 'TO',
 'VB',
 'NNP',
 'NN',
 'NNS',
 'VBZ',
 'VBN',
 'DT',
 'JJ',
 'NN',
 'IN',
 'NN',
 'NNS',
 'IN',
 'DT',
 'NN',
 'IN',
 'NNS',
 'VBN',
 '-NONE-',
 'TO',
 'PRP',
 'RBR',
 'IN',
 'CD',
 'NNS',
 'IN',
 ',',
 'NNS',
 'VBD',
 '-NONE-',
 '-NONE-',
 '.',
 'DT',
 'NN',
 'NN',
 ',',
 'NN',
 ',',
 'VBZ',
 'RB',
 'JJ',
 'IN',
 'PRP',
 'VBZ',
 'DT',
 'NNS',
 ',',
 'IN',
 'RB',
 'JJ',
 'NNS',
 'TO',
 'PRP',
 'VBG',
 'NNS',
 'WDT',
 '-NONE-',
 'VBP',
 'RP',
 'NNS',
 'JJ',
 ',',
 'NNS',
 'VBD',
 '-NONE-',
 '-NONE-',
 

In [40]:
dt_tags=[t for t in tags if t=='DT']
dt_tags

['DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',
 'DT',

In [41]:
enumerate(tags)

<enumerate at 0x7f8c00c63c90>

In [42]:
md_vb_tags=[(t,tags[index+1]) for index,t in enumerate(tags)
           if t=='MD' and tags[index+1]=='VB']
md_vb_tags

[('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'VB'),
 ('MD', 'V

In [43]:
random.seed(1234)
train_set,test_set=train_test_split(corpus,test_size=0.25)

In [45]:
len(train_set),len(test_set)

(2935, 979)

In [46]:
train_set[1]

[('Workers', 'NNS'),
 ('dumped', 'VBD'),
 ('large', 'JJ'),
 ('burlap', 'NN'),
 ('sacks', 'NNS'),
 ('of', 'IN'),
 ('the', 'DT'),
 ('imported', 'VBN'),
 ('material', 'NN'),
 ('into', 'IN'),
 ('a', 'DT'),
 ('huge', 'JJ'),
 ('bin', 'NN'),
 (',', ','),
 ('poured', 'VBD'),
 ('in', 'RP'),
 ('cotton', 'NN'),
 ('and', 'CC'),
 ('acetate', 'NN'),
 ('fibers', 'NNS'),
 ('and', 'CC'),
 ('mechanically', 'RB'),
 ('mixed', 'VBD'),
 ('the', 'DT'),
 ('dry', 'JJ'),
 ('fibers', 'NNS'),
 ('in', 'IN'),
 ('a', 'DT'),
 ('process', 'NN'),
 ('used', 'VBN'),
 ('*', '-NONE-'),
 ('*', '-NONE-'),
 ('to', 'TO'),
 ('make', 'VB'),
 ('filters', 'NNS'),
 ('.', '.')]

#Lexicon(unigram tagger)
1. it assigns tag to word which is most commonly or frequently used for words
2. in nltk unigram tagger can be used fr lexicon based tagging

In [48]:
uni_tag=nltk.UnigramTagger(train_set)
uni_tag.accuracy(test_set)

0.8704671544584707

#Ruled based (RegEX) Tagger


In [49]:
patterns=[
    (r'.*ing$','VBG'),
    (r'.*ed$','VBD'),
    (r'.*es$','VBZ'),
    (r'.*ould$','MD'),
    (r'.*\'s$','NN$'),
    (r'.*s$','NNS'),
    (r'^-?[0-9]+(\.[0-9]+)*$','CD'),
    (r',*$','NN'),
]

In [50]:
reg_tag=nltk.RegexpTagger(patterns)
reg_tag.accuracy(test_set)

0.09632548042132347