In [1]:
import pandas as pd
import string
from collections import Iterable
from nltk.tag import ClassifierBasedTagger
from nltk.chunk import ChunkParserI, conlltags2tree
from nltk.stem.snowball import SnowballStemmer
from nltk import pos_tag, word_tokenize
from spacy import displacy

from newspaper import Article
import re

class EntityChunker(ChunkParserI):
    def __init__(self, train_sents, **kwargs):
        assert isinstance(train_sents, Iterable)

        self.feature_detector = features
        self.tagger = ClassifierBasedTagger(
            train=train_sents,
            feature_detector=features,
            **kwargs)

    def parse(self, tagged_sent):
        chunks = self.tagger.tag(tagged_sent)
        iob_triplets = [(w, t, c) for ((w, t), c) in chunks]
        
        return iob_triplets


def features(tokens, index, history):
    """
    'tokens'  = a POS-tagged sentence [(w1, t1), ...]
    'index'   = the index of the token we want to extract features for
    'history' = the previous predicted IOB tags
    """

    # init the stemmer
    stemmer = SnowballStemmer('english')

    # Pad the sequence with placeholders
    tokens = [('[START2]', '[START2]'), ('[START1]', '[START1]')] + list(tokens) + [('[END1]', '[END1]'),
                                                                                    ('[END2]', '[END2]')]
    history = ['[START2]', '[START1]'] + list(history)

    # shift the index with 2, to accommodate the padding
    index += 2

    word, pos = tokens[index]
    prevword, prevpos = tokens[index - 1]
    prevprevword, prevprevpos = tokens[index - 2]
    nextword, nextpos = tokens[index + 1]
    nextnextword, nextnextpos = tokens[index + 2]
    previob = history[index - 1]
    contains_dash = '-' in word
    contains_dot = '.' in word
    allascii = all([True for c in word if c in string.ascii_lowercase])

    allcaps = word == word.capitalize()
    capitalized = word[0] in string.ascii_uppercase

    prevallcaps = prevword == prevword.capitalize()
    prevcapitalized = prevword[0] in string.ascii_uppercase

    nextallcaps = prevword == prevword.capitalize()
    nextcapitalized = prevword[0] in string.ascii_uppercase

    return {
        'word': word,
        'lemma': stemmer.stem(word),
        'pos': pos,
        'all-ascii': allascii,

        'next-word': nextword,
        'next-lemma': stemmer.stem(nextword),
        'next-pos': nextpos,

        'next-next-word': nextnextword,
        'nextnextpos': nextnextpos,

        'prev-word': prevword,
        'prev-lemma': stemmer.stem(prevword),
        'prev-pos': prevpos,

        'prev-prev-word': prevprevword,
        'prev-prev-pos': prevprevpos,

        'prev-iob': previob,

        'contains-dash': contains_dash,
        'contains-dot': contains_dot,

        'all-caps': allcaps,
        'capitalized': capitalized,

        'prev-all-caps': prevallcaps,
        'prev-capitalized': prevcapitalized,

        'next-all-caps': nextallcaps,
        'next-capitalized': nextcapitalized,
    }

In [2]:
# Read data
data_file_path = '/Users/TonY/Desktop/sfl/Dataset_01-29-2019.txt'
data = pd.read_csv(data_file_path, delimiter='\t',
                   header=0, index_col=0,
                   names=['Sentence', 'Word', 'POS', 'Tag'],
                   encoding='unicode_escape')
# Check NA
data.isna().any()

# Check datatype
data.dtypes

# Change float to int
data.Sentence = data.Sentence.astype(int)
data[1:10]

Unnamed: 0,Sentence,Word,POS,Tag
1,1,of,IN,O
2,1,demonstrators,NNS,O
3,1,have,VBP,O
4,1,marched,VBN,O
5,1,through,IN,O
6,1,London,NNP,B-geo
7,1,to,TO,O
8,1,protest,VB,O
9,1,the,DT,O


In [3]:
# Total number of Sentences
max(data.Sentence)

# Tag Count by category
# ART, EVE, NAT has too few data points
data.Tag.value_counts()

O        56217
B-geo     2070
B-org     1237
I-per     1234
B-gpe     1230
B-tim     1160
B-per     1107
I-org      926
I-geo      414
I-tim      334
B-art       53
B-eve       45
I-eve       37
I-gpe       34
I-art       34
B-nat       20
I-nat        9
Name: Tag, dtype: int64

In [4]:
sentence_arr = data.Sentence.unique()
token = []

for sentence in sentence_arr:
    temp_data = data[data['Sentence'] == sentence]
    curr_index = temp_data.index
    one_sentence = []
    for index in curr_index:
        one_sentence.append(((temp_data.Word[index], temp_data.POS[index]), temp_data.Tag[index]))
    token.append(one_sentence)

training_samples = token[:int(len(token) * 0.9)]
test_samples = token[:int(len(token) * 0.1)]

chunker = EntityChunker(training_samples[:2000])

# Accuracy
score = chunker.evaluate([conlltags2tree([(w, t, iob) for (w, t), iob in iobs]) for iobs in test_samples[:500]])
print(score.accuracy())

0.8520664938233948


In [10]:

def url2text(url):
    """
    This function takes in an url of the news article and output as string of text.
    Returns a string with formated data, pads before and after each special symbol
    """
    toi_article = Article(url, language="en") # en for English
    toi_article.download() 
  
    #To parse the article 
    toi_article.parse()
    
    #To extract text 
    test_sentence = toi_article.text
    # Padding one space before and after the special symbol, not pad if already padded
    test_sentence = re.sub('(?<! )(?=[.,!?%#^&*@$:;()"\'`-])|(?<=[.,!?%#^&*@$:;()"\'`-])(?! )', r' ', test_sentence)
    
    return test_sentence


# test_sentence = "Georgia's Augusta National Golf Club is included in the slight risk area Sunday as the Masters concludes."

# # ori = ['.', ',', '(', ')', '!', '']
# # test_sentence.replace('.', ' .', test_sentence.count('.'))
# test_sentence.replace(',', ' ,', test_sentence.count(','))


# test_sentence = 'an enhanced risk(level 3 out of 5)stretches from Atlanta to Cleveland.'
# test_sentence = re.sub('(?<=\w)([''])', r' \1', test_sentence)
# test_sentence = re.sub(r"(?<!\s)\(", r' (', test_sentence) # => " (some text)"

# Padding one space before and after the special symbol, not pad if already padded
# test_sentence = re.sub('(?<! )(?=[.,!?()"\'`])|(?<=[.,!?()"\'`])(?! )', r' ', test_sentence)
# print(test_sentence)


# IOB

def render_nltk_ner(test_sentence):
    """
    This function serves to take the text output of the function "url2text", 
    restructure the data and then renders using SpaCy API. 
    It only shows the rendered text"
    """
    for line in test_sentence.splitlines():
        iob_out = chunker.parse(pos_tag(word_tokenize(line)))
#         # Print iob token
#         print(iob_out)

        ent_hash = {}
        ent_list = []
        hash_list = []
        sentence = []

        start_index = 0
        for i, iob in enumerate(iob_out):
            sentence.append(iob[0])
            sentence_full = ' '.join(map(str, sentence))
            if iob[2].startswith('B-'):
                temp = [iob_out[i][0]]
                try:
                    iob_out[i+1][2]
                    if iob_out[i+1][2] == 'O':
                        word = ' '.join(map(str, temp))
                        ent_hash = {'word': word,
                                    "start": len(sentence_full) - len(word),
                                    "end": len(sentence_full),
                                    "label": iob_out[i][2][2:].upper()}

                        hash_list.append(ent_hash)
                except IndexError:
                     break
                        
            elif iob[2].startswith('I-'):
                temp.append(iob_out[i][0])
                try:
                    iob_out[i+1][2]
                    if iob_out[i+1][2] == 'O':
                        word = ' '.join(map(str, temp))
                        ent_hash = {'word': word,
                                    "start": len(sentence_full) - len(word),
                                    "end": len(sentence_full),
                                    "label": iob_out[i][2][2:].upper()}
                        hash_list.append(ent_hash)
                except IndexError:
                     break
                    

        ent = {'text': line,
               'ents': hash_list,
               'title': None}

        displacy.render(ent, manual=True, style="ent", jupyter=True)
        
    return 


def render_nltk_ner_with_iob(test_sentence):
    """
    This function serves to take the text output of the function "url2text", 
    restructure the data and then renders using SpaCy API. 
    It shows both iob token and the rendered text"
    """
    
    for line in test_sentence.splitlines():
        iob_out = chunker.parse(pos_tag(word_tokenize(line)))
        # Print iob token
        print(iob_out)

        ent_hash = {}
        ent_list = []
        hash_list = []
        sentence = []

        start_index = 0
        for i, iob in enumerate(iob_out):
            sentence.append(iob[0])
            sentence_full = ' '.join(map(str, sentence))
            if iob[2].startswith('B-'):
                temp = [iob_out[i][0]]
                try:
                    iob_out[i+1][2]
                    if iob_out[i+1][2] == 'O':
                        word = ' '.join(map(str, temp))
                        ent_hash = {'word': word,
                                    "start": len(sentence_full) - len(word),
                                    "end": len(sentence_full),
                                    "label": iob_out[i][2][2:].upper()}

                        hash_list.append(ent_hash)
                except IndexError:
                     break
                        
            elif iob[2].startswith('I-'):
                temp.append(iob_out[i][0])
                try:
                    iob_out[i+1][2]
                    if iob_out[i+1][2] == 'O':
                        word = ' '.join(map(str, temp))
                        ent_hash = {'word': word,
                                    "start": len(sentence_full) - len(word),
                                    "end": len(sentence_full),
                                    "label": iob_out[i][2][2:].upper()}
                        hash_list.append(ent_hash)
                except IndexError:
                     break
                    

        ent = {'text': line,
               'ents': hash_list,
               'title': None}

        displacy.render(ent, manual=True, style="ent", jupyter=True)
        
    return 

In [11]:
url = "https://www.cnn.com/2019/04/13/politics/tax-reform-winners-and-losers/index.html"

text = url2text(url)
render_nltk_ner(text)


In [7]:
render_nltk_ner_with_iob(text)

[('(', '(', 'B-per'), ('CNN', 'NNP', 'B-org'), (')', ')', 'I-org'), ('Tax', 'NNP', 'B-tim'), ('day', 'NN', 'I-tim'), ('isn', 'NN', 'I-tim'), ("'", "''", 'I-tim'), ('t', 'NN', 'I-tim'), ('until', 'IN', 'I-tim'), ('Monday', 'NNP', 'B-tim'), (',', ',', 'O'), ('but', 'CC', 'O'), ('there', 'RB', 'O'), ('have', 'VBP', 'O'), ('already', 'RB', 'O'), ('been', 'VBN', 'O'), ('some', 'DT', 'O'), ('surprises', 'NNS', 'O'), ('for', 'IN', 'O'), ('Americans', 'NNPS', 'B-gpe'), ('filing', 'VBG', 'O'), ('their', 'PRP$', 'O'), ('first', 'JJ', 'O'), ('income', 'NN', 'O'), ('tax', 'NN', 'O'), ('returns', 'NNS', 'O'), ('under', 'IN', 'O'), ('President', 'NNP', 'B-per'), ('Donald', 'NNP', 'I-per'), ('Trump', 'NNP', 'I-per'), ("'", 'POS', 'I-org'), ('s', 'NN', 'I-tim'), ('2017', 'CD', 'I-tim'), ('law', 'NN', 'I-tim'), ('.', '.', 'O')]


[]


[('Let', 'VB', 'B-per'), ("'", "''", 'I-per'), ('s', 'JJ', 'O'), ('start', 'NN', 'O'), ('with', 'IN', 'O'), ('the', 'DT', 'O'), ('big', 'JJ', 'O'), ('one', 'NN', 'O'), ('.', '.', 'O'), ('While', 'IN', 'O'), ('most', 'JJS', 'O'), ('Americans', 'NNPS', 'B-gpe'), ('are', 'VBP', 'O'), ('paying', 'VBG', 'O'), ('less', 'RBR', 'O'), ('in', 'IN', 'O'), ('taxes', 'NNS', 'O'), ('overall', 'JJ', 'O'), (',', ',', 'O'), ('many', 'JJ', 'O'), ('have', 'VBP', 'O'), ('been', 'VBN', 'O'), ('startled', 'VBN', 'O'), ('to', 'TO', 'O'), ('find', 'VB', 'O'), ('that', 'DT', 'O'), ('their', 'PRP$', 'O'), ('refunds', 'NNS', 'O'), ('have', 'VBP', 'O'), ('barely', 'RB', 'O'), ('changed', 'VBN', 'O'), ('or', 'CC', 'O'), ('are', 'VBP', 'O'), ('down', 'RP', 'O'), ('-', ':', 'O'), ('-', ':', 'O'), ('making', 'VBG', 'O'), ('them', 'PRP', 'O'), ('feel', 'VBP', 'O'), ('like', 'IN', 'O'), ('they', 'PRP', 'O'), ('lost', 'VBD', 'O'), (',', ',', 'O'), ('even', 'RB', 'O'), ('if', 'IN', 'O'), ('they', 'PRP', 'O'), ("'", 'VBP'

[]


[('Below', 'NNP', 'B-gpe'), ('are', 'VBP', 'O'), ('some', 'DT', 'O'), ('other', 'JJ', 'O'), ('ways', 'NNS', 'O'), ('to', 'TO', 'O'), ('look', 'VB', 'O'), ('at', 'IN', 'O'), ('who', 'WP', 'O'), ('is', 'VBZ', 'O'), ('winning', 'VBG', 'O'), ('and', 'CC', 'O'), ('losing', 'VBG', 'O'), ('under', 'IN', 'O'), ('the', 'DT', 'O'), ('law', 'NN', 'O'), ('.', '.', 'O'), ('And', 'CC', 'O'), ('please', 'JJ', 'O'), ('take', 'VB', 'O'), ('note', 'NN', 'O'), (':', ':', 'O'), ('It', 'PRP', 'B-nat'), ("'", "''", 'I-nat'), ('s', 'RBR', 'O'), ('possible', 'JJ', 'O'), ('to', 'TO', 'O'), ('both', 'DT', 'O'), ('win', 'NNS', 'O'), ('and', 'CC', 'O'), ('lose', 'VB', 'O'), ('at', 'IN', 'O'), ('the', 'DT', 'O'), ('same', 'JJ', 'O'), ('time', 'NN', 'O'), ('.', '.', 'O')]


[]


[('Winning', 'VBG', 'B-per'), (':', ':', 'I-per'), ('Most', 'JJS', 'B-eve'), ('US', 'JJ', 'I-eve'), ('taxpayers', 'NNS', 'O')]


[]


[('The', 'DT', 'O'), ('vast', 'JJ', 'O'), ('majority', 'NN', 'O'), ('of', 'IN', 'O'), ('American', 'JJ', 'B-gpe'), ('tax', 'NN', 'O'), ('filers', 'NNS', 'O'), ('-', ':', 'B-tim'), ('-', ':', 'I-tim'), ('more', 'JJR', 'I-tim'), ('than', 'IN', 'O'), ('65', 'CD', 'O'), ('%', 'NN', 'O'), ('-', ':', 'O'), ('-', ':', 'O'), ('will', 'MD', 'O'), ('see', 'VB', 'O'), ('their', 'PRP$', 'O'), ('overall', 'JJ', 'O'), ('tax', 'NN', 'O'), ('burden', 'NN', 'O'), ('decrease', 'NN', 'O'), ('by', 'IN', 'O'), ('at', 'IN', 'O'), ('least', 'JJS', 'O'), ('$', '$', 'O'), ('100', 'CD', 'B-tim'), (',', ',', 'O'), ('according', 'VBG', 'O'), ('to', 'TO', 'O'), ('the', 'DT', 'O'), ('congressional', 'JJ', 'B-org'), ('Joint', 'NNP', 'I-org'), ('Committee', 'NNP', 'I-org'), ('on', 'IN', 'I-org'), ('Taxation', 'NNP', 'B-tim'), ('.', '.', 'O'), ('See', 'NNP', 'B-per'), ('page', 'JJ', 'I-tim'), ('7', 'CD', 'I-tim'), ('of', 'IN', 'O'), ('this', 'DT', 'O'), ('helpful', 'JJ', 'O'), ('analysis', 'NN', 'O')]


[]


[('Slightly', 'RB', 'B-per'), ('less', 'JJR', 'O'), ('than', 'IN', 'O'), ('30', 'CD', 'O'), ('%', 'NN', 'O'), ('of', 'IN', 'O'), ('filers', 'NNS', 'O'), ('will', 'MD', 'O'), ('see', 'VB', 'O'), ('very', 'RB', 'O'), ('little', 'JJ', 'O'), ('change', 'NN', 'O'), ('in', 'IN', 'O'), ('their', 'PRP$', 'O'), ('tax', 'NN', 'O'), ('liability', 'NN', 'O'), ('and', 'CC', 'O'), ('a', 'DT', 'O'), ('small', 'JJ', 'O'), ('percentage', 'NN', 'O'), (',', ',', 'O'), ('about', 'RB', 'O'), ('6', 'CD', 'O'), ('%', 'NN', 'O'), (',', ',', 'O'), ('will', 'MD', 'O'), ('see', 'VB', 'O'), ('an', 'DT', 'O'), ('increase', 'NN', 'O'), ('.', '.', 'O'), ('These', 'DT', 'O'), ('tax', 'NN', 'O'), ('rate', 'NN', 'O'), ('cuts', 'NNS', 'O'), ('for', 'IN', 'O'), ('individual', 'JJ', 'O'), ('filers', 'NNS', 'O'), ('are', 'VBP', 'O'), ('not', 'RB', 'O'), ('permanent', 'JJ', 'O'), ('like', 'IN', 'O'), ('the', 'DT', 'O'), ('corporate', 'JJ', 'O'), ('tax', 'NN', 'O'), ('cuts', 'NNS', 'O'), (',', ',', 'O'), ('but', 'CC', 'O'), 

[]


[('But', 'CC', 'O'), ('while', 'IN', 'O'), ('most', 'JJS', 'O'), ('Americans', 'NNPS', 'B-gpe'), ('got', 'VBD', 'O'), ('a', 'DT', 'O'), ('tax', 'NN', 'O'), ('cut', 'NN', 'O'), (',', ',', 'O'), ('most', 'JJS', 'O'), ('people', 'NNS', 'O'), ('don', 'VBP', 'O'), ("'", "''", 'B-art'), ('t', 'NN', 'B-eve'), ('seem', 'VBP', 'B-tim'), ('to', 'TO', 'O'), ('understand', 'VB', 'O'), ('they', 'PRP', 'O'), ('got', 'VBD', 'O'), ('one', 'CD', 'O'), ('.', '.', 'O'), ('According', 'VBG', 'O'), ('to', 'TO', 'O'), ('an', 'DT', 'O'), ('NBC', 'NNP', 'B-org'), ('News/Wall', 'NNP', 'I-org'), ('Street', 'NNP', 'I-org'), ('Journal', 'NNP', 'I-org'), ('poll', 'NN', 'O'), ('out', 'RP', 'O'), ('this', 'DT', 'O'), ('week', 'NN', 'O'), (',', ',', 'O'), ('only', 'RB', 'O'), ('17', 'CD', 'O'), ('%', 'NN', 'O'), ('of', 'IN', 'O'), ('Americans', 'NNPS', 'B-geo'), ('think', 'VBP', 'O'), ('they', 'PRP', 'O'), ("'", "''", 'O'), ('re', 'VBP', 'O'), ('getting', 'VBG', 'O'), ('a', 'DT', 'O'), ('tax', 'NN', 'O'), ('cut', 'NN

[]


[('Winning', 'VBG', 'B-per'), (':', ':', 'I-per'), ('Most', 'JJS', 'B-eve'), ('rich', 'JJ', 'O'), ('people', 'NNS', 'O')]


[]


[('The', 'DT', 'O'), ('new', 'JJ', 'O'), ('tax', 'NN', 'O'), ('law', 'NN', 'O'), ("'", "''", 'O'), ('s', 'JJ', 'O'), ('benefits', 'NNS', 'O'), ('are', 'VBP', 'O'), ('tilted', 'VBN', 'O'), ('toward', 'IN', 'O'), ('the', 'DT', 'O'), ('wealthy', 'NN', 'O'), (',', ',', 'O'), ('who', 'WP', 'O'), ('will', 'MD', 'O'), ('generally', 'RB', 'O'), ('see', 'VB', 'O'), ('greater', 'JJR', 'O'), ('benefits', 'NNS', 'O'), ('than', 'IN', 'O'), ('other', 'JJ', 'O'), ('Americans', 'NNPS', 'B-geo'), ('.', '.', 'O')]


[]


[('largest', 'JJS', 'O'), ('cuts', 'NNS', 'O'), ('will', 'MD', 'O'), ('go', 'VB', 'O'), ('to', 'TO', 'O'), ('the', 'DT', 'O'), ('people', 'NNS', 'O'), ('who', 'WP', 'O'), ('pay', 'VBP', 'O'), ('the', 'DT', 'O'), ('most', 'RBS', 'O'), ('in', 'IN', 'O'), ('tax', 'NN', 'O'), (',', ',', 'O'), ('according', 'VBG', 'O'), ('to', 'TO', 'O'), ('the', 'DT', 'O'), ('Thelargest', 'NNP', 'B-org'), ('cuts', 'NNS', 'I-org'), ('will', 'MD', 'O'), ('go', 'VB', 'O'), ('to', 'TO', 'O'), ('the', 'DT', 'O'), ('people', 'NNS', 'O'), ('who', 'WP', 'O'), ('pay', 'VBP', 'O'), ('the', 'DT', 'O'), ('most', 'RBS', 'O'), ('in', 'IN', 'O'), ('tax', 'NN', 'O'), (',', ',', 'O'), ('according', 'VBG', 'O'), ('to', 'TO', 'O'), ('the', 'DT', 'O'), ('Tax', 'NNP', 'B-org'), ('Policy', 'NNP', 'I-org'), ('Center', 'NNP', 'I-org'), (',', ',', 'O'), ('a', 'DT', 'O'), ('think', 'NN', 'O'), ('tank', 'NN', 'O'), (',', ',', 'O'), ('which', 'WDT', 'O'), ('suggested', 'VBD', 'O'), ('that', 'IN', 'O'), ('tax', 'NN', 'O'), ('filers', 

[]


[('Most', 'JJS', 'B-gpe'), ('people', 'NNS', 'O'), ('in', 'IN', 'O'), ('the', 'DT', 'O'), ('bottom', 'JJ', 'O'), ('20', 'CD', 'B-tim'), ('%', 'NN', 'I-tim'), ('income', 'NN', 'O'), ('-', ':', 'O'), ('wise', 'NN', 'O'), ('will', 'MD', 'O'), ('see', 'VB', 'O'), ('little', 'JJ', 'O'), ('or', 'CC', 'O'), ('no', 'DT', 'O'), ('change', 'NN', 'O'), ('in', 'IN', 'O'), ('their', 'PRP$', 'O'), ('tax', 'NN', 'O'), ('liability', 'NN', 'O'), (',', ',', 'O'), ('according', 'VBG', 'O'), ('to', 'TO', 'O'), ('that', 'DT', 'O'), ('report', 'NN', 'O'), ('.', '.', 'O')]


[]


[('Losing', 'VBG', 'B-per'), (':', ':', 'I-per'), ('Some', 'DT', 'O'), ('rich', 'JJ', 'O'), ('people', 'NNS', 'O'), (',', ',', 'O'), ('probably', 'RB', 'O'), ('in', 'IN', 'O'), ('blue', 'JJ', 'B-geo'), ('states', 'NNS', 'O')]


[]


[('About', 'RB', 'O'), ('14', 'CD', 'O'), ('%', 'NN', 'O'), ('of', 'IN', 'O'), ('rich', 'JJ', 'O'), ('people', 'NNS', 'O'), ('making', 'VBG', 'O'), ('more', 'JJR', 'O'), ('than', 'IN', 'O'), ('$', '$', 'O'), ('1', 'CD', 'O'), ('million', 'CD', 'O'), ('will', 'MD', 'O'), ('see', 'VB', 'O'), ('a', 'DT', 'O'), ('tax', 'NN', 'O'), ('increase', 'NN', 'O'), ('.', '.', 'O'), ('They', 'PRP', 'B-nat'), ("'", "''", 'I-nat'), ('re', 'VBP', 'O'), ('likely', 'JJ', 'O'), ('to', 'TO', 'O'), ('be', 'VB', 'O'), ('concentrated', 'VBN', 'O'), ('in', 'IN', 'O'), ('states', 'NNS', 'O'), ('with', 'IN', 'O'), ('high', 'JJ', 'O'), ('state', 'NN', 'O'), ('and', 'CC', 'O'), ('local', 'JJ', 'O'), ('taxes', 'NNS', 'O'), ('and', 'CC', 'O'), ('they', 'PRP', 'O'), ('possibly', 'RB', 'O'), ('have', 'VBP', 'O'), ('multiple', 'JJ', 'O'), ('homes', 'NNS', 'O'), ('.', '.', 'O'), ('They', 'PRP', 'O'), ('used', 'VBD', 'O'), ('to', 'TO', 'O'), ('be', 'VB', 'O'), ('able', 'JJ', 'O'), ('to', 'TO', 'O'), ('deduct', 'VB', 'O'),

[]


[('Really', 'RB', 'B-per'), ('winning', 'VBG', 'I-per'), (':', ':', 'O'), ('Heirs', 'NN', 'O'), ('of', 'IN', 'O'), ('rich', 'JJ', 'O'), ('people', 'NNS', 'O')]


[]


[('The', 'DT', 'O'), ('law', 'NN', 'O'), ('more', 'RBR', 'O'), ('than', 'IN', 'O'), ('doubled', 'VBD', 'O'), ('the', 'DT', 'O'), ('amount', 'NN', 'O'), ('that', 'WDT', 'O'), ('can', 'MD', 'O'), ('pass', 'VB', 'O'), ('to', 'TO', 'O'), ('family', 'NN', 'O'), ('members', 'NNS', 'O'), ('without', 'IN', 'O'), ('triggering', 'VBG', 'O'), ('the', 'DT', 'O'), ('estate', 'NN', 'O'), ('tax', 'NN', 'O'), (',', ',', 'O'), ('from', 'IN', 'O'), ('about', 'IN', 'O'), ('$', '$', 'O'), ('5', 'CD', 'O'), ('million', 'CD', 'O'), ('to', 'TO', 'O'), ('more', 'JJR', 'O'), ('than', 'IN', 'O'), ('$', '$', 'O'), ('11', 'CD', 'O'), ('million', 'CD', 'O'), ('for', 'IN', 'O'), ('individuals', 'NNS', 'O'), ('and', 'CC', 'O'), ('$', '$', 'O'), ('22', 'CD', 'O'), ('million', 'CD', 'O'), ('for', 'IN', 'O'), ('married', 'JJ', 'O'), ('couples', 'NNS', 'B-tim'), ('.', '.', 'O'), ('That', 'DT', 'O'), ('affects', 'VBZ', 'O'), ('a', 'DT', 'O'), ('relatively', 'RB', 'O'), ('small', 'JJ', 'O'), ('number', 'NN', 'O'), ('of', 

[]


[('Still', 'RB', 'B-per'), ('winning', 'VBG', 'O'), (':', ':', 'B-tim'), ('Investors', 'NNS', 'O')]


[]


[('The', 'DT', 'O'), ('rates', 'NNS', 'O'), ('for', 'IN', 'O'), ('capital', 'NN', 'O'), ('gains', 'NNS', 'O'), ('taxes', 'NNS', 'O'), ('did', 'VBD', 'O'), ('not', 'RB', 'O'), ('change', 'VB', 'O'), ('in', 'IN', 'O'), ('the', 'DT', 'O'), ('tax', 'NN', 'O'), ('law', 'NN', 'O'), ('and', 'CC', 'O'), ('remain', 'VBP', 'O'), ('lower', 'JJR', 'O'), ('than', 'IN', 'O'), ('the', 'DT', 'O'), ('rates', 'NNS', 'O'), ('for', 'IN', 'O'), ('wage', 'NN', 'O'), ('income', 'NN', 'O'), ('.', '.', 'O'), ('So', 'RB', 'O'), ('people', 'NNS', 'O'), ('making', 'VBG', 'O'), ('money', 'NN', 'O'), ('primarily', 'RB', 'O'), ('off', 'IN', 'O'), ('investments', 'NNS', 'O'), ('will', 'MD', 'O'), ('continue', 'VB', 'O'), ('to', 'TO', 'O'), ('pay', 'VB', 'O'), ('less', 'RBR', 'O'), ('in', 'IN', 'O'), ('taxes', 'NNS', 'O'), ('than', 'IN', 'O'), ('people', 'NNS', 'O'), ('who', 'WP', 'O'), ('depend', 'VBP', 'O'), ('mostly', 'RB', 'O'), ('on', 'IN', 'O'), ('salary', 'JJ', 'B-tim'), ('income', 'NN', 'I-tim'), ('.', '.', 'O

[]


[('Winning', 'VBG', 'B-gpe'), (':', ':', 'I-gpe'), ('Trump', 'NN', 'I-tim'), (',', ',', 'I-tim'), ('maybe', 'RB', 'I-tim'), (',', ',', 'O'), ('although', 'IN', 'O'), ('some', 'DT', 'O'), ('other', 'JJ', 'O'), ('business', 'NN', 'O'), ('owners', 'NNS', 'O'), ('won', 'VBD', 'O'), ("'", 'POS', 'O'), ('t', 'NN', 'O'), ('win', 'VBP', 'O'), ('as', 'IN', 'O'), ('much', 'JJ', 'O')]


[]


[('Most', 'JJS', 'B-gpe'), ('small', 'JJ', 'O'), ('business', 'NN', 'O'), ('owners', 'NNS', 'O'), ('(', '(', 'O'), ('and', 'CC', 'O'), ('a', 'DT', 'O'), ('lot', 'NN', 'O'), ('of', 'IN', 'O'), ('not', 'RB', 'O'), ('-', ':', 'O'), ('so', 'RB', 'O'), ('-', ':', 'O'), ('small', 'JJ', 'O'), ('business', 'NN', 'O'), ('owners', 'NNS', 'O'), (')', ')', 'O'), ('include', 'VBP', 'O'), ('their', 'PRP$', 'O'), ('profits', 'NNS', 'O'), ('on', 'IN', 'O'), ('personal', 'JJ', 'O'), ('income', 'NN', 'O'), ('tax', 'NN', 'O'), ('returns', 'NNS', 'O'), ('instead', 'RB', 'O'), ('of', 'IN', 'O'), ('paying', 'VBG', 'O'), ('as', 'IN', 'O'), ('corporations', 'NNS', 'O'), ('.', '.', 'O'), ('Trump', 'NNP', 'B-per'), ('is', 'VBZ', 'I-per'), ('presumably', 'RB', 'O'), ('among', 'IN', 'O'), ('these', 'DT', 'O'), (',', ',', 'O'), ('although', 'IN', 'O'), ('it', 'PRP', 'O'), ("'", "''", 'O'), ('s', 'RBR', 'B-eve'), ('impossible', 'JJ', 'B-tim'), ('to', 'TO', 'O'), ('know', 'VB', 'O'), ('since', 'IN', 'O'), ('he', 'PR

[]


[('Under', 'IN', 'O'), ('the', 'DT', 'O'), ('law', 'NN', 'O'), (',', ',', 'O'), ('which', 'WDT', 'O'), ('the', 'DT', 'O'), ('IRS', 'NNP', 'B-org'), ('clarified', 'VBD', 'O'), ('in', 'IN', 'O'), ('January', 'NNP', 'B-tim'), (',', ',', 'I-tim'), ('certain', 'JJ', 'O'), ('types', 'NNS', 'O'), ('of', 'IN', 'O'), ('business', 'NN', 'O'), ('owners', 'NNS', 'O'), ('get', 'VBP', 'O'), ('a', 'DT', 'O'), ('20', 'CD', 'O'), ('%', 'NN', 'O'), ('tax', 'NN', 'O'), ('deduction', 'NN', 'B-tim'), ('.', '.', 'O'), ('Doctors', 'NNS', 'B-gpe'), ('and', 'CC', 'O'), ('lawyers', 'NNS', 'O'), ('lost', 'VBD', 'O'), ('out', 'RP', 'O'), ('on', 'IN', 'O'), ('that', 'DT', 'O'), ('exemption', 'NN', 'O'), (',', ',', 'O'), ('however', 'RB', 'O'), (',', ',', 'O'), ('along', 'IN', 'O'), ('with', 'IN', 'O'), ('Major', 'NNP', 'B-org'), ('League', 'NNP', 'I-org'), ('Baseball', 'NNP', 'I-org'), ('team', 'NN', 'I-org'), ('owners', 'NNS', 'B-tim'), ('.', '.', 'O')]


[]


[('Winning', 'VBG', 'B-per'), (':', ':', 'O'), ('Red', 'JJ', 'B-gpe'), ('state', 'NN', 'I-gpe'), ('filers', 'NNS', 'O'), ('who', 'WP', 'O'), ('depend', 'VBP', 'O'), ('on', 'IN', 'O'), ('refunds', 'NNS', 'O')]


[]


[('According', 'VBG', 'O'), ('to', 'TO', 'O'), ('preliminary', 'JJ', 'O'), ('data', 'NNS', 'O'), ('from', 'IN', 'O'), ('H', 'NNP', 'B-geo'), ('&', 'CC', 'I-geo'), ('R', 'NNP', 'B-per'), ('Block', 'NNP', 'I-per'), (',', ',', 'O'), ('it', 'PRP', 'O'), ('is', 'VBZ', 'O'), ('mostly', 'RB', 'O'), ('red', 'JJ', 'O'), ('states', 'NNS', 'O'), (',', ',', 'O'), ('those', 'DT', 'O'), ('that', 'WDT', 'O'), ('voted', 'VBD', 'O'), ('for', 'IN', 'O'), ('Trump', 'NNP', 'B-tim'), ('in', 'IN', 'I-tim'), ('2016', 'CD', 'B-tim'), (',', ',', 'O'), ('who', 'WP', 'O'), ('are', 'VBP', 'O'), ('getting', 'VBG', 'O'), ('the', 'DT', 'O'), ('largest', 'JJS', 'O'), ('bump', 'NN', 'O'), ('in', 'IN', 'O'), ('tax', 'NN', 'O'), ('refunds', 'NNS', 'O'), ('.', '.', 'O')]


[]


[('Losing', 'VBG', 'B-per'), (':', ':', 'I-per'), ('Blue', 'NNP', 'B-gpe'), ('state', 'NN', 'I-gpe'), ('filers', 'NNS', 'O'), ('who', 'WP', 'O'), ('depend', 'VBP', 'O'), ('on', 'IN', 'O'), ('refunds', 'NNS', 'O')]


[]


[('That', 'DT', 'B-per'), ('H', 'NNP', 'I-per'), ('&', 'CC', 'I-org'), ('R', 'NNP', 'I-org'), ('Block', 'NNP', 'I-org'), ('preliminary', 'JJ', 'I-org'), ('data', 'NN', 'O'), ('shows', 'NNS', 'O'), ('that', 'WDT', 'O'), ('every', 'DT', 'O'), ('one', 'CD', 'O'), ('of', 'IN', 'O'), ('the', 'DT', 'O'), ('states', 'NNS', 'O'), ('where', 'WRB', 'O'), ('refunds', 'NNS', 'O'), ('are', 'VBP', 'O'), ('shrinking', 'VBG', 'O'), ('is', 'VBZ', 'O'), ('blue', 'JJ', 'O'), ('.', '.', 'O'), ('Of', 'IN', 'O'), ('course', 'NN', 'I-tim'), (',', ',', 'O'), ('experts', 'NNS', 'O'), ('say', 'VBP', 'O'), ('you', 'PRP', 'O'), ('should', 'MD', 'O'), ('aim', 'VB', 'O'), ('to', 'TO', 'O'), ('have', 'VB', 'O'), ('no', 'DT', 'O'), ('refund', 'NN', 'O'), ('and', 'CC', 'O'), ('no', 'DT', 'O'), ('tax', 'NN', 'O'), ('bill', 'NN', 'O'), ('on', 'IN', 'O'), ('tax', 'NN', 'O'), ('day', 'NN', 'O'), ('.', '.', 'O'), ('But', 'CC', 'O'), ('a', 'DT', 'O'), ('lot', 'NN', 'O'), ('of', 'IN', 'O'), ('Americans', 'NNPS', 'B-gpe'), ('

[]


[('In', 'IN', 'O'), ('the', 'DT', 'O'), ('preliminary', 'JJ', 'B-org'), ('H', 'NNP', 'B-tim'), ('&', 'CC', 'I-tim'), ('R', 'NNP', 'I-tim'), ('Block', 'NNP', 'I-org'), ('data', 'NNS', 'I-org'), (',', ',', 'O'), ('some', 'DT', 'O'), ('of', 'IN', 'O'), ('the', 'DT', 'O'), ('states', 'NNS', 'O'), ('with', 'IN', 'O'), ('the', 'DT', 'O'), ('largest', 'JJS', 'O'), ('decreases', 'NNS', 'O'), ('in', 'IN', 'O'), ('tax', 'NN', 'O'), ('liability', 'NN', 'O'), ('are', 'VBP', 'O'), ('blue', 'JJ', 'O'), ('states', 'NNS', 'O'), ('with', 'IN', 'O'), ('high', 'JJ', 'O'), ('state', 'NN', 'O'), ('and', 'CC', 'O'), ('local', 'JJ', 'O'), ('taxes', 'NNS', 'O'), (',', ',', 'O'), ('like', 'IN', 'O'), ('New', 'NNP', 'B-geo'), ('Jersey', 'NNP', 'I-geo'), (',', ',', 'I-org'), ('California', 'NNP', 'B-geo'), ('and', 'CC', 'O'), ('Massachusetts', 'NNP', 'B-geo'), ('.', '.', 'O'), ('Filers', 'NNS', 'B-tim'), ('in', 'IN', 'O'), ('these', 'DT', 'O'), ('high', 'JJ', 'O'), ('tax', 'NN', 'O'), ('states', 'NNS', 'O'), ('a

[]


[('Losing', 'VBG', 'B-gpe'), (':', ':', 'I-gpe'), ('People', 'NNS', 'B-nat'), ('who', 'WP', 'O'), ('thought', 'VBD', 'O'), ('a', 'DT', 'O'), ('tax', 'NN', 'O'), ('cut', 'NN', 'O'), ('would', 'MD', 'O'), ('mean', 'VB', 'O'), ('a', 'DT', 'O'), ('bigger', 'JJR', 'O'), ('refund', 'NN', 'O')]


[]


[('According', 'VBG', 'O'), ('to', 'TO', 'O'), ('preliminary', 'JJ', 'O'), ('2018', 'CD', 'B-tim'), ('tax', 'NN', 'I-tim'), ('filing', 'NN', 'O'), ('season', 'NN', 'O'), ('data', 'NNS', 'O'), ('from', 'IN', 'O'), ('H', 'NNP', 'B-geo'), ('&', 'CC', 'I-geo'), ('R', 'NNP', 'B-per'), ('Block', 'NNP', 'I-per'), (',', ',', 'O'), ('one', 'CD', 'O'), ('of', 'IN', 'O'), ('the', 'DT', 'O'), ('nation', 'NN', 'O'), ("'", 'POS', 'O'), ('s', 'NN', 'O'), ('largest', 'JJS', 'O'), ('tax', 'NN', 'O'), ('preparers', 'NNS', 'O'), (',', ',', 'O'), ('the', 'DT', 'O'), ('average', 'JJ', 'O'), ('tax', 'NN', 'O'), ('filing', 'NN', 'O'), ('they', 'PRP', 'O'), ("'", "''", 'B-art'), ('ve', 'NNS', 'B-eve'), ('processed', 'VBD', 'O'), ('so', 'RB', 'O'), ('far', 'RB', 'O'), ('shows', 'VBZ', 'O'), ('a', 'DT', 'O'), ('24', 'CD', 'B-tim'), ('.', '.', 'O'), ('9', 'CD', 'I-tim'), ('%', 'NN', 'I-tim'), ('drop', 'NN', 'O'), ('in', 'IN', 'O'), ('tax', 'NN', 'O'), ('liability', 'NN', 'O'), ('.', '.', 'O'), ('But', 'CC', 'O')

[]


[('The', 'DT', 'O'), ('government', 'NN', 'O'), ('paid', 'VBD', 'O'), ('$', '$', 'O'), ('6', 'CD', 'B-tim'), ('billion', 'CD', 'O'), ('less', 'RBR', 'O'), ('in', 'IN', 'O'), ('refunds', 'NNS', 'O'), ('through', 'IN', 'O'), ('March', 'NNP', 'B-tim'), ('29', 'CD', 'I-tim'), (',', ',', 'O'), ('according', 'VBG', 'O'), ('to', 'TO', 'O'), ('the', 'DT', 'O'), ('IRS', 'NNP', 'B-org'), (',', ',', 'O'), ('although', 'IN', 'O'), ('the', 'DT', 'O'), ('average', 'JJ', 'O'), ('refund', 'NN', 'O'), (',', ',', 'O'), ('according', 'VBG', 'O'), ('to', 'TO', 'O'), ('its', 'PRP$', 'O'), ('data', 'NNS', 'O'), (',', ',', 'O'), ('is', 'VBZ', 'O'), ('$', '$', 'O'), ('2', 'CD', 'B-tim'), (',', ',', 'I-tim'), ('873', 'CD', 'I-tim'), ('and', 'CC', 'O'), ('has', 'VBZ', 'O'), ('shrunk', 'NN', 'O'), ('less', 'JJR', 'O'), ('than', 'IN', 'O'), ('1', 'CD', 'O'), ('%', 'NN', 'O'), ('compared', 'VBN', 'O'), ('with', 'IN', 'O'), ('last', 'JJ', 'O'), ('year', 'NN', 'O'), ('.', '.', 'O')]


[]


[('Losing', 'VBG', 'B-gpe'), (':', ':', 'I-gpe'), ('People', 'NNS', 'B-nat'), ('who', 'WP', 'I-nat'), ('aren', 'VBP', 'B-nat'), ("'", "''", 'B-art'), ('t', 'NN', 'I-tim'), ('getting', 'VBG', 'O'), ('a', 'DT', 'O'), ('refund', 'NN', 'O'), ('but', 'CC', 'O'), ('maybe', 'RB', 'O'), ('thought', 'VBD', 'O'), ('they', 'PRP', 'O'), ('would', 'MD', 'O')]


[]


[('The', 'DT', 'O'), ('government', 'NN', 'O'), ('is', 'VBZ', 'O'), ('paying', 'VBG', 'O'), ('out', 'RP', 'O'), ('fewer', 'JJR', 'B-tim'), ('refunds', 'NNS', 'O'), ('this', 'DT', 'O'), ('year', 'NN', 'O'), ('under', 'IN', 'O'), ('the', 'DT', 'O'), ('new', 'JJ', 'O'), ('tax', 'NN', 'O'), ('law', 'NN', 'O'), (',', ',', 'O'), ('according', 'VBG', 'O'), ('to', 'TO', 'O'), ('preliminary', 'JJ', 'O'), ('IRS', 'NNP', 'B-org'), ('data', 'NN', 'O'), ('on', 'IN', 'O'), ('filings', 'NNS', 'O'), ('through', 'IN', 'O'), ('March', 'NNP', 'B-tim'), ('29', 'CD', 'I-tim'), ('.', '.', 'O'), ('There', 'EX', 'O'), ('have', 'VBP', 'O'), ('been', 'VBN', 'O'), ('2', 'CD', 'O'), ('.', '.', 'O'), ('2', 'CD', 'I-tim'), ('%', 'NN', 'I-tim'), ('fewer', 'JJR', 'I-tim'), ('refunds', 'NNS', 'I-tim'), ('than', 'IN', 'O'), ('last', 'JJ', 'O'), ('year', 'NN', 'O'), (',', ',', 'O'), ('according', 'VBG', 'O'), ('to', 'TO', 'O'), ('the', 'DT', 'O'), ('IRS', 'NNP', 'B-geo'), (',', ',', 'O'), ('but', 'CC', 'O'), ('only', 'R

[]


[('Winning', 'VBG', 'B-gpe'), (':', ':', 'I-gpe'), ('People', 'NNS', 'B-nat'), ('doing', 'VBG', 'O'), ('their', 'PRP$', 'O'), ('own', 'JJ', 'O'), ('taxes', 'NNS', 'O')]


[]


[('There', 'EX', 'O'), ('was', 'VBD', 'O'), ('a', 'DT', 'O'), ('2', 'CD', 'B-tim'), ('.', '.', 'O'), ('3', 'CD', 'B-tim'), ('%', 'NN', 'I-tim'), ('increase', 'NN', 'O'), ('in', 'IN', 'O'), ('the', 'DT', 'O'), ('number', 'NN', 'O'), ('of', 'IN', 'O'), ('e', 'JJ', 'O'), ('-', ':', 'O'), ('filed', 'VBN', 'O'), ('tax', 'NN', 'O'), ('returns', 'NNS', 'O'), ('self', 'PRP', 'B-tim'), ('-', ':', 'I-tim'), ('prepared', 'VBN', 'O'), ('by', 'IN', 'O'), ('the', 'DT', 'O'), ('filer', 'NN', 'O'), (',', ',', 'O'), ('according', 'VBG', 'O'), ('to', 'TO', 'O'), ('that', 'DT', 'O'), ('IRS', 'NNP', 'B-org'), ('data', 'NN', 'O'), ('from', 'IN', 'O'), ('March', 'NNP', 'B-tim'), ('29', 'CD', 'I-tim'), ('.', '.', 'O'), ('At', 'IN', 'O'), ('more', 'JJR', 'O'), ('than', 'IN', 'O'), ('358', 'CD', 'B-tim'), ('million', 'CD', 'I-tim'), (',', ',', 'O'), ('visits', 'NNS', 'O'), ('to', 'TO', 'O'), ('IRS', 'NNP', 'B-geo'), ('.', '.', 'O'), ('gov', 'NN', 'O'), ('are', 'VBP', 'O'), ('up', 'RB', 'O'), ('more', 'JJR', 'O

[]


[('Winning', 'VBG', 'B-gpe'), (':', ':', 'I-gpe'), ('People', 'NNS', 'O'), ('taking', 'VBG', 'O'), ('the', 'DT', 'O'), ('standard', 'JJ', 'O'), ('deduction', 'NN', 'O')]


[]


[('Taxes', 'NNS', 'B-gpe'), ('should', 'MD', 'O'), ('get', 'VB', 'O'), ('easier', 'JJR', 'O'), ('since', 'IN', 'O'), ('the', 'DT', 'O'), ('standard', 'JJ', 'O'), ('deduction', 'NN', 'O'), ('nearly', 'RB', 'O'), ('doubled', 'VBD', 'O'), ('to', 'TO', 'O'), ('$', '$', 'O'), ('12', 'CD', 'B-tim'), (',', ',', 'O'), ('200', 'CD', 'O'), ('for', 'IN', 'O'), ('individuals', 'NNS', 'O'), ('and', 'CC', 'O'), ('$', '$', 'O'), ('24', 'CD', 'B-tim'), (',', ',', 'I-tim'), ('400', 'CD', 'O'), ('for', 'IN', 'O'), ('married', 'JJ', 'B-tim'), ('couples', 'NNS', 'I-tim'), ('.', '.', 'O'), ('That', 'DT', 'O'), ('means', 'VBZ', 'O'), ('that', 'IN', 'O'), ('most', 'JJS', 'O'), ('Americans', 'NNPS', 'B-geo'), ('will', 'MD', 'O'), ('not', 'RB', 'O'), ('itemize', 'VB', 'O'), ('their', 'PRP$', 'O'), ('tax', 'NN', 'O'), ('returns', 'NNS', 'O'), ('and', 'CC', 'O'), ('that', 'DT', 'O'), ('caps', 'NNS', 'O'), ('on', 'IN', 'O'), ('state', 'NN', 'O'), ('and', 'CC', 'O'), ('local', 'JJ', 'O'), ('tax', 'NN', 'O'), ('ded

[]


[('Losing', 'VBG', 'B-per'), (':', ':', 'I-per'), ('Washington', 'NNP', 'B-geo'), (',', ',', 'O'), ('DC', 'NNP', 'B-geo'), (',', ',', 'O'), ('tax', 'NN', 'O'), ('filers', 'NNS', 'O')]


[]


[('The', 'DT', 'O'), ('capital', 'NN', 'O'), ('is', 'VBZ', 'O'), ('seeing', 'VBG', 'O'), ('the', 'DT', 'O'), ('largest', 'JJS', 'O'), ('average', 'JJ', 'O'), ('refund', 'NN', 'O'), ('drop', 'NN', 'O'), (',', ',', 'O'), ('at', 'IN', 'O'), ('6', 'CD', 'O'), ('.', '.', 'O'), ('1', 'CD', 'O'), ('%', 'NN', 'O'), ('.', '.', 'O'), ('It', 'PRP', 'O'), ('is', 'VBZ', 'O'), ('also', 'RB', 'O'), ('seeing', 'VBG', 'O'), ('the', 'DT', 'O'), ('smallest', 'JJS', 'O'), ('decrease', 'NN', 'O'), ('in', 'IN', 'O'), ('average', 'JJ', 'O'), ('tax', 'NN', 'O'), ('liability', 'NN', 'O'), (',', ',', 'O'), ('18', 'CD', 'O'), ('%', 'NN', 'O'), ('-', ':', 'O'), ('-', ':', 'O'), ('which', 'WDT', 'O'), ('is', 'VBZ', 'O'), ('indeed', 'RB', 'O'), ('a', 'DT', 'O'), ('cut', 'NN', 'O'), (',', ',', 'O'), ('but', 'CC', 'O'), ('the', 'DT', 'O'), ('smallest', 'JJS', 'O'), (',', ',', 'O'), ('on', 'IN', 'O'), ('average', 'NN', 'O'), (',', ',', 'O'), ('in', 'IN', 'O'), ('the', 'DT', 'O'), ('country', 'NN', 'O'), ('.', '.', 'O'

[]


[('Winning', 'VBG', 'B-gpe'), ('forever', 'NN', 'I-gpe'), (':', ':', 'I-tim'), ('Corporations', 'NNS', 'O')]


[]


[('They', 'PRP', 'O'), ('got', 'VBD', 'O'), ('a', 'DT', 'O'), ('massive', 'JJ', 'O'), ('rate', 'NN', 'O'), ('cut', 'NN', 'O'), (',', ',', 'O'), ('from', 'IN', 'O'), ('35', 'CD', 'O'), ('%', 'NN', 'O'), ('to', 'TO', 'O'), ('21', 'CD', 'O'), ('%', 'NN', 'O'), (',', ',', 'O'), ('starting', 'VBG', 'O'), ('in', 'IN', 'O'), ('2018', 'CD', 'B-tim'), ('that', 'IN', 'I-tim'), ("'", "''", 'I-tim'), ('s', 'NNS', 'I-tim'), ('permanently', 'RB', 'I-tim'), ('enshrined', 'VBN', 'O'), ('in', 'IN', 'O'), ('the', 'DT', 'O'), ('new', 'JJ', 'O'), ('law', 'NN', 'O'), ('.', '.', 'O')]


[]


[('Losing', 'VBG', 'B-per'), (':', ':', 'I-per'), ('The', 'DT', 'O'), ('US', 'NNP', 'B-org'), ('Treasury', 'NNP', 'O')]


In [8]:
# limitation of these datasets is that they are biased towards certain genres such as 
# GEO, ORG, PER, GPE, TIM due to the unbalanced porportion, thus the NER classifiers 
# often perform poorly when trained on these dataset and then tested on a other types 
# of text genres such as ART, EVE, NAT.

# As we can see from the output of the article above, it does not recognize the money, 
# and instead it recognizes as time since our dataset does not contain training label
# for date, one potential solution besides from making a new Tag category is that 
# we can hard code to make it learn that any numeric number after $ (dollar sign) to 
# be recognized as money.