# Text summarization (Spacy, RNN, BERT)

## 1. Simple method - using Spacy

In [83]:
import spacy
from spacy.lang.en.stop_words import STOP_WORDS
import string

stopwords = list(STOP_WORDS)

In [55]:
abstract = 'Prosecutors investigating theft of $750,000 from William Floyd School District in Suffolk County, NY, explore relationships between school officials and local Republican organization in town of Brookhaven. received tip from Fred Towle, former county legislator convicted of bribery in 2003. James Wright, retired district treasurer, has been charged with stealing $750,000 from payroll account. residents familiar with local politics say that school board members have been influential in Republican politics for years (M)'
lead_paragraph = ' Suffolk County prosecutors investigating how more than $750,000 was taken from the William Floyd School District have begun to explore relationships between school officials and local Republican organizations, a spokesman for the district attorney said Wednesday. ''It\'s a school district that does have some political coloring,'' said Bob Clifford, a spokesman for Thomas Spota, a Democrat and the Suffolk district attorney. \'\'They\'re definitely looking at it.'''

In [56]:
nlp = spacy.load('en')

In [57]:
#transform texts into nlp spacy format
doc_a = nlp(abstract + ' ' + lead_paragraph)

In [58]:
#tokenize the document
doc_a_tokenized = [token.text.lower() for token in doc_a if not (token.text in stopwords or token.text in string.punctuation)]

In [59]:
#build word frequency table as a vocabulary

vocab = {}
for word in doc_a_tokenized:
    if word not in stopwords:
        if word not in vocab.keys():
            vocab[word] = 1
        else:
            vocab[word] +=1

In [60]:
print(vocab)

{'prosecutors': 2, 'investigating': 2, 'theft': 1, '750,000': 3, 'william': 2, 'floyd': 2, 'school': 6, 'district': 6, 'suffolk': 3, 'county': 3, 'ny': 1, 'explore': 2, 'relationships': 2, 'officials': 2, 'local': 3, 'republican': 3, 'organization': 1, 'town': 1, 'brookhaven': 1, 'received': 1, 'tip': 1, 'fred': 1, 'towle': 1, 'legislator': 1, 'convicted': 1, 'bribery': 1, '2003': 1, 'james': 1, 'wright': 1, 'retired': 1, 'treasurer': 1, 'charged': 1, 'stealing': 1, 'payroll': 1, 'account': 1, 'residents': 1, 'familiar': 1, 'politics': 2, 'board': 1, 'members': 1, 'influential': 1, 'years': 1, 'm': 1, ' ': 1, 'taken': 1, 'begun': 1, 'organizations': 1, 'spokesman': 2, 'attorney': 2, 'said': 2, 'wednesday': 1, 'political': 1, 'coloring': 1, 'bob': 1, 'clifford': 1, 'thomas': 1, 'spota': 1, 'democrat': 1, 'definitely': 1, 'looking': 1}


In [61]:
max_freq = max(vocab.values())
max_freq

6

In [62]:
for word in vocab.keys():
    vocab[word] = vocab[word]/max_freq

In [63]:
print(vocab)

{'prosecutors': 0.3333333333333333, 'investigating': 0.3333333333333333, 'theft': 0.16666666666666666, '750,000': 0.5, 'william': 0.3333333333333333, 'floyd': 0.3333333333333333, 'school': 1.0, 'district': 1.0, 'suffolk': 0.5, 'county': 0.5, 'ny': 0.16666666666666666, 'explore': 0.3333333333333333, 'relationships': 0.3333333333333333, 'officials': 0.3333333333333333, 'local': 0.5, 'republican': 0.5, 'organization': 0.16666666666666666, 'town': 0.16666666666666666, 'brookhaven': 0.16666666666666666, 'received': 0.16666666666666666, 'tip': 0.16666666666666666, 'fred': 0.16666666666666666, 'towle': 0.16666666666666666, 'legislator': 0.16666666666666666, 'convicted': 0.16666666666666666, 'bribery': 0.16666666666666666, '2003': 0.16666666666666666, 'james': 0.16666666666666666, 'wright': 0.16666666666666666, 'retired': 0.16666666666666666, 'treasurer': 0.16666666666666666, 'charged': 0.16666666666666666, 'stealing': 0.16666666666666666, 'payroll': 0.16666666666666666, 'account': 0.166666666

Work with sentences:

In [64]:
sents = [sent for sent in doc_a.sents]

In [71]:
#scoring sentences using word frequency above
sent_score = {}
for sent in sents:
    for word in sent:
        if word.text.lower() in vocab.keys():
            if sent not in sent_score.keys():
                sent_score[sent] = 1
            else:
                sent_score[sent] += 1 

In [74]:
max_sent_score = max(sent_score.values())
for sent in sent_score.keys():
    sent_score[sent] = sent_score[sent]/max_sent_score

In [82]:
for sent in sent_score.keys():
    if sent_score[sent] == sorted(sent_score.values(), reverse = True)[0]:
        print(sent)

Suffolk County prosecutors investigating how more than $750,000 was taken from the William Floyd School District have begun to explore relationships between school officials and local Republican organizations, a spokesman for the district attorney said Wednesday.
