# Extractive Single Document Summarization

---


**spaCy de_core_news_sm**:

*   German multi-task CNN trained on the TIGER and WikiNER corpora that assigns context-specific token vectors, POS tags, dependency parses and named entities
*   Source: https://spacy.io/models/de


---


**sklearn CountVectorizer**:

*   Converts a collection of text documents to a matrix of token counts
*   Source: https://scikit-learn.org/stable/modules/feature_extraction.html


---


**Hyperparameter**:

*   nlp: Can be replaced by a domain specific vocabulary
*   corpus: Define a large text that needs to be summarized
*   sorted_word_frequencies & mcw: Define the scope of top words
*   sentence_rank & top_sentences: Define the sentence length of the summary


---

In [13]:
# Imports
!pip install -U spacy
!pip install -U scikit-learn
!python -m spacy download de_core_news_sm

Requirement already up-to-date: spacy in /usr/local/lib/python3.6/dist-packages (2.3.2)
Requirement already up-to-date: scikit-learn in /usr/local/lib/python3.6/dist-packages (0.23.2)
Collecting de_core_news_sm==2.3.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/de_core_news_sm-2.3.0/de_core_news_sm-2.3.0.tar.gz (14.9MB)
[K     |████████████████████████████████| 14.9MB 668kB/s 
Building wheels for collected packages: de-core-news-sm
  Building wheel for de-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for de-core-news-sm: filename=de_core_news_sm-2.3.0-cp36-none-any.whl size=14907580 sha256=2cf6648479b55b54d06ad8503dcd7dbced86d25867c5671b49aad761b41b7bdb
  Stored in directory: /tmp/pip-ephem-wheel-cache-xyb6jk3_/wheels/db/f3/1e/0df0f27eee12bd1aaa94bcfef11b01eca62f90b9b9a0ce08fd
Successfully built de-core-news-sm
Installing collected packages: de-core-news-sm
Successfully installed de-core-news-sm-2.3.0
[38;5;2m✔ Download and installat

In [24]:
# Imports
import spacy
import de_core_news_sm

from sklearn.feature_extraction.text import CountVectorizer
from spacy.lang.de.stop_words import STOP_WORDS

from google.colab import drive
drive.mount("/content/drive")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [52]:
# Setup document
nlp = de_core_news_sm.load()

with open("/content/drive/My Drive/Colab Notebooks/test.txt", "r", encoding="utf-8") as f:
    text = " ".join(f.readlines())

doc = nlp(text)

print(doc)
print(type(doc))

Unter Studium (lateinisch studere „[nach etwas] streben, sich [um etwas] bemühen“) wird primär das wissenschaftliche Lernen und Forschen an Universitäten und anderen Hochschulen sowie diesen gleichgestellten Akademien verstanden. Zu den gleichgestellten Hochschulen zählen in Deutschland auch duale Hochschulen und Kunsthochschulen (die in Österreich seit 2005 als Universitäten gelten).
 
 Meist werden als Studium auch Bildungsgänge außerhalb der Hochschulen bezeichnet, vor allem die Aus- und Weiterbildung im tertiären Bildungsbereich an Berufs- bzw. Fachakademien. Für das Studium an Hochschulen ist die vorherige Immatrikulation (Einschreibung) erforderlich, die an gewisse Voraussetzungen gebunden ist.
 
 Umgangssprachlich wird der Begriff Studium heute aber auch für Ausbildungsgänge an Fachschulen, Berufsfachschulen oder an Fernschulen, Verwaltungs- und Wirtschaftsakademien und sonstigen Bildungseinrichtungen des quartären Bildungsbereichs verwendet.
 
 Ein Studium besteht unter anderem

In [53]:
# Setup corpus
corpus = [sentence.text.lower() for sentence in doc.sents]

print(corpus)

['unter studium (lateinisch studere „[nach etwas] streben, sich [um etwas] bemühen“) wird primär das wissenschaftliche lernen und forschen an universitäten und anderen hochschulen sowie diesen gleichgestellten akademien verstanden.', 'zu den gleichgestellten hochschulen zählen in deutschland auch duale hochschulen und kunsthochschulen (die in österreich seit 2005 als universitäten gelten).\n \n ', 'meist werden als studium auch bildungsgänge außerhalb der hochschulen bezeichnet, vor allem die aus- und weiterbildung im tertiären bildungsbereich an berufs- bzw. fachakademien.', 'für das studium an hochschulen ist die vorherige immatrikulation (einschreibung) erforderlich, die an gewisse voraussetzungen gebunden ist.\n \n ', 'umgangssprachlich wird der begriff studium heute aber auch für ausbildungsgänge an fachschulen, berufsfachschulen oder an fernschulen, verwaltungs- und wirtschaftsakademien und sonstigen bildungseinrichtungen des quartären bildungsbereichs verwendet.\n \n ', 'ein stu

In [54]:
# Setup count vectorizer
cv = CountVectorizer(stop_words=list(STOP_WORDS))
cv_fit = cv.fit_transform(corpus)

word_list = cv.get_feature_names();
count_list = cv_fit.toarray().sum(axis=0)
word_frequency = dict(zip(word_list, count_list))

print(word_frequency)

{'1999': 1, '2005': 1, 'abgefragt': 1, 'abitur': 1, 'abschluss': 1, 'abschlussprüfungen': 1, 'absolviert': 1, 'akademien': 1, 'aufbauenden': 1, 'aufgebaut': 1, 'ausbildungsgänge': 1, 'ausnahme': 1, 'außerhalb': 1, 'baccalaureus': 1, 'bachelor': 2, 'beginn': 1, 'begriff': 1, 'bemühen': 1, 'berufs': 1, 'berufsfachschulen': 1, 'besonderheit': 1, 'bestehen': 1, 'besteht': 1, 'besuch': 2, 'bewerbung': 1, 'bezeichnet': 1, 'bildung': 1, 'bildungsbereich': 1, 'bildungsbereichs': 1, 'bildungseinrichtungen': 1, 'bildungsgänge': 1, 'bologna': 1, 'bundes': 1, 'bzw': 1, 'clausus': 1, 'deutschland': 5, 'diplom': 1, 'direkt': 1, 'doktorat': 1, 'duale': 2, 'ebene': 1, 'eidgenössischen': 1, 'eingeflochten': 1, 'einschreibung': 1, 'erfolgt': 1, 'erforderlich': 1, 'ergänzt': 1, 'erhoben': 1, 'erwartet': 1, 'erworbene': 1, 'europäischen': 1, 'examensarbeit': 1, 'fachakademien': 1, 'fachhochschule': 1, 'fachhochschulreife': 1, 'fachschulen': 1, 'feldübungen': 1, 'fernschulen': 1, 'forschen': 1, 'fächern': 

In [55]:
# Get most common words
sorted_word_frequencies = sorted(word_frequency.values())

mcw = [word for word, freq 
       in word_frequency.items() 
       if freq in sorted_word_frequencies[-3:]]

print(mcw)

['deutschland', 'hochschulen', 'studium']


In [56]:
# Get relative word frequencies
highest_frequency = sorted_word_frequencies[-1]

for word in word_frequency.keys():
    word_frequency[word] = (word_frequency[word] / highest_frequency)

print(word_frequency)

{'1999': 0.08333333333333333, '2005': 0.08333333333333333, 'abgefragt': 0.08333333333333333, 'abitur': 0.08333333333333333, 'abschluss': 0.08333333333333333, 'abschlussprüfungen': 0.08333333333333333, 'absolviert': 0.08333333333333333, 'akademien': 0.08333333333333333, 'aufbauenden': 0.08333333333333333, 'aufgebaut': 0.08333333333333333, 'ausbildungsgänge': 0.08333333333333333, 'ausnahme': 0.08333333333333333, 'außerhalb': 0.08333333333333333, 'baccalaureus': 0.08333333333333333, 'bachelor': 0.16666666666666666, 'beginn': 0.08333333333333333, 'begriff': 0.08333333333333333, 'bemühen': 0.08333333333333333, 'berufs': 0.08333333333333333, 'berufsfachschulen': 0.08333333333333333, 'besonderheit': 0.08333333333333333, 'bestehen': 0.08333333333333333, 'besteht': 0.08333333333333333, 'besuch': 0.16666666666666666, 'bewerbung': 0.08333333333333333, 'bezeichnet': 0.08333333333333333, 'bildung': 0.08333333333333333, 'bildungsbereich': 0.08333333333333333, 'bildungsbereichs': 0.08333333333333333,

In [57]:
# Get top sentences
sentence_rank = {}

for sentence in doc.sents:
    for word in sentence :
        if word.text.lower() in word_frequency.keys():
            if sentence in sentence_rank.keys():
                sentence_rank[sentence] += word_frequency[word.text.lower()]

            else:
                sentence_rank[sentence] = word_frequency[word.text.lower()]

top_sentences = (sorted(sentence_rank.values())[::-1])[:3]

print(top_sentences)

[4.083333333333333, 3.166666666666667, 2.833333333333333]


In [58]:
# Generate summary
summary = []

for sentence, frequency in sentence_rank.items():
    if frequency in top_sentences:
        summary.append(sentence)

    else:
        continue

print(summary)

[Unter Studium (lateinisch studere „[nach etwas] streben, sich [um etwas] bemühen“) wird primär das wissenschaftliche Lernen und Forschen an Universitäten und anderen Hochschulen sowie diesen gleichgestellten Akademien verstanden., So liegt sie in Deutschland auf Länderebene, in der Schweiz liegt die Zuständigkeit mit Ausnahme der beiden Eidgenössischen Technischen Hochschulen auf kantonaler Ebene, in Österreich liegt die ganze Bildung in der Zuständigkeit des Bundes., Seit dem Beginn der Vereinheitlichung der europäischen Hochschulbildung im Rahmen des Bologna-Prozesses (seit 1999) unterscheidet man auch in Deutschland zwischen einem grundständigen Studium (Bachelor, Diplom, Magister, erstes Staatsexamen, Lizenziat, Baccalaureus/Bachelor) und einem darauf aufbauenden postgradualen Studium (Master).]


In [59]:
# Export summary
for sentence in summary:
    print(sentence, end=" ")

Unter Studium (lateinisch studere „[nach etwas] streben, sich [um etwas] bemühen“) wird primär das wissenschaftliche Lernen und Forschen an Universitäten und anderen Hochschulen sowie diesen gleichgestellten Akademien verstanden. So liegt sie in Deutschland auf Länderebene, in der Schweiz liegt die Zuständigkeit mit Ausnahme der beiden Eidgenössischen Technischen Hochschulen auf kantonaler Ebene, in Österreich liegt die ganze Bildung in der Zuständigkeit des Bundes. Seit dem Beginn der Vereinheitlichung der europäischen Hochschulbildung im Rahmen des Bologna-Prozesses (seit 1999) unterscheidet man auch in Deutschland zwischen einem grundständigen Studium (Bachelor, Diplom, Magister, erstes Staatsexamen, Lizenziat, Baccalaureus/Bachelor) und einem darauf aufbauenden postgradualen Studium (Master). 

# Neural Networks Based Automatic Text Summarization

**TBD**

*   TBD
*   TBD