In [1]:
import re
import string
import nltk
from nltk.corpus import stopwords
from string import punctuation
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from termcolor import colored

In [2]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /Users/admin/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /Users/admin/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
text = """Polska, Rzeczpospolita Polska (RP) – państwo unitarne[9] w Europie Środkowej[10], położone między Morzem Bałtyckim na północy a Sudetami i Karpatami na południu, w przeważającej części w dorzeczu Wisły i Odry. Od północy Polska graniczy z Rosją (z jej obwodem królewieckim) i Litwą, od wschodu z Białorusią i Ukrainą, od południa ze Słowacją i Czechami, od zachodu z Niemcami[11]. Większość północnej granicy Polski wyznacza wybrzeże Morza Bałtyckiego. Polska Wyłączna Strefa Ekonomiczna na Bałtyku graniczy ze strefami Danii i Szwecji. Granice z Ukrainą, Białorusią i Rosją stanowią równocześnie granicę zewnętrzną NATO, Unii Europejskiej i strefy Schengen.

Powierzchnia administracyjna Polski wynosi 312 696 km²[c][4], co daje jej 69. miejsce na świecie[h][12] i 9. w Europie. Zamieszkana przez 37 766 327 ludzi (2022)[6], zajmuje pod względem liczby ludności 38. miejsce na świecie (wg danych za 2020 rok)[13], a 5. w Unii Europejskiej. Polska podzielona jest na 16 województw. Jej największym miastem i jednocześnie stolicą jest Warszawa. Inne metropolie to Kraków, Wrocław, Łódź, Poznań, Gdańsk, Szczecin. Największą polską aglomeracją policentryczną jest konurbacja górnośląska. Polska jest krajem jednolitym etnicznie – 97% ludności deklaruje narodowość polską.

Pierwszą historycznie potwierdzoną datą opisującą dzieje Polski jest rok 966, gdy książę Mieszko I, władca obszarów mieszczących się współcześnie w większości w granicach Polski, przyjął chrzest. W 1025 powstało Królestwo Polskie, którego pierwszym królem był syn Mieszka I, Bolesław I Chrobry. W 1385 Polska zawarła porozumienie z Wielkim Księstwem Litewskim, podpisując akt unii w Krewie; związek ten zacieśniła unia lubelska z 1569, w wyniku czego powstała Rzeczpospolita Obojga Narodów, jedno z największych i najludniejszych państw na mapie szesnasto- i siedemnastowiecznej Europy[14][15], które w latach 1618–1621, po rozejmie w Dywilinie, miało powierzchnię około 1 mln km². Jej ustrój wewnętrzny określany jest jako demokracja szlachecka, zaś monarchę wybierano w systemie tak zwanej wolnej elekcji. Rzeczpospolita przestała istnieć w wyniku III rozbioru, w 1795, kiedy to jej terytorium podzielone zostało między Prusy, Rosję i Austrię.

Po 123 latach, pod koniec I wojny światowej, w 1918, Polska odzyskała niepodległość (odrodzona wówczas państwowość nazywana jest II Rzecząpospolitą). 1 września 1939 atakiem Niemiec na Polskę rozpoczęła się II wojna światowa, zaś 17 września 1939 nastąpiła agresja ZSRR; wobec tego w październiku 1939 całe terytorium kraju znalazło się pod okupacją niemiecką i sowiecką. W wyniku II wojny światowej życie straciło ponad sześć milionów obywateli Polski[16][17]. Konferencja jałtańska w lutym 1945 umieściła Polskę w strefie wpływów ZSRR. W lipcu 1945 postanowieniami konferencji poczdamskiej granice Polski przesunięto na zachód (między linię Odry i Nysy Łużyckiej, a linię Curzona), przyłączając tzw. Ziemie Odzyskane w miejsce Kresów Wschodnich. Polska Rzeczpospolita Ludowa (nazwa państwa przyjęta w 1952) była państwem satelickim ZSRR w formule tzw. demokracji ludowej. Rządy w systemie monopartyjnym sprawowała komunistyczna Polska Partia Robotnicza, a następnie Polska Zjednoczona Partia Robotnicza (przy formalnym istnieniu ugrupowań satelickich). W okresie zimnej wojny PRL należała do Układu Warszawskiego, stanowiła zatem część tzw. bloku wschodniego."""

In [4]:
stop = set(stopwords.words('english'))
punctuation = list(punctuation)
stop.update(punctuation)

In [5]:
def process_data(text, stopwords_set):
    output = []
    for i in text.split():
        word = i.strip().lower()
        if word not in stopwords_set and word.isalpha():
            output.append(word)
    return " ".join(output)

In [6]:
text_processed = process_data(text, stop)

In [7]:
text_processed

'rzeczpospolita polska państwo w europie położone między morzem bałtyckim na północy sudetami karpatami na w przeważającej części w dorzeczu wisły od północy polska graniczy z rosją jej obwodem od wschodu z białorusią od południa ze słowacją od zachodu z większość północnej granicy polski wyznacza wybrzeże morza polska wyłączna strefa ekonomiczna na bałtyku graniczy ze strefami danii granice z białorusią rosją stanowią równocześnie granicę zewnętrzną unii europejskiej strefy powierzchnia administracyjna polski wynosi co daje jej miejsce na w zamieszkana przez ludzi zajmuje pod względem liczby ludności miejsce na świecie danych za w unii polska podzielona jest na jej największym miastem jednocześnie stolicą jest inne metropolie największą polską aglomeracją policentryczną jest konurbacja polska jest krajem jednolitym etnicznie ludności deklaruje narodowość pierwszą historycznie potwierdzoną datą opisującą dzieje polski jest rok gdy książę mieszko władca obszarów mieszczących się współcz

In [8]:
def tokenize_and_stem(data):
    stem_tokens = []
    stemmer = PorterStemmer()
    data_tokens = word_tokenize(data)
    for word in data_tokens:
        stem_word = stemmer.stem(word)
        stem_tokens.append(stem_word)
    return stem_tokens    

In [9]:
tokenized = tokenize_and_stem(text_processed)

In [10]:
fdist = nltk.FreqDist(tokenized)


In [11]:
fdist.most_common(5)

[('w', 27), ('polska', 10), ('na', 9), ('z', 7), ('jest', 7)]

In [12]:
def calculate_sentence(processed_sentence, most_common_words, distance):
    
    most_common_words_indexes = []
    for word in most_common_words:
        try:
            index = processed_sentence.index(word)
            most_common_words_indexes.append(index)
        except ValueError:
            pass
    most_common_words_indexes.sort()
    
    i = 1
    groups = []
    if len(most_common_words_indexes) > 0:
        group = [most_common_words_indexes[0]]
        while i < len(most_common_words_indexes):
            if most_common_words_indexes[i] - most_common_words_indexes[i-1] < distance:
                group.append(most_common_words_indexes[i])
            else:
                groups.append(group.copy())
                group = [most_common_words_indexes[i]]      
            i = i + 1
        groups.append(group)
           
    highest_score = 0
    for g in groups:
        common_words = len(g)
        all_words = g[-1]-g[0]+1
        score = 1.0*common_words**2/all_words
        if score > highest_score:
            highest_score = score
    
    return highest_score

In [13]:
def summarize(text, n_top_words,stopwords_set, distance, percent_of_most_important_sentences):
    sentences = nltk.sent_tokenize(text)
    processed_sentences = []
    for sent in sentences:
        processed_sentences.append(tokenize_and_stem(process_data(sent, stopwords_set)))
    words = []
    for sent in processed_sentences:
        for word in sent:
            words.append(word)
    fdist = nltk.FreqDist(words)
    most_common_words = [word[0] for word in fdist.most_common(n_top_words)]
    sentence_scores = [] 
    i = 0
    for sent in processed_sentences:
        score = calculate_sentence(sent, most_common_words, distance)
        sentence_scores.append((i,score))
        i = i + 1
    
    n = int(percent_of_most_important_sentences/100 * len(sentences))
    sentence_scores = sorted(sentence_scores, key=lambda s: s[1], reverse=True)[0:n]
    most_important_sentences_indexes = [score[0] for score in sentence_scores]
    return most_important_sentences_indexes
    

In [14]:
indexes = summarize(text, 5, stop, 4, 30)

i = 0
for sent in nltk.sent_tokenize(text):
    if i in indexes:
        print(colored(sent, 'yellow'))
    else:
        print(colored(sent, 'black'))
    i = i + 1

[33mPolska, Rzeczpospolita Polska (RP) – państwo unitarne[9] w Europie Środkowej[10], położone między Morzem Bałtyckim na północy a Sudetami i Karpatami na południu, w przeważającej części w dorzeczu Wisły i Odry.[0m
[33mOd północy Polska graniczy z Rosją (z jej obwodem królewieckim) i Litwą, od wschodu z Białorusią i Ukrainą, od południa ze Słowacją i Czechami, od zachodu z Niemcami[11].[0m
[30mWiększość północnej granicy Polski wyznacza wybrzeże Morza Bałtyckiego.[0m
[33mPolska Wyłączna Strefa Ekonomiczna na Bałtyku graniczy ze strefami Danii i Szwecji.[0m
[30mGranice z Ukrainą, Białorusią i Rosją stanowią równocześnie granicę zewnętrzną NATO, Unii Europejskiej i strefy Schengen.[0m
[33mPowierzchnia administracyjna Polski wynosi 312 696 km²[c][4], co daje jej 69. miejsce na świecie[h][12] i 9. w Europie.[0m
[30mZamieszkana przez 37 766 327 ludzi (2022)[6], zajmuje pod względem liczby ludności 38. miejsce na świecie (wg danych za 2020 rok)[13], a 5. w Unii Europejskiej.[