In [35]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

#importing libraries
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize, sent_tokenize
import bs4 as BeautifulSoup
import urllib.request  

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [36]:

#fetching the content from the URL
fetched_data = urllib.request.urlopen('https://fi.wikipedia.org/wiki/Juho_Kusti_Paasikivi')

article_read = fetched_data.read()

#parsing the URL content and storing in a variable
article_parsed = BeautifulSoup.BeautifulSoup(article_read,'html.parser')

#returning <p> tags
paragraphs = article_parsed.find_all('p')

article_content = ''

#looping through the paragraphs and adding them to the variable
for p in paragraphs:  
    article_content += p.text
    
print(article_content)

Juho Kusti Paasikivi (vuoteen 1887 Johan Gustaf Hellstén, 27. marraskuuta 1870 Koski Hl (syntymäkotikunta Tampere) – 14. joulukuuta 1956 Helsinki) oli suomalainen poliitikko, pankinjohtaja ja diplomaatti, joka toimi Suomen tasavallan seitsemäntenä presidenttinä vuosina 1946–1956. Aikaisemmin hän toimi senaattorina, kansanedustajana (1907–1909, 1910–1914[5]), lähettiläänä Tukholmassa (1936–1939) ja Moskovassa (1940–1941) sekä kolmen hallituksen pääministerinä (1918, 1944–1946). Edellämainittujen lisäksi Paasikivi toimi useissa muissa viroissa ja luottamustehtävissä. Paasikivi edusti ensin Suomalaista puoluetta ja myöhemmin Kansallista Kokoomusta. 
Paasikivi muistetaan erityisesti Suomen idän suhteissa poliittisen realismin painottajana ja Suomen sotien jälkeisen ulkopolitiikan eli niin sanotun Paasikiven linjan viitoittajana. Paasikiven ura Suomen politiikassa ehti kestää yli 50 vuotta.
Paasikiven ensimmäinen puoliso oli Anna Matilda Forsman (vuosina 1897–1931), toinen Allina ”Alli” Val

In [37]:
def _create_dictionary_table(text_string) -> dict:
   
    #removing stop words
    stop_words = set(stopwords.words("finnish"))
    
    words = word_tokenize(text_string)
    
    #reducing words to their root form
    stem = PorterStemmer()
    
    #creating dictionary for the word frequency table
    frequency_table = dict()
    for wd in words:
        wd = stem.stem(wd)
        if wd in stop_words:
            continue
        if wd in frequency_table:
            frequency_table[wd] += 1
        else:
            frequency_table[wd] = 1

    return frequency_table


def _calculate_sentence_scores(sentences, frequency_table) -> dict:   

    #algorithm for scoring a sentence by its words
    sentence_weight = dict()

    for sentence in sentences:
        sentence_wordcount = (len(word_tokenize(sentence)))
        sentence_wordcount_without_stop_words = 0
        for word_weight in frequency_table:
            if word_weight in sentence.lower():
                sentence_wordcount_without_stop_words += 1
                if sentence[:7] in sentence_weight:
                    sentence_weight[sentence[:7]] += frequency_table[word_weight]
                else:
                    sentence_weight[sentence[:7]] = frequency_table[word_weight]

        sentence_weight[sentence[:7]] = sentence_weight[sentence[:7]] / sentence_wordcount_without_stop_words

       

    return sentence_weight

def _calculate_average_score(sentence_weight) -> int:
   
    #calculating the average score for the sentences
    sum_values = 0
    for entry in sentence_weight:
        sum_values += sentence_weight[entry]

    #getting sentence average value from source text
    average_score = (sum_values / len(sentence_weight))

    return average_score

def _get_article_summary(sentences, sentence_weight, threshold):
    sentence_counter = 0
    article_summary = ''

    for sentence in sentences:
        if sentence[:7] in sentence_weight and sentence_weight[sentence[:7]] >= (threshold):
            article_summary += " " + sentence
            sentence_counter += 1

    return article_summary

import re
  
def cleanhtml(summary_results):
    cleanr = re.compile('\[.*?\]')
    cleantext = re.sub(cleanr, '', summary_results)
    return cleantext
  
  
def _run_article_summary(article):
    
    #creating a dictionary for the word frequency table
    frequency_table = _create_dictionary_table(article)

    #tokenizing the sentences
    sentences = sent_tokenize(article)

    #algorithm for scoring a sentence by its words
    sentence_scores = _calculate_sentence_scores(sentences, frequency_table)

    #getting the threshold
    threshold = _calculate_average_score(sentence_scores)

    #producing the summary
    article_summary = _get_article_summary(sentences, sentence_scores, 1.5 * threshold)

    return article_summary

if __name__ == '__main__':
    summary_results = _run_article_summary(article_content)
    print (cleanhtml(summary_results))
    #print(summary_results)

 Paasikivi edusti ensin Suomalaista puoluetta ja myöhemmin Kansallista Kokoomusta. Paasikivi muistetaan erityisesti Suomen idän suhteissa poliittisen realismin painottajana ja Suomen sotien jälkeisen ulkopolitiikan eli niin sanotun Paasikiven linjan viitoittajana. Paasikiven ura Suomen politiikassa ehti kestää yli 50 vuotta. Paasikiven ensimmäinen puoliso oli Anna Matilda Forsman (vuosina 1897–1931), toinen Allina ”Alli” Valve (vuosina 1934–1956). Alli ja J. K. Paasikiven avioliitto oli lapseton. Selin). (nykyään Hämeenkoski). Paasikiven vanhemmat asuivat Tampereella, mutta poika syntyi heidän kauppareissullaan Lahden markkinoille.  Yritys menestyi hyvin, ja Johan August teki kauppaa myös ympäröivällä maaseudulla. Opettajat olivat korkeatasoisia, ja Juho Kusti Paasikivi oli luokkansa priimus. Paasikivi liittyi yliopiston Hämäläis-Osakunnan jäseneksi kaksi viikkoa manifestin julkistamisen jälkeen. Paasikivi kohtasi maaliskuussa 1893 ruotsinkielisessä perheessä syntyneen Anna Forsmanin, 