In [5]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize, word_tokenize
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
import networkx as nx

In [6]:
# Step 1 : Read the text
with open("artikelcovid.txt", "r") as file:
    text = file.read()

In [7]:
print(text)

Penyebab, Gejala dan Pencegahan Virus Corona
Admin dinkes | 25 Januari 2021 | 250383 kali

Pengertian Virus Corona (COVID-19)

Infeksi coronavirus merupakan penyakit yang disebabkan oleh virus corona dan menimbulkan gejala utama berupa gangguan pernapasan. Penyakit ini menjadi sorotan karena kemunculannya di akhir tahun 2019 pertama kali di Wuhan, China. Lokasi kemunculannya pertama kali ini, membuat coronavirus juga dikenal dengan sebutan Wuhan virus.  

Selain China, coronavirus juga menyebar secara cepat ke berbagai negara lain, termasuk Jepang, Thailand, Jepang, Korea Selatan, bahkan hingga ke Amerika Serikat.

Penyebab Virus Corona (COVID-19)

Penyebab Corona virus merupakan virus single stranded RNA yang berasal dari kelompok Coronaviridae. Dinamakan coronavirus karena permukaannya yang berbentuk seperti mahkota (crown/corona).

Virus lain yang termasuk dalam kelompok yang serupa adalah virus yang menyebabkan Middle East Respiratory Syndrome (MERS-CoV) dan Severe Acute Respirator

In [8]:
# Step 2 : Tokenize the text
sentences = sent_tokenize(text)

In [9]:
# Step 3 : Remove stop words
stop_words = set(stopwords.words("indonesian"))
filtered_sentences = []
for sentence in sentences:
    words = word_tokenize(sentence)
    filtered_words = [w for w in words if w.lower() not in stop_words]
    filtered_sentence = " ".join(filtered_words)
    filtered_sentences.append(filtered_sentence)
    
print(filtered_sentences)

['Penyebab , Gejala Pencegahan Virus Corona Admin dinkes | 25 Januari 2021 | 250383 kali Pengertian Virus Corona ( COVID-19 ) Infeksi coronavirus penyakit disebabkan virus corona menimbulkan gejala utama gangguan pernapasan .', 'Penyakit sorotan kemunculannya 2019 kali Wuhan , China .', 'Lokasi kemunculannya kali , coronavirus dikenal sebutan Wuhan virus .', 'China , coronavirus menyebar cepat negara , Jepang , Thailand , Jepang , Korea Selatan , Amerika Serikat .', 'Penyebab Virus Corona ( COVID-19 ) Penyebab Corona virus virus single stranded RNA berasal kelompok Coronaviridae .', 'Dinamakan coronavirus permukaannya berbentuk mahkota ( crown/corona ) .', 'Virus kelompok virus menyebabkan Middle East Respiratory Syndrome ( MERS-CoV ) Severe Acute Respiratory Syndrome ( SARS-CoV ) silam .', ', virus corona Wuhan virus teridentifikasi manusia .', ', virus 2019 Novel Coronavirus 2019-nCoV .', 'Virus corona ditemukan hewan –seperti unta , ular , hewan ternak , kucing , kelelawar .', 'Manu

In [10]:
# Step 4 : Create a matrix of sentence similarity
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(filtered_sentences)
similarity_matrix = cosine_similarity(tfidf_matrix)

print(similarity_matrix)

[[1.         0.11204046 0.13084937 ... 0.0120642  0.06895311 0.12849952]
 [0.11204046 1.         0.40914951 ... 0.         0.         0.        ]
 [0.13084937 0.40914951 1.         ... 0.01096654 0.01421232 0.        ]
 ...
 [0.0120642  0.         0.01096654 ... 1.         0.06066893 0.06095497]
 [0.06895311 0.         0.01421232 ... 0.06066893 1.         0.0399758 ]
 [0.12849952 0.         0.         ... 0.06095497 0.0399758  1.        ]]


In [11]:
# Step 5 : Apply TextRank
nx_graph = nx.from_numpy_array(similarity_matrix)
scores = nx.pagerank(nx_graph)

print(scores)

{0: 0.03999649641508684, 1: 0.024655383897939028, 2: 0.023555484736159062, 3: 0.01693055189638984, 4: 0.0291849227404254, 5: 0.01871796147201732, 6: 0.019009862208941842, 7: 0.03277332618944102, 8: 0.02511855192486762, 9: 0.02052673664855478, 10: 0.02109065958497802, 11: 0.027097187935893025, 12: 0.02061946867819621, 13: 0.017891243732316153, 14: 0.024074368396238527, 15: 0.03507778918947327, 16: 0.03138462110427446, 17: 0.023823642998242994, 18: 0.04186472519941135, 19: 0.019388458375334, 20: 0.022377833521722755, 21: 0.01754831935120593, 22: 0.01652132484381893, 23: 0.03604919597069591, 24: 0.025194613913616954, 25: 0.018532636118768153, 26: 0.017583817692766596, 27: 0.04067888072122246, 28: 0.021144596337332153, 29: 0.03502198512318862, 30: 0.02406766199253151, 31: 0.02320369113641257, 32: 0.022371568744866274, 33: 0.019184451233414078, 34: 0.03947992082921792, 35: 0.022899049155740748, 36: 0.022406368975751434, 37: 0.01868851533927264, 38: 0.02113663404312277, 39: 0.023127491631150

In [12]:
# Step 6 : Select top N sentences
ranked_sentences = sorted(((scores[i],s) for i,s in enumerate(sentences)), reverse=True)

print(ranked_sentences)

[(0.04186472519941135, 'Diagnosis Virus Corona (COVID-19)\n\nInfeksi coronavirus umumnya diketahui melalui gejala dan pemeriksaan fisik yang dikeluhkan pasien.'), (0.04067888072122246, 'Komplikasi Virus Corona (COVID-19)\n\nPasien yang terinfeksi coronavirus dapat mengalami gejala gangguan pernapasan seperti pneumonia berat, seperti demam tinggi dan sesak napas.'), (0.03999649641508684, 'Penyebab, Gejala dan Pencegahan Virus Corona\nAdmin dinkes | 25 Januari 2021 | 250383 kali\n\nPengertian Virus Corona (COVID-19)\n\nInfeksi coronavirus merupakan penyakit yang disebabkan oleh virus corona dan menimbulkan gejala utama berupa gangguan pernapasan.'), (0.03947992082921792, 'Pencegahan Virus Corona (COVID-19)\n\nMeski gejala penyakit coronavirus menyerupai penyakit pernapasan lain seperti pneumonia atau influenza, sejauh ini belum ada vaksin yang dapat mencegah penularan penyakit coronavirus.'), (0.03604919597069591, 'Melalui pemeriksaan tersebut dapat diketahui apakah penyakit pasien diseb

In [13]:
# Step 7 : Print the summary
N = 2 # number of sentences in summary
summary = []
for i in range(N):
    summary.append(ranked_sentences[i][1])

In [14]:
print(" ".join(summary))

Diagnosis Virus Corona (COVID-19)

Infeksi coronavirus umumnya diketahui melalui gejala dan pemeriksaan fisik yang dikeluhkan pasien. Komplikasi Virus Corona (COVID-19)

Pasien yang terinfeksi coronavirus dapat mengalami gejala gangguan pernapasan seperti pneumonia berat, seperti demam tinggi dan sesak napas.
