# **Crawling Data Twitter**

Crawling data adalah sebuah proses pengambilan data dari suatu sumber internet. Dalam hal ini saya mencrawling data dari twitter menggunakan twint. Data yang saya peroleh adalah sebanyak 80 data. Data tersebut saya saring sehingga menjadi 79 data karena terdapat beberapa data yang tidak penting. Data tersebut merupakan tweet dari tanggal 12-10-2022.



In [None]:
%%capture
!git clone --depth=1 https://github.com/twintproject/twint.git
%cd twint
!pip3 install . -r requirements.txt

In [None]:
%%capture
!pip install nest-asyncio #install library nest-asyncio

In [None]:
%%capture
!pip install aiohttp==3.7.0 #install aiohttp

## Twint

Twint adalah alat scraping data Twitter yang canggih ditulis dengan Python yang memungkinkan untuk scrapping Tweet dari profil Twitter tanpa menggunakan API Twitter. Twint menggunakan operator pencarian Twitter untuk scrapping Tweet dari pengguna tertentu, scrapping Tweet yang berkaitan dengan topik tertentu, tagar & tren, atau memilah informasi sensitif dari Tweet seperti email dan nomor telepon.

In [None]:
import nest_asyncio # import nest_asyncio
nest_asyncio.apply() #digunakan sekali untuk mengaktifkan tindakan serentak dalam notebook jupyter.
import twint #untuk import twint

## Hasil Crawling Data Twitter

In [None]:
c = twint.Config() #membuat variable c
c.Search = 'tragedi kanjuruhan' #key word untuk data
c.Pandas = True
c.Limit = 80 #mencrawl 80 data
twint.run.Search(c) #run

1579994741818593281 2022-10-12 00:37:55 +0000 <kaltenglima> Polri Beberkan Penyebab Korban Tragedi Kanjuruhan Meninggal   https://t.co/BeVo2U0gvU
1579994667944333312 2022-10-12 00:37:38 +0000 <penjagadapur> tuan jokowi, mengapa sampeyan tidak meminta maaf dan menystakan bertanggung jawab kepada ratusan korban mati dan atau luka luka dalam Tragedi Kanjuruhan?#dimanarasakemanusiaansampeyan?!
1579994545395093505 2022-10-12 00:37:09 +0000 <ZunanArfian> Kapolres Malang AKBP Putu Kholis Aryana duduk bersimpuh di depan pintu masuk pemeriksaan tiket, memanjatkan doa bagi korban Tragedi Kanjuruhan, di Stadion Kanjuruhan, Kabupaten Malang, Selasa (11/10/2022) siang. Hal ini dilakukan di sela-sela kunjungannya ke Stadion Kanjuruhan  https://t.co/WAa03qGnNN
1579994530660896768 2022-10-12 00:37:05 +0000 <Athaya_Abida> Kalangan industri komersialisasi olahraga nasional memuji hasil lobi @erickthohir ke FIFA yang membuat federasi sepak bola internasional itu urung memberikan sanksi berat kepada Indon

In [None]:
Tweets_df = twint.storage.panda.Tweets_df
Tweets_df["tweet"].to_csv("kanjuruhann.csv") #menyimpan ke kanjuruhan.csv

## **Preposesing**

Preprocessing adalah tahap untuk "membersihkan data". data - data tersebut dibersihkan sehingga menjadi data yang bagus untuk diolah.

### **Install library**

In [None]:
%%capture
!pip install numpy #untuk install numpy

In [None]:
%%capture
!pip install pandas #untuk install pandas

In [None]:
%%capture
!pip install nltk #untuk install nltk

In [None]:
%%capture
!pip install scikit-learn #untuk install scikit-learn

### **Import Library yang digunakan**



In [None]:
import numpy as np #import numpy
#Library untuk mengelola data dalam Dataframe
import pandas as pd

#Lbrary untuk Preprocessing
import nltk
nltk.download('punkt')
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize # tokenizing

#Untuk membuat vektor dan TFIDF
from sklearn.feature_extraction.text import TfidfTransformer, TfidfVectorizer, CountVectorizer

#Untuk melakukan proses SVD
from sklearn.decomposition import TruncatedSVD

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
Tweets_df = pd.read_csv("https://raw.githubusercontent.com/maulidhan190081/file/main/kanjuruhannn.csv") #mengambil data dari link

Tweets_df #print data

Unnamed: 0,tweet
0,Polri Beberkan Penyebab Korban Tragedi Kanjuru...
1,"tuan jokowi, mengapa sampeyan tidak meminta ma..."
2,Kapolres Malang AKBP Putu Kholis Aryana duduk ...
3,Kalangan industri komersialisasi olahraga nasi...
4,Klopun nanti liga jalan lagi dgn kapasitas 50%...
...,...
74,Korban Meninggal dalam Tragedi Kanjuruhan Bert...
75,Korban Meninggal dalam Tragedi Kanjuruhan Bert...
76,Presiden RI Joko Widodo akan membentuk tim khu...
77,"Kepala dinas kesehatan Kab. Malang Wiyanto : ""..."


### **Mengecilkan Semua Huruf**

In [None]:
Tweets_df['tweet']=Tweets_df['tweet'].str.replace(',', '') #menghilangkan koma
Tweets_df['tweet']=Tweets_df['tweet'].str.lower() #mengecilkan huruf
Tweets_df['tweet'] #print data kolom tweet

0     polri beberkan penyebab korban tragedi kanjuru...
1     tuan jokowi mengapa sampeyan tidak meminta maa...
2     kapolres malang akbp putu kholis aryana duduk ...
3     kalangan industri komersialisasi olahraga nasi...
4     klopun nanti liga jalan lagi dgn kapasitas 50%...
                            ...                        
74    korban meninggal dalam tragedi kanjuruhan bert...
75    korban meninggal dalam tragedi kanjuruhan bert...
76    presiden ri joko widodo akan membentuk tim khu...
77    kepala dinas kesehatan kab. malang wiyanto : "...
78    tgipf ungkap pengakuan lib : laga malam hari a...
Name: tweet, Length: 79, dtype: object

In [None]:
#Untuk menghapus angka
import re

#Untuk menghilangkan Punctuation
import string

### **Menghilangkan karakter spesial**

In [None]:
def remove_PTA_special(text):
    # remove tab, new line, ans back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")
    # remove non ASCII (emoticon, chinese word, .etc)
    text = text.encode('ascii', 'replace').decode('ascii')
    # remove mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
    # remove incomplete URL
    return text.replace("http://", " ").replace("https://", " ")
                
Tweets_df['tweet'] =Tweets_df['tweet'].apply(remove_PTA_special)

### **Menghilangkan Angka**

In [None]:
#remove number
def remove_number(text):
    return  re.sub(r"\d+", "", text)

Tweets_df['tweet'] = Tweets_df['tweet'].apply(remove_number)

### **Menghilangkan Tanda Baca**

In [None]:
#remove punctuation
def remove_punctuation(text):
    return text.translate(str.maketrans("","",string.punctuation))

Tweets_df['tweet'] = Tweets_df['tweet'].apply(remove_punctuation)

### **Menghilangkan Spasi Di Awal dan Akhir**

In [None]:
#remove whitespace leading & trailing
def remove_whitespace_LT(text):
    return text.strip()

Tweets_df['tweet'] = Tweets_df['tweet'].apply(remove_whitespace_LT)

### **Menjadikan 1 spasi**

In [None]:
#remove multiple whitespace into single whitespace
def remove_whitespace_multiple(text):
    return re.sub('\s+',' ',text)

Tweets_df['tweet'] = Tweets_df['tweet'].apply(remove_whitespace_multiple)

### **Menghapus Char**

In [None]:
# remove single char
def remove_singl_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

Tweets_df['tweet'] = Tweets_df['tweet'].apply(remove_singl_char)

### **Word Tokenize**

In [None]:
# NLTK word tokenize 
def word_tokenize_wrapper(text):
    return word_tokenize(text)

Tweets_df['tweet'] = Tweets_df['tweet'].apply(word_tokenize_wrapper)
Tweets_df['tweet']

0     [polri, beberkan, penyebab, korban, tragedi, k...
1     [tuan, jokowi, mengapa, sampeyan, tidak, memin...
2     [kapolres, malang, akbp, putu, kholis, aryana,...
3     [kalangan, industri, komersialisasi, olahraga,...
4     [klopun, nanti, liga, jalan, lagi, dgn, kapasi...
                            ...                        
74    [korban, meninggal, dalam, tragedi, kanjuruhan...
75    [korban, meninggal, dalam, tragedi, kanjuruhan...
76    [presiden, ri, joko, widodo, akan, membentuk, ...
77    [kepala, dinas, kesehatan, kab, malang, wiyant...
78    [tgipf, ungkap, pengakuan, lib, laga, malam, h...
Name: tweet, Length: 79, dtype: object

### **Stopwords**

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
#Mendapatkan stopword indonesia
list_stopwords = stopwords.words('indonesian')

#Menghapus Stopword dari list token
def stopwords_removal(words):
    return [word for word in words if word not in list_stopwords]
Tweets_df['tweet'] = Tweets_df['tweet'].apply(stopwords_removal)

Tweets_df['tweet']

0     [polri, beberkan, penyebab, korban, tragedi, k...
1     [tuan, jokowi, sampeyan, maaf, menystakan, ber...
2     [kapolres, malang, akbp, putu, kholis, aryana,...
3     [kalangan, industri, komersialisasi, olahraga,...
4     [klopun, liga, jalan, dgn, kapasitas, ya, pend...
                            ...                        
74    [korban, meninggal, tragedi, kanjuruhan, berta...
75    [korban, meninggal, tragedi, kanjuruhan, berta...
76    [presiden, ri, joko, widodo, membentuk, tim, k...
77    [kepala, dinas, kesehatan, kab, malang, wiyant...
78    [tgipf, pengakuan, lib, laga, malam, arema, fc...
Name: tweet, Length: 79, dtype: object

In [None]:
Tweets_df.to_csv('TextPreprocessing.csv')

In [None]:
dataTextPre = pd.read_csv('TextPreprocessing.csv')
vectorizer = CountVectorizer(min_df=1)
bag = vectorizer.fit_transform(dataTextPre['tweet'])

## **TF**

In [None]:
print(vectorizer.vocabulary_)

{'polri': 334, 'beberkan': 31, 'penyebab': 313, 'korban': 200, 'tragedi': 407, 'kanjuruhan': 162, 'meninggal': 260, 'tuan': 410, 'jokowi': 152, 'sampeyan': 357, 'maaf': 220, 'menystakan': 267, 'bertanggung': 47, 'ratusan': 345, 'mati': 230, 'luka': 217, 'kapolres': 165, 'malang': 225, 'akbp': 7, 'putu': 343, 'kholis': 186, 'aryana': 22, 'duduk': 94, 'bersimpuh': 44, 'pintu': 327, 'masuk': 227, 'pemeriksaan': 300, 'tiket': 403, 'memanjatkan': 237, 'doa': 91, 'stadion': 382, 'kabupaten': 158, 'selasa': 364, 'siang': 374, 'selasela': 365, 'kunjungannya': 205, 'kalangan': 160, 'industri': 134, 'komersialisasi': 194, 'olahraga': 285, 'nasional': 272, 'memuji': 245, 'hasil': 119, 'lobi': 214, 'fifa': 102, 'federasi': 101, 'sepak': 370, 'bola': 55, 'internasional': 135, 'urung': 419, 'sanksi': 358, 'berat': 33, 'indonesia': 132, 'paska': 292, 'klopun': 191, 'liga': 213, 'jalan': 145, 'dgn': 66, 'kapasitas': 163, 'ya': 433, 'pendapat': 305, 'pribadi': 337, 'sih': 376, 'ga': 104, 'klo': 190, 's

In [None]:
matrik_vsm=bag.toarray()
#print(matrik_vsm)
matrik_vsm.shape

(79, 436)

In [None]:
matrik_vsm[0]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [None]:
a=vectorizer.get_feature_names()



In [None]:
print(len(matrik_vsm[:,1]))
#dfb =pd.DataFrame(data=matrik_vsm,index=df,columns=[a])
dataTF =pd.DataFrame(data=matrik_vsm,index=list(range(1, len(matrik_vsm[:,1])+1, )),columns=[a])
dataTF

79


Unnamed: 0,aamiin,abang,ade,afinta,air,aja,ajak,akbp,akibat,akp,...,vs,warga,warganet,waspadai,widodo,wiyanto,ws,ya,yg,zurich
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
76,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
77,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,1,0
78,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0


## **KMeans**

K-Means Clustering adalah suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan unssupervised learning dan menggunakan metode yang mengelompokan data berbagai partisi.

K means clustering merupakan metode algoritma dasar, yang diterapkan sebagai berikut:

1. Menentukan jumlah cluster
2. Menentukan centroid awal
3. Menghitung jarak data dengan centroid
4. Menentukan anggota cluster
5. menghitung rata-rata centroid tiap cluster
6. Ulangi no 3-5 sampai data cluster tidak berubah

Rumus Euclidean Distance:

<img src="https://latex.codecogs.com/gif.latex?\left&space;[&space;\left&space;(&space;x,y&space;\right&space;),\left&space;(&space;a,b&space;\right&space;)&space;\right&space;]=\sqrt{\left&space;(&space;x-a&space;\right&space;)^{2}&plus;\left&space;(&space;y-b&space;\right&space;)^{2}}" title="\left [ \left ( x,y \right ),\left ( a,b \right ) \right ]=\sqrt{\left ( x-a \right )^{2}+\left ( y-b \right )^{2}}" /> 


In [None]:
from sklearn.cluster import KMeans

kmeans =KMeans(n_clusters=2)
kmeans=kmeans.fit(dataTF)
prediksi=kmeans.predict(dataTF)
centroids = kmeans.cluster_centers_
centroids



array([[ 4.05405405e-02,  1.35135135e-02,  1.11022302e-16,
         2.70270270e-02,  8.10810811e-02,  4.05405405e-02,
         1.35135135e-02,  1.35135135e-02,  2.70270270e-02,
         2.70270270e-02,  1.35135135e-02,  1.35135135e-02,
         2.70270270e-02,  1.35135135e-02,  1.35135135e-02,
         5.40540541e-02,  1.35135135e-02,  1.35135135e-02,
         5.40540541e-02,  1.35135135e-02,  2.77555756e-17,
         1.35135135e-02,  1.35135135e-02,  1.35135135e-02,
         1.35135135e-02,  1.35135135e-02,  5.40540541e-02,
         1.35135135e-02,  1.35135135e-02,  1.35135135e-02,
         1.35135135e-02,  1.35135135e-02,  1.35135135e-02,
         2.70270270e-02,  1.35135135e-02,  1.35135135e-02,
         1.35135135e-02,  1.35135135e-02,  1.35135135e-02,
         6.75675676e-02,  1.35135135e-02,  1.35135135e-02,
         1.35135135e-02,  1.35135135e-02,  1.35135135e-02,
         1.35135135e-02,  8.10810811e-02,  4.05405405e-02,
         2.70270270e-02,  1.35135135e-02,  1.35135135e-0

In [None]:
df= pd.DataFrame(prediksi)
df

Unnamed: 0,0
0,0
1,0
2,0
3,0
4,0
...,...
74,0
75,0
76,0
77,0


In [None]:
centroid = pd.DataFrame(centroids)
centroid

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,426,427,428,429,430,431,432,433,434,435
0,0.04054054,0.01351351,1.110223e-16,0.02702703,0.08108108,0.04054054,0.01351351,0.01351351,0.02702703,0.02702703,...,0.04054054,0.01351351,0.01351351,0.01351351,0.01351351,0.01351351,0.01351351,0.067568,0.1621622,0.01351351
1,-6.938894e-18,-1.734723e-18,1.6,-3.469447e-18,-1.387779e-17,-6.938894e-18,-1.734723e-18,-1.734723e-18,-3.469447e-18,-3.469447e-18,...,-6.938894e-18,-1.734723e-18,-1.734723e-18,-1.734723e-18,-1.734723e-18,-1.734723e-18,-1.734723e-18,0.0,-2.775558e-17,-1.734723e-18


# **Crawling Berita**

## **Install Library**

In [None]:
%%capture
!pip install scrapy
!pip install pandas
!pip install scikit-learn
!pip install --user -U nltk

!pip install scipy
!pip install networkx

## **Menghapus File Lama**

In [None]:
!rm -rf detik_scrape.py hasil.json && sleep 1

In [None]:
def parse(self, response):
        a = ""
        for paragraf in response.xpath('//div[contains(@class,"clearfix")]/p/text()').getall():
          a = a+" "+str(paragraf)
        item = {
            'judul' : response.xpath('//h1[contains(@class,"read__title")]/text()').get(),
            'konten' : a
        }

        yield item

In [None]:
%%writefile -a detik_scrape.py
import string
import scrapy
from scrapy import Request

#@markdown ---
#@markdown ### Masukkan url artikel detik.com :
artikel_url = "https://bola.kompas.com/read/2022/10/16/22362138/hasil-leeds-vs-arsenal-0-1-listrik-mengganggu-gunners-masih-nomor-1" #@param {type:"string"}
artikel_url = artikel_url+"?page=all"
#@markdown ---

class ptaUTM(scrapy.Spider):
    name = "Detik"
    start_urls = [
      artikel_url
      ]


    def parse(self, response):
        a = ""
        for paragraf in response.xpath('//div[contains(@class,"clearfix")]/p/text()').getall():
          a = a+" "+str(paragraf)
        item = {
            'judul' : response.xpath('//h1[contains(@class,"read__title")]/text()').get(),
            'konten' : a
        }

        yield item

Appending to detik_scrape.py


## **Scrapy**

In [None]:
# %%capture
!scrapy runspider detik_scrape.py -O hasil.json && sleep 2

2022-10-16 18:34:38 [scrapy.utils.log] INFO: Scrapy 2.6.3 started (bot: scrapybot)
2022-10-16 18:34:38 [scrapy.utils.log] INFO: Versions: lxml 4.9.1.0, libxml2 2.9.14, cssselect 1.1.0, parsel 1.6.0, w3lib 2.0.1, Twisted 22.8.0, Python 3.7.14 (default, Sep  8 2022, 00:06:44) - [GCC 7.5.0], pyOpenSSL 22.1.0 (OpenSSL 3.0.5 5 Jul 2022), cryptography 38.0.1, Platform Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic
2022-10-16 18:34:38 [scrapy.crawler] INFO: Overridden settings:
{'SPIDER_LOADER_WARN_ONLY': True}
2022-10-16 18:34:38 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2022-10-16 18:34:38 [scrapy.extensions.telnet] INFO: Telnet Password: 4ca1269b4da89380
2022-10-16 18:34:38 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats']
2022-10-16 18:34:3

## **Hasil**

In [None]:
import pandas as pd
pd.options.mode.chained_assignment = None
pd.options.display.max_colwidth = None
pd.options.display.max_columns = None
pd.options.display.max_rows = None
df_scrape = pd.read_json('hasil.json')
df_scrape

Unnamed: 0,judul,konten
0,"Hasil Leeds Vs Arsenal 0-1: Listrik Mengganggu, Gunners Masih Nomor 1","- Gol semata wayang mengantar menang 1-0 di markas Leeds United. Arsenal pun sukses mengamankan posisi di puncak klasemen Liga Inggris 2022-2023. Laga pekan ke-11 Premier League alias Liga Inggris 2022-2023 antara yang mentas di Elland Road, Minggu (16/10/2022), langsung diwarnai cerita meski baru berlangsung sekitar 23 detik. Wasit Chris Kavanagh terpaksa menghentikan laga Leeds vs Arsenal karena menemui masalah pada alat komunikasinya. Problem pada sang wasit merupakan buntut dari masalah kelistrikan di Stadion Elland Road. Wartawan Sky Sports, Keith Downie, menyebut ada pemadaman listrik lokal di seputaran Elland Road. Alhasil, wasit pun tak punya akses kepada teknologi Hawkeye dan VAR (Video Assistant Referee) yang krusial dalam menunjang kinerja mereka. Wasit kemudian memutuskan bahwa pertandingan ditunda sementara, sekitar 40 menit. Duel Leeds vs Arsenal akhirnya baru dimulai lagi pada jam 14.40 waktu setempat atau 20.40 WIB. Masalah listrik pada awal laga nyatanya tak mengganggu momentum Arsenal yang terus mampu menjaga tren positif mereka di Liga Inggris 2022-2023. Arsenal menekuk tuan rumah Leeds berkat gol Bukayo Saka pada menit ke-35. Gol Saka berawal dari keteledoran pemain Leeds, Rodrigo, dalam melepas operan lambung menyilang. Bola operan Rodrigo justru sampai ke kaki Saka yang berdiri sisi kiri pertahanan Leeds. Usai bekerja sama dengan Martin Odegaard, Saka melepaskan sepakan dari sudut sempit yang gagal dihalau Illan Meslier. Dominasi Arsenal meluntur pada babak kedua. Bahkan, tuan rumah Leeds sudah bisa menggetarkan jala gawang Arsenal semenit setelah turun minum. Cuma, gol Patrick Bamford dianulir karena dirinya lebih dulu melakukan pelanggaran sebelum membuat penyelesaian. Bamford lagi-lagi harus gigit jari pada menit ke-64 ketika melihat eksekusi penaltinya melebar dari gawang Arsenal. Kans menendang dari titik putih diberikan untuk Leeds setelah wasit Chris Kavanagh melakukan tinjauan VAR yang menegaskan William Saliba menyentuh bola dengan tangan. Leeds yang mengurung Arsenal pada babak kedua pada akhirnya tak mendapatkan apa-apa dan menderita kekalahan kandang pertama musim ini. Arsenal pun sukses memenangi sembilan dari 10 partai pertama mereka di Premier League musim ini. Statistik yang bisa menebalkan kepercayaan diri The Gunners. Sebab, empat tim terakhir yang melakukan itu, yakni Chelsea (2005-2006), Man City (2011-2012 dan 2017-2018), serta Liverpool 2019-2020 mampu melaju dan mengakhiri musim sebagai juara. LEEDS vs 0-1 1-Meslier; 25-Kristensen, 5-Koch, 6-Cooper, 21-Struijk; 12-Adams, 8-Marc Roca (10-Summerville 84'); 23-Sinisterra, 7-Aaronson, 11-Harrison (43-Klich 76'); 19-Rodrigo (9-Bamford 46'). 13-Klaesson, 2-Ayling, 3-Firpo, 14-Llorente, 30-Gelhardt, 42-Greenwood. Jesse Marsch. 1-Ramsdale; 4-White (3-Tierney 76'), 12-Saliba, 6-Gabriel, 18-Tomiyasu; 5-Partey, 34-Xhaka; 7-Saka (16-Holding 82'), 8-Odegaard (21-Fabio Vieira 73'), 11-Martinelli; 9-Gabriel Jesus (14-Nketiah 82'). 30-Turner, 17-Cedric, 23-Sambi Lokonga, 24-Nelson, 27-Marquinhos. Mikel Arteta. Dapatkan informasi dan insight pilihan redaksi Kompas.com"


## **Prepocessing**

In [None]:
import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize

df_pisahkalimat = df_scrape.copy()
df_pisahkalimat ["konten"][0] = sent_tokenize(df_pisahkalimat["konten"][0])

df_pisahkalimat = pd.DataFrame(df_pisahkalimat["konten"][0], columns=["kalimat"])
df_pisahkalimat

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Unnamed: 0,kalimat
0,- Gol semata wayang mengantar menang 1-0 di markas Leeds United.
1,Arsenal pun sukses mengamankan posisi di puncak klasemen Liga Inggris 2022-2023.
2,"Laga pekan ke-11 Premier League alias Liga Inggris 2022-2023 antara yang mentas di Elland Road, Minggu (16/10/2022), langsung diwarnai cerita meski baru berlangsung sekitar 23 detik."
3,Wasit Chris Kavanagh terpaksa menghentikan laga Leeds vs Arsenal karena menemui masalah pada alat komunikasinya.
4,Problem pada sang wasit merupakan buntut dari masalah kelistrikan di Stadion Elland Road.
5,"Wartawan Sky Sports, Keith Downie, menyebut ada pemadaman listrik lokal di seputaran Elland Road."
6,"Alhasil, wasit pun tak punya akses kepada teknologi Hawkeye dan VAR (Video Assistant Referee) yang krusial dalam menunjang kinerja mereka."
7,"Wasit kemudian memutuskan bahwa pertandingan ditunda sementara, sekitar 40 menit."
8,Duel Leeds vs Arsenal akhirnya baru dimulai lagi pada jam 14.40 waktu setempat atau 20.40 WIB.
9,Masalah listrik pada awal laga nyatanya tak mengganggu momentum Arsenal yang terus mampu menjaga tren positif mereka di Liga Inggris 2022-2023.


### **Case Folding**

In [None]:
import string
df_casefolding = df_pisahkalimat.copy()
#mengubah menjadi huruf kecil
df_casefolding['kalimat'] = df_casefolding['kalimat'].str.lower()

#menghapus tanda baca
tanda_baca = string.punctuation
tanda_baca = tanda_baca+"–"
for char in tanda_baca:
    df_casefolding['kalimat'] = df_casefolding['kalimat'].replace(r'[\%s]'%char," ", regex=True)

#menghapus angka
df_casefolding['kalimat'] = df_casefolding['kalimat'].replace(r'\d+',' ', regex=True)

#menghapus karakter kosong
df_casefolding['kalimat'] = df_casefolding['kalimat'].replace(r'\s+',' ', regex=True)
df_casefolding.head(5)

Unnamed: 0,kalimat
0,gol semata wayang mengantar menang di markas leeds united
1,arsenal pun sukses mengamankan posisi di puncak klasemen liga inggris
2,laga pekan ke premier league alias liga inggris antara yang mentas di elland road minggu langsung diwarnai cerita meski baru berlangsung sekitar detik
3,wasit chris kavanagh terpaksa menghentikan laga leeds vs arsenal karena menemui masalah pada alat komunikasinya
4,problem pada sang wasit merupakan buntut dari masalah kelistrikan di stadion elland road


### **Stopword**

In [None]:
import urllib.request, json
df_stopwords = df_casefolding.copy() 
with urllib.request.urlopen("https://raw.githubusercontent.com/smilesense/stopwords-id/master/stopwords-id.json") as list_stopwords:
    data_stopword = json.load(list_stopwords)

for i in data_stopword:
    df_stopwords['kalimat'] = df_stopwords['kalimat'].replace(r'\b%s\b'%i, '', regex=True)
df_stopwords['kalimat'] = df_stopwords['kalimat'].replace(r'\s+',' ', regex=True)

df_stopwords.head(5)

Unnamed: 0,kalimat
0,gol wayang mengantar menang markas leeds united
1,arsenal sukses mengamankan posisi puncak klasemen liga inggris
2,laga pekan premier league alias liga inggris mentas elland road minggu langsung diwarnai cerita detik
3,wasit chris kavanagh terpaksa menghentikan laga leeds vs arsenal menemui alat komunikasinya
4,problem sang wasit buntut kelistrikan stadion elland road


## **Vectorization**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
cv_matrix = cv.fit_transform(df_casefolding['kalimat'])
print ("Banyaknya kosa kata = ", len((cv.get_feature_names_out())))
print ("kosa kata = ", (cv.get_feature_names_out()))

Banyaknya kosa kata =  273
kosa kata =  ['aaronson' 'ada' 'adams' 'akhirnya' 'akses' 'alat' 'alhasil' 'alias'
 'antara' 'apa' 'arsenal' 'arteta' 'assistant' 'atau' 'awal' 'ayling'
 'babak' 'bahkan' 'bahwa' 'bamford' 'baru' 'bekerja' 'berawal' 'berdiri'
 'berkat' 'berlangsung' 'bisa' 'bola' 'bukayo' 'buntut' 'cedric' 'cerita'
 'chelsea' 'chris' 'city' 'com' 'cooper' 'cuma' 'dalam' 'dan' 'dapatkan'
 'dari' 'dengan' 'detik' 'di' 'dianulir' 'diberikan' 'dihalau' 'dimulai'
 'diri' 'dirinya' 'ditunda' 'diwarnai' 'dominasi' 'downie' 'duel' 'dulu'
 'eksekusi' 'elland' 'empat' 'fabio' 'firpo' 'gabriel' 'gagal' 'gawang'
 'gelhardt' 'gigit' 'gol' 'greenwood' 'gunners' 'harrison' 'harus'
 'hawkeye' 'holding' 'illan' 'informasi' 'inggris' 'ini' 'insight' 'itu'
 'jala' 'jam' 'jari' 'jesse' 'jesus' 'juara' 'justru' 'kaki' 'kandang'
 'kans' 'karena' 'kavanagh' 'ke' 'kedua' 'keith' 'kekalahan' 'kelistrikan'
 'kemudian' 'kepada' 'kepercayaan' 'keteledoran' 'ketika' 'kinerja' 'kiri'
 'klaesson' 'klasemen

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer
normal_matrix = TfidfTransformer().fit_transform(cv_matrix)
print(normal_matrix.toarray())
print(normal_matrix.T.toarray)

[[0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.13144322]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]]
<bound method _cs_matrix.toarray of <273x30 sparse matrix of type '<class 'numpy.float64'>'
	with 393 stored elements in Compressed Sparse Column format>>


## **CosineSimilarity**

In [None]:
import numpy as np
vektorkalimat=normal_matrix.toarray()
A=vektorkalimat[0]
B=vektorkalimat[1]
dot = np.dot(A, B)
norma = np.linalg.norm(A)
normb = np.linalg.norm(A)
cos = dot / (norma * normb)
cos

0.05375526916931975

## **Graph**

In [None]:
import networkx as nx
res_graph = normal_matrix * normal_matrix.T
print(res_graph)

  (0, 20)	0.04625432487523684
  (0, 9)	0.03802375854203431
  (0, 5)	0.04154833799049403
  (0, 4)	0.047234087661956775
  (0, 2)	0.03391361391728634
  (0, 1)	0.05375526916931975
  (0, 16)	0.059380142821154204
  (0, 23)	0.02830586713043562
  (0, 19)	0.026491109848695293
  (0, 18)	0.025359538556793976
  (0, 15)	0.032321813371309925
  (0, 12)	0.03323021354125225
  (0, 11)	0.10135088112187253
  (0, 10)	0.11479387636737028
  (0, 8)	0.03314685956439264
  (0, 3)	0.03341160973633267
  (0, 0)	1.0000000000000002
  (1, 19)	0.026105552987124896
  (1, 17)	0.027999786145075953
  (1, 15)	0.03185139529540133
  (1, 14)	0.052586287806575566
  (1, 10)	0.038682033120036534
  (1, 8)	0.03266443360271888
  (1, 3)	0.03292533054820006
  (1, 5)	0.04094363524717466
  :	:
  (23, 19)	0.018382636048230382
  (23, 18)	0.01759741929663127
  (23, 15)	0.02242866135156959
  (23, 10)	0.027238562492888946
  (23, 0)	0.02830586713043562
  (23, 13)	0.05347910091893982
  (23, 12)	0.07472305916733826
  (23, 11)	0.0779303932130771

In [None]:
nx_graph = nx.from_scipy_sparse_matrix(res_graph)

In [None]:
print('Banyaknya sisi {}'.format(nx_graph.number_of_edges()))

Banyaknya sisi 213


## **Page Rank**

In [None]:
ranks = nx.pagerank(nx_graph)
ranks

{0: 0.03070843637144739,
 1: 0.033443007371691126,
 2: 0.035750860757202615,
 3: 0.03951540235502335,
 4: 0.036715914645018694,
 5: 0.02750589155948044,
 6: 0.032521149093829596,
 7: 0.0270770517860237,
 8: 0.03453637448492946,
 9: 0.040317565016264725,
 10: 0.04415520728423537,
 11: 0.035142081506962984,
 12: 0.03444739999906083,
 13: 0.03061152484099299,
 14: 0.03231020721815317,
 15: 0.03187419862427246,
 16: 0.027687577611425877,
 17: 0.0354955973582644,
 18: 0.035572635823959364,
 19: 0.04229850373021833,
 20: 0.03786949829745302,
 21: 0.027255199180611107,
 22: 0.030142163582388137,
 23: 0.02890272367345239,
 24: 0.03333333333333333,
 25: 0.03333333333333333,
 26: 0.02719357771219365,
 27: 0.03333333333333333,
 28: 0.03333333333333333,
 29: 0.027616916782111325}

In [None]:
#@title Persentase Ringkasan
#@markdown ---
#@markdown ### Tentukan persentase ringkasan : total kalimat:
persentase_ringkasan = 50 #@param {type:"slider", min:50, max:90, step:10}
#@markdown ---

In [None]:
top_sentence={sentence:ranks[index] for index,sentence in enumerate(df_pisahkalimat["kalimat"].values)}

persentase = len(df_pisahkalimat["kalimat"])*persentase_ringkasan//100
print("Jumlah Kalimat pada Ringkasan : ",persentase)
top=dict(sorted(top_sentence.items(), key=lambda x: x[1], reverse=True)[:persentase])

Jumlah Kalimat pada Ringkasan :  15


## **Hasil**

In [None]:
ringkasan = ""
for sent in df_pisahkalimat["kalimat"].values:
    if sent in top.keys():
        ringkasan = ringkasan+" "+sent
ringkasan

' Arsenal pun sukses mengamankan posisi di puncak klasemen Liga Inggris 2022-2023. Laga pekan ke-11 Premier League alias Liga Inggris 2022-2023 antara   yang mentas di Elland Road, Minggu (16/10/2022), langsung diwarnai cerita meski baru berlangsung sekitar 23 detik. Wasit Chris Kavanagh terpaksa menghentikan laga Leeds vs Arsenal karena menemui masalah pada alat komunikasinya. Problem pada   sang wasit merupakan buntut dari masalah kelistrikan di Stadion Elland Road. Duel Leeds vs Arsenal akhirnya baru dimulai lagi pada jam 14.40 waktu setempat atau 20.40 WIB. Masalah listrik pada awal laga nyatanya tak mengganggu momentum Arsenal yang terus mampu menjaga tren positif mereka di Liga Inggris 2022-2023. Arsenal menekuk tuan rumah Leeds berkat gol Bukayo Saka pada menit ke-35. Gol Saka berawal dari keteledoran pemain Leeds, Rodrigo, dalam melepas operan lambung menyilang. Bola operan Rodrigo justru sampai ke kaki Saka yang berdiri sisi kiri pertahanan Leeds. Bamford lagi-lagi harus gigit