In [1]:
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from string import punctuation

sw_indo = stopwords.words("indonesian") + list(punctuation)

# Import Data

In [3]:
df = pd.read_csv("data/kompas.csv")
df.head()

Unnamed: 0,teks
0,Ginandjar Tetap Ditahan. Jaksa Agung Dilaporka...
1,Jakarta Dikangkangi Para Preman\nKALAU tak pun...
2,Penyimpangan di Setpres Seolah Terjadi Sekaran...
3,"Dibayarkan, Rapel Kenaikan Gaji Pegawai Pos\nK..."
4,"Stop Kekerasan, Elite agar Duduk Bersama\nSeju..."


# Extract TFIDF

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [6]:
tfidf = TfidfVectorizer(ngram_range=(1,2), tokenizer=word_tokenize, stop_words=sw_indo)
tfidf_matrix = tfidf.fit_transform(df.teks)

  'stop_words.' % sorted(inconsistent))


# TFIDF Similarity -> Document Similarity

In [7]:
from sklearn.metrics.pairwise import cosine_similarity

In [9]:
sim = cosine_similarity(tfidf_matrix[0],tfidf_matrix)
sim

array([[1.        , 0.00858328, 0.01060043, ..., 0.00856287, 0.00677808,
        0.01513341]])

In [11]:
sim.argsort()

array([[ 932, 1131, 1593, ...,  215,  144,    0]])

In [14]:
df.teks[0][:200]

'Ginandjar Tetap Ditahan. Jaksa Agung Dilaporkan ke Polri\nKejaksaan Agung memutuskan untuk tetap menahan tersangka kasus korupsi, Ginandjar Kartasasmita, sampai batas waktu yang ditentukan KUHAP. Sedan'

In [15]:
df.teks[144][:200]

'Kejaksaan Agung Terbitkan Surat Penahanan Baru\nKejaksaan Agung (Kejagung) akhirnya menerbitkan surat perintah penahanan yang baru terhadap mantan Menteri Pertambangan dan Energi Ginandjar Kartasasmita'

In [16]:
df.teks[215][:200]

'Kuasa Hukum Ginandjar Bertahan di Rutan\nSejumlah kuasa hukum Ginandjar Kartasasmita hingga hari Selasa (17/4) pukul 22.00 masih bertahan di ruang tahanan (rutan) Kejaksaan Agung (Kejagung). Selasa pag'

In [17]:
df.teks[932][:200]

'Pusat Pengolahan Ikan Asin Lhokseumawe Terbakar\nPusat pengolahan ikan asin di kawasan Pasar Ikan Lhokseumawe (Aceh) terbakar bersama berton-ton stok ikan asin Sabtu (13/1) siang. Sedikitnya 25 gudang '

# Keyword Extraction 

In [18]:
vocab = tfidf.get_feature_names()
vocab[-10:]

['zuniga memilih',
 'zunnatul',
 'zunnatul mafruhah',
 'zurich',
 'zurich northholt',
 'zw',
 'zw suparman',
 'zw tim',
 'zx',
 'zx diserbu']

In [19]:
tfidf_matrix[0].toarray()

array([[0.02115058, 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.04703404, 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.03178814, 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.02201365, 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.00713016, 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]])

In [22]:
sorted_tfidf = tfidf_matrix[0].toarray()[0].argsort()
sorted_tfidf

array([274212, 365469, 365468, ..., 386379, 436652, 169219])

In [23]:
vocab[169219]

'ginandjar'

In [24]:
vocab[436652]

'putusan'

In [25]:
[vocab[idx] for idx in reversed(sorted_tfidf[-10:])]

['ginandjar',
 'putusan',
 'penahanan',
 'hukum ginandjar',
 'kuasa hukum',
 'rusman',
 'kejaksaan',
 'hakim rusman',
 'kuasa',
 '9 april']

In [32]:
def extract_keywords_tfidf(doc,tfidf, topk=10):
    matrix = tfidf.transform([doc])
    vocab = tfidf.get_feature_names()
    
    sorted_tfidf = sorted_tfidf = matrix[0].toarray()[0].argsort()
    return [vocab[idx] for idx in reversed(sorted_tfidf[-10:])]

In [33]:
berita1 = """
Bisnis.com, JAKARTA - Indeks Harga Saham Gabungan (IHSG) diperkirakan bakal menguat pada perdagangan hari ini, Senin (21/12/2020).Analis Samuel Sekuritas William Mamudi mengatakan posisi IHSG terakhir pada JUmat (18/12/2020) masih bertahan di level resisten 6.000. Adapapun IHSG naik 2,80 persen dan berada pada level 6.104,324 dari posisi 5.938,329 pada penutupan pekan lalu.
"Kami memperkirakan peluang untuk bullish momentum ini berlanjut, dengan target resisten berikut bisa perhatikan kisaran level 6.300," tulis William dalam laporan riset harian, Senin (21/12/2020).
Pada perdagangan hari ini, Samuel Sekuritas memberikan rekomendasi empat emiten, yakni PT Indofoood Sukses Makmur Tbk, PT Bank BRI Syariah Tbk, PT Astra International Tbk,dan PT Media Nusantara Citra Tbk.
Berikut ulasan singkat rekomendasi saham Samuel Sekuritas hari ini :
INDF uji level support 6.800, dan berpotensi untuk rebound. Jika level ini bertahan, peluang INDF kembali uji level resisten 7.400.
BRIS breakout pola triangle pada resisten 1.700, dan kembali uji all-time high. Candle bullish marubozu memberi indikasi masih akan berlanjutnya bullish sentiment.
ASII berhasil breakout dari level resisten 6.000, dan bergerak rally. Peluang untuk bullish sentiment berlanjut selama uptrend line tetap solid.
MNCN berhasil breakout dari level resisten 1.160, dan kini berkonsolidasi. Masih ada peluang untuk tekanan bullish ini berlanjut, dengan target resisten berikut bisa perhatikan di kisaran level 1.400.

"""

In [34]:
extract_keywords_tfidf(berita1, tfidf)

['resisten',
 'level',
 'bullish',
 'samuel sekuritas',
 'tbk',
 'samuel',
 'sekuritas',
 'ihsg',
 'peluang',
 'uji']