# Import Library

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
from warnings import filterwarnings
filterwarnings('ignore')

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import re
from string import punctuation
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

sw_indo = stopwords.words('indonesian') +  list(punctuation)

# Import Data

In [2]:
df = pd.read_csv("data/kompas.csv")
df.head()

Unnamed: 0,teks
0,Ginandjar Tetap Ditahan. Jaksa Agung Dilaporka...
1,Jakarta Dikangkangi Para Preman\nKALAU tak pun...
2,Penyimpangan di Setpres Seolah Terjadi Sekaran...
3,"Dibayarkan, Rapel Kenaikan Gaji Pegawai Pos\nK..."
4,"Stop Kekerasan, Elite agar Duduk Bersama\nSeju..."


# Extract Features

In [3]:
tfidf = TfidfVectorizer(ngram_range=(1, 2), tokenizer=word_tokenize, stop_words=sw_indo)

In [4]:
tfidf_matrix = tfidf.fit_transform(df.teks)

In [5]:
vocab = tfidf.get_feature_names()
vocab[-10:]

['zuniga memilih',
 'zunnatul',
 'zunnatul mafruhah',
 'zurich',
 'zurich northholt',
 'zw',
 'zw suparman',
 'zw tim',
 'zx',
 'zx diserbu']

In [6]:
tfidf_matrix[0].toarray()[0]

array([0.02115058, 0.        , 0.        , ..., 0.        , 0.        ,
       0.        ])

In [7]:
sort_tfidf = tfidf_matrix[0].toarray()[0].argsort()
sort_tfidf

array([274212, 365469, 365468, ..., 386379, 436652, 169219], dtype=int64)

In [8]:
[vocab[idx] for idx in reversed(sort_tfidf[-10:])]

['ginandjar',
 'putusan',
 'penahanan',
 'hukum ginandjar',
 'kuasa hukum',
 'rusman',
 'kejaksaan',
 'hakim rusman',
 'kuasa',
 '9 april']

In [9]:
def extract_keyword(doc, tfidf, topk=10):
    matrix = tfidf.transform([doc])
    vocab = tfidf.get_feature_names()
    
    sort_tfidf = matrix[0].toarray()[0].argsort()
    return [vocab[idx] for idx in reversed(sort_tfidf[-topk:])]

In [10]:
text = '''
Namun independensi ini semakin lama semakin abu-abu. Kolom editorial New York Times yang dirilis beberapa waktu lalu menuliskan bahwa Super PAC perlahan mulai mengambilalih fungsi kampanye seperti pengangkatan tim sukses, pemasangan iklan politik, penyelenggaraan kampanye akbar, dll. Sebelumnya, fungsi ini dijalankan oleh tim kampanye bentukan kandidat. Jadi apakah Teman Ahok dikategorikan sebagai PAC atau Super PAC? Secara harafiah gerakan relawan ini tidak termasuk kategori manapun karena PAC maupun Super PAC tidak mengumpulkan KTP atau di AS disebut signatures untuk meloloskan kandidat yang didukung. Satu hal juga, Teman Ahok tidaklah melakukan penggalangan dana dalam rangka mendukung kampanye Gubernur DKI Jakarta Basuki Tjahaja Purnama. Seperti yang mereka nyatakan, gerakan relawan ini hanya menggalang dana dalam bentuk penjualan merchandise, tidak lebih untuk mendukung biaya operasional mereka. Namun jika kita melakukan komparasi, satu hal yang tidak terbantahkan adalah Teman Ahok secara terbuka menyatakan dukungan ke kandidat tertentu seperti fungsi kampanye politik yang dilakukan oleh PAC maupun Super PAC. Teman Ahok secara aktif mempromosikan Basuki baik secara lapangan maupun siber melalui social media mereka yang sangat aktif. Tidak ketinggalan, poin krusial lain yang mirip adalah masalah independensi Teman Ahok yang masih menjadi isu kontroversial walau kedua belah pihak telah menyatakan dengan tegas bahwa tidak ada “koordinasi” antara Graha Pejaten dan Balaikota. Layaknya seperti Super PAC, terlihat ada warna abu-abu mengenai hubungan antara gerakan relawan dan Gubernur DKI sendiri. Sebenarnya keabu-abuan ini disebabkan karena fenomena ini adalah sesuatu yang baru di tanah air. Di Amerika, PAC dan Super PAC yang sudah beraktivitas sebelum tahap kampanye resmi, memiliki regulasi yang jelas. Selain itu, electoral campaign finance atau peraturan penggalangan dana kampanye juga terbukukan dengan baik prosedurnya. Sementara itu, di Indonesia belum ada regulasi yang mengatur bagaimanakah tahapan pra-kampanye sebelum pendaftaran calon mengenai apa yang boleh dan tidak boleh terutama dalam hal penggalangan dana. Jadi jika ditanya kembali, apakah Teman Ahok adalah PAC, Super PAC atau tim sukses kampanye Ahok?  Jawabannya adalah abu-abu. Kegiatan yang dilakukan sangatlah menyerupai tim sukses, namun karena belum adanya peraturan yang jelas, maka bisa dikatakan Teman Ahok adalah PAC maupun Super PAC yang masih malu-malu dan berhati-hati menjalankan aktivitasnya.

Artikel ini telah tayang di Kompas.com dengan judul "Teman Ahok dan Amerikanisasi Politik Indonesia ", Klik untuk baca: https://megapolitan.kompas.com/read/2016/06/21/08282701/teman.ahok.dan.amerikanisasi.politik.indonesia.?page=all.


Download aplikasi Kompas.com untuk akses berita lebih mudah dan cepat:
Android: https://bit.ly/3g85pkA
iOS: https://apple.co/3hXWJ0L

'''

In [11]:
extract_keyword(text, tfidf, topk=20)

['ahok',
 'super',
 'kampanye',
 'teman',
 'tim sukses',
 'penggalangan',
 'abu-abu',
 'relawan',
 'kandidat',
 'regulasi',
 'sukses',
 'basuki',
 'fungsi',
 'independensi',
 'gerakan',
 'gubernur dki',
 'dana',
 'tim',
 'isu kontroversial',
 'air amerika']