In [1]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
from sklearn import metrics

In [80]:
deploy_news = pd.read_excel("predict-2020-antaranews2.xlsx", sheet_name="Sheet1", engine="openpyxl",
                          nrows=200)

In [81]:
deploy_news

Unnamed: 0,bulan,berita
0,10,Jakarta (ANTARA) - Presiden Konfederasi Serika...
1,10,Karawang (ANTARA) - Aparat kepolisian dari Pol...
2,10,Cirebon (ANTARA) - Kepolisian Resor (Polres) C...
3,10,Bandung (ANTARA) -\nPetugas Polrestabes Bandun...
4,10,"Subang (ANTARA) - Polres Kabupaten Subang, Jaw..."
...,...,...
125,6,Bogor (ANTARA) - Mahasiswa Program Doktor Peng...
126,6,Karawang (ANTARA) - Komisi I DPRD Kabupaten Ka...
127,6,Bandung (ANTARA) - Kepala Biro Pemerintahan da...
128,5,Bandung (ANTARA) - Dewan Pimpinan Wilayah Part...


In [82]:
train_news = pd.read_excel("selected-training-data.xlsx", sheet_name="Sheet1", engine="openpyxl",
                          nrows=200)

In [83]:
train_news

Unnamed: 0,violence,non-violence
0,"BANDUNG, (PR).- Sidang kasus penganiayaan dua ...","SOREANG, (PR).- Sedikitnya 104 eksemplar tablo..."
1,"BOGOR, (PR).- Ratusan warga dari Kelurahan Kat...","NGAMPRAH, (PR).- Lantaran tak ada dana operasi..."
2,"BANDUNG, (PR).- Pendukung Persib Bandung tenga...","NGAMPRAH, (PR).- Lantaran tak ada dana operasi..."
3,"SUMEDANG, (PR).- Sidang Paripurna Istimewa DPR...","CIKARANG, (PR).- Pemerintah Kabupaten Bekasi d..."
4,"NGAMPRAH, (PR).- Manajemen PT Ultrajaya Milk I...","TANPA alas kaki, Adimin (83) melangkah perlaha..."
...,...,...
106,"TRIBUNCIREBON, MAJALENGKA - Kepala Desa (Kuwu)...","TRIBUNJABAR.ID, INDRAMAYU- Krisis air bersih m..."
107,"TRIBUNJABAR.ID, BANDUNG - Di sela kegitannya b...","TRIBUNJABAR.ID, TASIKMALAYA - Badan Penanggula..."
108,"TRIBUNJABAR.ID,BANDUNG - Sejumlah warga Kabupa...","TRIBUNJABAR.ID, CIANJUR - Bencana kekeringan m..."
109,Dugaan tersebut berdasarkan temuan yang didapa...,"TRIBUNJABAR.ID, MAJALENGKA - Warga Desa Paning..."


In [84]:
train_news = train_news.melt(var_name="label", value_name="text")

In [85]:
train_news

Unnamed: 0,label,text
0,violence,"BANDUNG, (PR).- Sidang kasus penganiayaan dua ..."
1,violence,"BOGOR, (PR).- Ratusan warga dari Kelurahan Kat..."
2,violence,"BANDUNG, (PR).- Pendukung Persib Bandung tenga..."
3,violence,"SUMEDANG, (PR).- Sidang Paripurna Istimewa DPR..."
4,violence,"NGAMPRAH, (PR).- Manajemen PT Ultrajaya Milk I..."
...,...,...
217,non-violence,"TRIBUNJABAR.ID, INDRAMAYU- Krisis air bersih m..."
218,non-violence,"TRIBUNJABAR.ID, TASIKMALAYA - Badan Penanggula..."
219,non-violence,"TRIBUNJABAR.ID, CIANJUR - Bencana kekeringan m..."
220,non-violence,"TRIBUNJABAR.ID, MAJALENGKA - Warga Desa Paning..."


In [86]:
train_news["label"] = np.where(train_news["label"].str.match("violence"), 1, 0)

In [87]:
train_news

Unnamed: 0,label,text
0,1,"BANDUNG, (PR).- Sidang kasus penganiayaan dua ..."
1,1,"BOGOR, (PR).- Ratusan warga dari Kelurahan Kat..."
2,1,"BANDUNG, (PR).- Pendukung Persib Bandung tenga..."
3,1,"SUMEDANG, (PR).- Sidang Paripurna Istimewa DPR..."
4,1,"NGAMPRAH, (PR).- Manajemen PT Ultrajaya Milk I..."
...,...,...
217,0,"TRIBUNJABAR.ID, INDRAMAYU- Krisis air bersih m..."
218,0,"TRIBUNJABAR.ID, TASIKMALAYA - Badan Penanggula..."
219,0,"TRIBUNJABAR.ID, CIANJUR - Bencana kekeringan m..."
220,0,"TRIBUNJABAR.ID, MAJALENGKA - Warga Desa Paning..."


In [88]:
text_clf = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', MultinomialNB())
])

In [89]:
text_clf.fit(train_news["text"], train_news["label"])

Pipeline(steps=[('vect', CountVectorizer()), ('tfidf', TfidfTransformer()),
                ('clf', MultinomialNB())])

In [90]:
predicted = text_clf.predict(deploy_news["berita"])

In [91]:
predicted

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1])

In [92]:
deploy_news["predict"]=predicted

In [93]:
print(deploy_news)

     bulan                                             berita  predict
0       10  Jakarta (ANTARA) - Presiden Konfederasi Serika...        1
1       10  Karawang (ANTARA) - Aparat kepolisian dari Pol...        1
2       10  Cirebon (ANTARA) - Kepolisian Resor (Polres) C...        1
3       10  Bandung (ANTARA) -\nPetugas Polrestabes Bandun...        1
4       10  Subang (ANTARA) - Polres Kabupaten Subang, Jaw...        1
..     ...                                                ...      ...
125      6  Bogor (ANTARA) - Mahasiswa Program Doktor Peng...        1
126      6  Karawang (ANTARA) - Komisi I DPRD Kabupaten Ka...        0
127      6  Bandung (ANTARA) - Kepala Biro Pemerintahan da...        0
128      5  Bandung (ANTARA) - Dewan Pimpinan Wilayah Part...        1
129      9  Bandung (ANTARA) - Ketua Umum Dewan Pimpinan W...        1

[130 rows x 3 columns]


In [94]:
file_name = 'data_2020_antaranews2.xlsx'

In [95]:
deploy_news.to_excel(file_name)
print('Data 2021 successfully exported into Excel File')

Data 2021 successfully exported into Excel File
