# preprocessing

In [8]:
import pandas as pd
import re 
import string
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [9]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\arman\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [10]:
df = pd.read_csv("/Users/arman/Skripsi/Dataset/BigData/Fix/Piala-Dunia-Label.csv", encoding='utf-8')
df

Unnamed: 0,Text,Label
0,@ch_chotimah2 @Dennysiregar7 @erickthohir @jok...,negatif
1,Gagalnya perhelatan piala dunia U-20 di Indone...,positif
2,@tatakujiyati Tapi @aniesbaswedan kan sering m...,negatif
3,"Dicoret sebagai tuan rumah piala dunia U-20, b...",netral
4,Ketua umum Erick Thohir mengungkapkan alasan F...,netral
...,...,...
14802,Piala Dunia U-20 Batal Digelar di Indonesia ht...,netral
14803,4 Tahun Perjuangan Indonesia Jadi Tuan Rumah P...,negatif
14804,@Metro_TV 3043 guru PI PPPK se-Indonesia dan T...,netral
14805,Pemain Timnas Indonesia U-20 ramai-ramai tumpa...,negatif


# Case folding

In [11]:
#Case Folding
df['CaseFolding'] = df['Text'].str.lower()
df.head()

Unnamed: 0,Text,Label,CaseFolding
0,@ch_chotimah2 @Dennysiregar7 @erickthohir @jok...,negatif,@ch_chotimah2 @dennysiregar7 @erickthohir @jok...
1,Gagalnya perhelatan piala dunia U-20 di Indone...,positif,gagalnya perhelatan piala dunia u-20 di indone...
2,@tatakujiyati Tapi @aniesbaswedan kan sering m...,negatif,@tatakujiyati tapi @aniesbaswedan kan sering m...
3,"Dicoret sebagai tuan rumah piala dunia U-20, b...",netral,"dicoret sebagai tuan rumah piala dunia u-20, b..."
4,Ketua umum Erick Thohir mengungkapkan alasan F...,netral,ketua umum erick thohir mengungkapkan alasan f...


# Celaning Data

In [12]:
# ------ CleanData ---------

def remove_tweet_special(text):
       
    #menghapus username twitter
    text = re.sub('@[^\s]+','',text)
    
    # remove tab, new line, ans back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")
    
    # remove non ASCII (emoticon, chinese word, .etc)
    text = text.encode('ascii', 'replace').decode('ascii')
    
    # remove mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
    
    #remove number
    text = re.sub(r"\d+", "", text)
    
    #remove punctuation
    text = text.translate(str.maketrans("","",string.punctuation))
    
    # remove white space
    text = text.strip()
    
    #remove multiple white space
    text = re.sub('\s+',' ',text)
    
    #remove single char
    text = re.sub(r"\b[a-zA-Z]\b", "", text)
    
    # remove incomplete URL
    return text.replace("http://", " ").replace("https://", " ")
    
                
df['TextClean'] = df['CaseFolding'].apply(remove_tweet_special)

In [13]:
df

Unnamed: 0,Text,Label,CaseFolding,TextClean
0,@ch_chotimah2 @Dennysiregar7 @erickthohir @jok...,negatif,@ch_chotimah2 @dennysiregar7 @erickthohir @jok...,lupakan kegagalan tuan rumah piala dunia mari...
1,Gagalnya perhelatan piala dunia U-20 di Indone...,positif,gagalnya perhelatan piala dunia u-20 di indone...,gagalnya perhelatan piala dunia di indonesia ...
2,@tatakujiyati Tapi @aniesbaswedan kan sering m...,negatif,@tatakujiyati tapi @aniesbaswedan kan sering m...,tapi kan sering mencitrakan diri sgt membela p...
3,"Dicoret sebagai tuan rumah piala dunia U-20, b...",netral,"dicoret sebagai tuan rumah piala dunia u-20, b...",dicoret sebagai tuan rumah piala dunia bentar...
4,Ketua umum Erick Thohir mengungkapkan alasan F...,netral,ketua umum erick thohir mengungkapkan alasan f...,ketua umum erick thohir mengungkapkan alasan f...
...,...,...,...,...
14802,Piala Dunia U-20 Batal Digelar di Indonesia ht...,netral,piala dunia u-20 batal digelar di indonesia ht...,piala dunia batal digelar di indonesia
14803,4 Tahun Perjuangan Indonesia Jadi Tuan Rumah P...,negatif,4 tahun perjuangan indonesia jadi tuan rumah p...,tahun perjuangan indonesia jadi tuan rumah pia...
14804,@Metro_TV 3043 guru PI PPPK se-Indonesia dan T...,netral,@metro_tv 3043 guru pi pppk se-indonesia dan t...,guru pi pppk seindonesia dan tuan rumah piala ...
14805,Pemain Timnas Indonesia U-20 ramai-ramai tumpa...,negatif,pemain timnas indonesia u-20 ramai-ramai tumpa...,pemain timnas indonesia ramairamai tumpahkan ...


## Tokenizing

In [14]:
# Tokenzing
# NLTK word rokenize 
def word_tokenize_wrapper(text):
    return word_tokenize(text)
df['tokens'] =df['TextClean'].apply(word_tokenize_wrapper)
df

Unnamed: 0,Text,Label,CaseFolding,TextClean,tokens
0,@ch_chotimah2 @Dennysiregar7 @erickthohir @jok...,negatif,@ch_chotimah2 @dennysiregar7 @erickthohir @jok...,lupakan kegagalan tuan rumah piala dunia mari...,"[lupakan, kegagalan, tuan, rumah, piala, dunia..."
1,Gagalnya perhelatan piala dunia U-20 di Indone...,positif,gagalnya perhelatan piala dunia u-20 di indone...,gagalnya perhelatan piala dunia di indonesia ...,"[gagalnya, perhelatan, piala, dunia, di, indon..."
2,@tatakujiyati Tapi @aniesbaswedan kan sering m...,negatif,@tatakujiyati tapi @aniesbaswedan kan sering m...,tapi kan sering mencitrakan diri sgt membela p...,"[tapi, kan, sering, mencitrakan, diri, sgt, me..."
3,"Dicoret sebagai tuan rumah piala dunia U-20, b...",netral,"dicoret sebagai tuan rumah piala dunia u-20, b...",dicoret sebagai tuan rumah piala dunia bentar...,"[dicoret, sebagai, tuan, rumah, piala, dunia, ..."
4,Ketua umum Erick Thohir mengungkapkan alasan F...,netral,ketua umum erick thohir mengungkapkan alasan f...,ketua umum erick thohir mengungkapkan alasan f...,"[ketua, umum, erick, thohir, mengungkapkan, al..."
...,...,...,...,...,...
14802,Piala Dunia U-20 Batal Digelar di Indonesia ht...,netral,piala dunia u-20 batal digelar di indonesia ht...,piala dunia batal digelar di indonesia,"[piala, dunia, batal, digelar, di, indonesia]"
14803,4 Tahun Perjuangan Indonesia Jadi Tuan Rumah P...,negatif,4 tahun perjuangan indonesia jadi tuan rumah p...,tahun perjuangan indonesia jadi tuan rumah pia...,"[tahun, perjuangan, indonesia, jadi, tuan, rum..."
14804,@Metro_TV 3043 guru PI PPPK se-Indonesia dan T...,netral,@metro_tv 3043 guru pi pppk se-indonesia dan t...,guru pi pppk seindonesia dan tuan rumah piala ...,"[guru, pi, pppk, seindonesia, dan, tuan, rumah..."
14805,Pemain Timnas Indonesia U-20 ramai-ramai tumpa...,negatif,pemain timnas indonesia u-20 ramai-ramai tumpa...,pemain timnas indonesia ramairamai tumpahkan ...,"[pemain, timnas, indonesia, ramairamai, tumpah..."


## Normalisasi

In [15]:
#normalisasi 

normalizad_word = pd.read_csv("/Users/arman/Skripsi/normalisasi.csv")

normalizad_word_dict = {}

for index, row in normalizad_word.iterrows():
    if row[0] not in normalizad_word_dict:
        normalizad_word_dict[row[0]] = row[1] 

def normalized_term(document):
    return [normalizad_word_dict[term] if term in normalizad_word_dict else term for term in document]

df['normalisasi'] = df['tokens'].apply(normalized_term)

df

Unnamed: 0,Text,Label,CaseFolding,TextClean,tokens,normalisasi
0,@ch_chotimah2 @Dennysiregar7 @erickthohir @jok...,negatif,@ch_chotimah2 @dennysiregar7 @erickthohir @jok...,lupakan kegagalan tuan rumah piala dunia mari...,"[lupakan, kegagalan, tuan, rumah, piala, dunia...","[lupakan, kegagalan, tuan, rumah, piala, dunia..."
1,Gagalnya perhelatan piala dunia U-20 di Indone...,positif,gagalnya perhelatan piala dunia u-20 di indone...,gagalnya perhelatan piala dunia di indonesia ...,"[gagalnya, perhelatan, piala, dunia, di, indon...","[gagalnya, perhelatan, piala, dunia, di, indon..."
2,@tatakujiyati Tapi @aniesbaswedan kan sering m...,negatif,@tatakujiyati tapi @aniesbaswedan kan sering m...,tapi kan sering mencitrakan diri sgt membela p...,"[tapi, kan, sering, mencitrakan, diri, sgt, me...","[tetapi, kan, sering, mencitrakan, diri, sanga..."
3,"Dicoret sebagai tuan rumah piala dunia U-20, b...",netral,"dicoret sebagai tuan rumah piala dunia u-20, b...",dicoret sebagai tuan rumah piala dunia bentar...,"[dicoret, sebagai, tuan, rumah, piala, dunia, ...","[dicoret, sebagai, tuan, rumah, piala, dunia, ..."
4,Ketua umum Erick Thohir mengungkapkan alasan F...,netral,ketua umum erick thohir mengungkapkan alasan f...,ketua umum erick thohir mengungkapkan alasan f...,"[ketua, umum, erick, thohir, mengungkapkan, al...","[ketua, umum, erick, thohir, mengungkapkan, al..."
...,...,...,...,...,...,...
14802,Piala Dunia U-20 Batal Digelar di Indonesia ht...,netral,piala dunia u-20 batal digelar di indonesia ht...,piala dunia batal digelar di indonesia,"[piala, dunia, batal, digelar, di, indonesia]","[piala, dunia, batal, digelar, di, indonesia]"
14803,4 Tahun Perjuangan Indonesia Jadi Tuan Rumah P...,negatif,4 tahun perjuangan indonesia jadi tuan rumah p...,tahun perjuangan indonesia jadi tuan rumah pia...,"[tahun, perjuangan, indonesia, jadi, tuan, rum...","[tahun, perjuangan, indonesia, jadi, tuan, rum..."
14804,@Metro_TV 3043 guru PI PPPK se-Indonesia dan T...,netral,@metro_tv 3043 guru pi pppk se-indonesia dan t...,guru pi pppk seindonesia dan tuan rumah piala ...,"[guru, pi, pppk, seindonesia, dan, tuan, rumah...","[guru, pi, pppk, seindonesia, dan, tuan, rumah..."
14805,Pemain Timnas Indonesia U-20 ramai-ramai tumpa...,negatif,pemain timnas indonesia u-20 ramai-ramai tumpa...,pemain timnas indonesia ramairamai tumpahkan ...,"[pemain, timnas, indonesia, ramairamai, tumpah...","[pemain, timnas, indonesia, ramai ramai, tump..."


## StwopWord

In [16]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\arman\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [17]:

# ----------------------- get stopword from NLTK stopword -------------------------------
# get stopword indonesia
list_stopwords = stopwords.words('indonesian')

# ----------------------- add stopword from txt file ------------------------------------
# read txt stopword using pandas
txt_stopword = pd.read_csv("/Users/arman/Skripsi/stopwords-id.txt", names= ["stopwords"], header = None)

# convert stopword string to list & append additional stopword
list_stopwords.extend(txt_stopword["stopwords"][0].split(' '))

# convert list to dictionary
list_stopwords = set(list_stopwords)


#remove stopword pada list token
def stopwords_removal(words):
    return [word for word in words if word not in list_stopwords]

df['stopword'] = df['normalisasi'].apply(stopwords_removal) 


print(df['stopword'].head())

0    [lupakan, kegagalan, tuan, rumah, piala, dunia...
1    [gagalnya, perhelatan, piala, dunia, indonesia...
2    [mencitrakan, membela,  palestina menggunakan,...
3    [tuan, rumah, piala, dunia, bentar, tuan, ruma...
4    [ketua, erick, thohir, alasan, fifa, membatalk...
Name: stopword, dtype: object


In [18]:
list_stopwords

{'&amp',
 'aaaaa',
 'aargh',
 'ada',
 'adalah',
 'adanya',
 'adapun',
 'agak',
 'agaknya',
 'agar',
 'agv',
 'ahhh',
 'ai',
 'aja',
 'akan',
 'akankah',
 'akhir',
 'akhiri',
 'akhirnya',
 'aku',
 'akulah',
 'amat',
 'amatlah',
 'amp',
 'amputmmediumsocialamputmsourcetwitter',
 'anda',
 'andalah',
 'antar',
 'antara',
 'antaranya',
 'apa',
 'apaan',
 'apabila',
 'apakah',
 'apalagi',
 'apatah',
 'artinya',
 'asal',
 'asalkan',
 'atas',
 'atau',
 'ataukah',
 'ataupun',
 'awal',
 'awalnya',
 'awokawokaowk',
 'bagai',
 'bagaikan',
 'bagaimana',
 'bagaimanakah',
 'bagaimanapun',
 'baghowi',
 'bagi',
 'bagian',
 'bahkan',
 'bahwa',
 'bahwasanya',
 'baik',
 'bakal',
 'bakalan',
 'balik',
 'banyak',
 'bapak',
 'baru',
 'basabasi',
 'bawah',
 'beberapa',
 'begini',
 'beginian',
 'beginikah',
 'beginilah',
 'begitu',
 'begitukah',
 'begitulah',
 'begitupun',
 'bekerja',
 'belakang',
 'belakangan',
 'belum',
 'belumlah',
 'benar',
 'benarkah',
 'benarlah',
 'berada',
 'berakhir',
 'berakhirlah',


In [19]:
df

Unnamed: 0,Text,Label,CaseFolding,TextClean,tokens,normalisasi,stopword
0,@ch_chotimah2 @Dennysiregar7 @erickthohir @jok...,negatif,@ch_chotimah2 @dennysiregar7 @erickthohir @jok...,lupakan kegagalan tuan rumah piala dunia mari...,"[lupakan, kegagalan, tuan, rumah, piala, dunia...","[lupakan, kegagalan, tuan, rumah, piala, dunia...","[lupakan, kegagalan, tuan, rumah, piala, dunia..."
1,Gagalnya perhelatan piala dunia U-20 di Indone...,positif,gagalnya perhelatan piala dunia u-20 di indone...,gagalnya perhelatan piala dunia di indonesia ...,"[gagalnya, perhelatan, piala, dunia, di, indon...","[gagalnya, perhelatan, piala, dunia, di, indon...","[gagalnya, perhelatan, piala, dunia, indonesia..."
2,@tatakujiyati Tapi @aniesbaswedan kan sering m...,negatif,@tatakujiyati tapi @aniesbaswedan kan sering m...,tapi kan sering mencitrakan diri sgt membela p...,"[tapi, kan, sering, mencitrakan, diri, sgt, me...","[tetapi, kan, sering, mencitrakan, diri, sanga...","[mencitrakan, membela, palestina menggunakan,..."
3,"Dicoret sebagai tuan rumah piala dunia U-20, b...",netral,"dicoret sebagai tuan rumah piala dunia u-20, b...",dicoret sebagai tuan rumah piala dunia bentar...,"[dicoret, sebagai, tuan, rumah, piala, dunia, ...","[dicoret, sebagai, tuan, rumah, piala, dunia, ...","[tuan, rumah, piala, dunia, bentar, tuan, ruma..."
4,Ketua umum Erick Thohir mengungkapkan alasan F...,netral,ketua umum erick thohir mengungkapkan alasan f...,ketua umum erick thohir mengungkapkan alasan f...,"[ketua, umum, erick, thohir, mengungkapkan, al...","[ketua, umum, erick, thohir, mengungkapkan, al...","[ketua, erick, thohir, alasan, fifa, membatalk..."
...,...,...,...,...,...,...,...
14802,Piala Dunia U-20 Batal Digelar di Indonesia ht...,netral,piala dunia u-20 batal digelar di indonesia ht...,piala dunia batal digelar di indonesia,"[piala, dunia, batal, digelar, di, indonesia]","[piala, dunia, batal, digelar, di, indonesia]","[piala, dunia, batal, digelar, indonesia]"
14803,4 Tahun Perjuangan Indonesia Jadi Tuan Rumah P...,negatif,4 tahun perjuangan indonesia jadi tuan rumah p...,tahun perjuangan indonesia jadi tuan rumah pia...,"[tahun, perjuangan, indonesia, jadi, tuan, rum...","[tahun, perjuangan, indonesia, jadi, tuan, rum...","[perjuangan, indonesia, tuan, rumah, piala, du..."
14804,@Metro_TV 3043 guru PI PPPK se-Indonesia dan T...,netral,@metro_tv 3043 guru pi pppk se-indonesia dan t...,guru pi pppk seindonesia dan tuan rumah piala ...,"[guru, pi, pppk, seindonesia, dan, tuan, rumah...","[guru, pi, pppk, seindonesia, dan, tuan, rumah...","[guru, seindonesia, tuan, rumah, piala, dunia,..."
14805,Pemain Timnas Indonesia U-20 ramai-ramai tumpa...,negatif,pemain timnas indonesia u-20 ramai-ramai tumpa...,pemain timnas indonesia ramairamai tumpahkan ...,"[pemain, timnas, indonesia, ramairamai, tumpah...","[pemain, timnas, indonesia, ramai ramai, tump...","[pemain, timnas, indonesia, ramai ramai, tump..."


In [20]:
df.to_csv('/Users/arman/Skripsi/Dataset/BigData/Fix/Piala-Dunia-Label-stopword.csv')

## Steaming Data

In [18]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

factory = StemmerFactory()
stemmer = factory.create_stemmer()
 
def steming(text):
    text = stemmer.stem(text)
    return text
    

In [19]:
df1 = pd.read_csv('/Users/arman/Skripsi/Dataset/BigData/Fix/Piala-Dunia-Label-stopword.csv')
df1

Unnamed: 0.1,Unnamed: 0,Text,Label,CaseFolding,TextClean,tokens,normalisasi,stopword
0,0,@ch_chotimah2 @Dennysiregar7 @erickthohir @jok...,negatif,@ch_chotimah2 @dennysiregar7 @erickthohir @jok...,lupakan kegagalan tuan rumah piala dunia mari...,"['lupakan', 'kegagalan', 'tuan', 'rumah', 'pia...","['lupakan', 'kegagalan', 'tuan', 'rumah', 'pia...","['lupakan', 'kegagalan', 'tuan', 'rumah', 'pia..."
1,1,Gagalnya perhelatan piala dunia U-20 di Indone...,positif,gagalnya perhelatan piala dunia u-20 di indone...,gagalnya perhelatan piala dunia di indonesia ...,"['gagalnya', 'perhelatan', 'piala', 'dunia', '...","['gagalnya', 'perhelatan', 'piala', 'dunia', '...","['gagalnya', 'perhelatan', 'piala', 'dunia', '..."
2,2,@tatakujiyati Tapi @aniesbaswedan kan sering m...,negatif,@tatakujiyati tapi @aniesbaswedan kan sering m...,tapi kan sering mencitrakan diri sgt membela p...,"['tapi', 'kan', 'sering', 'mencitrakan', 'diri...","['tetapi', 'kan', 'sering', 'mencitrakan', 'di...","['mencitrakan', 'membela', ' palestina menggun..."
3,3,"Dicoret sebagai tuan rumah piala dunia U-20, b...",netral,"dicoret sebagai tuan rumah piala dunia u-20, b...",dicoret sebagai tuan rumah piala dunia bentar...,"['dicoret', 'sebagai', 'tuan', 'rumah', 'piala...","['dicoret', 'sebagai', 'tuan', 'rumah', 'piala...","['tuan', 'rumah', 'piala', 'dunia', 'bentar', ..."
4,4,Ketua umum Erick Thohir mengungkapkan alasan F...,netral,ketua umum erick thohir mengungkapkan alasan f...,ketua umum erick thohir mengungkapkan alasan f...,"['ketua', 'umum', 'erick', 'thohir', 'mengungk...","['ketua', 'umum', 'erick', 'thohir', 'mengungk...","['ketua', 'erick', 'thohir', 'alasan', 'fifa',..."
...,...,...,...,...,...,...,...,...
14802,14802,Piala Dunia U-20 Batal Digelar di Indonesia ht...,netral,piala dunia u-20 batal digelar di indonesia ht...,piala dunia batal digelar di indonesia,"['piala', 'dunia', 'batal', 'digelar', 'di', '...","['piala', 'dunia', 'batal', 'digelar', 'di', '...","['piala', 'dunia', 'batal', 'digelar', 'indone..."
14803,14803,4 Tahun Perjuangan Indonesia Jadi Tuan Rumah P...,negatif,4 tahun perjuangan indonesia jadi tuan rumah p...,tahun perjuangan indonesia jadi tuan rumah pia...,"['tahun', 'perjuangan', 'indonesia', 'jadi', '...","['tahun', 'perjuangan', 'indonesia', 'jadi', '...","['perjuangan', 'indonesia', 'tuan', 'rumah', '..."
14804,14804,@Metro_TV 3043 guru PI PPPK se-Indonesia dan T...,netral,@metro_tv 3043 guru pi pppk se-indonesia dan t...,guru pi pppk seindonesia dan tuan rumah piala ...,"['guru', 'pi', 'pppk', 'seindonesia', 'dan', '...","['guru', 'pi', 'pppk', 'seindonesia', 'dan', '...","['guru', 'seindonesia', 'tuan', 'rumah', 'pial..."
14805,14805,Pemain Timnas Indonesia U-20 ramai-ramai tumpa...,negatif,pemain timnas indonesia u-20 ramai-ramai tumpa...,pemain timnas indonesia ramairamai tumpahkan ...,"['pemain', 'timnas', 'indonesia', 'ramairamai'...","['pemain', 'timnas', 'indonesia', ' ramai rama...","['pemain', 'timnas', 'indonesia', ' ramai rama..."


In [21]:
df1['Steming'] = df1['stopword'].apply(steming)
df1.head()

Unnamed: 0.1,Unnamed: 0,Text,Label,CaseFolding,TextClean,tokens,normalisasi,stopword,Steming
0,0,@ch_chotimah2 @Dennysiregar7 @erickthohir @jok...,negatif,@ch_chotimah2 @dennysiregar7 @erickthohir @jok...,lupakan kegagalan tuan rumah piala dunia mari...,"['lupakan', 'kegagalan', 'tuan', 'rumah', 'pia...","['lupakan', 'kegagalan', 'tuan', 'rumah', 'pia...","['lupakan', 'kegagalan', 'tuan', 'rumah', 'pia...",lupa gagal tuan rumah piala dunia mari tata se...
1,1,Gagalnya perhelatan piala dunia U-20 di Indone...,positif,gagalnya perhelatan piala dunia u-20 di indone...,gagalnya perhelatan piala dunia di indonesia ...,"['gagalnya', 'perhelatan', 'piala', 'dunia', '...","['gagalnya', 'perhelatan', 'piala', 'dunia', '...","['gagalnya', 'perhelatan', 'piala', 'dunia', '...",gagal helat piala dunia indonesia jadi alam de...
2,2,@tatakujiyati Tapi @aniesbaswedan kan sering m...,negatif,@tatakujiyati tapi @aniesbaswedan kan sering m...,tapi kan sering mencitrakan diri sgt membela p...,"['tapi', 'kan', 'sering', 'mencitrakan', 'diri...","['tetapi', 'kan', 'sering', 'mencitrakan', 'di...","['mencitrakan', 'membela', ' palestina menggun...",citra bela palestina guna syal palestina baca ...
3,3,"Dicoret sebagai tuan rumah piala dunia U-20, b...",netral,"dicoret sebagai tuan rumah piala dunia u-20, b...",dicoret sebagai tuan rumah piala dunia bentar...,"['dicoret', 'sebagai', 'tuan', 'rumah', 'piala...","['dicoret', 'sebagai', 'tuan', 'rumah', 'piala...","['tuan', 'rumah', 'piala', 'dunia', 'bentar', ...",tuan rumah piala dunia bentar tuan rumah wbg
4,4,Ketua umum Erick Thohir mengungkapkan alasan F...,netral,ketua umum erick thohir mengungkapkan alasan f...,ketua umum erick thohir mengungkapkan alasan f...,"['ketua', 'umum', 'erick', 'thohir', 'mengungk...","['ketua', 'umum', 'erick', 'thohir', 'mengungk...","['ketua', 'erick', 'thohir', 'alasan', 'fifa',...",ketua erick thohir alas fifa batal posisi indo...


In [22]:
keep_col = ['Steming','Label']
df1 = df1[keep_col]
df1.to_csv('/Users/arman/Skripsi/Dataset/BigData/Fix/Piala-Dunia-Label-Clean.csv')

## Menghapus Data set Duplicate

In [1]:
# df.drop_duplicates(subset='Steming', keep = 'first', inplace = True)
# # df1

In [2]:
# pd.value_counts(df1['Label'])