# Preprocessing Data
Preprocessing data pada text adalah suatu proses sebelum melakukan text mining dengan tujuan untuk mendapatkan fitur-fitur utama atau istilah-istilah utama dari dokumen teks dan untuk meningkatkan relevansi antara kata dan dokumen maupun relevansi antara kata dan kategori. Preprocessing juga berfungsi untuk membersihkan teks yang sudah dikumpulkan dari noise, seperti memilah kata mana yang penting untuk diklasifikasi, menghilangkan stopword, dan sebagainya. (Alrajak et al., 2020) 

In [1]:
import pandas as pd
from modul._2_preprocessing_data import cleaning_data, case_folding, normalization, tokenizing, stopword_removal, stemming

In [2]:
from warnings import filterwarnings
filterwarnings("ignore")

In [3]:
df_train = pd.read_csv('output/1_pengumpulan_data/train.csv')
df_test = pd.read_csv('output/1_pengumpulan_data/test.csv')
display(df_train)
display(df_test)

Unnamed: 0,full_text,sentiment,clean_full_text,word_count
0,@aewin86 Kapan lagi punya presiden hebat kayak...,negatif,Kapan lagi punya presiden hebat mirip pak A...,15
1,Tujuannya counter Anies kemaren biar Anies ngo...,netral,Tujuannya menangkal Anies kemarin biar Anies ...,18
2,@berlianidris @YantoThobenk Doa sepertiga mala...,netral,Doa sepertiga malam dok..itu yang bisa saya...,26
3,@FayaAtika sudah budhe. pakai etika pas duo ca...,netral,sudah budhe. pakai etika pas duo cawapres di...,18
4,Ganjar-Mahfud memahami bahwa petugas pajak yan...,positif,Ganjar-Mahfud memahami bahwa petugas pajak ya...,22
...,...,...,...,...
7921,@indozonemedia Kemampuan memimpin mas Gibran t...,positif,Kemampuan memimpin mas Gibran tidak diraguka...,8
7922,@PutraErlangga95 Jawaban singkat pak Anies seb...,netral,Jawaban singkat pak Anies sebagai penutup wa...,29
7923,@PolJokesID Anis serang Prabowo terus karena k...,netral,Anis serang Prabowo terus karena fans pemili...,29
7924,#AMINajaDulu #AniesUnggul #PakaiOtakPakaiHati ...,positif,Menjadi tuan rumah di negeri sendiri dan...,20


Unnamed: 0,full_text,sentiment,clean_full_text,word_count
0,Halo @KPU_ID ! Debat capres mana di dunia yg p...,netral,Halo ! Debat capres mana di dunia yang peser...,20
1,@tvOneNews Anies Efect Gus Imin pun menjadi se...,positif,Anies Efect Gus Imin pun menjadi semakin cer...,8
2,@pakaipeci Lha saya lebih malu lagi punya wali...,negatif,Lha saya lebih malu lagi punya walikota mode...,10
3,@gibran_tweet Capresnya singgung masalag etika...,netral,Capresnya singgung masalah etika ke pak Anie...,16
4,@republikaonline Mas Gibran pemimpin yang cerd...,positif,Mas Gibran pemimpin yang cerdas dan merakyat...,17
...,...,...,...,...
1977,@hedoooya @Luqbaehaqi Jangan lupa infokan ke r...,netral,Jangan lupa infokan ke rekan rekan guru hon...,32
1978,@Muhammad_Saewad @aniesbaswedan @cakimiNOW @pr...,netral,Anies - Muhaimin presiden dan wakil pr...,10
1979,Investor akan merasa dihargai dengan upaya Gan...,positif,Investor akan merasa dihargai dengan upaya Ga...,20
1980,TKN Prabowo-Gibran Hampiri Moderator saat Deba...,netral,TKN Prabowo-Gibran Hampiri Moderator saat Deb...,14


### 1. Cleaning Data
Cleaning data atau proses pembersihan data dilakukan untuk membersihkan data duplikat. (Asro'i & Februariyanti, 2022) Selain data duplikat, cleaning data juga dilakukan untuk membersihkan missing value.

In [4]:
display(df_train.shape)
display(df_train['full_text'].duplicated().sum())
display(df_train.isnull().sum())
df_train = cleaning_data(df_train)
display(df_train.shape)

(7926, 4)

561

full_text          0
sentiment          0
clean_full_text    0
word_count         0
dtype: int64

(7365, 4)

In [5]:
display(df_test.shape)
display(df_test['full_text'].duplicated().sum())
display(df_test.isnull().sum())
df_test = cleaning_data(df_test)
display(df_test.shape)

(1982, 4)

27

full_text          0
sentiment          0
clean_full_text    0
word_count         0
dtype: int64

(1955, 4)

### 2. Case Folding
Case folding adalah proses mengubah semua huruf dalam dokumen menjadi modal kecil (a ke z). Fungsi utama dengan melakukan case folding supaya tidak ada kata yang memiliki makna yang berbeda meskipun huruf paling awal kapital. (Alrajak et al., 2020) 

In [6]:
df_train['text_preprocessed'] = df_train['full_text'].apply(case_folding)
df_test['text_preprocessed'] = df_test['full_text'].apply(case_folding)
display(df_train)
display(df_test)

Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,@aewin86 Kapan lagi punya presiden hebat kayak...,negatif,Kapan lagi punya presiden hebat mirip pak A...,15,@aewin86 kapan lagi punya presiden hebat kayak...
1,Tujuannya counter Anies kemaren biar Anies ngo...,netral,Tujuannya menangkal Anies kemarin biar Anies ...,18,tujuannya counter anies kemaren biar anies ngo...
2,@berlianidris @YantoThobenk Doa sepertiga mala...,netral,Doa sepertiga malam dok..itu yang bisa saya...,26,@berlianidris @yantothobenk doa sepertiga mala...
3,@FayaAtika sudah budhe. pakai etika pas duo ca...,netral,sudah budhe. pakai etika pas duo cawapres di...,18,@fayaatika sudah budhe. pakai etika pas duo ca...
4,Ganjar-Mahfud memahami bahwa petugas pajak yan...,positif,Ganjar-Mahfud memahami bahwa petugas pajak ya...,22,ganjar-mahfud memahami bahwa petugas pajak yan...
...,...,...,...,...,...
7360,@mirazh_me @ainunnajib @aniesbaswedan @cakimiN...,positif,Bener deh.... Lebih hebat Gibran diam saj...,10,@mirazh_me @ainunnajib @aniesbaswedan @cakimin...
7361,@indozonemedia Kemampuan memimpin mas Gibran t...,positif,Kemampuan memimpin mas Gibran tidak diraguka...,8,@indozonemedia kemampuan memimpin mas gibran t...
7362,@PutraErlangga95 Jawaban singkat pak Anies seb...,netral,Jawaban singkat pak Anies sebagai penutup wa...,29,@putraerlangga95 jawaban singkat pak anies seb...
7363,#AMINajaDulu #AniesUnggul #PakaiOtakPakaiHati ...,positif,Menjadi tuan rumah di negeri sendiri dan...,20,#aminajadulu #aniesunggul #pakaiotakpakaihati ...


Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,Halo @KPU_ID ! Debat capres mana di dunia yg p...,netral,Halo ! Debat capres mana di dunia yang peser...,20,halo @kpu_id ! debat capres mana di dunia yg p...
1,@tvOneNews Anies Efect Gus Imin pun menjadi se...,positif,Anies Efect Gus Imin pun menjadi semakin cer...,8,@tvonenews anies efect gus imin pun menjadi se...
2,@pakaipeci Lha saya lebih malu lagi punya wali...,negatif,Lha saya lebih malu lagi punya walikota mode...,10,@pakaipeci lha saya lebih malu lagi punya wali...
3,@gibran_tweet Capresnya singgung masalag etika...,netral,Capresnya singgung masalah etika ke pak Anie...,16,@gibran_tweet capresnya singgung masalag etika...
4,@republikaonline Mas Gibran pemimpin yang cerd...,positif,Mas Gibran pemimpin yang cerdas dan merakyat...,17,@republikaonline mas gibran pemimpin yang cerd...
...,...,...,...,...,...
1950,Demi dapat surat mandat Untuk temen yang mau j...,netral,Demi dapat surat mandat Untuk teman yang mau ...,39,demi dapat surat mandat untuk temen yang mau j...
1951,@hedoooya @Luqbaehaqi Jangan lupa infokan ke r...,netral,Jangan lupa infokan ke rekan rekan guru hon...,32,@hedoooya @luqbaehaqi jangan lupa infokan ke r...
1952,Investor akan merasa dihargai dengan upaya Gan...,positif,Investor akan merasa dihargai dengan upaya Ga...,20,investor akan merasa dihargai dengan upaya gan...
1953,TKN Prabowo-Gibran Hampiri Moderator saat Deba...,netral,TKN Prabowo-Gibran Hampiri Moderator saat Deb...,14,tkn prabowo-gibran hampiri moderator saat deba...


### 3. Normalization
Normalization dilakukan untuk membersihkan simbol-simbol, baris, angka, emoji, link, hashtag, dan mention. (Asro'i & Februariyanti, 2022) Selain itu, normalization juga dilakukan untuk mengubah slang word menjadi formal word. 

In [7]:
df_train['text_preprocessed'] = df_train['text_preprocessed'].apply(normalization)
df_test['text_preprocessed'] = df_test['text_preprocessed'].apply(normalization)
display(df_train)
display(df_test)

Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,@aewin86 Kapan lagi punya presiden hebat kayak...,negatif,Kapan lagi punya presiden hebat mirip pak A...,15,kapan lagi punya presiden hebat mirip pak a...
1,Tujuannya counter Anies kemaren biar Anies ngo...,netral,Tujuannya menangkal Anies kemarin biar Anies ...,18,tujuannya menangkal anies kemarin biar anies ...
2,@berlianidris @YantoThobenk Doa sepertiga mala...,netral,Doa sepertiga malam dok..itu yang bisa saya...,26,doa sepertiga malam dok itu yang bisa saya ...
3,@FayaAtika sudah budhe. pakai etika pas duo ca...,netral,sudah budhe. pakai etika pas duo cawapres di...,18,sudah bude pakai etika pas duo cawapres dise...
4,Ganjar-Mahfud memahami bahwa petugas pajak yan...,positif,Ganjar-Mahfud memahami bahwa petugas pajak ya...,22,ganjar mahfud memahami bahwa petugas pajak ya...
...,...,...,...,...,...
7360,@mirazh_me @ainunnajib @aniesbaswedan @cakimiN...,positif,Bener deh.... Lebih hebat Gibran diam saj...,10,benar deh lebih hebat gibran diam saja ad...
7361,@indozonemedia Kemampuan memimpin mas Gibran t...,positif,Kemampuan memimpin mas Gibran tidak diraguka...,8,kemampuan memimpin mas gibran tidak diraguka...
7362,@PutraErlangga95 Jawaban singkat pak Anies seb...,netral,Jawaban singkat pak Anies sebagai penutup wa...,29,jawaban singkat pak anies sebagai penutup wa...
7363,#AMINajaDulu #AniesUnggul #PakaiOtakPakaiHati ...,positif,Menjadi tuan rumah di negeri sendiri dan...,20,menjadi tuan rumah di negeri sendiri dan...


Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,Halo @KPU_ID ! Debat capres mana di dunia yg p...,netral,Halo ! Debat capres mana di dunia yang peser...,20,halo debat capres mana di dunia yang peser...
1,@tvOneNews Anies Efect Gus Imin pun menjadi se...,positif,Anies Efect Gus Imin pun menjadi semakin cer...,8,anies efek gus imin pun menjadi semakin cerdas
2,@pakaipeci Lha saya lebih malu lagi punya wali...,negatif,Lha saya lebih malu lagi punya walikota mode...,10,lah saya lebih malu lagi punya walikota mode...
3,@gibran_tweet Capresnya singgung masalag etika...,netral,Capresnya singgung masalah etika ke pak Anie...,16,capresnya singgung masalah etika ke pak anie...
4,@republikaonline Mas Gibran pemimpin yang cerd...,positif,Mas Gibran pemimpin yang cerdas dan merakyat...,17,mas gibran pemimpin yang cerdas dan merakyat...
...,...,...,...,...,...
1950,Demi dapat surat mandat Untuk temen yang mau j...,netral,Demi dapat surat mandat Untuk teman yang mau ...,39,demi dapat surat mandat untuk teman yang mau ...
1951,@hedoooya @Luqbaehaqi Jangan lupa infokan ke r...,netral,Jangan lupa infokan ke rekan rekan guru hon...,32,jangan lupa infokan ke rekan rekan guru hon...
1952,Investor akan merasa dihargai dengan upaya Gan...,positif,Investor akan merasa dihargai dengan upaya Ga...,20,investor akan merasa dihargai dengan upaya ga...
1953,TKN Prabowo-Gibran Hampiri Moderator saat Deba...,netral,TKN Prabowo-Gibran Hampiri Moderator saat Deb...,14,tkn prabowo gibran hampiri moderator saat deb...


### 4. Tokenization
Tokenization atau tokenisasi adalah suatu proses untuk membagi dokumen menjadi kata-kata/istilah, membangun vektor kata, yang dikenal sebagai bag-of-words. Tokenisasi terdiri dari berbagai pemotongan unit kata yang ingin dibuat. (Alrajak et al., 2020) 

In [8]:
df_train['text_preprocessed'] = df_train['text_preprocessed'].apply(tokenizing)
df_test['text_preprocessed'] = df_test['text_preprocessed'].apply(tokenizing)
display(df_train)
display(df_test)

Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,@aewin86 Kapan lagi punya presiden hebat kayak...,negatif,Kapan lagi punya presiden hebat mirip pak A...,15,"[kapan, lagi, punya, presiden, hebat, mirip, p..."
1,Tujuannya counter Anies kemaren biar Anies ngo...,netral,Tujuannya menangkal Anies kemarin biar Anies ...,18,"[tujuannya, menangkal, anies, kemarin, biar, a..."
2,@berlianidris @YantoThobenk Doa sepertiga mala...,netral,Doa sepertiga malam dok..itu yang bisa saya...,26,"[doa, sepertiga, malam, dok, itu, yang, bisa, ..."
3,@FayaAtika sudah budhe. pakai etika pas duo ca...,netral,sudah budhe. pakai etika pas duo cawapres di...,18,"[sudah, bude, pakai, etika, pas, duo, cawapres..."
4,Ganjar-Mahfud memahami bahwa petugas pajak yan...,positif,Ganjar-Mahfud memahami bahwa petugas pajak ya...,22,"[ganjar, mahfud, memahami, bahwa, petugas, paj..."
...,...,...,...,...,...
7360,@mirazh_me @ainunnajib @aniesbaswedan @cakimiN...,positif,Bener deh.... Lebih hebat Gibran diam saj...,10,"[benar, deh, lebih, hebat, gibran, diam, saja,..."
7361,@indozonemedia Kemampuan memimpin mas Gibran t...,positif,Kemampuan memimpin mas Gibran tidak diraguka...,8,"[kemampuan, memimpin, mas, gibran, tidak, dira..."
7362,@PutraErlangga95 Jawaban singkat pak Anies seb...,netral,Jawaban singkat pak Anies sebagai penutup wa...,29,"[jawaban, singkat, pak, anies, sebagai, penutu..."
7363,#AMINajaDulu #AniesUnggul #PakaiOtakPakaiHati ...,positif,Menjadi tuan rumah di negeri sendiri dan...,20,"[menjadi, tuan, rumah, di, negeri, sendiri, da..."


Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,Halo @KPU_ID ! Debat capres mana di dunia yg p...,netral,Halo ! Debat capres mana di dunia yang peser...,20,"[halo, debat, capres, mana, di, dunia, yang, p..."
1,@tvOneNews Anies Efect Gus Imin pun menjadi se...,positif,Anies Efect Gus Imin pun menjadi semakin cer...,8,"[anies, efek, gus, imin, pun, menjadi, semakin..."
2,@pakaipeci Lha saya lebih malu lagi punya wali...,negatif,Lha saya lebih malu lagi punya walikota mode...,10,"[lah, saya, lebih, malu, lagi, punya, walikota..."
3,@gibran_tweet Capresnya singgung masalag etika...,netral,Capresnya singgung masalah etika ke pak Anie...,16,"[capresnya, singgung, masalah, etika, ke, pak,..."
4,@republikaonline Mas Gibran pemimpin yang cerd...,positif,Mas Gibran pemimpin yang cerdas dan merakyat...,17,"[mas, gibran, pemimpin, yang, cerdas, dan, mer..."
...,...,...,...,...,...
1950,Demi dapat surat mandat Untuk temen yang mau j...,netral,Demi dapat surat mandat Untuk teman yang mau ...,39,"[demi, dapat, surat, mandat, untuk, teman, yan..."
1951,@hedoooya @Luqbaehaqi Jangan lupa infokan ke r...,netral,Jangan lupa infokan ke rekan rekan guru hon...,32,"[jangan, lupa, infokan, ke, rekan, rekan, guru..."
1952,Investor akan merasa dihargai dengan upaya Gan...,positif,Investor akan merasa dihargai dengan upaya Ga...,20,"[investor, akan, merasa, dihargai, dengan, upa..."
1953,TKN Prabowo-Gibran Hampiri Moderator saat Deba...,netral,TKN Prabowo-Gibran Hampiri Moderator saat Deb...,14,"[tkn, prabowo, gibran, hampiri, moderator, saa..."


### 5. Stopword Removal
Stopword removal dilakukan untuk menghapus kata-kata yang tidak bermakna. (Asro’i & Februariyanti, 2022) 

In [9]:
df_train['text_preprocessed'] = df_train['text_preprocessed'].apply(stopword_removal)
df_test['text_preprocessed'] = df_test['text_preprocessed'].apply(stopword_removal)
display(df_train)
display(df_test)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to
[

Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,@aewin86 Kapan lagi punya presiden hebat kayak...,negatif,Kapan lagi punya presiden hebat mirip pak A...,15,"[presiden, hebat, anies, capai, lihat, ganjar,..."
1,Tujuannya counter Anies kemaren biar Anies ngo...,netral,Tujuannya menangkal Anies kemarin biar Anies ...,18,"[tujuannya, menangkal, anies, kemarin, biar, a..."
2,@berlianidris @YantoThobenk Doa sepertiga mala...,netral,Doa sepertiga malam dok..itu yang bisa saya...,26,"[doa, sepertiga, malam, dok, lakukan, nama, an..."
3,@FayaAtika sudah budhe. pakai etika pas duo ca...,netral,sudah budhe. pakai etika pas duo cawapres di...,18,"[bude, pakai, etika, pas, duo, cawapres, diser..."
4,Ganjar-Mahfud memahami bahwa petugas pajak yan...,positif,Ganjar-Mahfud memahami bahwa petugas pajak ya...,22,"[ganjar, mahfud, memahami, petugas, pajak, ber..."
...,...,...,...,...,...
7360,@mirazh_me @ainunnajib @aniesbaswedan @cakimiN...,positif,Bener deh.... Lebih hebat Gibran diam saj...,10,"[deh, hebat, gibran, diam, menonton]"
7361,@indozonemedia Kemampuan memimpin mas Gibran t...,positif,Kemampuan memimpin mas Gibran tidak diraguka...,8,"[kemampuan, memimpin, mas, gibran, diragukan, ..."
7362,@PutraErlangga95 Jawaban singkat pak Anies seb...,netral,Jawaban singkat pak Anies sebagai penutup wa...,29,"[singkat, anies, penutup, wawancara, pers, deb..."
7363,#AMINajaDulu #AniesUnggul #PakaiOtakPakaiHati ...,positif,Menjadi tuan rumah di negeri sendiri dan...,20,"[tuan, rumah, negeri, tamu, mempesona, negeri,..."


Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,Halo @KPU_ID ! Debat capres mana di dunia yg p...,netral,Halo ! Debat capres mana di dunia yang peser...,20,"[halo, debat, capres, dunia, peserta, nya, men..."
1,@tvOneNews Anies Efect Gus Imin pun menjadi se...,positif,Anies Efect Gus Imin pun menjadi semakin cer...,8,"[anies, efek, gus, imin, cerdas]"
2,@pakaipeci Lha saya lebih malu lagi punya wali...,negatif,Lha saya lebih malu lagi punya walikota mode...,10,"[malu, walikota, model, gibran]"
3,@gibran_tweet Capresnya singgung masalag etika...,netral,Capresnya singgung masalah etika ke pak Anie...,16,"[capresnya, singgung, etika, anies, wakilnya, ..."
4,@republikaonline Mas Gibran pemimpin yang cerd...,positif,Mas Gibran pemimpin yang cerdas dan merakyat...,17,"[mas, gibran, pemimpin, cerdas, merakyat, suks..."
...,...,...,...,...,...
1950,Demi dapat surat mandat Untuk temen yang mau j...,netral,Demi dapat surat mandat Untuk teman yang mau ...,39,"[surat, mandat, teman, saksi, pulang, pengajia..."
1951,@hedoooya @Luqbaehaqi Jangan lupa infokan ke r...,netral,Jangan lupa infokan ke rekan rekan guru hon...,32,"[lupa, infokan, rekan, rekan, guru, honorer, y..."
1952,Investor akan merasa dihargai dengan upaya Gan...,positif,Investor akan merasa dihargai dengan upaya Ga...,20,"[investor, dihargai, upaya, ganjar, mahfud, me..."
1953,TKN Prabowo-Gibran Hampiri Moderator saat Deba...,netral,TKN Prabowo-Gibran Hampiri Moderator saat Deb...,14,"[tkn, prabowo, gibran, hampiri, moderator, deb..."


### 6. Stemming
Stemming adalah salah satu fitur preprocessing yang digunakan dalam pemrosesan bahasa alami dan penambangan teks. Tujuan utama dari proses stemming adalah untuk mengurangi kata infleksional atau turunan ke dalam bentuk dasarnya. Dengan fitur ini dimensi teks menjadi semakin sedikit sehingga semakin mudah untuk dikelompokkan berdasarkan kata dasar yang terdapat dalam Kamus Besar Bahasa Indonesia (KBBI). (Alrajak et al., 2020) 

In [10]:
df_train['text_preprocessed'] = df_train['text_preprocessed'].apply(stemming)
df_test['text_preprocessed'] = df_test['text_preprocessed'].apply(stemming)
display(df_train)
display(df_test)

Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,@aewin86 Kapan lagi punya presiden hebat kayak...,negatif,Kapan lagi punya presiden hebat mirip pak A...,15,"[presiden, hebat, anies, capai, lihat, ganjar,..."
1,Tujuannya counter Anies kemaren biar Anies ngo...,netral,Tujuannya menangkal Anies kemarin biar Anies ...,18,"[tuju, tangkal, anies, kemarin, biar, anies, o..."
2,@berlianidris @YantoThobenk Doa sepertiga mala...,netral,Doa sepertiga malam dok..itu yang bisa saya...,26,"[doa, tiga, malam, dok, laku, nama, anies, muh..."
3,@FayaAtika sudah budhe. pakai etika pas duo ca...,netral,sudah budhe. pakai etika pas duo cawapres di...,18,"[bude, pakai, etika, pas, duo, cawapres, seran..."
4,Ganjar-Mahfud memahami bahwa petugas pajak yan...,positif,Ganjar-Mahfud memahami bahwa petugas pajak ya...,22,"[ganjar, mahfud, paham, petugas, pajak, integr..."
...,...,...,...,...,...
7360,@mirazh_me @ainunnajib @aniesbaswedan @cakimiN...,positif,Bener deh.... Lebih hebat Gibran diam saj...,10,"[deh, hebat, gibran, diam, tonton]"
7361,@indozonemedia Kemampuan memimpin mas Gibran t...,positif,Kemampuan memimpin mas Gibran tidak diraguka...,8,"[mampu, pimpin, mas, gibran, ragu, hebat]"
7362,@PutraErlangga95 Jawaban singkat pak Anies seb...,netral,Jawaban singkat pak Anies sebagai penutup wa...,29,"[singkat, anies, tutup, wawancara, pers, debat..."
7363,#AMINajaDulu #AniesUnggul #PakaiOtakPakaiHati ...,positif,Menjadi tuan rumah di negeri sendiri dan...,20,"[tuan, rumah, negeri, tamu, pesona, negeri, or..."


Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,Halo @KPU_ID ! Debat capres mana di dunia yg p...,netral,Halo ! Debat capres mana di dunia yang peser...,20,"[halo, debat, capres, dunia, peserta, nya, nil..."
1,@tvOneNews Anies Efect Gus Imin pun menjadi se...,positif,Anies Efect Gus Imin pun menjadi semakin cer...,8,"[anies, efek, gus, imin, cerdas]"
2,@pakaipeci Lha saya lebih malu lagi punya wali...,negatif,Lha saya lebih malu lagi punya walikota mode...,10,"[malu, walikota, model, gibran]"
3,@gibran_tweet Capresnya singgung masalag etika...,netral,Capresnya singgung masalah etika ke pak Anie...,16,"[capresnya, singgung, etika, anies, wakil, eti..."
4,@republikaonline Mas Gibran pemimpin yang cerd...,positif,Mas Gibran pemimpin yang cerdas dan merakyat...,17,"[mas, gibran, pimpin, cerdas, rakyat, sukses, ..."
...,...,...,...,...,...
1950,Demi dapat surat mandat Untuk temen yang mau j...,netral,Demi dapat surat mandat Untuk teman yang mau ...,39,"[surat, mandat, teman, saksi, pulang, aji, rut..."
1951,@hedoooya @Luqbaehaqi Jangan lupa infokan ke r...,netral,Jangan lupa infokan ke rekan rekan guru hon...,32,"[lupa, info, rekan, rekan, guru, honorer, iya,..."
1952,Investor akan merasa dihargai dengan upaya Gan...,positif,Investor akan merasa dihargai dengan upaya Ga...,20,"[investor, harga, upaya, ganjar, mahfud, cipta..."
1953,TKN Prabowo-Gibran Hampiri Moderator saat Deba...,netral,TKN Prabowo-Gibran Hampiri Moderator saat Deb...,14,"[tkn, prabowo, gibran, hampir, moderator, deba..."


### Download

In [11]:
df_train['text_preprocessed'] = df_train['text_preprocessed'].apply(lambda text: ' '.join(text))
df_test['text_preprocessed'] = df_test['text_preprocessed'].apply(lambda text: ' '.join(text))
display(df_train)
display(df_test)

Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,@aewin86 Kapan lagi punya presiden hebat kayak...,negatif,Kapan lagi punya presiden hebat mirip pak A...,15,presiden hebat anies capai lihat ganjar prabow...
1,Tujuannya counter Anies kemaren biar Anies ngo...,netral,Tujuannya menangkal Anies kemarin biar Anies ...,18,tuju tangkal anies kemarin biar anies omong ad...
2,@berlianidris @YantoThobenk Doa sepertiga mala...,netral,Doa sepertiga malam dok..itu yang bisa saya...,26,doa tiga malam dok laku nama anies muhaiminkan...
3,@FayaAtika sudah budhe. pakai etika pas duo ca...,netral,sudah budhe. pakai etika pas duo cawapres di...,18,bude pakai etika pas duo cawapres serang bocil...
4,Ganjar-Mahfud memahami bahwa petugas pajak yan...,positif,Ganjar-Mahfud memahami bahwa petugas pajak ya...,22,ganjar mahfud paham petugas pajak integritas k...
...,...,...,...,...,...
7360,@mirazh_me @ainunnajib @aniesbaswedan @cakimiN...,positif,Bener deh.... Lebih hebat Gibran diam saj...,10,deh hebat gibran diam tonton
7361,@indozonemedia Kemampuan memimpin mas Gibran t...,positif,Kemampuan memimpin mas Gibran tidak diraguka...,8,mampu pimpin mas gibran ragu hebat
7362,@PutraErlangga95 Jawaban singkat pak Anies seb...,netral,Jawaban singkat pak Anies sebagai penutup wa...,29,singkat anies tutup wawancara pers debat termi...
7363,#AMINajaDulu #AniesUnggul #PakaiOtakPakaiHati ...,positif,Menjadi tuan rumah di negeri sendiri dan...,20,tuan rumah negeri tamu pesona negeri orang kon...


Unnamed: 0,full_text,sentiment,clean_full_text,word_count,text_preprocessed
0,Halo @KPU_ID ! Debat capres mana di dunia yg p...,netral,Halo ! Debat capres mana di dunia yang peser...,20,halo debat capres dunia peserta nya nilai turu...
1,@tvOneNews Anies Efect Gus Imin pun menjadi se...,positif,Anies Efect Gus Imin pun menjadi semakin cer...,8,anies efek gus imin cerdas
2,@pakaipeci Lha saya lebih malu lagi punya wali...,negatif,Lha saya lebih malu lagi punya walikota mode...,10,malu walikota model gibran
3,@gibran_tweet Capresnya singgung masalag etika...,netral,Capresnya singgung masalah etika ke pak Anie...,16,capresnya singgung etika anies wakil etika mah...
4,@republikaonline Mas Gibran pemimpin yang cerd...,positif,Mas Gibran pemimpin yang cerdas dan merakyat...,17,mas gibran pimpin cerdas rakyat sukses mas gib...
...,...,...,...,...,...
1950,Demi dapat surat mandat Untuk temen yang mau j...,netral,Demi dapat surat mandat Untuk teman yang mau ...,39,surat mandat teman saksi pulang aji rutin kah ...
1951,@hedoooya @Luqbaehaqi Jangan lupa infokan ke r...,netral,Jangan lupa infokan ke rekan rekan guru hon...,32,lupa info rekan rekan guru honorer iya rekam j...
1952,Investor akan merasa dihargai dengan upaya Gan...,positif,Investor akan merasa dihargai dengan upaya Ga...,20,investor harga upaya ganjar mahfud cipta trans...
1953,TKN Prabowo-Gibran Hampiri Moderator saat Deba...,netral,TKN Prabowo-Gibran Hampiri Moderator saat Deb...,14,tkn prabowo gibran hampir moderator debat kpu ...


In [12]:
df_train.to_csv('output/2_preprocessing_data/train.csv', index=False)
df_test.to_csv('output/2_preprocessing_data/test.csv', index=False)