# Data Preprocessing

In [1]:
import pandas as pd
import swifter
import pickle as pkl

%run "../shared.py"

pd.set_option('display.max_colwidth', 100)

In [2]:
target_dataset = 'tweets.csv'
raw_data_path = f'../dataset/raw/raw_{target_dataset}'
output_path = f'../dataset/processed/processed_{target_dataset}'

In [3]:
df = pd.read_csv(raw_data_path, delimiter='`')

print(df.shape)

(7502, 27)


In [4]:
df = df[['date','content']]

print(df.shape)
df

(7502, 2)


Unnamed: 0,date,content
0,2022-09-04 23:59:55+00:00,@soeyoto1 @msaid_didu Bukti kalau Pemerintahan Pak @jokowi tidak pro rakyat. Tapi pro oligarki. ...
1,2022-09-04 23:59:38+00:00,"@KompasTV Mentri esdm, trus patokanmu apa? Kantong pertamina udah jebol karna banyak dikorupsi, ..."
2,2022-09-04 23:59:09+00:00,@hnurwahid Ngaku masih subsidi tapi ada swasta yg jua lebih murah? mereka siapa yg subsidi? Pert...
3,2022-09-04 23:58:55+00:00,@Tan_Mar3M Kalau Vivo bisaberani bertahan dengan harga lama bagaimana pula nasib Pertamina ? 🤔
4,2022-09-04 23:57:45+00:00,Menteri BUMN Erick Thohir menegaskan persiapan Indonesia soal transisi energi baru terbarukan. S...
...,...,...
7497,2022-09-03 00:00:54+00:00,"175 Produk UMKM Binaan Pertamina Go Global, Ikut Festival Tong Tong di Belanda https://t.co/LTf7..."
7498,2022-09-03 00:00:36+00:00,"PT Pertamina Patra Niaga, Sub Holding Commercial dan Trading PT Pertamina (Persero) menyebutkan ..."
7499,2022-09-03 00:00:02+00:00,Pemerintah Provinsi Papua Barat sedang mengupayakan dengan mengajak Pertamina agar masalah antre...
7500,2022-09-03 00:00:01+00:00,"terhitung mulai 1 September 2020 pukul 00.00 waktu setempat, Pertamina secara resmi melakukan pe..."


# Section 1: Data cleaning

In [5]:
list_normalize_targets, list_normalize_replacements = load_normalization_list()
list_stopwords = load_stopwords_list()

Normalization list: 1039
Indonesian stopwords: 758
English stopwords: 179
Custom stopwords: 15
Total stopwords: 952


## Section 1.1: Case folding, data cleaning and tokenization data

In [6]:
df['text_clean'] = df['content'].swifter.apply(clean_tweet)
df['case_folding'] = df['text_clean'].swifter.apply(case_folding)
df['tokens'] = df['case_folding'].swifter.apply(tokenize)

print(df.shape)
df

Pandas Apply:   0%|          | 0/7502 [00:00<?, ?it/s]

Pandas Apply:   0%|          | 0/7502 [00:00<?, ?it/s]

Pandas Apply:   0%|          | 0/7502 [00:00<?, ?it/s]

(7502, 5)


Unnamed: 0,date,content,text_clean,case_folding,tokens
0,2022-09-04 23:59:55+00:00,@soeyoto1 @msaid_didu Bukti kalau Pemerintahan Pak @jokowi tidak pro rakyat. Tapi pro oligarki. ...,Bukti kalau Pemerintahan Pak tidak pro rakyat Tapi pro oligarki Vivo BBMnya lebih murah dari Pem...,bukti kalau pemerintahan pak tidak pro rakyat tapi pro oligarki vivo bbmnya lebih murah dari pem...,"[bukti, kalau, pemerintahan, pak, tidak, pro, rakyat, tapi, pro, oligarki, vivo, bbmnya, lebih, ..."
1,2022-09-04 23:59:38+00:00,"@KompasTV Mentri esdm, trus patokanmu apa? Kantong pertamina udah jebol karna banyak dikorupsi, ...",Mentri esdm trus patokanmu apa Kantong pertamina udah jebol karna banyak dikorupsi imbasnya raky...,mentri esdm trus patokanmu apa kantong pertamina udah jebol karna banyak dikorupsi imbasnya raky...,"[mentri, esdm, trus, patokanmu, apa, kantong, pertamina, udah, jebol, karna, banyak, dikorupsi, ..."
2,2022-09-04 23:59:09+00:00,@hnurwahid Ngaku masih subsidi tapi ada swasta yg jua lebih murah? mereka siapa yg subsidi? Pert...,Ngaku masih subsidi tapi ada swasta jua lebih murah mereka siapa subsidi Pertamina dipimpin tuka...,ngaku masih subsidi tapi ada swasta jua lebih murah mereka siapa subsidi pertamina dipimpin tuka...,"[ngaku, masih, subsidi, tapi, ada, swasta, jua, lebih, murah, mereka, siapa, subsidi, pertamina,..."
3,2022-09-04 23:58:55+00:00,@Tan_Mar3M Kalau Vivo bisaberani bertahan dengan harga lama bagaimana pula nasib Pertamina ? 🤔,Kalau Vivo bisaberani bertahan dengan harga lama bagaimana pula nasib Pertamina,kalau vivo bisaberani bertahan dengan harga lama bagaimana pula nasib pertamina,"[kalau, vivo, bisaberani, bertahan, dengan, harga, lama, bagaimana, pula, nasib, pertamina]"
4,2022-09-04 23:57:45+00:00,Menteri BUMN Erick Thohir menegaskan persiapan Indonesia soal transisi energi baru terbarukan. S...,Menteri BUMNErick Thohirmenegaskan persiapan Indonesia soal transisi energi baru terbarukan Sala...,menteri bumnerick thohirmenegaskan persiapan indonesia soal transisi energi baru terbarukan sala...,"[menteri, bumnerick, thohirmenegaskan, persiapan, indonesia, soal, transisi, energi, baru, terba..."
...,...,...,...,...,...
7497,2022-09-03 00:00:54+00:00,"175 Produk UMKM Binaan Pertamina Go Global, Ikut Festival Tong Tong di Belanda https://t.co/LTf7...",Produk UMKM Binaan Pertamina Global Ikut Festival Tong Tong Belanda,produk umkm binaan pertamina global ikut festival tong tong belanda,"[produk, umkm, binaan, pertamina, global, ikut, festival, tong, tong, belanda]"
7498,2022-09-03 00:00:36+00:00,"PT Pertamina Patra Niaga, Sub Holding Commercial dan Trading PT Pertamina (Persero) menyebutkan ...",Pertamina Patra Niaga Sub Holding Commercial dan Trading Pertamina Persero menyebutkan telah mel...,pertamina patra niaga sub holding commercial dan trading pertamina persero menyebutkan telah mel...,"[pertamina, patra, niaga, sub, holding, commercial, dan, trading, pertamina, persero, menyebutka..."
7499,2022-09-03 00:00:02+00:00,Pemerintah Provinsi Papua Barat sedang mengupayakan dengan mengajak Pertamina agar masalah antre...,Pemerintah Provinsi Papua Barat sedang mengupayakan dengan mengajak Pertamina agar masalah antre...,pemerintah provinsi papua barat sedang mengupayakan dengan mengajak pertamina agar masalah antre...,"[pemerintah, provinsi, papua, barat, sedang, mengupayakan, dengan, mengajak, pertamina, agar, ma..."
7500,2022-09-03 00:00:01+00:00,"terhitung mulai 1 September 2020 pukul 00.00 waktu setempat, Pertamina secara resmi melakukan pe...",terhitung mulai September pukul waktu setempat Pertamina secara resmi melakukan penyesuaian beru...,terhitung mulai september pukul waktu setempat pertamina secara resmi melakukan penyesuaian beru...,"[terhitung, mulai, september, pukul, waktu, setempat, pertamina, secara, resmi, melakukan, penye..."


## Section 1.2: Normalization and Stopwords removal

In [7]:
df['tokens'] = df['tokens'].swifter.apply(normalize, args=(list_normalize_targets, list_normalize_replacements))
df['tokens'] = df['tokens'].swifter.apply(remove_stopwords, args=(list_stopwords,))

print(df.shape)
df

Pandas Apply:   0%|          | 0/7502 [00:00<?, ?it/s]

Pandas Apply:   0%|          | 0/7502 [00:00<?, ?it/s]

(7502, 5)


Unnamed: 0,date,content,text_clean,case_folding,tokens
0,2022-09-04 23:59:55+00:00,@soeyoto1 @msaid_didu Bukti kalau Pemerintahan Pak @jokowi tidak pro rakyat. Tapi pro oligarki. ...,Bukti kalau Pemerintahan Pak tidak pro rakyat Tapi pro oligarki Vivo BBMnya lebih murah dari Pem...,bukti kalau pemerintahan pak tidak pro rakyat tapi pro oligarki vivo bbmnya lebih murah dari pem...,"[bukti, pemerintahan, pro, rakyat, pro, oligarki, vivo, bbmnya, murah, pemerintah, harga, kebodo..."
1,2022-09-04 23:59:38+00:00,"@KompasTV Mentri esdm, trus patokanmu apa? Kantong pertamina udah jebol karna banyak dikorupsi, ...",Mentri esdm trus patokanmu apa Kantong pertamina udah jebol karna banyak dikorupsi imbasnya raky...,mentri esdm trus patokanmu apa kantong pertamina udah jebol karna banyak dikorupsi imbasnya raky...,"[menteri, esdm, patokanmu, kantong, pertamina, jebol, dikorupsi, imbasnya, rakyat, menanggung]"
2,2022-09-04 23:59:09+00:00,@hnurwahid Ngaku masih subsidi tapi ada swasta yg jua lebih murah? mereka siapa yg subsidi? Pert...,Ngaku masih subsidi tapi ada swasta jua lebih murah mereka siapa subsidi Pertamina dipimpin tuka...,ngaku masih subsidi tapi ada swasta jua lebih murah mereka siapa subsidi pertamina dipimpin tuka...,"[mengaku, subsidi, swasta, jual, murah, subsidi, pertamina, pimpin, tukang, memaki, nasib, rakya..."
3,2022-09-04 23:58:55+00:00,@Tan_Mar3M Kalau Vivo bisaberani bertahan dengan harga lama bagaimana pula nasib Pertamina ? 🤔,Kalau Vivo bisaberani bertahan dengan harga lama bagaimana pula nasib Pertamina,kalau vivo bisaberani bertahan dengan harga lama bagaimana pula nasib pertamina,"[vivo, berani, bertahan, harga, nasib, pertamina]"
4,2022-09-04 23:57:45+00:00,Menteri BUMN Erick Thohir menegaskan persiapan Indonesia soal transisi energi baru terbarukan. S...,Menteri BUMNErick Thohirmenegaskan persiapan Indonesia soal transisi energi baru terbarukan Sala...,menteri bumnerick thohirmenegaskan persiapan indonesia soal transisi energi baru terbarukan sala...,"[menteri, bumnerick, thohirmenegaskan, persiapan, indonesia, transisi, energi, terbarukan, salah..."
...,...,...,...,...,...
7497,2022-09-03 00:00:54+00:00,"175 Produk UMKM Binaan Pertamina Go Global, Ikut Festival Tong Tong di Belanda https://t.co/LTf7...",Produk UMKM Binaan Pertamina Global Ikut Festival Tong Tong Belanda,produk umkm binaan pertamina global ikut festival tong tong belanda,"[produk, umkm, binaan, pertamina, global, festival, tong, tong, belanda]"
7498,2022-09-03 00:00:36+00:00,"PT Pertamina Patra Niaga, Sub Holding Commercial dan Trading PT Pertamina (Persero) menyebutkan ...",Pertamina Patra Niaga Sub Holding Commercial dan Trading Pertamina Persero menyebutkan telah mel...,pertamina patra niaga sub holding commercial dan trading pertamina persero menyebutkan telah mel...,"[pertamina, patra, niaga, sub, holding, commercial, trading, pertamina, persero, penyesuaian, ha..."
7499,2022-09-03 00:00:02+00:00,Pemerintah Provinsi Papua Barat sedang mengupayakan dengan mengajak Pertamina agar masalah antre...,Pemerintah Provinsi Papua Barat sedang mengupayakan dengan mengajak Pertamina agar masalah antre...,pemerintah provinsi papua barat sedang mengupayakan dengan mengajak pertamina agar masalah antre...,"[pemerintah, provinsi, papua, barat, mengupayakan, mengajak, pertamina, antrian, pengisian, bbm,..."
7500,2022-09-03 00:00:01+00:00,"terhitung mulai 1 September 2020 pukul 00.00 waktu setempat, Pertamina secara resmi melakukan pe...",terhitung mulai September pukul waktu setempat Pertamina secara resmi melakukan penyesuaian beru...,terhitung mulai september pukul waktu setempat pertamina secara resmi melakukan penyesuaian beru...,"[terhitung, september, pertamina, resmi, penyesuaian, penurunan, harga, produk, pertamax, turbo,..."


## Section 1.3: Remove Data

In [8]:
from collections import Counter

def remove_data_with_rare_word(df, key_name='tokens', threshold=2):
	print(f"Before: {df.shape}")
	token_counts = Counter([token for tokens in df[key_name] for token in tokens])
	filtered_words = [token for token, count in token_counts.items() if count >= threshold]
	df = df[df[key_name].apply(lambda x: any(token in filtered_words for token in x))]
	df = df.reset_index(drop=True)
	print(f"After: {df.shape}")
	return df

def remove_data(df, key_name = 'tokens'):
	print(f"Before: {df.shape}")

	# Remove duplicate data
	df.drop_duplicates(subset=key_name, keep="first", inplace=True)

	# Remove empty data
	df.dropna(subset=[key_name], inplace=True)

	# Remove data with length less than 2
	df = df[df[key_name].map(len) > 2]
	df.reset_index(inplace=True)

	print(f"After: {df.shape}")
	return df

# threshold is 10% of the total data
threshold = int(df.shape[0] * 0.1)
df = remove_data_with_rare_word(df, key_name='tokens', threshold=threshold)
df

Before: (7502, 5)
After: (6626, 5)


Unnamed: 0,date,content,text_clean,case_folding,tokens
0,2022-09-04 23:59:55+00:00,@soeyoto1 @msaid_didu Bukti kalau Pemerintahan Pak @jokowi tidak pro rakyat. Tapi pro oligarki. ...,Bukti kalau Pemerintahan Pak tidak pro rakyat Tapi pro oligarki Vivo BBMnya lebih murah dari Pem...,bukti kalau pemerintahan pak tidak pro rakyat tapi pro oligarki vivo bbmnya lebih murah dari pem...,"[bukti, pemerintahan, pro, rakyat, pro, oligarki, vivo, bbmnya, murah, pemerintah, harga, kebodo..."
1,2022-09-04 23:59:38+00:00,"@KompasTV Mentri esdm, trus patokanmu apa? Kantong pertamina udah jebol karna banyak dikorupsi, ...",Mentri esdm trus patokanmu apa Kantong pertamina udah jebol karna banyak dikorupsi imbasnya raky...,mentri esdm trus patokanmu apa kantong pertamina udah jebol karna banyak dikorupsi imbasnya raky...,"[menteri, esdm, patokanmu, kantong, pertamina, jebol, dikorupsi, imbasnya, rakyat, menanggung]"
2,2022-09-04 23:59:09+00:00,@hnurwahid Ngaku masih subsidi tapi ada swasta yg jua lebih murah? mereka siapa yg subsidi? Pert...,Ngaku masih subsidi tapi ada swasta jua lebih murah mereka siapa subsidi Pertamina dipimpin tuka...,ngaku masih subsidi tapi ada swasta jua lebih murah mereka siapa subsidi pertamina dipimpin tuka...,"[mengaku, subsidi, swasta, jual, murah, subsidi, pertamina, pimpin, tukang, memaki, nasib, rakya..."
3,2022-09-04 23:58:55+00:00,@Tan_Mar3M Kalau Vivo bisaberani bertahan dengan harga lama bagaimana pula nasib Pertamina ? 🤔,Kalau Vivo bisaberani bertahan dengan harga lama bagaimana pula nasib Pertamina,kalau vivo bisaberani bertahan dengan harga lama bagaimana pula nasib pertamina,"[vivo, berani, bertahan, harga, nasib, pertamina]"
4,2022-09-04 23:57:45+00:00,Menteri BUMN Erick Thohir menegaskan persiapan Indonesia soal transisi energi baru terbarukan. S...,Menteri BUMNErick Thohirmenegaskan persiapan Indonesia soal transisi energi baru terbarukan Sala...,menteri bumnerick thohirmenegaskan persiapan indonesia soal transisi energi baru terbarukan sala...,"[menteri, bumnerick, thohirmenegaskan, persiapan, indonesia, transisi, energi, terbarukan, salah..."
...,...,...,...,...,...
6621,2022-09-03 00:00:54+00:00,"175 Produk UMKM Binaan Pertamina Go Global, Ikut Festival Tong Tong di Belanda https://t.co/LTf7...",Produk UMKM Binaan Pertamina Global Ikut Festival Tong Tong Belanda,produk umkm binaan pertamina global ikut festival tong tong belanda,"[produk, umkm, binaan, pertamina, global, festival, tong, tong, belanda]"
6622,2022-09-03 00:00:36+00:00,"PT Pertamina Patra Niaga, Sub Holding Commercial dan Trading PT Pertamina (Persero) menyebutkan ...",Pertamina Patra Niaga Sub Holding Commercial dan Trading Pertamina Persero menyebutkan telah mel...,pertamina patra niaga sub holding commercial dan trading pertamina persero menyebutkan telah mel...,"[pertamina, patra, niaga, sub, holding, commercial, trading, pertamina, persero, penyesuaian, ha..."
6623,2022-09-03 00:00:02+00:00,Pemerintah Provinsi Papua Barat sedang mengupayakan dengan mengajak Pertamina agar masalah antre...,Pemerintah Provinsi Papua Barat sedang mengupayakan dengan mengajak Pertamina agar masalah antre...,pemerintah provinsi papua barat sedang mengupayakan dengan mengajak pertamina agar masalah antre...,"[pemerintah, provinsi, papua, barat, mengupayakan, mengajak, pertamina, antrian, pengisian, bbm,..."
6624,2022-09-03 00:00:01+00:00,"terhitung mulai 1 September 2020 pukul 00.00 waktu setempat, Pertamina secara resmi melakukan pe...",terhitung mulai September pukul waktu setempat Pertamina secara resmi melakukan penyesuaian beru...,terhitung mulai september pukul waktu setempat pertamina secara resmi melakukan penyesuaian beru...,"[terhitung, september, pertamina, resmi, penyesuaian, penurunan, harga, produk, pertamax, turbo,..."


# Section 1: Data Stemming

In [9]:
terms_dict = stemming(df['tokens'])

Unique terms: 11617
On processing... 0 terms have been stemmed
On processing... 1000 terms have been stemmed
On processing... 2000 terms have been stemmed
On processing... 3000 terms have been stemmed
On processing... 4000 terms have been stemmed
On processing... 5000 terms have been stemmed
On processing... 6000 terms have been stemmed
On processing... 7000 terms have been stemmed
On processing... 8000 terms have been stemmed
On processing... 9000 terms have been stemmed
On processing... 10000 terms have been stemmed
On processing... 11000 terms have been stemmed


In [10]:
def apply_stemmed_tokens(tokens):
	return [terms_dict[token] for token in tokens]

df['tokens_ready'] = df['tokens'].swifter.apply(apply_stemmed_tokens)

print(df.shape)
df

Pandas Apply:   0%|          | 0/6626 [00:00<?, ?it/s]

(6626, 6)


Unnamed: 0,date,content,text_clean,case_folding,tokens,tokens_ready
0,2022-09-04 23:59:55+00:00,@soeyoto1 @msaid_didu Bukti kalau Pemerintahan Pak @jokowi tidak pro rakyat. Tapi pro oligarki. ...,Bukti kalau Pemerintahan Pak tidak pro rakyat Tapi pro oligarki Vivo BBMnya lebih murah dari Pem...,bukti kalau pemerintahan pak tidak pro rakyat tapi pro oligarki vivo bbmnya lebih murah dari pem...,"[bukti, pemerintahan, pro, rakyat, pro, oligarki, vivo, bbmnya, murah, pemerintah, harga, kebodo...","[bukti, perintah, pro, rakyat, pro, oligarki, vivo, bbmnya, murah, perintah, harga, bodoh, perta..."
1,2022-09-04 23:59:38+00:00,"@KompasTV Mentri esdm, trus patokanmu apa? Kantong pertamina udah jebol karna banyak dikorupsi, ...",Mentri esdm trus patokanmu apa Kantong pertamina udah jebol karna banyak dikorupsi imbasnya raky...,mentri esdm trus patokanmu apa kantong pertamina udah jebol karna banyak dikorupsi imbasnya raky...,"[menteri, esdm, patokanmu, kantong, pertamina, jebol, dikorupsi, imbasnya, rakyat, menanggung]","[menteri, esdm, patok, kantong, pertamina, jebol, korupsi, imbas, rakyat, tanggung]"
2,2022-09-04 23:59:09+00:00,@hnurwahid Ngaku masih subsidi tapi ada swasta yg jua lebih murah? mereka siapa yg subsidi? Pert...,Ngaku masih subsidi tapi ada swasta jua lebih murah mereka siapa subsidi Pertamina dipimpin tuka...,ngaku masih subsidi tapi ada swasta jua lebih murah mereka siapa subsidi pertamina dipimpin tuka...,"[mengaku, subsidi, swasta, jual, murah, subsidi, pertamina, pimpin, tukang, memaki, nasib, rakya...","[aku, subsidi, swasta, jual, murah, subsidi, pertamina, pimpin, tukang, maki, nasib, rakyat, git..."
3,2022-09-04 23:58:55+00:00,@Tan_Mar3M Kalau Vivo bisaberani bertahan dengan harga lama bagaimana pula nasib Pertamina ? 🤔,Kalau Vivo bisaberani bertahan dengan harga lama bagaimana pula nasib Pertamina,kalau vivo bisaberani bertahan dengan harga lama bagaimana pula nasib pertamina,"[vivo, berani, bertahan, harga, nasib, pertamina]","[vivo, berani, tahan, harga, nasib, pertamina]"
4,2022-09-04 23:57:45+00:00,Menteri BUMN Erick Thohir menegaskan persiapan Indonesia soal transisi energi baru terbarukan. S...,Menteri BUMNErick Thohirmenegaskan persiapan Indonesia soal transisi energi baru terbarukan Sala...,menteri bumnerick thohirmenegaskan persiapan indonesia soal transisi energi baru terbarukan sala...,"[menteri, bumnerick, thohirmenegaskan, persiapan, indonesia, transisi, energi, terbarukan, salah...","[menteri, bumnerick, thohirmenegaskan, siap, indonesia, transisi, energi, baru, salah, upaya, ke..."
...,...,...,...,...,...,...
6621,2022-09-03 00:00:54+00:00,"175 Produk UMKM Binaan Pertamina Go Global, Ikut Festival Tong Tong di Belanda https://t.co/LTf7...",Produk UMKM Binaan Pertamina Global Ikut Festival Tong Tong Belanda,produk umkm binaan pertamina global ikut festival tong tong belanda,"[produk, umkm, binaan, pertamina, global, festival, tong, tong, belanda]","[produk, umkm, bina, pertamina, global, festival, tong, tong, belanda]"
6622,2022-09-03 00:00:36+00:00,"PT Pertamina Patra Niaga, Sub Holding Commercial dan Trading PT Pertamina (Persero) menyebutkan ...",Pertamina Patra Niaga Sub Holding Commercial dan Trading Pertamina Persero menyebutkan telah mel...,pertamina patra niaga sub holding commercial dan trading pertamina persero menyebutkan telah mel...,"[pertamina, patra, niaga, sub, holding, commercial, trading, pertamina, persero, penyesuaian, ha...","[pertamina, patra, niaga, sub, holding, commercial, trading, pertamina, persero, sesuai, harga, ..."
6623,2022-09-03 00:00:02+00:00,Pemerintah Provinsi Papua Barat sedang mengupayakan dengan mengajak Pertamina agar masalah antre...,Pemerintah Provinsi Papua Barat sedang mengupayakan dengan mengajak Pertamina agar masalah antre...,pemerintah provinsi papua barat sedang mengupayakan dengan mengajak pertamina agar masalah antre...,"[pemerintah, provinsi, papua, barat, mengupayakan, mengajak, pertamina, antrian, pengisian, bbm,...","[perintah, provinsi, papua, barat, upaya, ajak, pertamina, antri, isi, bbm, spbu, dampak, distri..."
6624,2022-09-03 00:00:01+00:00,"terhitung mulai 1 September 2020 pukul 00.00 waktu setempat, Pertamina secara resmi melakukan pe...",terhitung mulai September pukul waktu setempat Pertamina secara resmi melakukan penyesuaian beru...,terhitung mulai september pukul waktu setempat pertamina secara resmi melakukan penyesuaian beru...,"[terhitung, september, pertamina, resmi, penyesuaian, penurunan, harga, produk, pertamax, turbo,...","[hitung, september, pertamina, resmi, sesuai, turun, harga, produk, pertamax, turbo, ron, dexlit..."


In [11]:
def combine_tokens(tokens):
	return ' '.join(tokens)

df['review'] = df['tokens_ready'].swifter.apply(combine_tokens)
pd.set_option('display.max_colwidth', 50)
df

Pandas Apply:   0%|          | 0/6626 [00:00<?, ?it/s]

Unnamed: 0,date,content,text_clean,case_folding,tokens,tokens_ready,review
0,2022-09-04 23:59:55+00:00,@soeyoto1 @msaid_didu Bukti kalau Pemerintahan...,Bukti kalau Pemerintahan Pak tidak pro rakyat ...,bukti kalau pemerintahan pak tidak pro rakyat ...,"[bukti, pemerintahan, pro, rakyat, pro, oligar...","[bukti, perintah, pro, rakyat, pro, oligarki, ...",bukti perintah pro rakyat pro oligarki vivo bb...
1,2022-09-04 23:59:38+00:00,"@KompasTV Mentri esdm, trus patokanmu apa? Kan...",Mentri esdm trus patokanmu apa Kantong pertami...,mentri esdm trus patokanmu apa kantong pertami...,"[menteri, esdm, patokanmu, kantong, pertamina,...","[menteri, esdm, patok, kantong, pertamina, jeb...",menteri esdm patok kantong pertamina jebol kor...
2,2022-09-04 23:59:09+00:00,@hnurwahid Ngaku masih subsidi tapi ada swasta...,Ngaku masih subsidi tapi ada swasta jua lebih ...,ngaku masih subsidi tapi ada swasta jua lebih ...,"[mengaku, subsidi, swasta, jual, murah, subsid...","[aku, subsidi, swasta, jual, murah, subsidi, p...",aku subsidi swasta jual murah subsidi pertamin...
3,2022-09-04 23:58:55+00:00,@Tan_Mar3M Kalau Vivo bisaberani bertahan deng...,Kalau Vivo bisaberani bertahan dengan harga la...,kalau vivo bisaberani bertahan dengan harga la...,"[vivo, berani, bertahan, harga, nasib, pertamina]","[vivo, berani, tahan, harga, nasib, pertamina]",vivo berani tahan harga nasib pertamina
4,2022-09-04 23:57:45+00:00,Menteri BUMN Erick Thohir menegaskan persiapan...,Menteri BUMNErick Thohirmenegaskan persiapan I...,menteri bumnerick thohirmenegaskan persiapan i...,"[menteri, bumnerick, thohirmenegaskan, persiap...","[menteri, bumnerick, thohirmenegaskan, siap, i...",menteri bumnerick thohirmenegaskan siap indone...
...,...,...,...,...,...,...,...
6621,2022-09-03 00:00:54+00:00,"175 Produk UMKM Binaan Pertamina Go Global, Ik...",Produk UMKM Binaan Pertamina Global Ikut Festi...,produk umkm binaan pertamina global ikut festi...,"[produk, umkm, binaan, pertamina, global, fest...","[produk, umkm, bina, pertamina, global, festiv...",produk umkm bina pertamina global festival ton...
6622,2022-09-03 00:00:36+00:00,"PT Pertamina Patra Niaga, Sub Holding Commerci...",Pertamina Patra Niaga Sub Holding Commercial d...,pertamina patra niaga sub holding commercial d...,"[pertamina, patra, niaga, sub, holding, commer...","[pertamina, patra, niaga, sub, holding, commer...",pertamina patra niaga sub holding commercial t...
6623,2022-09-03 00:00:02+00:00,Pemerintah Provinsi Papua Barat sedang mengupa...,Pemerintah Provinsi Papua Barat sedang mengupa...,pemerintah provinsi papua barat sedang mengupa...,"[pemerintah, provinsi, papua, barat, mengupaya...","[perintah, provinsi, papua, barat, upaya, ajak...",perintah provinsi papua barat upaya ajak perta...
6624,2022-09-03 00:00:01+00:00,terhitung mulai 1 September 2020 pukul 00.00 w...,terhitung mulai September pukul waktu setempat...,terhitung mulai september pukul waktu setempat...,"[terhitung, september, pertamina, resmi, penye...","[hitung, september, pertamina, resmi, sesuai, ...",hitung september pertamina resmi sesuai turun ...


In [12]:
duplicate_data = df[df.duplicated(subset='review')].sort_values(by='review')

duplicate_data

Unnamed: 0,date,content,text_clean,case_folding,tokens,tokens_ready,review
1889,2022-09-04 08:26:29+00:00,@aindraku Ahok ngapain aja di pertamina,Ahok ngapain aja pertamina,ahok ngapain aja pertamina,"[ahok, pertamina]","[ahok, pertamina]",ahok pertamina
2645,2022-09-04 05:32:53+00:00,@Ojie_ajeh @BangIwa97467934 AHOK DI PERTAMINA ...,AHOK PERTAMINA NGAPAIN,ahok pertamina ngapain,"[ahok, pertamina]","[ahok, pertamina]",ahok pertamina
4906,2022-09-03 13:28:20+00:00,@Mr_cosanostra Ahok kan di Pertamina 😑,Ahok kan Pertamina,ahok kan pertamina,"[ahok, pertamina]","[ahok, pertamina]",ahok pertamina
4264,2022-09-03 16:01:07+00:00,@Shiva17542486 @ZoelHelmiLubis1 Kalo kata Ahok...,Kalo kata Ahok Pertamina merem aje untung,kalo kata ahok pertamina merem aje untung,"[ahok, pertamina, merem, untung]","[ahok, pertamina, merem, untung]",ahok pertamina merem untung
4089,2022-09-03 16:51:42+00:00,"Dua Tahun Aldebaran Hilang dari Pondok Pelita,...",Dua Tahun Aldebaran Hilang dari Pondok Pelita ...,dua tahun aldebaran hilang dari pondok pelita ...,"[aldebaran, hilang, pondok, pelita, netizen, k...","[aldebaran, hilang, pondok, pelita, netizen, k...",aldebaran hilang pondok pelita netizen kagum c...
...,...,...,...,...,...,...,...
6443,2022-09-03 05:42:08+00:00,"Wuihh Ikut Festival Tong Tong di Belanda, 175 ...",Wuihh Ikut Festival Tong Tong Belanda Produk T...,wuihh ikut festival tong tong belanda produk t...,"[wuihh, festival, tong, tong, belanda, produk,...","[wuihh, festival, tong, tong, belanda, produk,...",wuihh festival tong tong belanda produk baik u...
6450,2022-09-03 05:41:10+00:00,"Wuihh Ikut Festival Tong Tong di Belanda, 175 ...",Wuihh Ikut Festival Tong Tong Belanda Produk T...,wuihh ikut festival tong tong belanda produk t...,"[wuihh, festival, tong, tong, belanda, produk,...","[wuihh, festival, tong, tong, belanda, produk,...",wuihh festival tong tong belanda produk baik u...
6064,2022-09-03 08:21:09+00:00,"Yeay Ikut Festival Tong Tong di Belanda, 175 P...",Yeay Ikut Festival Tong Tong Belanda Produk Te...,yeay ikut festival tong tong belanda produk te...,"[yeay, festival, tong, tong, belanda, produk, ...","[yeay, festival, tong, tong, belanda, produk, ...",yeay festival tong tong belanda produk baik um...
1018,2022-09-04 12:45:56+00:00,"Yeayy Pastikan Pasokan BBM Aman, Dirut Pertami...",Yeayy Pastikan Pasokan BBM Aman Dirut Pertamin...,yeayy pastikan pasokan bbm aman dirut pertamin...,"[yeayy, pastikan, pasokan, bbm, aman, direktur...","[yeayy, pasti, pasok, bbm, aman, direktur utam...",yeayy pasti pasok bbm aman direktur utama pert...


In [13]:
df['tokens_ready'] = df['tokens_ready'].swifter.apply(remove_stopwords, args=(list_stopwords,))
df['review'] = df['tokens_ready'].swifter.apply(combine_tokens)

df = remove_data(df, 'review')

print(df.shape)
df.head()

Pandas Apply:   0%|          | 0/6626 [00:00<?, ?it/s]

Pandas Apply:   0%|          | 0/6626 [00:00<?, ?it/s]

Before: (6626, 7)
After: (6237, 8)
(6237, 8)


Unnamed: 0,index,date,content,text_clean,case_folding,tokens,tokens_ready,review
0,0,2022-09-04 23:59:55+00:00,@soeyoto1 @msaid_didu Bukti kalau Pemerintahan...,Bukti kalau Pemerintahan Pak tidak pro rakyat ...,bukti kalau pemerintahan pak tidak pro rakyat ...,"[bukti, pemerintahan, pro, rakyat, pro, oligar...","[bukti, perintah, pro, rakyat, pro, oligarki, ...",bukti perintah pro rakyat pro oligarki vivo bb...
1,1,2022-09-04 23:59:38+00:00,"@KompasTV Mentri esdm, trus patokanmu apa? Kan...",Mentri esdm trus patokanmu apa Kantong pertami...,mentri esdm trus patokanmu apa kantong pertami...,"[menteri, esdm, patokanmu, kantong, pertamina,...","[menteri, esdm, patok, kantong, pertamina, jeb...",menteri esdm patok kantong pertamina jebol kor...
2,2,2022-09-04 23:59:09+00:00,@hnurwahid Ngaku masih subsidi tapi ada swasta...,Ngaku masih subsidi tapi ada swasta jua lebih ...,ngaku masih subsidi tapi ada swasta jua lebih ...,"[mengaku, subsidi, swasta, jual, murah, subsid...","[subsidi, swasta, jual, murah, subsidi, pertam...",subsidi swasta jual murah subsidi pertamina pi...
3,3,2022-09-04 23:58:55+00:00,@Tan_Mar3M Kalau Vivo bisaberani bertahan deng...,Kalau Vivo bisaberani bertahan dengan harga la...,kalau vivo bisaberani bertahan dengan harga la...,"[vivo, berani, bertahan, harga, nasib, pertamina]","[vivo, berani, tahan, harga, nasib, pertamina]",vivo berani tahan harga nasib pertamina
4,4,2022-09-04 23:57:45+00:00,Menteri BUMN Erick Thohir menegaskan persiapan...,Menteri BUMNErick Thohirmenegaskan persiapan I...,menteri bumnerick thohirmenegaskan persiapan i...,"[menteri, bumnerick, thohirmenegaskan, persiap...","[menteri, bumnerick, thohirmenegaskan, indones...",menteri bumnerick thohirmenegaskan indonesia t...


In [14]:
df

Unnamed: 0,index,date,content,text_clean,case_folding,tokens,tokens_ready,review
0,0,2022-09-04 23:59:55+00:00,@soeyoto1 @msaid_didu Bukti kalau Pemerintahan...,Bukti kalau Pemerintahan Pak tidak pro rakyat ...,bukti kalau pemerintahan pak tidak pro rakyat ...,"[bukti, pemerintahan, pro, rakyat, pro, oligar...","[bukti, perintah, pro, rakyat, pro, oligarki, ...",bukti perintah pro rakyat pro oligarki vivo bb...
1,1,2022-09-04 23:59:38+00:00,"@KompasTV Mentri esdm, trus patokanmu apa? Kan...",Mentri esdm trus patokanmu apa Kantong pertami...,mentri esdm trus patokanmu apa kantong pertami...,"[menteri, esdm, patokanmu, kantong, pertamina,...","[menteri, esdm, patok, kantong, pertamina, jeb...",menteri esdm patok kantong pertamina jebol kor...
2,2,2022-09-04 23:59:09+00:00,@hnurwahid Ngaku masih subsidi tapi ada swasta...,Ngaku masih subsidi tapi ada swasta jua lebih ...,ngaku masih subsidi tapi ada swasta jua lebih ...,"[mengaku, subsidi, swasta, jual, murah, subsid...","[subsidi, swasta, jual, murah, subsidi, pertam...",subsidi swasta jual murah subsidi pertamina pi...
3,3,2022-09-04 23:58:55+00:00,@Tan_Mar3M Kalau Vivo bisaberani bertahan deng...,Kalau Vivo bisaberani bertahan dengan harga la...,kalau vivo bisaberani bertahan dengan harga la...,"[vivo, berani, bertahan, harga, nasib, pertamina]","[vivo, berani, tahan, harga, nasib, pertamina]",vivo berani tahan harga nasib pertamina
4,4,2022-09-04 23:57:45+00:00,Menteri BUMN Erick Thohir menegaskan persiapan...,Menteri BUMNErick Thohirmenegaskan persiapan I...,menteri bumnerick thohirmenegaskan persiapan i...,"[menteri, bumnerick, thohirmenegaskan, persiap...","[menteri, bumnerick, thohirmenegaskan, indones...",menteri bumnerick thohirmenegaskan indonesia t...
...,...,...,...,...,...,...,...,...
6232,6621,2022-09-03 00:00:54+00:00,"175 Produk UMKM Binaan Pertamina Go Global, Ik...",Produk UMKM Binaan Pertamina Global Ikut Festi...,produk umkm binaan pertamina global ikut festi...,"[produk, umkm, binaan, pertamina, global, fest...","[produk, umkm, bina, pertamina, global, festiv...",produk umkm bina pertamina global festival ton...
6233,6622,2022-09-03 00:00:36+00:00,"PT Pertamina Patra Niaga, Sub Holding Commerci...",Pertamina Patra Niaga Sub Holding Commercial d...,pertamina patra niaga sub holding commercial d...,"[pertamina, patra, niaga, sub, holding, commer...","[pertamina, patra, niaga, sub, holding, commer...",pertamina patra niaga sub holding commercial t...
6234,6623,2022-09-03 00:00:02+00:00,Pemerintah Provinsi Papua Barat sedang mengupa...,Pemerintah Provinsi Papua Barat sedang mengupa...,pemerintah provinsi papua barat sedang mengupa...,"[pemerintah, provinsi, papua, barat, mengupaya...","[perintah, provinsi, papua, barat, upaya, ajak...",perintah provinsi papua barat upaya ajak perta...
6235,6624,2022-09-03 00:00:01+00:00,terhitung mulai 1 September 2020 pukul 00.00 w...,terhitung mulai September pukul waktu setempat...,terhitung mulai september pukul waktu setempat...,"[terhitung, september, pertamina, resmi, penye...","[hitung, september, pertamina, resmi, sesuai, ...",hitung september pertamina resmi sesuai turun ...


In [15]:
df.to_csv(output_path, index=False, header=True, sep=';')