
# Objective
- Unstructured text data --> normalized word list
- Extract feature from text data

# Method
- Number to Words Translation
- Case to Lower
- Emoticon to Words Translation
- Symbol to Words Translation
- Translate Reduplication
- Non-Alphanumeric removal
- Slang and Abbrv Lookup
- Word Standardization
- Tokenization

In [1]:
import pandas as pd
import numpy as np
import re
import string
import itertools
import collections
from collections import OrderedDict, Counter

In [2]:
raw = pd.read_csv('data/data/data_raw.csv')
raw

Unnamed: 0,rating,review,aspect_category,polarity
0,3,Sangat Membantu. Terutama di kondisi Pandemi. ...,Pelayanan,Negatif
1,5,Baru pertama konsultasi dokter lewat halo doc ...,Pelayanan,Negatif
2,1,astaga obatnya semakin lama beli obat di halo ...,Harga,Negatif
3,5,Terimakasih Halodoc atas pelayanannya sangat b...,Pelayanan,Positif
4,1,Ada yang nelpon ke no saya katanya dari halodo...,Sistem,Positif
...,...,...,...,...
795,5,"Semudah diklik, praktis dan sangat membantu👌",Anekdot/Serbaneka,Positif
796,5,Pelayanannya ramah . Paham dengan bidangnya,Anekdot/Serbaneka,Positif
797,4,bagus aplikasi nya terasa punya dokter pribadi...,Anekdot/Serbaneka,Positif
798,5,sangat memudahkan konsultasi tanpa keluar rumah,Pelayanan,Positif


# Contoh Data untuk Cleaning

In [3]:
raw['review'][0]

'Sangat Membantu. Terutama di kondisi Pandemi. Tapi tolong diEvaluasi Ketersediaan Obat di Apotik rekanan HALODOC di Kota MANADO. Untuk resep obat batuk biasa saja Apotik suka habis. Jadi sia2 konsultasi dgn dokter ujung2nya obat yg diresepkan ga ada di Apotik. Jadi rugi dong saya harus chat kembali dobel biaya. Ini Masukan agar HALODOC lebih baik lagi. Sudah pakai fitur chat with us tapi jawaban CS HALODOC sbb: CS Tidak bisa merubah produk obat & menyarankan konsultasi lagi dgn dokter😞'

Contoh emoticon

In [4]:
raw['review'][784]

'The best 👍👍👍 membantu sekali di mada pandemi seperti ini 😍'

In [5]:
raw['review'][101]

'Thankyou banget halodoc🤗membantu banget buat aku yg selalu panik kalo ada keluhan apa2😊🙏'

Contoh angka

In [6]:
raw['review'][424]

'Saya pengguna baru ehh 3x ada masalah tp pas ke 4x nya sudah bagus terimakasih, ini penilaian bisa saja berubah kalau makin ke sini nya bagus pelayanan nya'

In [7]:
raw['review'][662]

'Udah 2x konsultasi disini, semoga selalu menjadi baik'

Contoh kata mengulang

In [8]:
raw['review'][790]

'Dokternya ramah2 dan sangat menjelaskan secara detail'

In [9]:
raw['review'][686]

'Ngomong2 Halodoc tidak menyediakan Kelender Menstruasi lagi ya?'

Contoh translasi non alfanumerik

In [10]:
raw['review'][624]

'FAST RESPON,Dokter nya juga ramah & ngejelasin secara detail'

In [11]:
raw['review'][621]

'Sangat2 membantu & membuat saya tenang dengan informasi & solusinya'

Contoh kata memiliki 'nya'

In [12]:
raw['review'][44]

'Dokternya hebat2...Jelas dan fokus kepada keluhan yang saya derita. Terima kasih Halodoc'

In [13]:
raw['review'][47]

'Belum ada respon utk keluhan saya di team CS, saat sudah ada respon saya lanjut 🌟 5 -update, respon team CS nya cepat'

In [14]:
raw['review'][56]

'Sangat membantu pada saat urgent, jadi langsung tau apa tindakan selanjutnya Dokternya ramah Trimakasih halodoc'

Contoh normalisasi kalimat

In [15]:
raw['review'][12]

'Sangat membantu di jam 23:53. Anak sakit dan harus segera konsultasi ke dokter. Terima kasih Halodoc & dr. Adi Suryadinata Sp. A. Sangat membantu sekali'

In [16]:
raw['review'][13]

'sangat membantu, mempermudah mencari obat"an ... respon sangat cepat pesan gk sampe 30mnt sudah sampai .. terimakasih'

In [17]:
raw['review'][19]

'Membantu sekali ketika obat yg dicari dibeberapa apotek sedang kosong di app ini lengkap. Pemakaian app juga gampang.tks'

contoh slang

In [18]:
raw['review'][23]

'Oke banget apk nya sejauh ini. Belum ketemu kurangnya dimana 👍. Respon dokternya juga cepet. Apik lah semuanya. Pertahankan, sangat membantu 👍'

In [19]:
raw['review'][18]

'Jujur sy puas dengan nasihat2 dan penjelasan dokternya,nmun sgt disayangkan sekali konsul dr apk nya 30 menit saja dan otomatis berhenti, padahal saya msh ingin bertanya lgi.'

In [20]:
raw['review'][52]

'Jadi lebih enak ga perlu antri disaat sakit,,chat lgsung dibls,,obat jg diantar,,terima kasih holodoc🙏'

In [21]:
raw['review'][5]

'Sumpah ini alternatif banget bagi kalian yg lagi miris keuangannya. Menurut aku kalo kalian tau sedikit ttg sakit yg dirasa, kalian bisa hemat banget pake apk ini. Good job halodoc, cocok buat saya yang anak kosan😊'

In [22]:
raw['review'][47]

'Belum ada respon utk keluhan saya di team CS, saat sudah ada respon saya lanjut 🌟 5 -update, respon team CS nya cepat'

# Import Library untuk Filtering

In [23]:
stop_words = np.array(pd.read_csv("data/external/stopwords_ID.txt",
                        sep="\n", header=None).values)
neg_words = np.array(pd.read_csv("data/external/negative_keyword_ID.txt",
                        sep="\n", header=None).values)
pos_words = np.array(pd.read_csv("data/external/positive_keyword_ID.txt",
                        sep="\n", header=None).values)
slang_words = pd.read_csv("data/external/kbba_ID.txt",
                        sep="\t", header=None)
root_words = np.array(pd.read_csv("data/external/rootword_ID.txt",
                        sep="\n", header=None).values)
slang = pd.read_csv("data/external/slangword_ID.txt",
                        sep=":", header=None)
emoticon = pd.read_csv("data/external/emoticon.txt",
                        sep="\t", header=None)
booster_words = np.array(pd.read_csv("data/external/boosterword_ID.txt",
                        sep="\n", header=None).values)
baku_words = pd.read_csv("data/external/katabaku_ID.txt",
                        sep="|", header=None)
baku_words.columns = [1,0]

In [24]:
slang_words = pd.concat([slang_words, slang, baku_words])
sentiment_words = np.concatenate((pos_words, neg_words, booster_words))
slang_words.drop_duplicates(inplace=True)
emoticon.drop_duplicates(inplace=True)
emoticon = dict(zip(emoticon[0], emoticon[1]))
slang_words = dict(zip(slang_words[0],slang_words[1]))
neg_words = np.unique(neg_words)
pos_words = np.unique(pos_words)
stop_words = np.unique(stop_words)
stop_words = [word for word in stop_words if word not in sentiment_words]

In [25]:
print("------Dictionary Info---------")
print("Slang words = "  + str(len(slang_words)) + " entries")
print("Emoticon = "  + str(len(emoticon)) + " entries" )
print("Root words = "  + str(len(root_words)) + " entries")
print("Sentiment words = "  + str(len(sentiment_words)) + " entries")

------Dictionary Info---------
Slang words = 2727 entries
Emoticon = 172 entries
Root words = 27979 entries
Sentiment words = 8449 entries


In [26]:
satuan = ['', 'satu', 'dua', 'tiga', 'empat', 'lima', 'enam', 'tujuh',
          'delapan', 'sembilan', 'sepuluh', 'sebelas']
    
def terbilang_(n):
    if n >= 0 and n <= 11:
        hasil = [satuan[n]]
    elif n >= 12 and n <= 19:
        hasil = terbilang_(n % 10) + ['belas']
    elif n >= 20 and n <= 99:
        hasil = terbilang_(n // 10) + ['puluh'] + terbilang_(n % 10)
    elif n >= 100 and n <= 199:
        hasil = ['seratus'] + terbilang_(n - 100)
    elif n >= 200 and n <= 999:
        hasil = terbilang_(n // 100) + ['ratus'] + terbilang_(n % 100)
    elif n >= 1000 and n <= 1999:
        hasil = ['seribu'] + terbilang_(n - 1000)
    elif n >= 2000 and n <= 999999:
        hasil = terbilang_(n // 1000) + ['ribu'] + terbilang_(n % 1000)
    elif n >= 1000000 and n <= 999999999:
        hasil = terbilang_(n // 1000000) + ['juta'] + terbilang_(n % 1000000)
    else:
        hasil = terbilang_(n // 1000000000) + ['milyar'] + terbilang_(n % 100000000)
    return hasil

def terbilang(n):
    if n == 0:
        return 'nol'
    t = terbilang_(n)
    while '' in t:
        t.remove('')
    return ' '.join(t)

def translate_angka(review):
    number = re.findall("[0-9]+",review)
    for digit in number:
        review = re.sub(digit,terbilang(int(digit))+" ",review)
    return review

def translate_repeating_words(review):
    repeating_words = re.findall(r'\w*(?:2|")',review)
    for word in repeating_words:
        cleaned = word[:-1]
        review = re.sub(word,cleaned + " " + cleaned, review)
    return review

def delete_suffix_nya(review):
    return re.sub("(?:nya|ny)[$|\s]"," ",review)

def translate_emoticon(t):
    for w, v in emoticon.items():
        pattern = re.compile(re.escape(w))
        match = re.search(pattern,t)
        if match:
            t = re.sub(pattern,v,t)
    return t

def translate_non_alpha_num(t):
    non_alpha_num = {
        '%' : 'persen',
        '$' : 'dolar',
        '@' : 'di',
        '&' : 'dan',
        '/' : 'atau',
        '+' : 'plus'
    }
    for w, v in non_alpha_num.items():
        pattern = re.compile(re.escape(w))
        match = re.search(pattern,t)
        if match:
            t = re.sub(pattern,v + " ",t)
    return t

def remove_non_alphanumeric(review):
    return re.sub("[^a-zA-Z\d]"," ", review)

def normalizing_words(review):
    return ''.join(''.join(s)[:1] for _, s in itertools.groupby(review))

In [27]:
raw_clean = raw

# Filtering 

In [28]:
raw_clean['review'] = raw_clean['review'].apply(translate_repeating_words)
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,Sangat Membantu. Terutama di kondisi Pandemi. ...,Pelayanan,Negatif
1,5,Baru pertama konsultasi dokter lewat halo doc ...,Pelayanan,Negatif
2,1,astaga obatnya semakin lama beli obat di halo ...,Harga,Negatif
3,5,Terimakasih Halodoc atas pelayanannya sangat b...,Pelayanan,Positif
4,1,Ada yang nelpon ke no saya katanya dari halodo...,Sistem,Positif


In [29]:
raw_clean['review'][662]

'Udah  x konsultasi disini, semoga selalu menjadi baik'

In [30]:
raw_clean['review'] = raw_clean['review'].apply(translate_emoticon)
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,Sangat Membantu. Terutama di kondisi Pandemi. ...,Pelayanan,Negatif
1,5,Baru pertama konsultasi dokter lewat halo doc ...,Pelayanan,Negatif
2,1,astaga obatnya semakin lama beli obat di halo ...,Harga,Negatif
3,5,Terimakasih Halodoc atas pelayanannya sangat b...,Pelayanan,Positif
4,1,Ada yang nelpon ke no saya katanya dari halodo...,Sistem,Positif


# CaseFolding

In [31]:
raw_clean['review'] = raw_clean['review'].apply(lambda x: x.lower())
raw_clean.head(100)

Unnamed: 0,rating,review,aspect_category,polarity
0,3,sangat membantu. terutama di kondisi pandemi. ...,Pelayanan,Negatif
1,5,baru pertama konsultasi dokter lewat halo doc ...,Pelayanan,Negatif
2,1,astaga obatnya semakin lama beli obat di halo ...,Harga,Negatif
3,5,terimakasih halodoc atas pelayanannya sangat b...,Pelayanan,Positif
4,1,ada yang nelpon ke no saya katanya dari halodo...,Sistem,Positif
...,...,...,...,...
95,5,"aplikasi ini membuat dokter spt keluarga, saha...",Anekdot/Serbaneka,Positif
96,1,gimana sih ini. masa dokter nya yg ngelewatin ...,Pelayanan,Negatif
97,2,kemaren tepatnya hari kamis tgl 04-maret-20 20...,Anekdot/Serbaneka,Negatif
98,5,sangat membant untuk konsultasi dari rumah saj...,Pelayanan,Positif


# Filtering 

In [32]:
raw_clean['review'] = raw_clean['review'].apply(translate_non_alpha_num)
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,sangat membantu. terutama di kondisi pandemi. ...,Pelayanan,Negatif
1,5,baru pertama konsultasi dokter lewat halo doc ...,Pelayanan,Negatif
2,1,astaga obatnya semakin lama beli obat di halo ...,Harga,Negatif
3,5,terimakasih halodoc atas pelayanannya sangat b...,Pelayanan,Positif
4,1,ada yang nelpon ke no saya katanya dari halodo...,Sistem,Positif


In [33]:
raw_clean['review'] = raw_clean['review'].apply(remove_non_alphanumeric)
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,sangat membantu terutama di kondisi pandemi ...,Pelayanan,Negatif
1,5,baru pertama konsultasi dokter lewat halo doc ...,Pelayanan,Negatif
2,1,astaga obatnya semakin lama beli obat di halo ...,Harga,Negatif
3,5,terimakasih halodoc atas pelayanannya sangat b...,Pelayanan,Positif
4,1,ada yang nelpon ke no saya katanya dari halodo...,Sistem,Positif


In [34]:
raw_clean['review'] = raw_clean['review'].apply(delete_suffix_nya)
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,sangat membantu terutama di kondisi pandemi ...,Pelayanan,Negatif
1,5,baru pertama konsultasi dokter lewat halo doc ...,Pelayanan,Negatif
2,1,astaga obat semakin lama beli obat di halo doc...,Harga,Negatif
3,5,terimakasih halodoc atas pelayanan sangat baik...,Pelayanan,Positif
4,1,ada yang nelpon ke no saya kata dari halodoc k...,Sistem,Positif


In [35]:
raw_clean['review'] = raw_clean['review'].apply(normalizing_words)
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,sangat membantu terutama di kondisi pandemi ta...,Pelayanan,Negatif
1,5,baru pertama konsultasi dokter lewat halo doc ...,Pelayanan,Negatif
2,1,astaga obat semakin lama beli obat di halo doc...,Harga,Negatif
3,5,terimakasih halodoc atas pelayanan sangat baik...,Pelayanan,Positif
4,1,ada yang nelpon ke no saya kata dari halodoc k...,Sistem,Positif


In [36]:
def remove_numeric(review):
    return re.sub("\d", " ", review)

raw_clean['review'] = raw_clean['review'].apply(remove_numeric)

In [37]:
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,sangat membantu terutama di kondisi pandemi ta...,Pelayanan,Negatif
1,5,baru pertama konsultasi dokter lewat halo doc ...,Pelayanan,Negatif
2,1,astaga obat semakin lama beli obat di halo doc...,Harga,Negatif
3,5,terimakasih halodoc atas pelayanan sangat baik...,Pelayanan,Positif
4,1,ada yang nelpon ke no saya kata dari halodoc k...,Sistem,Positif


# Tokenizing

In [38]:
raw_clean['review'] = raw_clean['review'].apply(lambda x: x.split())
raw_clean['review'] = raw_clean['review'].apply(lambda x: np.array(x))
def mapping_slang_words(review):
    return [slang_words[word] if word in slang_words else word for word in review]
raw_clean['review'] = raw_clean['review'].apply(mapping_slang_words)
raw_clean.head(300)

Unnamed: 0,rating,review,aspect_category,polarity
0,3,"[sangat, membantu, terutama, di, kondisi, pand...",Pelayanan,Negatif
1,5,"[baru, pertama, konsultasi, dokter, lewat, hal...",Pelayanan,Negatif
2,1,"[astaga, obat, semakin, lama, beli, obat, di, ...",Harga,Negatif
3,5,"[terima kasih, halodoc, atas, pelayanan, sanga...",Pelayanan,Positif
4,1,"[ada, yang, menelepon, ke, nomor, saya, kata, ...",Sistem,Positif
...,...,...,...,...
295,5,"[dokter, selalu, tangap, dan, cepat, respon]",Pelayanan,Positif
296,2,"[halo, doc, beberapa, waktu, lalu, call, servi...",Sistem,Negatif
297,5,"[dokter, balas, cepat, dan, ramah]",Pelayanan,Positif
298,3,"[halo, doc, saya, barusan, dapat, telepon, men...",Anekdot/Serbaneka,Negatif


# Remove Stopword

In [39]:
stop_words = np.array(pd.read_csv("data/external/stopwords_ID.txt",
                        sep="\n", header=None).values)

In [40]:
stop_words = np.unique(stop_words)

In [41]:
def remove_stop_words(word_list):
    return [word for word in word_list if word not in stop_words]
raw_clean['review'] = raw_clean['review'].apply(remove_stop_words)
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,"[membantu, kondisi, pandemi, tolong, evaluasi,...",Pelayanan,Negatif
1,5,"[konsultasi, dokter, bagus, durasi, cepat, dok...",Pelayanan,Negatif
2,1,"[astaga, obat, beli, obat, harga, masuk, akal,...",Harga,Negatif
3,5,"[terima kasih, pelayanan, baik, cepat, pengiri...",Pelayanan,Positif
4,1,"[menelepon, nomor, hadiah, konfirmasi, aplikas...",Sistem,Positif


In [42]:
raw_clean['polarity'] =raw_clean['polarity'].apply(lambda x: x.lower())
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,"[membantu, kondisi, pandemi, tolong, evaluasi,...",Pelayanan,negatif
1,5,"[konsultasi, dokter, bagus, durasi, cepat, dok...",Pelayanan,negatif
2,1,"[astaga, obat, beli, obat, harga, masuk, akal,...",Harga,negatif
3,5,"[terima kasih, pelayanan, baik, cepat, pengiri...",Pelayanan,positif
4,1,"[menelepon, nomor, hadiah, konfirmasi, aplikas...",Sistem,positif


# Save

In [43]:
raw_clean.to_csv('data/data/data_clean.csv', index=False)
raw_clean.to_excel('data/data/data_clean_excel.xlsx', index=False)

In [44]:
raw_clean['review'][0]

['membantu',
 'kondisi',
 'pandemi',
 'tolong',
 'evaluasi',
 'ketersedian',
 'obat',
 'apotek',
 'rekanan',
 'kota',
 'manado',
 'resep',
 'obat',
 'batuk',
 'apotek',
 'suka',
 'habis',
 'sia',
 'sia',
 'konsultasi',
 'dokter',
 'ujung',
 'ujung',
 'obat',
 'resep',
 'apotek',
 'rugi',
 'chat',
 'mahal',
 'biaya',
 'masukan',
 'baik',
 'pakai',
 'fitur',
 'chat',
 'us',
 'customer service',
 'customer service',
 'mengubah',
 'produk',
 'obat',
 'menyarankan',
 'konsultasi',
 'dokter']

In [45]:
raw_clean['review'][784]

['terbaik', 'bagus', 'membantu', 'pandemi', 'suka']

In [46]:
raw_clean['review'][101]

['terimakasih', 'bagus', 'panik', 'keluhan', 'bantu']

In [47]:
raw_clean['review'][424]

['pengguna',
 'bagus',
 'terima kasih',
 'penilaian',
 'berubah',
 'bagus',
 'pelayanan']

In [48]:
raw_clean['review'][662]

['konsultasi', 'semoga', 'baik']

In [49]:
raw_clean['review'][790]

['dokter', 'ramah', 'ramah', 'detail']

In [50]:
raw_clean['review'][686]

['bicara', 'bicara', 'menyediakan', 'kalender', 'menstruasi']

In [51]:
raw_clean['review'][624]

['cepat', 'respon', 'dokter', 'ramah', 'penjelasan', 'detail']

In [52]:
raw_clean['review'][621]

['membantu', 'tenang', 'informasi', 'solusi']

In [53]:
raw_clean['review'][44]

['dokter',
 'hebat',
 'hebat',
 'jelas',
 'fokus',
 'keluhan',
 'derita',
 'terima',
 'kasih']

In [54]:
raw_clean['review'][47]

['respon',
 'keluhan',
 'team',
 'customer service',
 'respon',
 'ulasan',
 'update',
 'respon',
 'team',
 'customer service',
 'cepat']

In [55]:
raw_clean['review'][56]

['membantu',
 'darurat',
 'langsung',
 'tindakan',
 'selanjut',
 'dokter',
 'ramah',
 'terima kasih']

In [56]:
raw_clean['review'][12]

['membantu',
 'jam',
 'anak',
 'sakit',
 'konsultasi',
 'dokter',
 'terima',
 'kasih',
 'adi',
 'suryadinata',
 'membantu']

In [57]:
raw_clean['review'][13]

['membantu',
 'mempermudah',
 'mencari',
 'obat',
 'obatan',
 'respon',
 'cepat',
 'pesan',
 'terima kasih']

In [58]:
raw_clean['review'][19]

['membantu',
 'obat',
 'dicari',
 'dibeberapa',
 'apotek',
 'kosong',
 'lengkap',
 'pemakaian',
 'mudah',
 'thanks']

In [59]:
raw_clean['review'][23]

['bagus',
 'aplikasi',
 'ketemu',
 'di mana',
 'bagus',
 'respon',
 'dokter',
 'cepat',
 'bagus',
 'pertahankan',
 'membantu',
 'bagus']

In [60]:
raw_clean['review'][18]

['jujur',
 'puas',
 'nasihat',
 'nasihat',
 'penjelasan',
 'dokter',
 'disayangkan',
 'konsultasi',
 'aplikasi',
 'menit',
 'otomatis',
 'berhenti']

In [61]:
raw_clean['review'][52]

['bagus',
 'antre',
 'sakit',
 'chat',
 'langsung',
 'dibales',
 'obat',
 'diantar',
 'terima',
 'kasih',
 'holodocbantu']

In [62]:
raw_clean['review'][5]

['sumpah',
 'alternatif',
 'miris',
 'keuangan',
 'sakit',
 'dirasa',
 'hemat',
 'pakai',
 'aplikasi',
 'bagus',
 'pekerjaan',
 'cocok',
 'anak',
 'kosan']

In [63]:
raw_clean['review'][47]

['respon',
 'keluhan',
 'team',
 'customer service',
 'respon',
 'ulasan',
 'update',
 'respon',
 'team',
 'customer service',
 'cepat']

In [64]:
def csv_string_to_list(csv_string):
    return csv_string[1:-1].split()

def string_without_quotes(word_list):
    new = []
    for word in word_list:
        new.append(word.replace("'",""))
    return new

raw_clean['review'] = raw_clean['review'].apply(string_without_quotes)
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,"[membantu, kondisi, pandemi, tolong, evaluasi,...",Pelayanan,negatif
1,5,"[konsultasi, dokter, bagus, durasi, cepat, dok...",Pelayanan,negatif
2,1,"[astaga, obat, beli, obat, harga, masuk, akal,...",Harga,negatif
3,5,"[terima kasih, pelayanan, baik, cepat, pengiri...",Pelayanan,positif
4,1,"[menelepon, nomor, hadiah, konfirmasi, aplikas...",Sistem,positif


In [65]:
raw_clean.aspect_category=raw_clean.aspect_category.astype(str)


In [66]:
raw_clean['aspect_category'] = raw_clean['aspect_category'].apply(lambda x: x.lower())
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,"[membantu, kondisi, pandemi, tolong, evaluasi,...",pelayanan,negatif
1,5,"[konsultasi, dokter, bagus, durasi, cepat, dok...",pelayanan,negatif
2,1,"[astaga, obat, beli, obat, harga, masuk, akal,...",harga,negatif
3,5,"[terima kasih, pelayanan, baik, cepat, pengiri...",pelayanan,positif
4,1,"[menelepon, nomor, hadiah, konfirmasi, aplikas...",sistem,positif


In [67]:
raw_clean.groupby('aspect_category').size().sort_values(ascending=False)

aspect_category
pelayanan            396
anekdot/serbaneka    302
sistem                83
harga                 18
harga                  1
dtype: int64

In [68]:
raw_clean['aspect_category'] = raw_clean['aspect_category'].apply(lambda x: x.strip())

In [69]:
raw_clean.groupby('aspect_category').size().sort_values(ascending=False)

aspect_category
pelayanan            396
anekdot/serbaneka    302
sistem                83
harga                 19
dtype: int64

In [70]:
def convert_list_to_string(word_list):
    return ",".join(word_list)

raw_clean['review'] = raw_clean['review'].apply(convert_list_to_string)

In [71]:
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,"membantu,kondisi,pandemi,tolong,evaluasi,keter...",pelayanan,negatif
1,5,"konsultasi,dokter,bagus,durasi,cepat,dokter,do...",pelayanan,negatif
2,1,"astaga,obat,beli,obat,harga,masuk,akal,lipat,u...",harga,negatif
3,5,"terima kasih,pelayanan,baik,cepat,pengiriman,b...",pelayanan,positif
4,1,"menelepon,nomor,hadiah,konfirmasi,aplikasi,men...",sistem,positif


In [72]:
raw_clean['polarity'] = raw_clean['polarity'].apply(lambda x: x.lower())
raw_clean.head()

Unnamed: 0,rating,review,aspect_category,polarity
0,3,"membantu,kondisi,pandemi,tolong,evaluasi,keter...",pelayanan,negatif
1,5,"konsultasi,dokter,bagus,durasi,cepat,dokter,do...",pelayanan,negatif
2,1,"astaga,obat,beli,obat,harga,masuk,akal,lipat,u...",harga,negatif
3,5,"terima kasih,pelayanan,baik,cepat,pengiriman,b...",pelayanan,positif
4,1,"menelepon,nomor,hadiah,konfirmasi,aplikasi,men...",sistem,positif


In [73]:
raw_clean.to_csv('data/data/data_clean_pure.csv', index=False)
raw_clean.to_excel('data/data/data_clean_excel_pure.xlsx', index=False)

In [74]:
raw_clean.groupby('polarity').size().sort_values(ascending=False)

polarity
positif    650
negatif    150
dtype: int64

In [75]:
raw_clean['review'][52]

'bagus,antre,sakit,chat,langsung,dibales,obat,diantar,terima,kasih,holodocbantu'

In [76]:
raw_clean['review'][662]

'konsultasi,semoga,baik'

In [77]:
raw_clean['review'][208]

'berguna,efesien,memesan,obat,dimanapun,cari,apotek,menyediakan,obat,suka,cinta,kembangkan'

In [78]:
raw_clean['review'][425]

'bagus,dapetin,obat,repot,apotek,terima kasih,bagus,konsultasi,dokter,lancar,cepat'

In [79]:
raw_clean['review'][208]

'berguna,efesien,memesan,obat,dimanapun,cari,apotek,menyediakan,obat,suka,cinta,kembangkan'