# Pra pemprosesan Data



Pada tahap ini, kita akan melakukan pra pemprosesan data yang bersumber dari review pengguna aplikasi Tokopedia yang diambil dari Google Play. Tahapan pra pemprosesan data meliputi:

1. **Pengumpulan Data**: Mengumpulkan data review dari Google Play menggunakan API atau metode scraping.
2. **Pembersihan Data**: Menghapus data yang tidak relevan seperti review yang kosong, duplikat, atau review yang tidak berhubungan dengan aplikasi.
3. **Normalisasi Teks**: Mengubah teks menjadi format yang konsisten, seperti mengubah semua huruf menjadi huruf kecil, menghapus tanda baca, dan menghapus karakter khusus.
4. **Tokenisasi**: Memecah teks menjadi kata-kata atau token untuk memudahkan analisis lebih lanjut.
5. **Penghapusan Stop Words**: Menghapus kata-kata umum yang tidak memiliki makna signifikan dalam analisis, seperti "dan", "yang", "di", dll.
6. **Stemming/Lemmatization**: Mengubah kata-kata menjadi bentuk dasarnya untuk mengurangi variasi kata yang memiliki makna yang sama.
7. **Transformasi Data**: Mengubah data teks menjadi representasi numerik yang dapat digunakan dalam model machine learning, seperti menggunakan teknik Bag of Words atau TF-IDF.

Tahapan ini penting untuk memastikan data yang digunakan dalam analisis atau model machine learning memiliki kualitas yang baik dan relevan dengan tujuan analisis.
```

## Mengimpor Pustaka/Libry

In [7]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews, Sort, reviews_all
from google_play_scraper import app, reviews_all, Sort
import csv
import pandas as pd

## Load Data

### Sraping Data

In [2]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews_all, Sort

scrapreview = reviews_all(
    'com.tokopedia.tkpd',          # ID aplikasi
    lang='id',             # Bahasa ulasan (default: 'en')
    country='id',          # Negara (default: 'us')
    sort=Sort.MOST_RELEVANT, # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=30000             # Jumlah maksimum ulasan yang ingin diambil
)

In [None]:
# Menyimpan ulasan dalam file CSV
with open('tokopedia_review', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Ulasan'])  # Menulis header kolom
    for review in scrapreview:
        writer.writerow([review['content']])  # Menulis konten ulasan ke dalam file CSV

In [8]:
ulasan_tokopedia_df = pd.DataFrame(scrapreview)
ulasan_tokopedia_df.shape
ulasan_tokopedia_df.head()
ulasan_tokopedia_df.to_csv('tokopedia_review', index=False)

In [9]:
# Membuat DataFrame dari hasil scrapreview
ulasan_tokopedia_df = pd.DataFrame(scrapreview)

# Menghitung jumlah baris dan kolom dalam DataFrame
jumlah_ulasan, jumlah_kolom = ulasan_tokopedia_df.shape

In [10]:
ulasan_tokopedia_df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,7327c7a5-5327-477e-a8e6-1db83d95f617,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Saya bener2 ngga suka sama yang namanya Kurir ...,2,8,3.296.0,2025-01-28 11:41:13,"Halo Toppers, terima kasih atas rating yang ka...",2025-01-28 12:07:01,3.296.0
1,e5807bf6-509c-4a7d-8372-58db5f19786e,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,menurut saya sih sejauh ini cukup praktis untu...,4,3,3.296.0,2025-01-26 17:54:26,"Hi Toppers, terima kasih untuk rating dan ulas...",2025-01-26 18:27:03,3.296.0
2,cad387c2-bf0f-4886-98b9-74e985a5d894,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Tokopedia makin hari semakin tidak nyaman bagi...,1,5,3.295.0,2025-01-28 02:07:37,"Hi Toppers, silakan sampaikan kritik/saran ata...",2025-01-28 02:20:09,3.295.0
3,b4e74fbb-e321-4c22-a068-e73b3e9c8531,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Gratis ongkirnya jadi ga bisa dipake, di produ...",1,5,3.296.0,2025-01-27 09:08:11,"Halo Toppers, terima kasih atas rating yang ka...",2025-01-27 09:47:31,3.296.0
4,89cdc101-dfaa-4f9a-b14a-ee6cc342e138,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Baru pakai aplikasi dapat potongan harga, pesa...",1,120,3.295.0,2025-01-17 03:08:21,"Hi Toppers, silakan sampaikan kritik/saran ata...",2025-01-17 03:47:06,3.295.0


In [11]:
# Menampilkan informasi tentang DataFrame ulasan_tokopedia_df
ulasan_tokopedia_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103500 entries, 0 to 103499
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   reviewId              103500 non-null  object        
 1   userName              103500 non-null  object        
 2   userImage             103500 non-null  object        
 3   content               103500 non-null  object        
 4   score                 103500 non-null  int64         
 5   thumbsUpCount         103500 non-null  int64         
 6   reviewCreatedVersion  73988 non-null   object        
 7   at                    103500 non-null  datetime64[ns]
 8   replyContent          59522 non-null   object        
 9   repliedAt             59522 non-null   datetime64[ns]
 10  appVersion            73988 non-null   object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 8.7+ MB


## Data Cleaning

In [13]:
# Membuat DataFrame baru (data_bersih_df) dengan menghapus baris yang memiliki nilai yang hilang (NaN) dari app_reviews_df
data_bersih_df = ulasan_tokopedia_df.dropna()
# Corrected code to drop specified columns
data_bersih_df.drop(columns=['reviewId', 'userName', 'userImage', 'thumbsUpCount', 'reviewCreatedVersion', 'at','replyContent',  'repliedAt','appVersion'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_bersih_df.drop(columns=['reviewId', 'userName', 'userImage', 'thumbsUpCount', 'reviewCreatedVersion', 'at','replyContent',  'repliedAt','appVersion'], inplace=True)


In [14]:
# Menampilkan informasi tentang DataFrame data_bersih_df setelah membersihkan nilai yang hilang (NaN)
data_bersih_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 46766 entries, 0 to 103499
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   content  46766 non-null  object
 1   score    46766 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 1.1+ MB


In [15]:
# Simpan data ke CSV
data_bersih_df.to_csv('tokopedia_review.csv', index=False, encoding='utf-8')