Milestones 1

Nama  : Muhammad Rafli Febriyanto

Batch : CODA-RMT-015

Program ini dibuat untuk mengambil data produk Samsung dari website Lazada dengan Selenium dan BeautifulSoup dan melakukan data preparation dengan Pandas.

# Lazada Web Scraping Process

## Install dan import library

In [None]:
# Data manipulation or dataframe
import pandas as pd

# Web scraping
import time
from selenium import webdriver
from bs4 import BeautifulSoup

## Lazada Data Extract

In [None]:
# Call webdriver
driver = webdriver.Chrome()

# Assign variabel (list) untuk menyimpan data pada kolom dataframe
nama = []
harga = []
diskon = []
terjual = []
kota = []
url_produk = []

# Melakukan looping untuk mengambil produk dari page 1 - 9
for hal in range(1,10):
  # Mengambil link produk Samsung pada website Lazada
  url = f'https://www.lazada.co.id/catalog/?page={hal}&q=Samsung&service=hp_categories&src=hp_categories'
  driver.get(url)
  time.sleep(3)

  # Mengambil HTML yang sudah dirender lalu memparsingnya supaya elemennya dapat dicari dengan mudah
  html = driver.page_source
  soup = BeautifulSoup(html, 'html.parser')

  # Mengambil elemen pembungkus yang berisi informasi produk
  boxes = soup.find_all('div', {'data-tracking':'product-card'})

  for box in boxes:
    # Nama produk
    nama_satuan = box.find('a', title=True)
    try: 
      nama.append(nama_satuan.get_text())
    except:
      nama.append(None)
    # Harga produk
    harga_satuan = box.find('span', {'class':'ooOxS'})
    try:
      harga.append(harga_satuan.get_text())
    except:
      harga.append(None)
    # Diskon produk
    diskon_satuan = box.find('span', {'class':'IcOsH'})
    try:
      diskon_text = diskon_satuan.get_text()
      diskon_bersih = diskon_text.replace(' Off','')
      diskon.append(diskon_bersih)
    except:
      diskon.append(None)
    # Banyaknya produk yang sudah terjual
    terjual_satuan = box.find('span', {'class':'_1cEkb'})
    try:
      terjual_text = terjual_satuan.get_text()
      terjual_bersih = terjual_text.replace(' sold','')
      terjual.append(terjual_bersih)
    except:
      terjual.append(None)
    # Kota produk
    kota_satuan = box.find('span', {'class':'oa6ri'})
    try:
      kota.append(kota_satuan.get_text())
    except:
      kota.append(None)
    # Link produk
    try:
      link = nama_satuan['href']
      if link.startswith('//'):
        link = 'https:' + link
      url_produk.append(link)
    except:
      url_produk.append(None)
    

driver.quit()  

# Menyimpan hasil scrape ke pandas dataframe
df = pd.DataFrame({
    'nama' : nama,
    'harga' : harga,
    'diskon' : diskon,
    'terjual' : terjual,
    'kota' : kota,
    'url_produk' : url_produk
})

# Eksport ke dalam file csv
df.to_csv('data_kotor_samsung_lazada.csv', index=False)
 

# Data Transform

## Menampilkan data kotor dan tipe datanya

In [None]:
# Membaca file data_kotor_samsung_lazada.csv
df = pd.read_csv('data_kotor_samsung_lazada.csv')

# Menampilkan 10 data teratas
df.head(10)

Unnamed: 0,nama,harga,diskon,terjual,kota,url_produk
0,Samsung Galaxy A07 - 4/64Gb,Rp1.319.000,12%,27.3K,Kota Depok,https://www.lazada.co.id/products/pdp-i6999600...
1,Samsung Galaxy A07 4/64 - Power Pack,Rp1.399.000,,1.6K,Kota Depok,https://www.lazada.co.id/products/pdp-i8779674...
2,Samsung Galaxy A56 5g 12/256Gb - [Upgrade from...,Rp6.999.000,3%,1.2K,Kota Depok,https://www.lazada.co.id/products/pdp-i6381964...
3,Samsung 32 HD he50e TV | HDR | OTS Lite | one ...,Rp2.038.000,36%,6.7K,Kota Depok,https://www.lazada.co.id/products/pdp-i8606914...
4,"Samsung Smart TV 43"" QLED 4K Q7F - Q4 AI Proce...",Rp4.856.000,7%,,Kota Depok,https://www.lazada.co.id/products/pdp-i8822886...
5,Samsung Galaxy A16 - 8/128Gb,Rp2.359.000,21%,10.6K,Kota Depok,https://www.lazada.co.id/products/pdp-i7454972...
6,Samsung Galaxy Fit3,Rp798.000,11%,2.1K,Kota Depok,https://www.lazada.co.id/products/pdp-i7989394...
7,Samsung Galaxy A07 - 4/128Gb,Rp1.606.000,3%,4.1K,Kota Depok,https://www.lazada.co.id/products/pdp-i5484840...
8,Samsung Galaxy A56 5g 8/256Gb - [Upgrade from ...,Rp5.579.000,17%,1.6K,Kota Depok,https://www.lazada.co.id/products/pdp-i6291076...
9,Samsung Galaxy Watch FE,Rp3.099.000,6%,43,Kota Depok,https://www.lazada.co.id/products/pdp-i8148436...


In [53]:
# Menampilkan informasi mengenai dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 336 entries, 0 to 335
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   nama        336 non-null    object
 1   harga       336 non-null    object
 2   diskon      178 non-null    object
 3   terjual     178 non-null    object
 4   kota        336 non-null    object
 5   url_produk  336 non-null    object
dtypes: object(6)
memory usage: 15.9+ KB


Dari dataframe di atas didapatkan informasi bahwa dataframe terdiri dari 6 kolom yang semuanya bertipe object/string dengan total jumlah baris sebanyak 336 baris. Terdapat data NaN pada kolom diskon dan terjual yang berarti bahwa tidak semua produk memiliki diskon dan sudah terjual

## Melakukan transformasi data

In [54]:
# Menghilangkan "Rp" dan "." serta mengubah tipe data menjadi integer pada kolom harga
df['harga'] = df['harga'].str.replace('\D', '', regex=True).astype(int)

# Mengubah tipe data kolom diskon menjadi float
df['diskon'] = (df['diskon'].str.replace('%', '', regex=True).astype(float)) / 100
# Mengisi nilai NaN menjadi 0
df['diskon'] = df['diskon'].fillna(0)

# Menghapus karakter "." dan "K" pada kolom terjual
df['terjual'] = df['terjual'].str.replace('.', '', regex=False)
df['terjual'] = df['terjual'].str.replace('K', '00', regex=False)
# Mengisi nilai 0 pada data yang NaN
df['terjual'] = df['terjual'].fillna(0)
# Mengubah tipe data pada kolom terjual menjadi integer
df['terjual'] = df['terjual'].astype(int)




## Eksport dan hasil data bersih

In [55]:
df.head(10)

Unnamed: 0,nama,harga,diskon,terjual,kota,url_produk
0,Samsung Galaxy A07 - 4/64Gb,1319000,0.12,27300,Kota Depok,https://www.lazada.co.id/products/pdp-i6999600...
1,Samsung Galaxy A07 4/64 - Power Pack,1399000,0.0,1600,Kota Depok,https://www.lazada.co.id/products/pdp-i8779674...
2,Samsung Galaxy A56 5g 12/256Gb - [Upgrade from...,6999000,0.03,1200,Kota Depok,https://www.lazada.co.id/products/pdp-i6381964...
3,Samsung 32 HD he50e TV | HDR | OTS Lite | one ...,2038000,0.36,6700,Kota Depok,https://www.lazada.co.id/products/pdp-i8606914...
4,"Samsung Smart TV 43"" QLED 4K Q7F - Q4 AI Proce...",4856000,0.07,0,Kota Depok,https://www.lazada.co.id/products/pdp-i8822886...
5,Samsung Galaxy A16 - 8/128Gb,2359000,0.21,10600,Kota Depok,https://www.lazada.co.id/products/pdp-i7454972...
6,Samsung Galaxy Fit3,798000,0.11,2100,Kota Depok,https://www.lazada.co.id/products/pdp-i7989394...
7,Samsung Galaxy A07 - 4/128Gb,1606000,0.03,4100,Kota Depok,https://www.lazada.co.id/products/pdp-i5484840...
8,Samsung Galaxy A56 5g 8/256Gb - [Upgrade from ...,5579000,0.17,1600,Kota Depok,https://www.lazada.co.id/products/pdp-i6291076...
9,Samsung Galaxy Watch FE,3099000,0.06,43,Kota Depok,https://www.lazada.co.id/products/pdp-i8148436...


In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 336 entries, 0 to 335
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   nama        336 non-null    object 
 1   harga       336 non-null    int64  
 2   diskon      336 non-null    float64
 3   terjual     336 non-null    int64  
 4   kota        336 non-null    object 
 5   url_produk  336 non-null    object 
dtypes: float64(1), int64(2), object(3)
memory usage: 15.9+ KB


In [59]:
# Eksport data bersih ke dalam csv
df.to_csv('data_bersih_samsung_lazada.csv', index=False)