<a href="https://colab.research.google.com/github/ikanx101/G-Colab/blob/main/Shopee_HTML_Parser.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Shopee HTML Parser v1.0**

## _Explanation_

Per bulan lalu, _Shopee_ mengubah __API__ yang mereka gunakan untuk menampilkan data di _product pages_ mereka. Akibatnya pembacaan data `.json` menggunakan _headless browser_ yang selama ini kita andalkan menjadi tidak berguna lagi.

Oleh karena itu, perlu ada alternatif cara lain untuk bisa mengambil data tersebut.

Salah satu caranya adalah dengan _parsing html_ menggunakan _saved pages_ dari Shopee.

## _How it works_

Jika kita menyimpan suatu _webpage_ ke dalam _single html file_, maka __semua informasi__ yang ada pada _page_ tersebut otomatis telah tersimpan __meskipun__ terdapat _dynamic contents_.

Dari _saved html_ tersebut, kita akan gunakan algoritma _parsing html_ untuk mendapatkan data yang diinginkan.

## _Differences from Previous Shopee Scraper_

Apa perbedaan dengan `Shopee Scraper` yang ada sebelumnya?

1. `Shopee Scraper` mengambil data secara _real time_ sedangkan `Shopee HTML Parser` mengambil data hasil _saved html_.
1. Pembacaan `Shopee Scraper` menjadi tidak _reliable_ karena __API__ yang sering berubah. Sedangkan `Shopee HTML Parser` lebih stabil.
1. `Shopee Scraper` hanya membutuhkan _list url_ alamat produk berbentuk _file_ `.txt`. Sedangkan `Shopee HTML Parser` membutuhkan satu atau beberapa _saved html pages_ yang di-_compress_ dalam satu _file_ `.zip`. 
1. `Shopee HTML Parser` akan menghasilkan satu _file_ hasil dalam format `.csv` berisi informasi produk saja.

## _Steps_

1. _Save_ semua halaman produk __Shopee__ yang hendak diambil datanya dalam format _single html file_.
1. _Compress_ semua _saved html_ tersebut ke dalam satu file `.zip`.
1. _Upload_ _file_ `.zip` tersebut ke Google Colab ini.
1. Isi nama _file_ `.zip` pada kolom isian yang diberikan.
1. Klik `Runtime` -> `Run All`.
1. Hasil _parsing_ akan tersedia dalam format `.csv`.

## _Notes_

Dilarang mengubah algoritma yang ada. Silakan di-_clone_ ke _GDrive_ sendiri jika memang ingin memodifikasi algoritma ini.

_Created by:_ [Ikang](https://ikanx101.com/)

*Last Modif:* Senin, 15 Maret 2021 ~ 20.30

In [None]:
#@title Nama File `.zip`
rm(list=ls())
library(dplyr)
library(rvest)

nama_file <- "tes.zip" #@param {type:"string"}

In [None]:
#@title Preparation data

# Function
shopee_parser = function(url){
  x = read_html(url)
  # nama produk
  nama_produk = x %>% html_nodes(".attM6y span") %>% html_text()
 
  # harga
  harga = x %>% html_nodes("._3e_UQT") %>% html_text()
  harga = gsub("[A-z]|\\.","",harga)
  harga = as.numeric(harga)
  # rating
  rating = x %>% html_nodes("._1mYa1t") %>% html_text() %>% as.numeric()
  # terjual
  terjual = x %>% html_nodes(".aca9MM") %>% html_text()
  # seller
  seller = x %>% html_nodes("._3uf2ae") %>% html_text()
  # waktu parsing
  waktu = Sys.time()
  # final
  data = tibble(nama_produk,harga,rating,terjual,seller,marketplace = "Shopee",waktu)
  return(data)
}

# ambil saved html
saved_html = unzip(nama_file)
cat("Keterangan:")
paste0("Ada ",length(saved_html)," files html yang tersimpan dalam zip file tersebut")

Keterangan:

In [None]:
#@title Parsing HTML Files
# inisiasi data awal
raw_data = tibble()
# proses looping parsing
for(i in 1:length(saved_html)){
  temp = shopee_parser(saved_html[i])
  raw_data = rbind(temp,raw_data)
}
cat("Silakan download file csv\n-- DONE --")

write.csv(raw_data,"Data Hasil Parsing.csv")

Silakan download file csv
-- DONE --

In [None]:
#@title Berikut Data Hasilnya: 
raw_data

nama_produk,harga,rating,terjual,seller,marketplace,waktu
<chr>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<dttm>
Tropicana Slim Topping Kental Manis Sugar Free,25300,4.9,"2,8RB",nutrimart,Shopee,2021-03-18 04:50:01
Tropicana Slim Sweetener I Sweet (25sx2.5g),18100,4.9,"9,7RB",nutrimart,Shopee,2021-03-18 04:50:01
Tropicana Slim Hokkaido Cheese Cookies 100gr,20500,4.9,10RB+,nutrimart,Shopee,2021-03-18 04:50:01
Tropicana Slim Choco Spread 300 gr,63100,4.9,"4,9RB",nutrimart,Shopee,2021-03-18 04:50:01
Paket Manis Sehat - Tropicana Slim Gula Jawa 350 ml & Tropicana Slim Kecap Manis 200 ml,70700,4.9,251,nutrimart,Shopee,2021-03-18 04:50:00
