### Scraping Data Nama Bayi

Alhamdulillah, saat ini istri saya sedang hamil usia 7 bulan. Sebagai calon orang tua, tentu saja saya akan mempersiapkan nama yang baik untuk calon anak saya. Saya mencari referensi nama dari berbagai sumber, salah satunya melalui beberapa situs website. Setelah melakukan eksplorasi, saya menemukan website pencarian nama bayi yang cukup lengkap, berikut situs websitenya https://carinamabayi.com/

Selain itu, kita juga dapat melakukan pencarian nama berdasarkan inisial huruf

![namabayi.jpg](images/namabayi.PNG)

Dalam kasus ini saya akan melakukan scraping data nama bayi yang ditampilkan pada tabel halaman web pada semua inisial huruf, yakni dari A sampai Z.

Untuk melakukan scraping data, saya menggunakan package *rvest*, yang telah dilengkapi dengan beberapa fungsi untuk memudahkan menarik data dari halaman web, selanjutnya saya menggunakan package *dplyr* dan *janitor* untuk melakukan beberapa transformasi data 

In [2]:
library("rvest")
library("dplyr")
library("janitor")

Saya akan melakukan scraping data pada situs https://carinamabayi.com/berawalan-A/page-1.html, dimana saya perlu memodifikasi situs tersebut agar menjadi dinamis. Subfolder pada situs tersebut akan saya looping sebanyak jumlah huruf dalam alfabet, yakni dari A-Z, untuk mendapatkan semua huruf A-Z saya menggunakan fungsi *LETTERS*, selanjutnya saya akan melakukan looping subfolder tersebut sebanyak 26 kali sesuai dengan urutan abjad, sehingga akan diperoleh situs dengan subfolder yang berbeda seperti berikut :

In [3]:
alphabet<-LETTERS[seq( from = 1, to = 26 )]

In [4]:
for (x in alphabet) {
  url <- paste("https://carinamabayi.com/berawalan-",x,"/",sep="")
  print(url)
    }

[1] "https://carinamabayi.com/berawalan-A/"
[1] "https://carinamabayi.com/berawalan-B/"
[1] "https://carinamabayi.com/berawalan-C/"
[1] "https://carinamabayi.com/berawalan-D/"
[1] "https://carinamabayi.com/berawalan-E/"
[1] "https://carinamabayi.com/berawalan-F/"
[1] "https://carinamabayi.com/berawalan-G/"
[1] "https://carinamabayi.com/berawalan-H/"
[1] "https://carinamabayi.com/berawalan-I/"
[1] "https://carinamabayi.com/berawalan-J/"
[1] "https://carinamabayi.com/berawalan-K/"
[1] "https://carinamabayi.com/berawalan-L/"
[1] "https://carinamabayi.com/berawalan-M/"
[1] "https://carinamabayi.com/berawalan-N/"
[1] "https://carinamabayi.com/berawalan-O/"
[1] "https://carinamabayi.com/berawalan-P/"
[1] "https://carinamabayi.com/berawalan-Q/"
[1] "https://carinamabayi.com/berawalan-R/"
[1] "https://carinamabayi.com/berawalan-S/"
[1] "https://carinamabayi.com/berawalan-T/"
[1] "https://carinamabayi.com/berawalan-U/"
[1] "https://carinamabayi.com/berawalan-V/"
[1] "https://carinamabayi.com/be

Selanjutnya, setiap subfolder memiliki jumlah halaman yang berbeda-beda, sehingga untuk mendapatkan seluruh data pada setiap subfolder, saya perlu malakukan looping kembali pada masing-masing subfolder sejumlah halaman yang ada. Sebelum melakukan looping, perlu dilakukan identifikasi terlebih dahulu jumlah halaman pada masing-masing subfolder.

Untuk melakukan identifikasi halaman, kita perlu mengetahui terlebih dahulu struktur html pada website, karena kita akan melakukan seleksi pada tag html sesuai dengan posisi data yang akan kita ambil.

In [5]:
for (x in alphabet) {
  url <- paste("https://carinamabayi.com/berawalan-",x,"/",sep="")
  page <- read_html(url)
  result_text <- page %>% html_nodes('span ul li a') %>% html_text()
  pageN<-as.numeric(as.list(result_text)[length(result_text)-1])
  print(paste("Total halaman untuk inisial",x,"sebanyak",pageN,"halaman"))
}

[1] "Total halaman untuk inisial A sebanyak 120 halaman"
[1] "Total halaman untuk inisial B sebanyak 48 halaman"
[1] "Total halaman untuk inisial C sebanyak 50 halaman"
[1] "Total halaman untuk inisial D sebanyak 48 halaman"
[1] "Total halaman untuk inisial E sebanyak 38 halaman"
[1] "Total halaman untuk inisial F sebanyak 31 halaman"
[1] "Total halaman untuk inisial G sebanyak 35 halaman"
[1] "Total halaman untuk inisial H sebanyak 40 halaman"
[1] "Total halaman untuk inisial I sebanyak 21 halaman"
[1] "Total halaman untuk inisial J sebanyak 51 halaman"
[1] "Total halaman untuk inisial K sebanyak 58 halaman"
[1] "Total halaman untuk inisial L sebanyak 50 halaman"
[1] "Total halaman untuk inisial M sebanyak 77 halaman"
[1] "Total halaman untuk inisial N sebanyak 37 halaman"
[1] "Total halaman untuk inisial O sebanyak 17 halaman"
[1] "Total halaman untuk inisial P sebanyak 31 halaman"
[1] "Total halaman untuk inisial Q sebanyak 8 halaman"
[1] "Total halaman untuk inisial R sebanyak 56 h

Setelah indeks pada masing-masing halaman diperoleh, selanjutnya saya akan melakukan looping pada masing-masing subfolder sejumlah halaman yang teridentifikasi.

https://carinamabayi.com/berawalan-A/page-1.html

Situs tersebut akan berjalan secara dinamis menjadi seperti berikut :

https://carinamabayi.com/berawalan-{alphabet}/page-{jumlah_halaman}.html

In [None]:
for (x in alphabet) {
  url <- paste("https://carinamabayi.com/berawalan-",x,"/",sep="")
  page <- read_html(url)
  result_text <- page %>% html_nodes('span ul li a') %>% html_text()
  pageN<-as.numeric(as.list(result_text)[length(result_text)-1])
    i<-1
    while(i<pageN+1)
    {
        multUrl   <- paste(url,"page-",i,".html",sep="")
        readUrl   <- read_html(multUrl)    
        readTable <- readUrl %>%
                     html_node(".table-striped") %>%
                     html_table
        if(i==1 && x=="A"){
            namabayi = readTable
        }else
            {namabayi = rbind(namabayi,readTable)}

        i = i+1
    }
    print(paste("Total halaman untuk inisial",x,"sebanyak",pageN,"halaman"))
}

Data yang telah ditarik disimpan ke dalam variabel bernama *namabayi*

In [7]:
namabayi

#,Nama,Kelamin,Asal Bahasa,Kelamin dan Asal,Arti nama
<int>,<chr>,<chr>,<chr>,<chr>,<chr>
1,A,Perempuan,arab,Perempuan Arab,Harapan
2,A'alona,Laki-laki,hawai,Laki-laki Hawai,mulia
3,A'amakuale,Laki-laki,hawai,Laki-laki Hawai,"cepat, tangkas"
4,A'ia'i,Perempuan,unisex,Perempuan Unisex,terang
5,A'id,Laki-laki,islami,Laki-laki Islami,"Yang Kembali, Pengunjung"
6,A'ishah,Perempuan,arab,Perempuan Arab,Lincah
7,A'isy,Laki-laki,islami,Laki-laki Islami,"Orang Yang Hidup, Kaya Raya"
8,A'yunina,Perempuan,afrika,Perempuan Afrika,Bunga yang cantik
9,A-young,Laki-laki,karakteristik,Laki-laki Karakteristik,"pemimpin yang berambisi, penuh visi. Memerlukan banyak kebebasan. Sangat karismatik. Tidak dibuat-buat dan unik. Ilmiah dan pilosofis."
10,Aa,Laki-laki,sunda,Laki-laki Sunda,kakak laki-laki


Selanjutnya saya akan melakukan penyeragaman headers, agar mudah digunakan untuk proses transformasi dan manipulasi data

In [8]:
cleandata<-namabayi %>% clean_names()

### Finish

Data siap digunakan untuk berbagai keperluan

Saya ingin memilih nama untuk anak laki laki yang berasal dari bahasa arab, yang memiliki arti lembut, berikut adalah hasil pencarian nama yang diperoleh :

In [9]:
arab<-filter(cleandata,asal_bahasa=="arab" & grepl('lembut', arti_nama, ignore.case=TRUE) & kelamin=='Laki-laki')
arab

number,nama,kelamin,asal_bahasa,kelamin_dan_asal,arti_nama
<int>,<chr>,<chr>,<chr>,<chr>,<chr>
2705,Ahna,Laki-laki,arab,Laki-laki Arab,Yang lemah lembut
4528,Alib,Laki-laki,arab,Laki-laki Arab,Yang lemah lembut
5136,Altaf,Laki-laki,arab,Laki-laki Arab,Lebih lembut
5137,Altaff,Laki-laki,arab,Laki-laki Arab,"Baik hati, lemah lembut"
5172,Althaf,Laki-laki,arab,Laki-laki Arab,Lebih lembut
5173,Althaf,Laki-laki,arab,Laki-laki Arab,Lebih lembut
5174,Althafandra,Laki-laki,arab,Laki-laki Arab,Lemah lembut (gabungan dari nama Althaf) dan jantan (Andra)
5181,Althafurahman,Laki-laki,arab,Laki-laki Arab,Lembut dan penuh belas kasih
6422,Anat,Laki-laki,arab,Laki-laki Arab,Lemah lembut
7106,Anisah,Laki-laki,arab,Laki-laki Arab,Lemah lembut


### Thank you