# ``Web Scraping``

<hr>

Web Scrapping adalah cara mendapatkan data dari tampilan website. Pengetahuan tentang elemen html diperlukan. Karena dalam proses web scrapping, kita mencari tag html dari informasi atau data yang kita perlukan.

Web scraping adalah proses ekstrasi data dari sebuah website. Salah satu contoh web scraping adalah meng-copy daftar contact dari sebuah direktori web. Memang Anda bisa saja melakukan ini secara manual dengan meng-copy paste data ke excel, misalnya. Tetapi bagaimana kalau datanya banyak? Untuk ini, Anda membutuhkan automation yang bisa membantu proses web scraping Anda lebih cepat dan mudah.

Secara umum, ada dua cara yang bisa Anda gunakan untuk melakukannya:

-    Manual — metode di mana Anda menyalin data dengan cara copy paste dari sebuah website
-    Otomatis — metode yang menggunakan koding, aplikasi, atau extension browser.

Web scraping dilakukan dengan menggunakan web scraper, bot, web spider, atau web crawler. Web scraper sendiri adalah program yang masuk ke halaman website, download kontennya, mengekstrak data dari konten, dan menyimpan data ke satu file atau database.

**Mengapa kita butuh melakukan web scraping?**

Ada banyak alasan mengapa web scraping semakin diperlukan di zaman sekarang. Dengan semakin berkembangnya big data, jumlah data yang tersedia sudah tidak terhitung lagi. Bayangkan kalau Anda harus mengumpulkan dan menyimpan jutaan data dalam satu file sendirian, pasti pusing kan? **Web scraping bisa membantu Anda untuk mengumpulkan data dengan lebih cepat**. Selain itu, kalau memang data yang Anda kumpulkan berjumlah besar, Anda juga bisa melakukan automation dan Anda tidak perlu repot lagi karena yang penting Anda bisa membiarkan server Anda berjalan.

Dengan efisiensi web scraping, ini juga **membantu proses analisa data Anda**. Karena web scraping membantu mengumpulkan semua data tanpa ketinggalan, Anda akan mendapat data lengkap dari proses ini. Dengan begitu, Anda bisa mencari tahu lebih banyak tentang demografis Anda, mulai dari gender, umur, dan data-data lain yang bisa membantu bisnis Anda. Data-data ini tentunya akan memberi insight yang bernilai untuk membantu Anda membuat keputusan yang tepat dalam berbisnis.

Tidak hanya data pelanggan, Anda juga bisa memanfaatkan web scraping untuk mengumpulkan data lain yang penting untuk bisnis Anda. Salah satu hal yang sering dikumpulkan oleh bisnis dengan teknik ini adalah **menganalisa data kompetitor**. Tidak peduli apa jenis bisnis Anda, kemungkinan besar Anda akan perlu melihat bagaimana kompetitor Anda bekerja. Mungkin akan sulit bagi Anda untuk membandingkan semua kompetitor Anda secara manual. Anda bisa mempermudah proses ini dengan melakukan web scraping.

Kalau bisnis Anda sudah berjalan, mungkin Anda juga ingin melakukan **brand monitoring**. Anda juga bisa mengumpulkan berbagai review dan komentar dari publik tentang brand, produk, layanan, dan kompetitor Anda melalui web scraping. Dengan melakukan ini, Anda bisa menggunakannya sebagai cara untuk terus meningkatkan bisnis Anda.

Source: https://www.dewaweb.com/blog/web-scraping-panduan-dan-teknik-tekniknya/

**Teknik Web Scraping**
Teknik web scraping yang umum dilakukan, yaitu:
1.    Menyalin data secara manual
2.    Menggunakan regular expression
3.    Parsing HTML
4.    Menganalisa DOM
5.    Menggunakan XPath
6.    Menggunakan Google Sheet

<hr>

## Import beberapa function yang diperlukan

Function `BeautifulSoup` dan `requests` digunakan untuk melakukan Web Scrapping. Sedangkan `Pandas` digunakan untuk mengolah data.

Learn more ``Beautiful Soup Documentation``: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [1]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
from IPython.display import display

<hr>

# **Scraping**: World Population Dataset
``Scrape data from:`` https://www.worldometers.info/world-population/population-by-country/

## Akses data ke Web yang ingin digali datanya

In [2]:
world_web = requests.get('https://www.worldometers.info/world-population/population-by-country/')
data_web = BeautifulSoup(world_web.content, 'html.parser')

## Mengambil data pada tag tertentu

In [3]:
# mencari data judul di web disertai tag html
data_web.title

<title>Population by Country (2021) - Worldometer</title>

In [4]:
# mencari data judul di web tanpa tag html
data_web.title.string

'Population by Country (2021) - Worldometer'

In [5]:
data_web.title.text

'Population by Country (2021) - Worldometer'

In [6]:
# tag tr adalah perintah untuk membuat satu baris tabel di html
# tag ini tidak terlalu akurat karena di dalamnya masih ada tag yang lebih dekat dengan data yang dicari
tr = data_web.find_all('tr')
# tr

In [7]:
# <p> adalah perintah untuk membuat paragraf di html
p = data_web.find_all('p')
p[0].text

'This list includes both countries and dependent territories. Data based on the latest United Nations Population Division estimates. Click on the name of the country or dependency for current estimates (live population clock), historical data, and projected figures.  See also: World Population  '

In [8]:
# <th> adalah perintah untuk membuat baris pertama (header table) di html
th = data_web.find_all('th')
th[7].text

'Migrants (net)'

In [9]:
# <td> adalah perintah untuk membuat baris kedua dst (data table) di html
td = data_web.find_all('td')
td[13].text

'India'

## Mengolah data

In [10]:
# menyimpan data dlaam sebuah variabel list
th = data_web.find_all('th')
td = data_web.find_all('td')

box = [element.text for element in td]
# print(box)
kotak = [element.text for element in th]
# print(kotak)

In [11]:
# another method to loop 
th = data_web.find_all('th')
td = data_web.find_all('td')

box = []
for element in td:
    box.append(element.text) 
    
kotak = []
for element in th:
    kotak.append(element.text) 

# kotak
# box

In [12]:
# memecah data per baris (per negara) dalam satu list, lalu di simpan dalam list "world_population"
world_population = []
a = 0
for i in range(235): #235 adalah jumlah baris di data html (jumlah negara)
    b = (i+1)*12
    world_population.append(box[a:b])
    a = b

print(world_population[3])

['4', 'Indonesia', '273,523,615', '1.07 %', '2,898,047', '151', '1,811,570', '-98,955', '2.3', '30', '56 %', '3.51 %']


In [13]:
# ubah menjadi sebuah dataframe dengan kolom dari variabel "kotak"
world_df = pd.DataFrame(world_population, columns=kotak)
world_df.head()

Unnamed: 0,#,Country (or dependency),Population (2020),Yearly Change,Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379,3.6,23,35 %,2.83 %


In [14]:
# mengubah nama kolom
world_df.rename(columns={'Yearly Change':'Yearly Change (%)'}, inplace=True)
world_df.head()

Unnamed: 0,#,Country (or dependency),Population (2020),Yearly Change (%),Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
0,1,China,1439323776,0.39 %,5540090,153,9388211,-348399,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99 %,13586631,464,2973190,-532687,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59 %,1937734,36,9147420,954806,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07 %,2898047,151,1811570,-98955,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.00 %,4327022,287,770880,-233379,3.6,23,35 %,2.83 %


In [15]:
# menghilangkan unsur '%' di kolom 'Yearly Change (%)'
gudang = []
for i in range(len(world_df['Yearly Change (%)'])):
    j = world_df['Yearly Change (%)'][i].split()
    gudang.append(float(j[0]))

In [16]:
world_df['Yearly Change (%)'] = gudang
world_df.head()

Unnamed: 0,#,Country (or dependency),Population (2020),Yearly Change (%),Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
0,1,China,1439323776,0.39,5540090,153,9388211,-348399,1.7,38,61 %,18.47 %
1,2,India,1380004385,0.99,13586631,464,2973190,-532687,2.2,28,35 %,17.70 %
2,3,United States,331002651,0.59,1937734,36,9147420,954806,1.8,38,83 %,4.25 %
3,4,Indonesia,273523615,1.07,2898047,151,1811570,-98955,2.3,30,56 %,3.51 %
4,5,Pakistan,220892340,2.0,4327022,287,770880,-233379,3.6,23,35 %,2.83 %


<hr>

# **Scraping**: Coronavirus Case Dataset
``Scrape data from:`` https://www.worldometers.info/coronavirus/

## Akses data ke Web yang ingin digali datanya

In [17]:
covid_web = requests.get('https://www.worldometers.info/coronavirus/')
covid_web = BeautifulSoup(covid_web.content, 'html.parser')

In [18]:
# menyimpan data dalam sebuah variabel list
thc = covid_web.find_all('th')
tdc = covid_web.find_all('td')

boxc = [element.text for element in tdc]
# print(boxc)
kotakc = [element.text for element in thc]
kotakc = kotakc[0:kotakc.index('Continent')]
# print(kotakc)
len(kotakc)

15

In [19]:
len(boxc)
for i in boxc:
    if i == 'USA':
        print(boxc.index(i))

177
177
177


In [20]:
# memecah data per baris (per negara) dalam satu list, lalu di simpan dalam list "world_covid"
world_covid = []

a = 0
for i in range(len(boxc)):
    b = (i+1)*22
    world_covid.append(boxc[a:(b-7)])
    a = b

print(world_covid[8])

['1', 'USA', '34,447,607', '+11,887', '618,257 ', '+299', '28,845,102', '+23,327', '4,984,248', '3,882', '103,480', '1,857', '501,349,281', '1,506,042', '332,891,997 ']


In [21]:
# ubah menjadi sebuah dataframe dengan kolom dari variabel "kotakc"
covid_df = pd.DataFrame(world_covid[8:222], columns=kotakc)
covid_df.head()

Unnamed: 0,#,"Country,Other",TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/\n1M pop\n,Population
0,1,USA,34447607,11887,618257,299,28845102,23327,4984248,3882,103480,1857,501349281,1506042,332891997
1,2,India,30082169,54319,392014,978,29056609,69298,633546,8944,21592,281,395973198,284219,1393197894
2,3,Brazil,18169881,113242,507109,2212,16483635,94788,1179137,8318,84894,2369,52820657,246791,214029732
3,4,France,5762322,2320,110862,33,5583247,8110,68213,1509,88090,1695,91430049,1397709,65414223
4,5,Turkey,5387545,5809,49358,65,5248862,5917,89325,763,63218,579,59221265,694911,85221356


<hr>

# Indonesia Population in 1960, 1970, ...., 2050
## ``Indonesia Population in 10 years period``

### A. Get data (scrape) from this site: https://www.worldometers.info/world-population/indonesia-population/

### B. Create DataFrame with columns: ``Year, Population, Median Age, Fertility Rate, & Urban Pop Percentage``

In [22]:
# ambil data dari website
indo_web = requests.get('https://www.worldometers.info/world-population/indonesia-population/')
data_indo = BeautifulSoup(indo_web.content, 'html.parser')

In [23]:
# ambil data header table
th_indo = data_indo.find_all('th')
kolom_header = [th_indo[i].text for i in range(len(th_indo))]
kolom_header = kolom_header[0:13]
print(kolom_header)                       

['Year', 'Population', 'Yearly %  Change', 'Yearly Change', 'Migrants (net)', 'Median Age', 'Fertility Rate', 'Density (P/Km²)', 'Urban Pop %', 'Urban Population', "Country's Share of World Pop", 'World Population', 'IndonesiaGlobal Rank']


In [24]:
# ambil data table
td_indo = data_indo.find_all('td')
kolom_data = [td_indo[i].text for i in range(len(td_indo))]
kolom_data = kolom_data[2:kolom_data.index('1')]
# print(kolom_data)

In [25]:
Indo_pop = []
a = 0
for i in range(25): 
    b = (i+1)*13
    Indo_pop.append(kolom_data[a:b])
    a = b

print(Indo_pop[0])

['2020', '273,523,615', '1.07 %', '2,898,047', '-98,955', '29.7', '2.32', '151', '56.4 %', '154,188,546', '3.51 %', '7,794,798,739', '4']


In [26]:
indo_df = pd.DataFrame(Indo_pop, columns=kolom_header)
indo_df = indo_df.sort_values(by='Year')[['Year', 'Population', 'Median Age', 'Fertility Rate', 'Urban Pop %']]
indo_df.drop_duplicates(subset='Year', inplace=True)
indo_df

Unnamed: 0,Year,Population,Median Age,Fertility Rate,Urban Pop %
17,1955,77273425,20.4,5.49,13.5 %
16,1960,87751068,20.2,5.67,14.6 %
15,1965,100267062,19.4,5.62,15.8 %
14,1970,114793178,18.6,5.57,17.1 %
13,1975,130680727,18.5,5.3,19.3 %
12,1980,147447836,19.1,4.73,22.1 %
11,1985,164982451,19.9,4.11,26.1 %
10,1990,181413402,21.3,3.4,30.6 %
9,1995,196934260,22.8,2.9,36.1 %
8,2000,211513823,24.4,2.55,42.0 %


In [27]:
ten_period = [indo_df['Year'].tolist()[i] for i in range(len(indo_df['Year'])) if int(indo_df['Year'].tolist()[i]) % 10 == 0]
ten_period

['1960',
 '1970',
 '1980',
 '1990',
 '2000',
 '2010',
 '2020',
 '2030',
 '2040',
 '2050']

In [28]:
indo_df[indo_df['Year'].isin(ten_period)].reset_index(drop=True)

Unnamed: 0,Year,Population,Median Age,Fertility Rate,Urban Pop %
0,1960,87751068,20.2,5.67,14.6 %
1,1970,114793178,18.6,5.57,17.1 %
2,1980,147447836,19.1,4.73,22.1 %
3,1990,181413402,21.3,3.4,30.6 %
4,2000,211513823,24.4,2.55,42.0 %
5,2010,241834215,27.2,2.5,50.1 %
6,2020,273523615,29.7,2.32,56.4 %
7,2030,299198430,32.4,2.32,62.1 %
8,2040,318637858,35.1,2.32,66.8 %
9,2050,330904664,37.4,2.32,70.7 %


<hr>

# ``Ultraman & Monster Dataset``

* A. Get data (scrape) from this site: http://www.scifijapan.com/articles/2015/10/04/bandai-ultraman-ultra-500-figure-list/

* B. Create DataFrame with columns: ``Ultraman Name``

* C. Create DataFrame with columns: ``Monster Name``

## **Scraping Ultraman Dataset**: Akses data ke Web yang ingin digali datanya

In [29]:
web = requests.get('http://www.scifijapan.com/articles/2015/10/04/bandai-ultraman-ultra-500-figure-list/')
data = BeautifulSoup(web.content, 'html.parser')

## Mengambil data pada tag tertentu

In [30]:
# mendapatkan data title
data.title.string

'The page you requested was not found on our site'

In [31]:
# get all text in website
# print(data.get_text())

In [32]:
strong = data.find_all('strong')

daftar = []
for element in strong:
    daftar.append(element.text)  

# daftar
# (strong[0]).text

## Mengolah data

In [33]:
ultraman = daftar[2:36]
monster = daftar[37:110]

In [34]:
# (ultraman[0]).split()

In [35]:
ultraman_baru = []
for i in range(len(ultraman)):
    ultraman_baru.append((ultraman[i]).split( ))

ultraman_baru

[['June', '10th,', '2021'],
 ['May', '23rd,', '2021'],
 ['June', '22nd,', '2021'],
 ['June', '18th,', '2021'],
 ['June', '17th,', '2021'],
 ['June', '17th,', '2021'],
 ['June', '16th,', '2021'],
 ['June', '15th,', '2021'],
 ['https://www.scifijapan.com/articles/2015/10/04/bandai-ultraman-ultra-500-figure-list/'],
 ['Event', 'Date:'],
 ['Event', 'Date:'],
 ['Event', 'Date:'],
 ['Event', 'Date:'],
 ['Event', 'Date:'],
 ['Event', 'Date:'],
 ['(*)'],
 ['(*)']]

In [36]:
for i in range(len(ultraman_baru)):
    if len(ultraman_baru[i]) == 5:
        x = ultraman_baru[i][1] + ' ' + ultraman_baru[i][2] + ' ' + ultraman_baru[i][3] + ' ' + ultraman_baru[i][4]
        ultraman_baru[i].append(x)
        for j in range(4):
            ultraman_baru[i].pop(1)
    elif len(ultraman_baru[i]) == 4:
        y = ultraman_baru[i][1] + ' ' + ultraman_baru[i][2] + ' ' + ultraman_baru[i][3]
        ultraman_baru[i].append(y)
        for j in range(3):
            ultraman_baru[i].pop(1)
    elif len(ultraman_baru[i]) == 3:
        z = ultraman_baru[i][1] + ' ' + ultraman_baru[i][2]
        ultraman_baru[i].append(z)
        for j in range(2):
            ultraman_baru[i].pop(1)

ultraman_baru            

[['June', '10th, 2021'],
 ['May', '23rd, 2021'],
 ['June', '22nd, 2021'],
 ['June', '18th, 2021'],
 ['June', '17th, 2021'],
 ['June', '17th, 2021'],
 ['June', '16th, 2021'],
 ['June', '15th, 2021'],
 ['https://www.scifijapan.com/articles/2015/10/04/bandai-ultraman-ultra-500-figure-list/'],
 ['Event', 'Date:'],
 ['Event', 'Date:'],
 ['Event', 'Date:'],
 ['Event', 'Date:'],
 ['Event', 'Date:'],
 ['Event', 'Date:'],
 ['(*)'],
 ['(*)']]

In [37]:
df = pd.DataFrame(ultraman_baru, columns=['No', 'Nama Ultraman'])
df

Unnamed: 0,No,Nama Ultraman
0,June,"10th, 2021"
1,May,"23rd, 2021"
2,June,"22nd, 2021"
3,June,"18th, 2021"
4,June,"17th, 2021"
5,June,"17th, 2021"
6,June,"16th, 2021"
7,June,"15th, 2021"
8,https://www.scifijapan.com/articles/2015/10/04...,
9,Event,Date:


## Thank you