# Apa itu Web Scraping?

![web%20scrapping.png](attachment:web%20scrapping.png)
Web scraping, web harvesting, atau web data extraction merupakan kegiatan yang dilakukan untuk mengambil data tertentu secara semi-terstruktur dari sebuah halaman situs web. Halaman tersebut umumnya dibangun menggunakan bahasa markup seperti HTML atau XHTML, proses akan menganalisis dokumen sebelum memulai mengambil data.

Biasanya teknik scraping diimplementasikan pada sebuah bot agar bisa membuat proses yang harusnya dilakukan secara manual menjadi otomatis. Ketika kita menjumpai sebuah situs yang membatasi kuota API (application programming interface) atau bahkan tidak menyediakan sama sekali, maka perayapan web akan sangat dibutuhkan sebagai langkah pengambilan data.

# Metode Web Scraping

## Human copy-and-paste
Metode paling sederhana dan paling mudah yaitu melakukan copy dan paster suatu data dari web secara manual. Terkadang teknologi web scraping tidak bisa menggantikan metode ini karena evaluasi dan akurasi dari "Human"-nya. Atau terkadang website tersebut melakukan tindakan preventif agar tidak bisa dilakukan scraping .

## Text pattern matching
Mengekstrat data teks dari suatu web menggunakan command UNIX atau regex. Biasanya dikombinasikan dengan bahasa pemrograman lain seperti Perl atau Python.

## HTTP programming
Mengambil data dari POST HTTP Request secara langsung dari suatu webpage.

## HTML parsing
Banyak web yang webpage nya dibuat secara dinamis daru suatu struktur database sendiri. Data-data ini biasanya menggunakan template yang sama (menghasilkan pola yang sama juga). Kita dapat meng-ekstrak data tersebut menjadi data yang bisa kita pakai. Terdapat bahasa-bahasa query yang bisa melakukan hal ini seperti XQuery dan HTQL.

## Computer vision web-page analysis
Mengekstrak informasi dari suatu webpage secara visual 

# BeautifulSoup
![bs.png](attachment:bs.png)

Beautiful Soup adalah suatu package python yang berguna untuk melakukan parsing suatu dokumen HTML dan XML. (termasuk markup yang salah secara struktural ataupun sistematis. Hal ini biasa disebut _tag soup_ ). Beautiful Soup membuat parse tree dari suatu webpage yang bisa digunakan untuk mengekstrak data dari HTML.

Beautiful Soup dibuat oleh Leonard Richardson, yang masih berkontribusi sampai sekarang, dan Tidelift, Management package open-source berbayar

In [None]:
#Install beautiful soup terlebih dahulu
!pip install beautifulsoup4

# Mengambil Content

Contoh Webpage yang akan kita pakai [Here](https://keithgalli.github.io/web-scraping/example.html)

In [4]:
import requests
from bs4 import BeautifulSoup as bs 

In [5]:
# load webpage yang mau kita scrapping dengan request
r = requests.get('https://keithgalli.github.io/web-scraping/example.html')

#print(type(r.content))
# convert jadi object bs
soup = bs(r.content)

print(soup)

<html>
<head>
<title>HTML Example</title>
</head>
<body>
<div align="middle">
<h1>HTML Webpage</h1>
<p>Link to more interesting example: <a href="https://keithgalli.github.io/web-scraping/webpage.html">keithgalli.github.io/web-scraping/webpage.html</a></p>
</div>
<h2>A Header</h2>
<p><i>Some italicized text</i></p>
<h2>Another header</h2>
<p id="paragraph-id"><b>Some bold text</b></p>
</body>
</html>



In [6]:
#output dengan indentasi - agar lebih mudah dibaca
print(soup.prettify())

<html>
 <head>
  <title>
   HTML Example
  </title>
 </head>
 <body>
  <div align="middle">
   <h1>
    HTML Webpage
   </h1>
   <p>
    Link to more interesting example:
    <a href="https://keithgalli.github.io/web-scraping/webpage.html">
     keithgalli.github.io/web-scraping/webpage.html
    </a>
   </p>
  </div>
  <h2>
   A Header
  </h2>
  <p>
   <i>
    Some italicized text
   </i>
  </p>
  <h2>
   Another header
  </h2>
  <p id="paragraph-id">
   <b>
    Some bold text
   </b>
  </p>
 </body>
</html>



# `find` dan `find_all`

In [7]:
soup.find('h2')

<h2>A Header</h2>

In [8]:
soup.find_all('h2')

[<h2>A Header</h2>, <h2>Another header</h2>]

In [9]:
soup.find_all(['h2', 'h1'])

[<h1>HTML Webpage</h1>, <h2>A Header</h2>, <h2>Another header</h2>]

In [10]:
soup.find_all('p')

[<p>Link to more interesting example: <a href="https://keithgalli.github.io/web-scraping/webpage.html">keithgalli.github.io/web-scraping/webpage.html</a></p>,
 <p><i>Some italicized text</i></p>,
 <p id="paragraph-id"><b>Some bold text</b></p>]

In [11]:
# You can pass in attributes to the find/find_all function
soup.find('p', attrs={'id': 'paragraph-id'})

<p id="paragraph-id"><b>Some bold text</b></p>

In [12]:
# You can nest find/find_all calls
body = soup.find('body')
body

<body>
<div align="middle">
<h1>HTML Webpage</h1>
<p>Link to more interesting example: <a href="https://keithgalli.github.io/web-scraping/webpage.html">keithgalli.github.io/web-scraping/webpage.html</a></p>
</div>
<h2>A Header</h2>
<p><i>Some italicized text</i></p>
<h2>Another header</h2>
<p id="paragraph-id"><b>Some bold text</b></p>
</body>

In [13]:
div = body.find('div')
div

<div align="middle">
<h1>HTML Webpage</h1>
<p>Link to more interesting example: <a href="https://keithgalli.github.io/web-scraping/webpage.html">keithgalli.github.io/web-scraping/webpage.html</a></p>
</div>

In [None]:
header = div.find('h1')
header

In [None]:
soup.body.i

In [None]:
soup.body.div.h1

In [None]:
print(soup.prettify())

## menggunakan bantuan regex

In [None]:
import re
paragraph = soup.find_all('p', string=re.compile('Some'))
paragraph

In [None]:
headers = soup.find_all('h2', string=re.compile('(H|h)eader'))
headers

# `select` CSS Selector
List CSS Selector : https://www.w3schools.com/cssref/css_selectors.asp

In [None]:
content = soup.select("body p")
content

In [None]:
paragraphs = soup.select("h2 ~ p")
paragraphs

In [None]:
paragraphs = soup.select('body > p')
print(paragraphs)
for paragraph in paragraphs:
    print(paragraph.select('i'))

In [None]:
par = soup.select('p#paragraph-id b')
par

In [None]:
soup.select('[id=paragraph-id]')

# Get different properties of the HTML

In [None]:
soup.title.get_text()

In [None]:
soup.find('p').get_text()

In [None]:
div

In [None]:
div = soup.find('div')
print(div.get_text())

In [None]:
link = soup.find('a')
link['href']

In [None]:
par = soup.select('p#paragraph-id')[0]
par['id']

# Code Navigation

In [None]:
print(soup.prettify())

In [None]:
soup.body.find('div')

## `find_parent()`

In [None]:
soup.body.find('div').find_parent()

## `find_next_siblings()` dan `find_previous_siblings()`

In [None]:
soup.body.find("div").find_next_siblings()

In [None]:
soup.body.find("h2").find_previous_sibling()

# Contoh

Contoh Webpage yang akan kita pakai [Here](https://keithgalli.github.io/web-scraping/webpage.html)

## Contoh 1 : Mengambil Link Media Sosial

In [None]:
r = requests.get('https://keithgalli.github.io/web-scraping/webpage.html')
webpage = bs(r.content)

#print(webpage.prettify())

### Metode 1 : Menggunakan `find`

In [None]:
links = webpage.find('ul', attrs={'class':'socials'})
link_list = links.find_all('a')
actual_links = [link['href'] for link in link_list]
actual_links

### Metode 2 : Menggunakan CSS Selector

In [None]:
links = webpage.select('ul.socials a')
actual_links = [link['href'] for link in links]
actual_links

#### Bisa kita ambil dari parent-nya juga

In [None]:
links = webpage.select("li.social a")
links

In [None]:
links = webpage.select("body ul li.social a")
links

## Contoh 2 : Mengambil Semua Text

In [None]:
header = webpage.body.find("h2", string="Photos")
previous_elements = header.find_previous_siblings()
previous_elements_sorted = previous_elements[::-1]
elements = [x.get_text() for x in previous_elements_sorted]
text = "\n".join(elements)
print(text)

## Contoh 3 : Mengambil Table

In [None]:
table = webpage.select('table.hockey-stats')[0]
table
#columns = table.find('thead').find_all('th')
#column_name = [column.string for column in columns]
#column_name

In [None]:
import pandas as pd

table_rows = table.find('tbody').find_all('tr')

l=[]
for tr in table_rows:
    td= tr.find_all('td')
    row = [txt.get_text().strip() for txt in td]
    l.append(row)
    
    
df = pd.DataFrame(l, columns=column_name)
df

## Contoh 4 : Mengambil semua fun fact yang menggunakan kata "is"

In [None]:
import re
facts = webpage.select('ul.fun-facts li')
fact_is = [fact.find(string = re.compile('is')) for fact in facts]
fact_is

In [None]:
fact_is_new = [fact.find_parent().get_text() for fact in fact_is if fact]
fact_is_new

## Contoh 5 : Mendownload Gambar

In [None]:
img = webpage.select('div.row div.column img')
img

In [None]:
url = "https://keithgalli.github.io/web-scraping/"

lake = img[1]['src']
full_url = url+lake
full_url

In [None]:
img_data = requests.get(full_url).content
handler = open('Pontevecchio.jpg','wb')
handler.write(img_data)
handler.close()

Tutorial : https://www.youtube.com/watch?v=GjKQ6V_ViQE&t=1935s

Dokumentasi BeautifulSoup : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

# Tambahan : Scraping dengan pandas

Pandas juga bisa digunakan untuk melakukan web scraping, hanya saja tidak semudah dan sebaik Beautiful Soup. Pandas sendiri hanya dapat mengesktrak data yang berupa tabel dari webpage tersebut

In [5]:
import pandas as pd

df = pd.read_html('https://keithgalli.github.io/web-scraping/webpage.html')

In [None]:
len(df)

In [None]:
df[0]

In [6]:
df = pd.read_html('https://en.wikipedia.org/wiki/Python_(programming_language)')

len(df)

14

In [11]:
df[3]

Unnamed: 0,vteProgramming languages,vteProgramming languages.1
0,Comparison Timeline History,Comparison Timeline History
1,Ada ALGOL APL ArkTS Assembly BASIC C C++ C# Cl...,Ada ALGOL APL ArkTS Assembly BASIC C C++ C# Cl...
2,Lists: Alphabetical Categorical Generational N...,Lists: Alphabetical Categorical Generational N...
