# Simple Web Scraping - Beautiful Soup

We could scrap some web pages by using beautiful soup. But, we need to define which element in html should we extract.

Besides HTML, this library also can be used to parse XML.

Visit this link for further information, https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [2]:
#install beautiful soup
#!pip install beautifulsoup4



In [1]:
#import the libraries
from bs4 import BeautifulSoup as bs
import pandas as pd
import requests

# Scraping only for one page

In [9]:
doc = 'https://www.toyota.astra.co.id/toyota-connect/news/5-alasan-toyota-calya-begitu-sempurna-di-mata-pemiliknya'

#define html parser from beautiful soup
response = requests.get(doc, timeout = 10)
soup = bs(response.content, "html.parser")

#get the headline element
title = soup.find('h1', attrs = {'class': 'headline'})
#clean the headline
title = title.text.strip()

#get the content
content = [element.text for element in soup.find_all('p', {'style': 'margin-left:0cm; margin-right:0cm'})]
    
print('title: ', title)
print('content: ', content)

title:  5 Alasan Toyota Calya Begitu Sempurna di Mata Pemiliknya
content:  ['Kata Calya diambil dari bahasa sansekerta yang berarti sempurna.', 'Keberadaan Calya juga melengkapi line-up produk MPV Toyota di Indonesia, mulai dari Low MPV oleh Avanza, Medium MPV diwakili Sienta, High MPV oelh Innova dan Voxy, serta Luxury MPV diwakili duo Alphard dan Vellfire.', 'Lantas, seberapa sempurna Toyota Calya?', '1. Desain modern dan berkelas', 'Kendaraan zaman now harus memiliki tampang yang memikat di jalan, dan dibuktikan oleh Calya dengan penampilan yang agresif dan modern di depan.', 'Siluet dinamis didapatkan dari dual line di bahu dan di pintu yang memanjang dari depan ke belakang.', 'Pelek alloy 14 inci dual-tone machining mengentalkan aspek sporty.', 'Sentuhan di belakang, lampu dengan L-shape terbalik menjadi signature Toyota dan spoiler atap minimalis mencitrakan mobil bertenaga.', 'Masuk ke dalam, desain dasbor mengambil tema Multi Layer Cockpit dengan cirikhas floating central dashb

# Let's scrape some pages from the website!

In [3]:
html_docs = ['https://www.toyota.astra.co.id/toyota-connect/news/5-alasan-toyota-calya-begitu-sempurna-di-mata-pemiliknya',
            'https://www.toyota.astra.co.id/toyota-connect/news/sejarah-toyota-gr-supra-sang-legenda-sportcar-yang-jadi-primadona-di-giias-2019',
            'https://www.toyota.astra.co.id/toyota-connect/news/keren-ternyata-youtuber-zach-king-pecinta-toyota-prius',
            'https://www.toyota.astra.co.id/toyota-connect/news/5-kelebihan-yang-bikin-toyota-gr-supra-jadi-pusat-perhatian-di-giias-2019']

#extract documents and store in one array
docs = []
for index, document in enumerate(html_docs):
    
    #prepare a dictionary for each page
    doc = {}
    #define html parser from beautiful soup
    response = requests.get(document, timeout = 10)
    soup = bs(response.content, "html.parser")
    
    #clean the text
    title = soup.find('h1', attrs = {'class': 'headline'})
    doc['id'] = index + 1
    doc['title'] = title.text.strip() #clean the text
    
    #store all the rows within p element
    content = [element.text for element in soup.find_all('p', {'style': 'margin-left:0cm; margin-right:0cm'})]
    #remove unwanted lines
    doc['content'] = ''.join(element for element in content)
    
    docs.append(doc)
    
print(docs)

[{'id': 1, 'title': '5 Alasan Toyota Calya Begitu Sempurna di Mata Pemiliknya', 'content': 'Kata Calya diambil dari bahasa sansekerta yang berarti sempurna.Keberadaan Calya juga melengkapi line-up produk MPV Toyota di Indonesia, mulai dari Low MPV oleh Avanza, Medium MPV diwakili Sienta, High MPV oelh Innova dan Voxy, serta Luxury MPV diwakili duo Alphard dan Vellfire.Lantas, seberapa sempurna Toyota Calya?1. Desain modern dan berkelasKendaraan zaman now harus memiliki tampang yang memikat di jalan, dan dibuktikan oleh Calya dengan penampilan yang agresif dan modern di depan.Siluet dinamis didapatkan dari dual line di bahu dan di pintu yang memanjang dari depan ke belakang.Pelek alloy 14 inci dual-tone machining mengentalkan aspek sporty.Sentuhan di belakang, lampu dengan L-shape terbalik menjadi signature Toyota dan spoiler atap minimalis mencitrakan mobil bertenaga.Masuk ke dalam, desain dasbor mengambil tema Multi Layer Cockpit dengan cirikhas floating central dashboard.Kesan mewah 

# We cannot extract document id 3 and 4!
What is happening on this part?
Let's see the web structure of those pages (id 3 and 4)

In [15]:
#extract documents and store in one array
docs = []
for index, document in enumerate(html_docs):
    
    #prepare a dictionary for each page
    doc = {}
    #define html parser from beautiful soup
    response = requests.get(document, timeout = 10)
    soup = bs(response.content, "html.parser")
    
    #get the title
    title = soup.find('h1', attrs = {'class': 'headline'})
    doc['id'] = index + 1
    #clean the text
    doc['title'] = title.text.strip()
    
    #store all the rows within p element
    content = [element.text for element in soup.find_all('p')]
    #remove unwanted lines
    del content[0:2]
    #merge all element in a list
    doc['content'] = ''.join(element for element in content)
    
    docs.append(doc)
    
print(docs)

[{'id': 1, 'title': '5 Alasan Toyota Calya Begitu Sempurna di Mata Pemiliknya', 'content': 'Kata Calya diambil dari bahasa sansekerta yang berarti sempurna.Keberadaan Calya juga melengkapi line-up produk MPV Toyota di Indonesia, mulai dari Low MPV oleh Avanza, Medium MPV diwakili Sienta, High MPV oelh Innova dan Voxy, serta Luxury MPV diwakili duo Alphard dan Vellfire.Lantas, seberapa sempurna Toyota Calya?1. Desain modern dan berkelasKendaraan zaman now harus memiliki tampang yang memikat di jalan, dan dibuktikan oleh Calya dengan penampilan yang agresif dan modern di depan.Siluet dinamis didapatkan dari dual line di bahu dan di pintu yang memanjang dari depan ke belakang.Pelek alloy 14 inci dual-tone machining mengentalkan aspek sporty.Sentuhan di belakang, lampu dengan L-shape terbalik menjadi signature Toyota dan spoiler atap minimalis mencitrakan mobil bertenaga.Masuk ke dalam, desain dasbor mengambil tema Multi Layer Cockpit dengan cirikhas floating central dashboard.Kesan mewah 

Let's store it to dataframe
In order to create better presentation of our data, we could store the data into dataframe.

In [5]:
#create a dataframe from the above list
data = pd.DataFrame(docs, columns = ['id', 'title', 'content'])
data

Unnamed: 0,id,title,content
0,1,5 Alasan Toyota Calya Begitu Sempurna di Mata ...,Kata Calya diambil dari bahasa sansekerta yang...
1,2,"Sejarah Toyota GR Supra, Sang Legenda Sportcar...",PT Toyota-Astra Motor (TAM) memperkenalkan spo...
2,3,"Keren, Ternyata Youtuber Zach King Pecinta Toy...","Mengusung tema “Beyond Lens”, Toyota Digifest ..."
3,4,5 Kelebihan yang Bikin Toyota GR Supra Jadi Pu...,Sportscar terbaru Toyota GR Supra langsung men...


In [12]:
doc = 'https://www.toyota.astra.co.id/toyota-connect/news/5-alasan-toyota-calya-begitu-sempurna-di-mata-pemiliknya'

#define html parser from beautiful soup
response = requests.get(doc, timeout = 10)
soup = bs(response.content, "html.parser")

#get date
date = soup.find('span', attrs={'class':'date'})
date = date.text.strip()
#get the headline element
title = soup.find('h1', attrs = {'class': 'headline'})
#clean the headline
title = title.text.strip()

#get the content
#content = [element.text for element in soup.find_all('p', {'style': 'margin-left:0cm; margin-right:0cm'})]
df = pd.DataFrame()

26 Agustus 2019
