<span style="font-size:36px"><b>Scrape Bibleis</b></span>

Copyright &copy; 2020 Gunawan Lumban Gaol

Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language overning permissions and limitations under the License.

# Import Packages

In [2]:
import os
import re
import glob

import numpy as np
import pandas as pd

from gurih.data.scraper import BibleIsScraper

In [3]:
def urls_to_mp3s(urls):
    return [re.search("[^?]*", url[28:]).group().replace('/', '_') + ".mp3" for url in urls]

def mp3s_to_urls(mp3s):
    base_url = 'https://live.bible.is/bible/'
    tail_url = "?audio_type=audio"
    return [base_url+mp3[:-4].replace('_', '/')+tail_url for mp3 in mp3s]

# Configure Scraper

In [4]:
# INDASV version
# base_url = "https://live.bible.is/bible/INDASV/MRK/1?audio_type=audio"
# output_dir = "../../dataset/raw/bibleis/INDASV/"

# INDWBT version
base_url = "https://live.bible.is/bible/INDWBT/MAT/1?audio_type=audio"
output_dir = "../../dataset/raw/bibleis/INDWBT/"

In [5]:
scraper = BibleIsScraper(base_url, './chromedriver.exe', output_dir=output_dir)

Output directory is already created at ../../dataset/raw/bibleis/INDWBT/

Scrape text: True
Scrape audio: True
Edit the configuration by setting corresponding attributes.


You can edit either scrape only the text or audio or both.

In [6]:
# scraper.scrape_audio = False
scraper.scrape_text = False

# Single Page Test

Test `scrape_page` method, ensures expected return value.

## INDASV Version

In [62]:
# url with hanging verses
# test_url = "https://live.bible.is/bible/INDASV/EZR/2?audio_type=audio"
# test_url = "https://live.bible.is/bible/INDASV/1CH/6?audio_type=audio"

# url with no p element
test_url = 'https://live.bible.is/bible/INDASV/JOB/4?audio_type=audio'
scraper.scrape_page(test_url)

['https://live.bible.is/bible/INDASV/JOB/4?audio_type=audio',
 'Maka berbicaralah Elifas, orang T\'eman:\n\n"Kesalkah engkau, bila orang mencoba berbicara kepadamu? Tetapi siapakah dapat tetap menutup mulutnya?\n\nSesungguhnya, engkau telah mengajar banyak orang, dan tangan yang lemah telah engkau kuatkan;\n\norang yang jatuh telah dibangunkan oleh kata-katamu, dan lutut yang lemas telah kaukokohkan;\n\ntetapi sekarang, dirimu yang tertimpa, dan engkau kesal, dirimu terkena, dan engkau terkejut.\n\nBukankah takutmu akan Allah yang menjadi sandaranmu, dan kesalehan hidupmu menjadi pengharapanmu?\n\nCamkanlah ini: siapa binasa dengan tidak bersalah dan di manakah orang yang jujur dipunahkan?\n\nYang telah kulihat ialah bahwa orang yang membajak kejahatan dan menabur kesusahan, ia menuainya juga.\n\nMereka binasa oleh nafas Allah, dan lenyap oleh hembusan hidung-Nya.\n\nSinga mengaum, singa meraung — patahlah gigi singa-singa muda.\n\nSinga binasa karena kekurangan mangsa, dan anak-anak s

## INDWBT Version

In [4]:
# test_url = "https://live.bible.is/bible/INDWBT/MAT/2?audio_type=audio"
# test_url = "https://live.bible.is/bible/INDWBT/1CO/10?audio_type=audio"
# test_url = "https://live.bible.is/bible/INDWBT/1CO/11?audio_type=audio"
test_url = "https://live.bible.is/bible/INDWBT/1JN/1?audio_type=audio"
scraper.scrape_page(test_url)

span[data-id^=\31JN1], div[data-id^=\31JN1]
span[data-id^=\31JN1], div[data-id^=\31JN1]
'span[data-id^=\\31JN1], div[data-id^=\\31JN1]'


['https://live.bible.is/bible/INDWBT/1JN/1?audio_type=audio',
 'Kami ingin memberitakan kepada kalian tentang Dia yang disebut Firman— yaitu Dia yang memberikan hidup kepada kita dan yang sudah ada sebelum dunia diciptakan. Kami sudah mendengar dan melihat Dia dengan mata kami sendiri. Dan sungguh, kami sudah melihat Dia— bahkan kami sudah memegang Dia dengan tangan kami sendiri.\n\nBenar, Dia yang memberikan hidup itu sudah dinyatakan kepada kami, dan kami mendapat banyak kesempatan untuk melihat Dia. Sekarang kami bersaksi dan memberitakan kepada kalian tentang Dia yang memberi hidup yang selama-lamanya— yaitu Dia yang dari sejak semula sudah tinggal bersama Allah Bapa dan yang sudah dinyatakan oleh Bapa kepada kami.\n\nJadi, apa yang sudah kami lihat dan dengar, itulah yang kami beritakan kepada kalian, supaya kalian berhubungan dekat dengan kami dalam persekutuan kita. Dan bukan saja kita saling berhubungan, tetapi kita berhubungan dekat juga dengan Bapa dan Anak-Nya— yaitu Kristus

# Get All Base Urls

Get all urls from base urls.

In [7]:
scraper.get_urls()

Assert total number of base urls:
1. INDASV version = `1189` (929 old + 260 new)
2. INDWBT version = `260` (260 new only)

In [9]:
len(scraper.urls)

260

# Continue Scraping

Continue Scraping from saved logs.

## INDASV

In [66]:
df_res_continue = pd.read_csv("../../dataset/raw/bibleis/INDASV/transcription.csv")
df_res_continue.shape

(1189, 3)

In [68]:
l_cont = df_res_continue[df_res_continue['chapter_string'].isnull()]['url']
len(l_cont)

149

In [None]:
scraper.run(list(l_cont.values))

## INDWBT

In [41]:
df_res_continue = pd.read_csv("../../dataset/raw/bibleis/INDWBT/transcription.csv")
df_res_continue.shape

(198, 3)

In [42]:
l_cont = list(set(scraper.urls) - set(df_res_continue['url']))
len(l_cont)

62

In [51]:
l_cont = sorted(l_cont)

Continue Audio only.

In [10]:
mp3s = glob.glob(output_dir+'audio/*.mp3')
mp3s = [os.path.basename(s) for s in mp3s]
print(len(mp3s))
mp3s[0]

243


'INDWBT_1CO_1.mp3'

In [11]:
# Get missing audio files
missing_audios = list(set(urls_to_mp3s(scraper.urls)) - set(mp3s))
missing_audios_urls = mp3s_to_urls(missing_audios)

In [12]:
assert (len(missing_audios_urls) + len(mp3s)) == len(scraper.urls)

# Scrape All

In [13]:
scraper.run(missing_audios_urls)

Running scraper:
Scrape text: False
Scrape audio: True


HBox(children=(FloatProgress(value=0.0, max=17.0), HTML(value='')))




Save scraped data to csv.

In [11]:
scraper.write_csv("../../dataset/raw/bibleis/INDWBT/transcription_add.csv")

Data written in ../../dataset/raw/bibleis/INDWBT/transcription_add.csv


If rescraping, run this cell.

In [15]:
df_old = pd.read_csv("../../dataset/raw/bibleis/INDWBT/transcription.csv")
df_old = df_old.drop(df_old.columns[0], axis=1)
df_new = pd.read_csv("../../dataset/raw/bibleis/INDWBT/transcription_add.csv")
print(df_old.shape)
print(df_new.shape)

(198, 3)
(33, 3)


In [17]:
df_join = pd.concat([df_old, df_new]).sort_values(by=['url']).reset_index(drop=True)
print(df_join.shape)

df_join.to_csv('../../dataset/raw/bibleis/INDWBT/transcription_join.csv', sep=',', line_terminator='\n', index=False)

# Test
test_df_join = pd.read_csv('../../dataset/raw/bibleis/INDWBT/transcription_join.csv')

assert int((test_df_join == df_join).sum().mean()) == test_df_join.shape[0]

test_df_join.to_csv('../../dataset/raw/bibleis/INDWBT/transcription.csv')

os.remove("../../dataset/raw/bibleis/INDWBT/transcription_join.csv")
os.remove("../../dataset/raw/bibleis/INDWBT/transcription_add.csv")

(231, 3)


AssertionError: 

If needed, rescrape broken audio files.

In [28]:
import glob

while True:
    mp3s = glob.glob(output_dir+"audio/*.mp3")
    mp3s = [x for x in mp3s if (os.stat(x).st_size < 3e5)]
    mp3s = [os.path.basename(s) for s in mp3s]
    smol_files = mp3s_to_urls(mp3s)
    if len(smol_files == 0):
        print("Downloaded all audio.")
        break

print(len(smol_files))
print(smol_files)

0
[]


In [25]:
scraper.run(smol_files)

Running scraper:
Scrape text: False
Scrape audio: True


HBox(children=(FloatProgress(value=0.0, max=2.0), HTML(value='')))


