# read korean bible

In [1]:
import pandas as pd

## parse bible text data

In [111]:
def read_bible(version_name):
    """ read bible text and return panda database """
    
    filename="raw_bible_text/" + version_name + ".txt"
    with open(filename, "r") as f:
        lines = f.readlines()
        
    # prepare data container
    books = []
    chapters = []
    verses = []
    texts = []

    for line in lines:
        line = line.strip('\n\r')

        # check comment line
        if len(line) == 0:
            continue
        if line[0] == "#":
            continue

        # find header
        hp = line.find(' ')
        if hp > 1 and hp < 10:
            header = line[:hp]
            text = line[hp+1:]

            # find book, chapter, verse, text
            tmp = header.split(':')[0]
            chapter = ''.join(filter(str.isdigit, tmp))
            verse = header.split(':')[1]
            book = ''.join(filter(str.isalpha, tmp))

            # convert data
            try:
                verse = int(verse)
                chapter = int(chapter)
            except:
                print("... parser error! - {}".format(line))

            # collect
            books.append(book)
            chapters.append(chapter)
            verses.append(verse)
            texts.append(text)
        else:
            print("... parser error! - {}".format(line))

    df_bible = {'book':books, 'chapter':chapters, 'verse':verses, 'text':texts}
    idx = range(len(books))
    bible = pd.DataFrame(data=df_bible, index=idx)

    return bible

In [46]:
bible1 = read_bible("개역개정판성경")
bible2 = read_bible("개역한글판성경")

In [53]:
bible1[0:2]

Unnamed: 0,book,chapter,verse,text
0,창,1,1,태초에 하나님이 천지를 창조하시니라
1,창,1,2,그 땅이 혼돈하고 공허하며 흑암이 깊음 위에 있고 하나님의 영은 수면 위에 운행하시니라


In [54]:
bible2[0:2]

Unnamed: 0,book,chapter,verse,text
0,창,1,1,태초에 하나님이 천지를 창조하시니라
1,창,1,2,땅이 혼돈하고 공허하며 흑암이 깊음 위에 있고 하나님의 신은 수면에 운행하시니라


## make annotation on books

In [62]:
import numpy as np
short = np.unique(bible.loc[:,'book'].values)
print(short)

['갈' '겔' '계' '고전' '고후' '골' '나' '눅' '느' '단' '대상' '대하' '딛' '딤전' '딤후' '레' '렘'
 '롬' '룻' '마' '막' '말' '몬' '미' '민' '벧전' '벧후' '빌' '사' '살전' '살후' '삼상' '삼하' '삿'
 '수' '스' '슥' '습' '시' '신' '아' '암' '애' '약' '에' '엡' '옵' '왕상' '왕하' '요' '요삼'
 '요이' '요일' '욘' '욜' '욥' '유' '잠' '전' '창' '출' '학' '합' '행' '호' '히']


### prepare list table from txt

In [102]:
list_table = pd.read_csv('raw_bible_text/목록표.txt', sep=" ", names=['order', 'book', 'sep', 'book_long', 'eng'], index_col=False)

list_table['on'] = ""
list_table['on'].iloc[:39] = "구약"
list_table['on'].iloc[39:] = "신약"

list_table = list_table.drop(columns=['sep'])

list_table['order'] = pd.to_numeric(list_table['order'], downcast='unsigned')
list_table['eng'] = list_table['eng'].str.slice(1, -1)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)


In [103]:
list_table

Unnamed: 0,order,book,book_long,eng,on
0,1,창,창세기,Genesis,구약
1,2,출,출애굽기,Exodus,구약
2,3,레,레위기,Leviticus,구약
3,4,민,민수기,Numbers,구약
4,5,신,신명기,Deuteronomy,구약
5,6,수,여호수아,Joshua,구약
6,7,삿,사사기,Judges,구약
7,8,룻,룻기,Ruth,구약
8,9,삼상,사무엘상,1_Samuel,구약
9,10,삼하,사무엘하,2_Samuel,구약


In [104]:
#list_table.to_csv("raw_bible_text/목록표.csv")

In [105]:
#l = pd.read_csv("raw_bible_text/목록표.csv", index_col=0)

### make full bible table

In [114]:
def read_full_bible(version_name, save=False):
    """ read bible version """
    
    try:
        full_bible = pd.read_csv("raw_bible_text/"+version_name+".csv.gz", compression = "gzip")
        return full_bible
    except FileNotFoundError:
        print('... generate bible database')
        
    bible = read_bible(version_name)
    table = pd.read_csv("raw_bible_text/목록표.csv", index_col=0)
    
    full_bible = pd.merge(bible1, table, on='book', how='left')
    
    if save:
        full_bible.to_csv("raw_bible_text/{}.csv.gz".format(version_name), compression='gzip')
        
    return full_bible

In [123]:
read_full_bible("개역한글판성경", save=True)

... generate bible database


Unnamed: 0,book,chapter,verse,text,order,book_long,eng,on
0,창,1,1,태초에 하나님이 천지를 창조하시니라,1,창세기,Genesis,구약
1,창,1,2,그 땅이 혼돈하고 공허하며 흑암이 깊음 위에 있고 하나님의 영은 수면 위에 운행하시니라,1,창세기,Genesis,구약
2,창,1,3,하나님이 이르시되 빛이 있으라 하시니 빛이 있었고,1,창세기,Genesis,구약
3,창,1,4,그 빛이 하나님이 보시기에 좋았더라 하나님이 빛과 어둠을 나누사,1,창세기,Genesis,구약
4,창,1,5,하나님이 빛을 낮이라 부르시고 어둠을 밤이라 부르시니라 저녁이 되고 아침이 되니 이...,1,창세기,Genesis,구약
5,창,1,6,하나님이 이르시되 물 가운데에 궁창이 있어 물과 물로 나뉘라 하시고,1,창세기,Genesis,구약
6,창,1,7,하나님이 궁창을 만드사 궁창 아래의 물과 궁창 위의 물로 나뉘게 하시니 그대로 되니라,1,창세기,Genesis,구약
7,창,1,8,하나님이 궁창을 하늘이라 부르시니라 저녁이 되고 아침이 되니 이는 둘째 날이니라,1,창세기,Genesis,구약
8,창,1,9,하나님이 이르시되 천하의 물이 한 곳으로 모이고 뭍이 드러나라 하시니 그대로 되니라,1,창세기,Genesis,구약
9,창,1,10,하나님이 뭍을 땅이라 부르시고 모인 물을 바다라 부르시니 하나님이 보시기에 좋았더라,1,창세기,Genesis,구약
