## Bible by Theme

### Preprocessing the Bible by Theme

In [1]:
# Importing library
import json
import pandas as pd
import os
from utils.os_utils import find_repo_root
pd.set_option('display.max_colwidth', None)
pd.options.mode.chained_assignment = None

# Setting directory
repo_root = find_repo_root()
os.chdir(repo_root)

# Loading Fragments of the Bible
with open('bible/data/bible_by_theme.json') as f:
    fragments = json.load(f)

In [2]:
# Preprocessing the Bible by themes
# Creating empty lists to save the data
list_purpose = []
list_passage = []
list_text = []
list_response = []

# For loop to interpret all the fragments of the Bible
for item in fragments:
    purpose = item['purpose']
    verses = item['versiculos']
    for verse in verses:
        passage = verse['pasaje']
        text = verse['texto']
        list_purpose.append(purpose)
        list_passage.append(passage)
        list_text.append(text)

In [3]:
# Creating a df with the passages, text and purposes
fragments_df = pd.DataFrame({'pasaje': list_passage,
                            'texto': list_text,
                            'area_vida': list_purpose})

In [4]:
import re

def clean_text(text):
    text = text.replace('\r\n', ' ')
    text = re.sub(r'\s{2,}', ' ', text)
    return text

fragments_df['pasaje'] = fragments_df['pasaje'].apply(clean_text)
fragments_df['texto'] = fragments_df['texto'].apply(clean_text)

In [5]:
# Counting unique values for each column
fragments_df[['pasaje','texto']].nunique()

pasaje    862
texto     867
dtype: int64

In [6]:
# There are some passages that have different texts.
# Eliminating duplicates from the df
fragments_distinct = fragments_df.drop_duplicates(subset=['pasaje','texto'])
# Counting the passages and showing the ones with more than 1 occurrence
value_counts = fragments_distinct['pasaje'].value_counts()
filtered_counts = value_counts[value_counts > 1]
filtered_counts

pasaje
1 Juan 1:9          2
Salmos 46:1-3       2
Isaías 30:15        2
1 Juan 3:8          2
Nehemías 8:10       2
Lucas 22:31, 32     2
Apocalipsis 19:5    2
Name: count, dtype: int64

In [7]:
# When reviewing the content of this duplicated verse there is a mistake in the number of verse of one of them
fragments_df[fragments_df['pasaje']=='Apocalipsis 19:5']['texto']

85                                                          Y salió una voz del trono, que decía: Load á nuestro Dios todos sus siervos, y los que le teméis, así pequeños como grandes.
541    Y de su boca sale una espada aguda, para herir con ella las gentes: y él los regirá con vara de hierro; y él pisa el lagar del vino del furor, y de la ira del Dios Todopoderoso.
Name: texto, dtype: object

In [8]:
# Correcting the verse numer
# Specifying the text with the wrong verse number
text = 'Y de su boca sale una espada aguda, para herir con ella las gentes: y él los regirá con vara de hierro; y él pisa el lagar del vino del furor, y de la ira del Dios Todopoderoso.'
# Replacing the verse number by the correct verse
fragments_df.loc[fragments_df['texto'] == text, 'pasaje'] = 'Apocalipsis 19:15'
# Verifying the verse correction
fragments_df[fragments_df['texto']==text]['pasaje']

541    Apocalipsis 19:15
Name: pasaje, dtype: object

In [9]:
# We check what are the differences in both text.
fragments_df[fragments_df['pasaje']=='1 Juan 1:9']['texto']

15     Si confesamos nuestros pecados, él es fiel y justo para que nos perdone nuestros pecados, y nos limpie de toda maldad-
215    Si confesamos nuestros pecados, él es fiel y justo para que nos perdone nuestros pecados, y nos limpie de toda maldad.
Name: texto, dtype: object

In [10]:
# We correct the text
fragments_df.loc[fragments_df['pasaje'] == '1 Juan 1:9', 'texto'] = 'Si confesamos nuestros pecados, él es fiel y justo para que nos perdone nuestros pecados, y nos limpie de toda maldad.'
fragments_df[fragments_df['pasaje']=='1 Juan 1:9']['texto']

15     Si confesamos nuestros pecados, él es fiel y justo para que nos perdone nuestros pecados, y nos limpie de toda maldad.
215    Si confesamos nuestros pecados, él es fiel y justo para que nos perdone nuestros pecados, y nos limpie de toda maldad.
Name: texto, dtype: object

In [11]:
# Checking the content
fragments_df[fragments_df['pasaje']=='Salmos 84:5, 7']['texto']

349    Bienaventurado el hombre que tiene su fortaleza en ti; En cuyo corazón están tus caminos. Irán de fortaleza en fortaleza, Verán á Dios en Sión.
636    Bienaventurado el hombre que tiene su fortaleza en ti; En cuyo corazón están tus caminos. Irán de fortaleza en fortaleza, Verán á Dios en Sión.
Name: texto, dtype: object

In [12]:
# Correcting the text
fragments_df.loc[fragments_df['pasaje'] == 'Salmos 84:5, 7', 'texto'] = 'Bienaventurado el hombre que tiene su fortaleza en ti; En cuyo corazón están tus caminos. Irán de fortaleza en fortaleza, Verán á Dios en Sión.'
fragments_df[fragments_df['pasaje']=='Salmos 84:5, 7']['texto']

349    Bienaventurado el hombre que tiene su fortaleza en ti; En cuyo corazón están tus caminos. Irán de fortaleza en fortaleza, Verán á Dios en Sión.
636    Bienaventurado el hombre que tiene su fortaleza en ti; En cuyo corazón están tus caminos. Irán de fortaleza en fortaleza, Verán á Dios en Sión.
Name: texto, dtype: object

In [13]:
# Checking the content
fragments_df[fragments_df['pasaje']=='Isaías 30:15']['texto']

88                                                                           En descanso y en reposo seréis salvos; en quietud y en confianza será vuestra fortaleza.
139    Porque así dijo el Señor Jehová, el Santo de Israel: En descanso y en reposo seréis salvos; en quietud y en confianza será vuestra fortaleza. Y no quisisteis,
641    Porque así dijo el Señor Jehová, el Santo de Israel: En descanso y en reposo seréis salvos; en quietud y en confianza será vuestra fortaleza. Y no quisisteis,
Name: texto, dtype: object

In [14]:
# Correcting the text
fragments_df.loc[fragments_df['pasaje'] == 'Isaías 30:15', 'texto'] = 'Porque así dijo el Señor Jehová, el Santo de Israel: En descanso y en reposo seréis salvos; en quietud y en confianza será vuestra fortaleza. Y no quisisteis,'
fragments_df[fragments_df['pasaje']=='Isaías 30:15']['texto']

88     Porque así dijo el Señor Jehová, el Santo de Israel: En descanso y en reposo seréis salvos; en quietud y en confianza será vuestra fortaleza. Y no quisisteis,
139    Porque así dijo el Señor Jehová, el Santo de Israel: En descanso y en reposo seréis salvos; en quietud y en confianza será vuestra fortaleza. Y no quisisteis,
641    Porque así dijo el Señor Jehová, el Santo de Israel: En descanso y en reposo seréis salvos; en quietud y en confianza será vuestra fortaleza. Y no quisisteis,
Name: texto, dtype: object

In [15]:
# Checking the content
fragments_df[fragments_df['pasaje']=='1 Juan 3:8']['texto']

431    El que hace pecado, es del diablo; porque el diablo peca desde el principio. Para esto apareció el Hijo de Dios, para deshacer las obras del diablo.
796                                                                                 Para esto apareció el Hijo de Dios, para deshacer las obras del diablo.
Name: texto, dtype: object

In [16]:
# Correcting the text
fragments_df.loc[fragments_df['pasaje'] == '1 Juan 3:8', 'texto'] = 'El que hace pecado, es del diablo; porque el diablo peca desde el principio. Para esto apareció el Hijo de Dios, para deshacer las obras del diablo.'
fragments_df[fragments_df['pasaje']=='1 Juan 3:8']['texto']

431    El que hace pecado, es del diablo; porque el diablo peca desde el principio. Para esto apareció el Hijo de Dios, para deshacer las obras del diablo.
796    El que hace pecado, es del diablo; porque el diablo peca desde el principio. Para esto apareció el Hijo de Dios, para deshacer las obras del diablo.
Name: texto, dtype: object

In [17]:
# Checking the content
fragments_df[fragments_df['pasaje']=='Nehemías 8:10']['texto']

67                                                                                                                                                                          porque el gozo de Jehová es vuestra fortaleza.
508    Díjoles luego: Id, comed grosuras, y bebed vino dulce, y enviad porciones á los que no tienen prevenido; porque día santo es á nuestro Señor: y no os entristezcáis, porque el gozo de Jehová es vuestra fortaleza.
Name: texto, dtype: object

In [18]:
# Correcting the text
fragments_df.loc[fragments_df['pasaje'] == 'Nehemías 8:10', 'texto'] = 'Díjoles luego: Id, comed grosuras, y bebed vino dulce, y enviad porciones á los que no tienen prevenido; porque día santo es á nuestro Señor: y no os entristezcáis, porque el gozo de Jehová es vuestra fortaleza.'
fragments_df[fragments_df['pasaje']=='Nehemías 8:10']['texto']

67     Díjoles luego: Id, comed grosuras, y bebed vino dulce, y enviad porciones á los que no tienen prevenido; porque día santo es á nuestro Señor: y no os entristezcáis, porque el gozo de Jehová es vuestra fortaleza.
508    Díjoles luego: Id, comed grosuras, y bebed vino dulce, y enviad porciones á los que no tienen prevenido; porque día santo es á nuestro Señor: y no os entristezcáis, porque el gozo de Jehová es vuestra fortaleza.
Name: texto, dtype: object

In [19]:
# Checking the content
fragments_df[fragments_df['pasaje']=='Lucas 22:31, 32']['texto']

49     Dijo también el Señor: Simón, Simón, he aquí Satanás os ha pedido para zarandaros como á trigo; Mas yo he rogado por ti que tu fe no falte: y tú, una vez vuelto, confirma á tus hermanos.
225                           Simón, Simón, he aquí Satanás os ha pedido para zarandaros como á trigo; Mas yo he rogado por ti que tu fe no falte: y tú, una vez vuelto, confirma á tus hermanos.
Name: texto, dtype: object

In [20]:
# Correcting the text
fragments_df.loc[fragments_df['pasaje'] == 'Lucas 22:31, 32', 'texto'] = 'Dijo también el Señor: Simón, Simón, he aquí Satanás os ha pedido para zarandaros como á trigo; Mas yo he rogado por ti que tu fe no falte: y tú, una vez vuelto, confirma á tus hermanos.'
fragments_df[fragments_df['pasaje']=='Lucas 22:31, 32']['texto']

49     Dijo también el Señor: Simón, Simón, he aquí Satanás os ha pedido para zarandaros como á trigo; Mas yo he rogado por ti que tu fe no falte: y tú, una vez vuelto, confirma á tus hermanos.
225    Dijo también el Señor: Simón, Simón, he aquí Satanás os ha pedido para zarandaros como á trigo; Mas yo he rogado por ti que tu fe no falte: y tú, una vez vuelto, confirma á tus hermanos.
Name: texto, dtype: object

In [21]:
# Checking the content
fragments_df[fragments_df['pasaje']=='Salmos 46:1-3']['texto']

162                                                                    DIOS es nuestro amparo y fortaleza, Nuestro pronto auxilio en las tribulaciones. Por tanto no temeremos aunque la tierra sea removida; Aunque se traspasen los montes al corazón de la mar. Bramarán, turbaránse sus aguas; Temblarán los montes á causa de su braveza. (Selah.)
651                                                                    DIOS es nuestro amparo y fortaleza, Nuestro pronto auxilio en las tribulaciones. Por tanto no temeremos aunque la tierra sea removida; Aunque se traspasen los montes al corazón de la mar. Bramarán, turbaránse sus aguas; Temblarán los montes á causa de su braveza. (Selah.)
662    Al Músico principal: de los hijos de Coré: Salmo sobre Alamoth. DIOS es nuestro amparo y fortaleza, Nuestro pronto auxilio en las tribulaciones. Por tanto no temeremos aunque la tierra sea removida; Aunque se traspasen los montes al corazón de la mar. Bramarán, turbaránse sus aguas; Temblarán los montes 

In [22]:
# Correcting the text
fragments_df.loc[fragments_df['pasaje'] == 'Salmos 46:1-3', 'texto'] = 'DIOS es nuestro amparo y fortaleza, Nuestro pronto auxilio en las tribulaciones. Por tanto no temeremos aunque la tierra sea removida; Aunque se traspasen los montes al corazón de la mar. Bramarán, turbaránse sus aguas; Temblarán los montes á causa de su braveza. (Selah.)'
fragments_df[fragments_df['pasaje']=='Salmos 46:1-3']['texto']

162    DIOS es nuestro amparo y fortaleza, Nuestro pronto auxilio en las tribulaciones. Por tanto no temeremos aunque la tierra sea removida; Aunque se traspasen los montes al corazón de la mar. Bramarán, turbaránse sus aguas; Temblarán los montes á causa de su braveza. (Selah.)
651    DIOS es nuestro amparo y fortaleza, Nuestro pronto auxilio en las tribulaciones. Por tanto no temeremos aunque la tierra sea removida; Aunque se traspasen los montes al corazón de la mar. Bramarán, turbaránse sus aguas; Temblarán los montes á causa de su braveza. (Selah.)
662    DIOS es nuestro amparo y fortaleza, Nuestro pronto auxilio en las tribulaciones. Por tanto no temeremos aunque la tierra sea removida; Aunque se traspasen los montes al corazón de la mar. Bramarán, turbaránse sus aguas; Temblarán los montes á causa de su braveza. (Selah.)
Name: texto, dtype: object

In [23]:
# Counting unique values for each column
fragments_df[['pasaje','texto']].nunique()

pasaje    863
texto     861
dtype: int64

In [24]:
# There are some passages that have different texts.
# Eliminating duplicates from the df
fragments_distinct = fragments_df.drop_duplicates(subset=['pasaje','texto'])
# Counting the passages and showing the ones with more than 1 occurrence
value_counts = fragments_distinct['texto'].value_counts()
filtered_counts = value_counts[value_counts > 1]
filtered_counts

texto
El Señor Jehová me dió lengua de sabios, para saber hablar en sazón palabra al cansado; despertará de mañana, despertaráme de mañana oído, para que oiga como los sabios.    2
Mas el fruto del Espíritu es: caridad, gozo, paz, tolerancia, benignidad, bondad, fe, Mansedumbre, templanza: contra tales cosas no hay ley.                                 2
Name: count, dtype: int64

In [25]:
# Checking the data
fragments_df[fragments_df['texto']=='El Señor Jehová me dió lengua de sabios, para saber hablar en sazón palabra al cansado; despertará de mañana, despertaráme de mañana oído, para que oiga como los sabios.']

Unnamed: 0,pasaje,texto,area_vida
696,Isaías 50:4,"El Señor Jehová me dió lengua de sabios, para saber hablar en sazón palabra al cansado; despertará de mañana, despertaráme de mañana oído, para que oiga como los sabios.",sabiduria
706,Isaias 50:4,"El Señor Jehová me dió lengua de sabios, para saber hablar en sazón palabra al cansado; despertará de mañana, despertaráme de mañana oído, para que oiga como los sabios.",convicción


In [26]:
# Correcting the passage name
fragments_df.loc[fragments_df['texto'] == 'El Señor Jehová me dió lengua de sabios, para saber hablar en sazón palabra al cansado; despertará de mañana, despertaráme de mañana oído, para que oiga como los sabios.', 'pasaje'] = 'Isaías 50:4'
fragments_df[fragments_df['texto']=='El Señor Jehová me dió lengua de sabios, para saber hablar en sazón palabra al cansado; despertará de mañana, despertaráme de mañana oído, para que oiga como los sabios.']['pasaje']

696    Isaías 50:4
706    Isaías 50:4
Name: pasaje, dtype: object

In [27]:
# Checking the data
fragments_df[fragments_df['texto']=='Mas el fruto del Espíritu es: caridad, gozo, paz, tolerancia, benignidad, bondad, fe, Mansedumbre, templanza: contra tales cosas no hay ley.']

Unnamed: 0,pasaje,texto,area_vida
749,"Galatas 5:22, 23","Mas el fruto del Espíritu es: caridad, gozo, paz, tolerancia, benignidad, bondad, fe, Mansedumbre, templanza: contra tales cosas no hay ley.",orgullo
925,Gálatas 5:22-23,"Mas el fruto del Espíritu es: caridad, gozo, paz, tolerancia, benignidad, bondad, fe, Mansedumbre, templanza: contra tales cosas no hay ley.","Jesús, el hijo de Dios - simplicidad"


In [28]:
fragments_df.loc[fragments_df['texto'] == 'Mas el fruto del Espíritu es: caridad, gozo, paz, tolerancia, benignidad, bondad, fe, Mansedumbre, templanza: contra tales cosas no hay ley.', 'pasaje'] = 'Gálatas 5:22-23'
fragments_df[fragments_df['texto']=='Mas el fruto del Espíritu es: caridad, gozo, paz, tolerancia, benignidad, bondad, fe, Mansedumbre, templanza: contra tales cosas no hay ley.']['pasaje']

749    Gálatas 5:22-23
925    Gálatas 5:22-23
Name: pasaje, dtype: object

In [29]:
fragments_df.loc[fragments_df['pasaje']=='Galatas 5:21, 23', 'pasaje'] = 'Gálatas 5:21, 23'
fragments_df[fragments_df['pasaje']=='Gálatas 5:21, 23']['pasaje']

730    Gálatas 5:21, 23
Name: pasaje, dtype: object

In [30]:
# Counting unique values for each column
fragments_df[['pasaje','texto']].nunique()

pasaje    861
texto     861
dtype: int64

In [31]:
# Now that the information is correct we are group the df by 'pasaje' and 'texto' and list the 'area_vida'
grouped_df = fragments_df.groupby(['pasaje', 'texto']).agg({'area_vida': list}).reset_index()

In [32]:
# Convert DataFrame to a dictionary
grouped_df_dict = grouped_df.to_dict(orient='records')

# Save the list as a JSON file
with open('bible/data/bible_by_theme_preprocessed.json', 'w', encoding='utf-8') as json_file:
    json.dump(grouped_df_dict, json_file, ensure_ascii=False, indent=4)