# Web scraping para la biblia

In [252]:
import re
import requests
from bs4 import BeautifulSoup

In [253]:
def web_scraping_biblia(nombre_pasaje: str, num_paginas: str, path: str, cod_biblia: str, idioma: str):
    """
    Hace un web scraping de la página bible.com a partir de un código de pasaje y un código de idioma y una carpeta para guardar el resultado

    input:
    - nombre_pasaje: Nombre del pasaje. Por ejemplo, Roma, Lucas, etc
    - num_paginas: Número de páginas a revisar
    - path: Ruta en donde guardar los resultados del web scraping
    - cod_biblia: codigo de la biblia buscada
    - idioma: Idioma puede ser español o wayuu
    """
    if idioma == 'esp':
        cod = '28'
    else:
        cod = '1584'
    urls = [f"https://www.bible.com/es/bible/{cod}/{nombre_pasaje}.{i}.{cod_biblia}" for i in range(1,num_paginas+1)]
    
    for i in range(1,num_paginas+1):
        # URL de la página web que deseas analizar
        url = urls[i-1]

        try:
            # Realiza una solicitud GET para obtener el contenido de la página
            response = requests.get(url)

            # Verifica si la solicitud fue exitosa (código de respuesta 200)
            if response.status_code == 200:
                # Parsea el contenido HTML de la página con BeautifulSoup
                soup = BeautifulSoup(response.text, 'html.parser')

                # Encuentra el elemento <div> con data-usfm="ACT.2" y la clase "ChapterContent_chapter__uvbXo"
                act = f"{nombre_pasaje}.{i}"
                div_element = soup.find("div", {"data-usfm": act, "class": "ChapterContent_chapter__uvbXo"})

                # Verifica si se encontró el elemento
                if div_element:
                    # Obtiene el contenido dentro del elemento <div>
                    contenido = div_element.get_text()
                    contenido = contenido[len(str(i))+1:]

                    with open(path + f'{nombre_pasaje} {i} - {idioma}.txt', 'w') as f:
                        f.write(contenido)
                else:
                    print("No se encontró el elemento <div> con los atributos especificados.")
            else:
                print(f"No se pudo acceder a {url}. Código de respuesta: {response.status_code}")

        except Exception as e:
            print(f"Se produjo un error al acceder a {url}: {str(e)}")


In [254]:
lista = [
    ('MAT', 28, 'Mateo'),
    ('MRK', 16, 'Marcos'),
    ('LUK', 24, 'Lucas'),
    ('JHN', 21, 'Juan'),
    ('ACT', 28, 'Hechos de los apostoles'),
    ('ROM', 16,'Roma'),
    ('1CO', 16, 'Corintio'),
    ('2CO', 13, 'Corintio2'),
    ('GAL', 6, 'Galacia'),
    ('EPH', 6, 'Efeso'),
    ('PHP', 4, 'Filipos'),
    ('COL', 4, 'Colosa'),
    ('1TH', 5, 'Tesalonica'),
    ('2TH', 3, '2Tesalonica'),
    ('1TI', 6, 'Timoteo'),
    ('2TI', 4, '2Timoteo'),
    ('TIT', 3, 'Tito'),
    ('PHM', 1, 'Filemon'),
    ('HEB', 13, 'Hebreokana'),
    ('JAS', 5, 'Santiago'),
    ('1PE', 5, 'Pedro'),
    ('2PE', 3, '2Pedro'),
    ('1JN', 5, '1 Juan'),
    ('2JN', 1, '2 Juan'),
    ('3JN', 1, '3 Juan'),
    ('JUD', 1, 'Judas'),
    ('REV', 22, 'Apocalipsis')
]

In [255]:
for nombp, nump, fol in lista:
    web_scraping_biblia(nombre_pasaje = nombp, 
                        num_paginas = nump, 
                        path = f'../data/biblia/{fol}/', 
                        cod_biblia = 'GUC', 
                        idioma = 'wayuu')

In [256]:
for nombp, nump, fol in lista:
    web_scraping_biblia(nombre_pasaje = nombp, 
                        num_paginas = nump, 
                        path = f'../data/biblia/{fol}/', 
                        cod_biblia = 'BLPH', 
                        idioma = 'esp')

# Procesar errores en español

In [257]:
from glob import glob 
espaniol = glob('../data/biblia/*/* - esp.txt')

In [258]:
for ar in espaniol:
    with open(ar, 'r') as f:
        t = ' '.join(f.readlines())

    # Quitamos saltos de línea
    t = t.replace('\n', ' ')

    # Quitamos todo lo que está dentro de paréntesis (normalmente son pie de página o títulos)
    t = re.sub(r'\([^)]*\)', "", t)

    # Quitamos todo entre # y . que son pie de página
    t = re.sub(r'#.*?\.', '', t)

    with open(ar, 'w') as f:
        f.write(t)

In [259]:
for ar in espaniol:
    with open(ar, 'r') as f:
        t = ' '.join(f.readlines())
    if "#" in t:
        print(f'No funcionó {ar}')

In [260]:
for ar in espaniol:
    with open(ar, 'r') as f:
        t = ' '.join(f.readlines())

    t = re.sub(r'(\d+)', r'\n\1', t)

    with open(ar, 'w') as f:
        f.write(t)


In [261]:
for ar in espaniol:
    with open(ar, 'r') as f:
        t = ' '.join(f.readlines())

    lines = t.split('\n')
    t = '\n'.join([l for l in lines if len(l)>12])

    with open(ar, 'w') as f:
        f.write(t)


# Procesar más errores en wayuu

In [262]:
wayuu = glob('../data/biblia/*/* - wayuu.txt')

In [263]:
for ar in wayuu:
    with open(ar, 'r') as f:
        t = ' '.join(f.readlines())

    t = re.sub(r'(\d+)', r'\n\1', t)

    with open(ar, 'w') as f:
        f.write(t)

In [264]:
numeros_wayuu = {'1.\n000': 'miirü',
                 '2.\n000': 'piama miirü',
                 '4.\n000': 'pienchi miirü',
                 '5.\n000': 'ja’rai miirü', 
                 '7.\n000': 'akaraishi miirü',
                 '12.\n000': 'po’loo piamamüin miirü',
                 '23.\n000': 'piama shikii apünüinmüin miirü',
                 '50.\n000': 'ja’rai shikii miirü',
                 '144.\n000': 'po’loo shikii, pienchi shikii pienchimüin miirü',
                 '10.\n000': 'po’loo miirü',
                 '20.\n000': 'piama shikii miirü'}

for ar in wayuu:
    with open(ar, 'r') as f:
        t = ''.join(f.readlines())

    for k, v in numeros_wayuu.items():
        t = t.replace(k,v)    

    with open(ar, 'w') as f:
        f.write(t)