In [None]:
!pip install pandas openpyxl requests beautifulsoup4



# Extracci√≥n de Datos de Web wol.jw.org - Semanas Reuni√≥n

In [3]:
# ========================================
# SCRIPT: EXTRACTOR DE INFORMACI√ìN WOL - GOOGLE COLAB
# ========================================
# INSTRUCCIONES: Solo necesitas cambiar las URLs de abajo por las semanas que quieres procesar
# Ejemplo de URL: "https://wol.jw.org/es/wol/meetings/r4/lp-s/2024/11/3"

URLS_A_PROCESAR = [
    "https://wol.jw.org/es/wol/d/r4/lp-s/202025401",
    "https://wol.jw.org/es/wol/d/r4/lp-s/202025402",
    "https://wol.jw.org/es/wol/d/r4/lp-s/202025403",
    "https://wol.jw.org/es/wol/d/r4/lp-s/202025404",
    "https://wol.jw.org/es/wol/d/r4/lp-s/202025405",
    "https://wol.jw.org/es/wol/d/r4/lp-s/202025406",
    "https://wol.jw.org/es/wol/d/r4/lp-s/202025407",
    "https://wol.jw.org/es/wol/d/r4/lp-s/202025408",
    "https://wol.jw.org/es/wol/d/r4/lp-s/202025409"

    # AGREGAR M√ÅS URLs AQU√ç - UNA POR L√çNEA
    # "https://wol.jw.org/es/wol/meetings/r4/lp-s/2024/12/2",
    # "https://wol.jw.org/es/wol/meetings/r4/lp-s/2024/12/3",
]

# ========================================
# INSTALACI√ìN DE DEPENDENCIAS (SOLO PARA COLAB)
# ========================================

# Instalar dependencias necesarias en Google Colab
try:
    import google.colab
    print("üîß Instalando dependencias para Google Colab...")
    !pip install requests beautifulsoup4 pandas openpyxl -q
    print("‚úÖ Dependencias instaladas correctamente")
except ImportError:
    print("‚ÑπÔ∏è  Ejecut√°ndose fuera de Google Colab - usando dependencias del sistema")

# ========================================
# C√ìDIGO PRINCIPAL
# ========================================

import pandas as pd
import time
import requests
from bs4 import BeautifulSoup
import re
from datetime import datetime

def extraer_informacion(url):
    """
    Extrae informaci√≥n de una p√°gina de WOL de reuni√≥n de entre semana.

    Par√°metros:
    url (str): URL de la p√°gina WOL

    Retorna:
    dict: Diccionario con la informaci√≥n extra√≠da
    """
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        response.raise_for_status()

        soup = BeautifulSoup(response.content, 'html.parser')

        # Inicializar el diccionario de informaci√≥n
        info = {
            "semana": "",
            "libro": "",
            "cancion_inicial": "",
            "tesoros": "",
            "segunda_cancion": "",
            "tercera_cancion": "",
            "titulos_maestros": [],
            "maestros_con_contenido": [],  # Nueva informaci√≥n detallada
            "nvc_titulo1": "",
            "nvc_titulo2": "",
            "nvc_titulo3": ""
        }

        # 1. EXTRAER SEMANA - Buscar h1 con id='p1'
        semana_elem = soup.find('h1', id='p1')
        if semana_elem:
            info["semana"] = semana_elem.get_text(strip=True)

        # 2. EXTRAER LIBRO DE ESTUDIO - Buscar h2 con id='p2'
        libro_elem = soup.find('h2', id='p2')
        if libro_elem:
            strong_tag = libro_elem.find('strong')
            if strong_tag:
                info["libro"] = strong_tag.get_text(strip=True)
            else:
                info["libro"] = libro_elem.get_text(strip=True)

        # 3. EXTRAER CANCIONES
        # Primera canci√≥n - h3 con id='p3'
        cancion_elem = soup.find('h3', id='p3')
        if cancion_elem:
            cancion_text = cancion_elem.get_text(strip=True)
            match = re.search(r'Canci√≥n\s+(\d+)', cancion_text)
            if match:
                info["cancion_inicial"] = f"Canci√≥n {match.group(1)}"

        # Extraer todas las canciones restantes
        todas_h3 = soup.find_all('h3')
        canciones_encontradas = []
        cancion_inicial_texto = cancion_elem.get_text(strip=True) if cancion_elem else ""

        for h3 in todas_h3:
            texto = h3.get_text(strip=True)
            if "Canci√≥n" in texto and texto != cancion_inicial_texto:
                match = re.search(r'Canci√≥n\s+(\d+)', texto)
                if match:
                    cancion_formateada = f"Canci√≥n {match.group(1)}"
                    if cancion_formateada not in canciones_encontradas:
                        canciones_encontradas.append(cancion_formateada)

        # Asignar segunda y tercera canci√≥n
        if len(canciones_encontradas) >= 1:
            info["segunda_cancion"] = canciones_encontradas[0]
        if len(canciones_encontradas) >= 2:
            info["tercera_cancion"] = canciones_encontradas[1]

        # 4. EXTRAER TESOROS DE LA BIBLIA - Buscar h5, h4 o h3 con id='p5'
        tesoros_elem = soup.find(['h5', 'h4', 'h3'], id='p5')
        if tesoros_elem:
            info["tesoros"] = tesoros_elem.get_text(strip=True)

        # 5. EXTRAER T√çTULOS Y CONTENIDO DE "SEAMOS MEJORES MAESTROS"
        # Buscar el encabezado de la secci√≥n
        maestros_element = None
        vida_cristiana_element = None

        for h2 in soup.find_all('h2'):
            texto = h2.get_text(strip=True)
            if "SEAMOS MEJORES MAESTROS" in texto:
                maestros_element = h2
            elif "NUESTRA VIDA CRISTIANA" in texto:
                vida_cristiana_element = h2

        # Extraer t√≠tulos y contenido entre "SEAMOS MEJORES MAESTROS" y "NUESTRA VIDA CRISTIANA"
        maestros_titulos_con_contenido = []

        if maestros_element and vida_cristiana_element:
            # M√©todo basado en IDs
            maestros_id = maestros_element.get('id', '')
            vida_id = vida_cristiana_element.get('id', '')

            if maestros_id and vida_id:
                maestros_num = int(maestros_id.replace('p', '')) if maestros_id.replace('p', '').isdigit() else 0
                vida_num = int(vida_id.replace('p', '')) if vida_id.replace('p', '').isdigit() else 1000

                # Buscar h3 con IDs entre estos dos valores
                for h3 in soup.find_all('h3'):
                    h3_id = h3.get('id', '')
                    if h3_id and h3_id.replace('p', '').isdigit():
                        h3_num = int(h3_id.replace('p', ''))
                        if maestros_num < h3_num < vida_num and h3.find('strong'):
                            strong_text = h3.find('strong').get_text(strip=True)
                            if not strong_text.startswith("Canci√≥n"):
                                # Extraer el t√≠tulo
                                titulo = strong_text

                                # Extraer el contenido - buscar el div siguiente
                                contenido = ""
                                siguiente_elemento = h3.find_next_sibling()

                                # Buscar el div que contiene el contenido
                                if siguiente_elemento and siguiente_elemento.name == 'div':
                                    # Extraer todo el texto del div, limpiando espacios extra
                                    contenido_raw = siguiente_elemento.get_text(strip=True)
                                    # Limpiar el contenido eliminando saltos de l√≠nea excesivos
                                    contenido = ' '.join(contenido_raw.split())

                                # Si no encontramos contenido en el div siguiente, buscar en el p√°rrafo siguiente
                                if not contenido:
                                    siguiente_p = h3.find_next('p')
                                    if siguiente_p:
                                        contenido_raw = siguiente_p.get_text(strip=True)
                                        contenido = ' '.join(contenido_raw.split())

                                # Guardar t√≠tulo y contenido
                                maestros_titulos_con_contenido.append({
                                    'titulo': titulo,
                                    'contenido': contenido
                                })

                                # Mantener compatibilidad con el formato anterior
                                info["titulos_maestros"].append(titulo)

                # Guardar la informaci√≥n detallada
                info["maestros_con_contenido"] = maestros_titulos_con_contenido

        # 6. EXTRAER T√çTULOS DE "NUESTRA VIDA CRISTIANA"
        titulos_nvc = []
        estudio_biblico_texto = None

        if vida_cristiana_element:
            vida_id = vida_cristiana_element.get('id', '')
            if vida_id and vida_id.replace('p', '').isdigit():
                vida_num = int(vida_id.replace('p', ''))

                # Buscar todos los h3 con ID mayor que el de "NUESTRA VIDA CRISTIANA"
                for h3 in soup.find_all('h3'):
                    h3_id = h3.get('id', '')
                    if h3_id and h3_id.replace('p', '').isdigit():
                        h3_num = int(h3_id.replace('p', ''))

                        if h3_num > vida_num and h3.find('strong'):
                            strong_text = h3.find('strong').get_text(strip=True)

                            # Si encontramos "Estudio b√≠blico de la congregaci√≥n"
                            if "Estudio b√≠blico de la congregaci√≥n" in strong_text:
                                estudio_biblico_texto = strong_text
                                break  # Terminamos la b√∫squeda una vez encontrado

                            # Otros t√≠tulos que no son canciones
                            elif not strong_text.startswith("Canci√≥n"):
                                titulos_nvc.append(strong_text)

        # Buscar "Estudio b√≠blico de la congregaci√≥n" si no se encontr√≥ a√∫n
        if not estudio_biblico_texto:
            for h3 in soup.find_all('h3'):
                if h3.find('strong') and "Estudio b√≠blico de la congregaci√≥n" in h3.get_text(strip=True):
                    estudio_biblico_texto = h3.find('strong').get_text(strip=True)
                    break

        # Asignar los t√≠tulos NVC
        info["nvc_titulo1"] = titulos_nvc[0] if len(titulos_nvc) > 0 else ""
        info["nvc_titulo2"] = titulos_nvc[1] if len(titulos_nvc) > 1 else ""
        info["nvc_titulo3"] = estudio_biblico_texto if estudio_biblico_texto else "Estudio b√≠blico de la congregaci√≥n"

        return info

    except Exception as e:
        print(f"Error al extraer informaci√≥n de {url}: {str(e)}")
        return None

def procesar_urls_wol(urls):
    """
    Procesa una lista de URLs de WOL y crea un archivo Excel independiente.

    Par√°metros:
    urls (list): Lista de URLs a procesar

    Retorna:
    tuple: (datos_procesados, nombre_archivo)
    """
    datos = []

    # Nombre del archivo con timestamp para evitar conflictos
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    nombre_archivo = f"info-reunion_{timestamp}.xlsx"

    print("üîç Extrayendo informaci√≥n de las p√°ginas WOL...")
    print("-" * 50)

    # Extraer informaci√≥n de cada URL
    for i, url in enumerate(urls, 1):
        try:
            print(f"üìÑ ({i}/{len(urls)}) Procesando: {url}")
            info = extraer_informacion(url)

            if info is None:
                print("   ‚ùå No se pudo extraer informaci√≥n")
                continue

            # Informaci√≥n b√°sica para el DataFrame
            datos_basicos = {
                "Semana": info["semana"],
                "Libro": info["libro"],
                "Canci√≥n Inicial": info["cancion_inicial"],
                "Tesoros de la Biblia": info["tesoros"],
                "Segunda Canci√≥n": info["segunda_cancion"],
                "Tercera Canci√≥n": info["tercera_cancion"]
            }

            # A√±adir los t√≠tulos de maestros como columnas separadas (solo t√≠tulos)
            for j, titulo in enumerate(info["titulos_maestros"], 1):
                if j <= 4:  # M√°ximo 4 t√≠tulos
                    datos_basicos[f"Maestros T√≠tulo {j}"] = titulo

            # Rellenar t√≠tulos de maestros faltantes con cadena vac√≠a
            for j in range(len(info["titulos_maestros"]) + 1, 5):
                datos_basicos[f"Maestros T√≠tulo {j}"] = ""

            # A√±adir el contenido de maestros como columnas separadas
            for j, item in enumerate(info["maestros_con_contenido"], 1):
                if j <= 4:  # M√°ximo 4 contenidos
                    datos_basicos[f"Maestros Contenido {j}"] = item['contenido']

            # Rellenar contenidos de maestros faltantes con cadena vac√≠a
            for j in range(len(info["maestros_con_contenido"]) + 1, 5):
                datos_basicos[f"Maestros Contenido {j}"] = ""

            # A√±adir los t√≠tulos NVC
            datos_basicos["NVC T√≠tulo 1"] = info["nvc_titulo1"]
            datos_basicos["NVC T√≠tulo 2"] = info["nvc_titulo2"]
            datos_basicos["NVC T√≠tulo 3"] = info["nvc_titulo3"]

            datos.append(datos_basicos)
            print(f"   ‚úÖ Semana extra√≠da: {info['semana']}")

            # Mostrar informaci√≥n detallada para verificaci√≥n
            print("   üìã Informaci√≥n extra√≠da:")
            print(f"      ‚Ä¢ Libro: {info['libro']}")
            print(f"      ‚Ä¢ Canciones: {info['cancion_inicial']} | {info['segunda_cancion']} | {info['tercera_cancion']}")
            if info['tesoros']:
                tesoros_corto = info['tesoros'][:50] + "..." if len(info['tesoros']) > 50 else info['tesoros']
                print(f"      ‚Ä¢ Tesoros: {tesoros_corto}")
            print(f"      ‚Ä¢ Maestros ({len(info['titulos_maestros'])}): {', '.join(info['titulos_maestros'])}")

            # Mostrar contenido detallado de maestros
            if info['maestros_con_contenido']:
                print("      ‚Ä¢ Contenido Maestros:")
                for i, item in enumerate(info['maestros_con_contenido'], 1):
                    contenido_corto = item['contenido'][:60] + "..." if len(item['contenido']) > 60 else item['contenido']
                    print(f"        {i}. {item['titulo']}: {contenido_corto}")

            print(f"      ‚Ä¢ NVC: {info['nvc_titulo1']} | {info['nvc_titulo2']} | {info['nvc_titulo3']}")
            print()

        except Exception as e:
            print(f"   ‚ùå Error al procesar: {str(e)}")

        time.sleep(1)  # Pausa entre solicitudes

    print("-" * 50)

    # Crear archivo Excel independiente
    if datos:
        try:
            df = pd.DataFrame(datos)

            print(f"üíæ Creando archivo Excel: {nombre_archivo}")

            # Crear el archivo Excel con una sola hoja
            with pd.ExcelWriter(nombre_archivo, engine='openpyxl') as writer:
                df.to_excel(writer, sheet_name='Info-reuni√≥n', index=False)

            print(f"   ‚úÖ Archivo creado exitosamente: {nombre_archivo}")
            return datos, nombre_archivo

        except Exception as e:
            print(f"   ‚ùå Error al crear el archivo Excel: {str(e)}")
            return None, None
    else:
        print("   ‚ö†Ô∏è  No hay datos para guardar")
        return None, None

def descargar_archivo_colab(nombre_archivo):
    """
    Funci√≥n para descargar el archivo en Google Colab

    Par√°metros:
    nombre_archivo (str): Nombre del archivo a descargar
    """
    import os

    # Verificar que el archivo existe
    if not os.path.exists(nombre_archivo):
        print(f"‚ùå No se encontr√≥ el archivo: {nombre_archivo}")
        return False

    # Mostrar informaci√≥n del archivo
    size = os.path.getsize(nombre_archivo)
    print(f"üìÑ Archivo encontrado: {nombre_archivo}")
    print(f"üíæ Tama√±o: {size} bytes")
    print(f"üìç Ruta completa: {os.path.abspath(nombre_archivo)}")

    try:
        from google.colab import files
        print(f"üì• Iniciando descarga del archivo: {nombre_archivo}")
        files.download(nombre_archivo)
        print("‚úÖ Descarga iniciada - revisa la carpeta de descargas de tu navegador")
        return True
    except ImportError:
        print("‚ÑπÔ∏è  No est√°s en Google Colab - el archivo est√° guardado en:")
        print(f"   {os.path.abspath(nombre_archivo)}")
        return True
    except Exception as e:
        print(f"‚ùå Error al descargar: {str(e)}")
        print("\nüîß SOLUCI√ìN ALTERNATIVA:")
        print("1. Ve al panel de archivos en el lado izquierdo de Colab (√≠cono de carpeta)")
        print(f"2. Busca el archivo: {nombre_archivo}")
        print("3. Haz clic derecho ‚Üí Descargar")
        return False

# ========================================
# EJECUCI√ìN AUTOM√ÅTICA
# ========================================
if __name__ == "__main__":
    print("="*60)
    print("üîÑ EXTRACTOR DE INFORMACI√ìN WOL - VMC (GOOGLE COLAB)")
    print("="*60)
    print(f"üìã Se procesar√°n {len(URLS_A_PROCESAR)} p√°ginas...")
    print()

    # Procesar las URLs y extraer informaci√≥n
    datos_procesados, archivo_creado = procesar_urls_wol(URLS_A_PROCESAR)

    if datos_procesados and archivo_creado:
        print("\n" + "="*60)
        print("‚úÖ INFORMACI√ìN EXTRA√çDA CORRECTAMENTE")
        print("="*60)
        print(f"üìä Total de semanas procesadas: {len(datos_procesados)}")
        print(f"üìÅ Archivo creado: {archivo_creado}")
        print(f"üìã Hoja de datos: 'Info-reuni√≥n'")

        # Intentar descargar autom√°ticamente en Google Colab
        print("\nüîç DESCARGA DEL ARCHIVO:")
        descarga_exitosa = descargar_archivo_colab(archivo_creado)

        if not descarga_exitosa:
            print("\nüìã INSTRUCCIONES PARA DESCARGAR MANUALMENTE:")
            print("1. Ve al panel izquierdo de Google Colab")
            print("2. Haz clic en el √≠cono de carpeta üìÅ")
            print(f"3. Busca el archivo: {archivo_creado}")
            print("4. Haz clic derecho sobre el archivo")
            print("5. Selecciona 'Descargar'")

        print("\nüéâ ¬°EXTRACCI√ìN COMPLETADA EXITOSAMENTE!")

        # Mostrar resumen de los datos
        print("\nüìã RESUMEN DE DATOS EXTRA√çDOS:")
        for i, dato in enumerate(datos_procesados, 1):
            print(f"   {i}. {dato['Semana']}")

        # Comando adicional para listar archivos
        print(f"\nüîß COMANDO PARA DESCARGAR MANUALMENTE:")
        print(f"files.download('{archivo_creado}')")

    else:
        print("\n‚ùå No se pudo procesar ninguna URL o crear el archivo")

    # Mostrar todos los archivos info-reunion en el directorio
    import os
    archivos_info = [f for f in os.listdir('.') if f.startswith('info-reunion')]
    if archivos_info:
        print(f"\nüìÅ ARCHIVOS 'info-reunion' ENCONTRADOS:")
        for archivo in archivos_info:
            size = os.path.getsize(archivo)
            print(f"   üìÑ {archivo} ({size} bytes)")

    print("\n" + "="*60)

üîß Instalando dependencias para Google Colab...
‚úÖ Dependencias instaladas correctamente
üîÑ EXTRACTOR DE INFORMACI√ìN WOL - VMC (GOOGLE COLAB)
üìã Se procesar√°n 9 p√°ginas...

üîç Extrayendo informaci√≥n de las p√°ginas WOL...
--------------------------------------------------
üìÑ (1/9) Procesando: https://wol.jw.org/es/wol/d/r4/lp-s/202025401
   ‚úÖ Semana extra√≠da: 3-9 DE NOVIEMBRE
   üìã Informaci√≥n extra√≠da:
      ‚Ä¢ Libro: EL CANTAR DE LOS CANTARES 1,
      ‚Ä¢ Canciones: Canci√≥n 132 | Canci√≥n 46 | Canci√≥n 137
      ‚Ä¢ Tesoros: 1. Una historia de amor verdadero
      ‚Ä¢ Maestros (3): 4. Empiece conversaciones, 5. Haga revisitas, 6. Haga disc√≠pulos
      ‚Ä¢ Contenido Maestros:
        1. 4. Empiece conversaciones: (3 mins.) DE CASA EN CASA. Utilice una de las verdades delap...
        2. 5. Haga revisitas: (4 mins.) DE CASA EN CASA. Utilice una de las verdades delap...
        3. 6. Haga disc√≠pulos: (5 mins.)lfflecci√≥n 18 introducci√≥n y puntos 1-3(thlecci√≥n

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

‚úÖ Descarga iniciada - revisa la carpeta de descargas de tu navegador

üéâ ¬°EXTRACCI√ìN COMPLETADA EXITOSAMENTE!

üìã RESUMEN DE DATOS EXTRA√çDOS:
   1. 3-9 DE NOVIEMBRE
   2. 10-16 DE NOVIEMBRE
   3. 17-23 DE NOVIEMBRE
   4. 24-30 DE NOVIEMBRE
   5. 1-7 DE DICIEMBRE
   6. 8-14 DE DICIEMBRE
   7. 15-21 DE DICIEMBRE
   8. 22-28 DE DICIEMBRE
   9. 29 DE DICIEMBRE DE 2025 A 4 DE ENERO DE 2026

üîß COMANDO PARA DESCARGAR MANUALMENTE:
files.download('info-reunion_20251027_162711.xlsx')

üìÅ ARCHIVOS 'info-reunion' ENCONTRADOS:
   üìÑ info-reunion_20251027_161514.xlsx (5516 bytes)
   üìÑ info-reunion_20251027_162109.xlsx (5822 bytes)
   üìÑ info-reunion_20251027_162711.xlsx (7559 bytes)

