In [1]:
# Instalar Selenium, BeautifulSoup, Pandas y Webdriver Manager
!pip install selenium beautifulsoup4 pandas webdriver-manager

# --- INSTALACIÓN DE GOOGLE CHROME EN COLAB ---
# 1. Descargar la clave GPG de Google Chrome
!wget -q -O - https://dl.google.com/linux/linux_signing_key.pub | sudo gpg --dearmor -o /usr/share/keyrings/google-chrome-archive-keyring.gpg

# 2. Añadir el repositorio de Google Chrome a las fuentes de apt
!echo "deb [arch=amd64 signed-by=/usr/share/keyrings/google-chrome-archive-keyring.gpg] http://dl.google.com/linux/chrome/deb/ stable main" | sudo tee /etc/apt/sources.list.d/google-chrome.list

# 3. Actualizar los listados de paquetes apt para incluir el nuevo repositorio
!sudo apt-get update

# 4. Instalar Google Chrome estable
!sudo apt-get install -y google-chrome-stable

# Opcional: Verificar la versión de Chrome instalada
!google-chrome --version

print("\n--- Instalación de Chrome y dependencias completada ---")

Collecting selenium
  Downloading selenium-4.34.2-py3-none-any.whl.metadata (7.5 kB)
Collecting webdriver-manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Collecting urllib3~=2.5.0 (from urllib3[socks]~=2.5.0->selenium)
  Downloading urllib3-2.5.0-py3-none-any.whl.metadata (6.5 kB)
Collecting trio~=0.30.0 (from selenium)
  Downloading trio-0.30.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.12.2 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting python-dotenv (from webdriver-manager)
  Downloading python_dotenv-1.1.1-py3-none-any.whl.metadata (24 kB)
Collecting outcome (from trio~=0.30.0->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.12.2->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Downloading selenium-4.34.2-py3-none-any.whl (9.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
import pandas as pd
import re
from webdriver_manager.chrome import ChromeDriverManager # Importación crucial para Colab

def extraer_planes_movistar_colab():
    url = "https://www.movistar.com.pe/movil/postpago/planes-postpago"
    planes_data = []

    # --- CONFIGURACIÓN DE SELENIUM PARA COLAB ---
    options = webdriver.ChromeOptions()
    options.add_argument('--headless') # Ejecutar Chrome en modo sin cabeza (sin interfaz gráfica)
    options.add_argument('--no-sandbox') # Necesario para ejecutar en entornos como Colab
    options.add_argument('--disable-dev-shm-usage') # Previene problemas de memoria en algunos entornos
    options.add_argument('--window-size=1920,1080') # Tamaño de ventana para asegurar que todos los elementos sean visibles
    options.add_argument('--log-level=3') # Suprime mensajes de log de Selenium menos importantes
    options.add_experimental_option('excludeSwitches', ['enable-logging']) # Deshabilita logs no deseados

    driver = None

    try:
        # Inicializar el servicio de Chrome y el driver
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(service=service, options=options)
        driver.get(url)

        print(f"Navegador abierto en Colab y cargando la página: {url}")

        # --- ESPERAR A QUE EL CONTENIDO DINÁMICO CARGUE ---
        wait = WebDriverWait(driver, 30) # Espera máxima de 30 segundos
        try:
            # Espera a que un elemento clave (el precio del plan) esté presente en el DOM
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'p-plan__slide__soles')))
            print("Elemento de precio detectado. Esperando que carguen más elementos...")
        except:
            # Si el elemento no se encuentra inicialmente, intenta hacer scroll y reintentar
            print("No se encontró el elemento de precio inicialmente. Intentando scroll y reintento.")
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(5) # Espera adicional después del scroll
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'p-plan__slide__soles')))

        time.sleep(5) # Espera adicional para asegurar la carga completa de JS

        print("Página cargada y elementos principales detectados. Extrayendo HTML...")

        page_source = driver.page_source
        soup = BeautifulSoup(page_source, 'html.parser')

        # Buscar todos los contenedores de planes por su clase principal
        plan_elements = soup.find_all('div', class_='p-plan__slide__shadow')

        if not plan_elements:
            print("ERROR: No se encontraron elementos con la clase 'p-plan__slide__shadow'.")
            print("Esto podría indicar que la clase ha cambiado nuevamente o el contenido no se cargó como se esperaba.")
            return []

        print(f"Se encontraron {len(plan_elements)} posibles contenedores de planes.")

        # --- ITERAR SOBRE CADA PLAN Y EXTRAER LA INFORMACIÓN ---
        for i, plan_element in enumerate(plan_elements):
            nombre_plan = 'N/A'
            precio = 'N/A'
            gigas = 'N/A'
            apps_ilimitadas_text = 'N/A'
            otros_beneficios = {} # Diccionario para almacenar beneficios adicionales

            # 1. Extraer Precio
            precio_tag = plan_element.find('span', class_='p-plan__slide__soles')
            if precio_tag:
                precio = precio_tag.get_text(strip=True)

            # 2. Extraer Nombre del Plan (con limpieza)
            head_tag = plan_element.find('div', class_='p-plan__slide__head')
            if head_tag:
                # Intenta encontrar el nombre del plan en varias posibles etiquetas y clases
                name_tag = head_tag.find(['h3', 'h4', 'span', 'p'], class_=lambda x: x and ('p-plan__slide__name' in x or 'title' in x or 'plan-name' in x))
                if name_tag:
                    nombre_plan = name_tag.get_text(strip=True)
                else:
                    # Si no se encuentra una etiqueta con clase específica, toma todo el texto del encabezado
                    nombre_plan = ' '.join(head_tag.get_text(separator=' ', strip=True).split())

                # Limpieza de "Nombre del Plan" para eliminar redundancia con otros campos
                nombre_plan = re.sub(r'Plan Postpago\s*', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'S/\s*\d+\.\d+', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'al mes', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'x \d+ meses', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Precio regular:.*?(Ahorra \d+%)?', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Bono \d+ GB', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Exclusivo online', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'\*', '', nombre_plan).strip()
                nombre_plan = re.sub(r'\s{2,}', ' ', nombre_plan).strip() # Eliminar espacios múltiples

                if not nombre_plan: # Si después de la limpieza el nombre queda vacío
                    nombre_plan = f"Plan Postpago {precio}" if precio != 'N/A' else 'Plan Postpago Desconocido'


            # 3. Extraer Gigas / Datos
            gigas_cantidad_tag = plan_element.find('span', class_='p-plan__slide__cantidad')
            if gigas_cantidad_tag:
                extracted_gigas = gigas_cantidad_tag.get_text(strip=True).replace('\n', ' ').strip()
                if "GB" in extracted_gigas.upper() or re.match(r'^\d+(\.\d+)?\s*GB$', extracted_gigas, re.IGNORECASE):
                    gigas = extracted_gigas
                elif "Bono" in extracted_gigas and "GB" in extracted_gigas:
                    gigas = extracted_gigas

            if gigas == 'N/A': # Si no se encontró por la clase de cantidad, buscar por texto "Ilimitados" o patrón de GB
                ilimitado_tag = plan_element.find(['span', 'div', 'h3', 'p'], class_=lambda x: x and ('p-plan__slide__gigas' in x or 'gigas-text' in x or 'data-info' in x))
                if ilimitado_tag and ("ilimitado" in ilimitado_tag.get_text().lower() or "sin límites" in ilimitado_tag.get_text().lower()):
                    gigas = "Ilimitados"
                else:
                    text_content_lower = plan_element.get_text(separator=' ', strip=True).lower()
                    if "ilimitado" in text_content_lower and ("datos" in text_content_lower or "gigas" in text_content_lower):
                        gigas = "Ilimitados"
                    else:
                        match_gb = re.search(r'(\d+)\s*gb', text_content_lower)
                        if match_gb:
                            gigas = f"{match_gb.group(1)} GB"
                        else:
                            match_bono_gb = re.search(r'(bono\s*\d+\s*gb\s*x\s*\d+\s*meses)', text_content_lower)
                            if match_bono_gb:
                                gigas = match_bono_gb.group(1).replace('x', 'x ')

            # 4. Extraer Apps Ilimitadas
            # Intenta primero con la clase específica para el texto de apps ilimitadas
            apps_ttl_tag = plan_element.find('p', class_='p-plan__slide__apps__ttl')
            if apps_ttl_tag:
                apps_ilimitadas_text = apps_ttl_tag.get_text(strip=True)
                apps_ilimitadas_text = re.sub(r'\s*\n\s*', ' ', apps_ilimitadas_text).strip() # Limpiar saltos de línea y espacios
            else:
                # Si no se encuentra la etiqueta TTL, recurre a la lógica anterior de buscar iconos o texto general
                apps_ilimitadas_list_temp = []
                apps_container = plan_element.find('div', class_='p-plan__slide__apps')
                if apps_container:
                    app_elements = apps_container.find_all(['img', 'span', 'i', 'p'], class_=lambda x: x and ('app-icon' in x or 'unlimited-app-icon' in x or 'logo-app' in x or 'app-name' in x))
                    for app_el in app_elements:
                        app_name = app_el.get('alt') or app_el.get('title') or app_el.get_text(strip=True)
                        if app_name and app_name.strip():
                            apps_ilimitadas_list_temp.append(re.sub(r'\s*\n\s*', ' ', app_name).strip())

                if not apps_ilimitadas_list_temp:
                    # Si no hay apps específicas, busca patrones de texto general
                    text_content_full = plan_element.get_text(separator=' ', strip=True)
                    match_apps_text = re.search(r'(?:Apps|Redes Sociales)\s+Ilimitadas(?::\s*(.*?))?(?=[.\n]|$)', text_content_full, re.IGNORECASE | re.DOTALL)
                    if match_apps_text:
                        if match_apps_text.group(1):
                            apps_ilimitadas_list_temp.extend([re.sub(r'\s*\n\s*', ' ', app.strip()).strip() for app in match_apps_text.group(1).split(',') if app.strip()])
                        else:
                            apps_ilimitadas_list_temp.append(re.sub(r'\s*\n\s*', ' ', match_apps_text.group(0).replace(":", "").strip()).strip())

                    # Palabras clave de aplicaciones comunes para una detección más robusta
                    keywords = ["WhatsApp", "Facebook", "Instagram", "TikTok", "Spotify", "Netflix", "Youtube", "Waze", "Twitter"]
                    for keyword in keywords:
                        if f"{keyword} Ilimitado" in text_content_full or f"Acceso ilimitado a {keyword}" in text_content_full:
                            if keyword.lower() not in [a.lower() for a in apps_ilimitadas_list_temp]:
                                apps_ilimitadas_list_temp.append(keyword)

                if apps_ilimitadas_list_temp:
                    apps_ilimitadas_text = ", ".join(sorted(list(set(apps_ilimitadas_list_temp))))


            # 5. Extraer Otros Beneficios (Minutos/Llamadas, SMS y otros)
            # Buscamos todos los elementos <p> con la clase 'stefa-parrilla_blanco--body-texto'
            benefit_text_tags = plan_element.find_all('p', class_='stefa-parrilla_blanco--body-texto')

            for benefit_tag in benefit_text_tags:
                full_benefit_text = benefit_tag.get_text(strip=True)
                full_benefit_text = re.sub(r'\s*\n\s*', ' ', full_benefit_text).strip() # Limpiar espacios y saltos de línea

                text_lower = full_benefit_text.lower()

                # Clasificar si el texto contiene información de Llamadas/Minutos o SMS
                if ("llamadas" in text_lower or "minutos" in text_lower) and ('Minutos/Llamadas' not in otros_beneficios):
                    otros_beneficios['Minutos/Llamadas'] = full_benefit_text
                elif ("sms" in text_lower or "mensajes" in text_lower) and ('SMS' not in otros_beneficios):
                    otros_beneficios['SMS'] = full_benefit_text
                else:
                    # Si no es un beneficio de llamadas o SMS, lo agregamos como "Otro Beneficio" si es significativo.
                    # Aseguramos que no sea un duplicado y que el texto tenga algún contenido.
                    if len(full_benefit_text) > 10 and full_benefit_text not in otros_beneficios.values() and \
                       'Minutos/Llamadas' not in otros_beneficios.values() and 'SMS' not in otros_beneficios.values(): # Evitar añadir como "otro" si ya se clasificó
                        otros_beneficios[f'Otro Beneficio {len(otros_beneficios) + 1}'] = full_benefit_text

            # Mantenemos la lógica anterior para otros contenedores de beneficios por si acaso,
            # aunque los nuevos selectores de <p> parecen ser más directos.
            details_container = plan_element.find('div', class_='p-plan__slide__details')
            if details_container:
                benefit_items = details_container.find_all(['li', 'p', 'span', 'div'], class_=lambda x: x and ('benefit-item' in x or 'feature-row' in x or 'text-benefit' in x or 'item-detail' in x))

                for item in benefit_items:
                    text = item.get_text(strip=True)
                    if text:
                        text_lower = text.lower()
                        text = re.sub(r'\s*\n\s*', ' ', text).strip()

                        if "minutos" in text_lower or "llamadas" in text_lower:
                            otros_beneficios['Minutos/Llamadas'] = text
                        elif "sms" in text_lower:
                            otros_beneficios['SMS'] = text
                        elif ("gb" in text_lower or "gigas" in text_lower) and ("internacionales" in text_lower or "roaming" in text_lower):
                            otros_beneficios['Datos Internacionales/Roaming'] = text
                        elif "tiktok" in text_lower and "bono" in text_lower:
                            otros_beneficios['Bono TikTok'] = text
                        elif "disney+" in text_lower or "netflix" in text_lower or "streaming" in text_lower:
                            otros_beneficios['Beneficio Streaming'] = text
                        elif "club movistar" in text_lower:
                            otros_beneficios['Beneficio Club'] = text
                        elif "vigencia" in text_lower or "validez" in text_lower:
                            otros_beneficios['Vigencia'] = text
                        else:
                            if len(text) > 10 and text not in otros_beneficios.values():
                                otros_beneficios[f'Otro Beneficio {len(otros_beneficios) + 1}'] = text

            # --- AGREGAR LOS DATOS DEL PLAN A LA LISTA ---
            planes_data.append({
                'Nombre del Plan': nombre_plan,
                'Precio (S/)': precio,
                'Gigas': gigas,
                'Apps Ilimitadas': apps_ilimitadas_text,
                **otros_beneficios # Expande el diccionario de otros_beneficios en las columnas
            })
            print(f"Extraído: Plan='{nombre_plan}', Precio='{precio}', Gigas='{gigas}'")

    except Exception as e:
        print(f"Ocurrió un error en la ejecución de Selenium: {e}")
        print("Revisa los selectores CSS y la conexión a internet de Colab.")
    finally:
        if driver:
            driver.quit() # Asegurarse de cerrar el navegador al finalizar o si ocurre un error

    return planes_data

if __name__ == "__main__":
    print("Iniciando extracción de planes Postpago Movistar en Google Colab...")
    planes = extraer_planes_movistar_colab()
    if planes:
        print("\n--- Planes extraídos ---")
        for plan in planes:
            print(plan)

        df = pd.DataFrame(planes)
        df.to_csv("planes_movistar_postpago.csv", index=False)
        print("\nDatos guardados en planes_movistar_postpago.csv")
        print("Puedes descargarlo haciendo clic en el icono de 'Archivos' (carpeta) a la izquierda en Colab.")
    else:
        print("No se pudieron extraer los planes. Revisa los mensajes de error y los selectores finales.")

Iniciando extracción de planes Postpago Movistar en Google Colab...
Navegador abierto en Colab y cargando la página: https://www.movistar.com.pe/movil/postpago/planes-postpago
Elemento de precio detectado. Esperando que carguen más elementos...
Página cargada y elementos principales detectados. Extrayendo HTML...
Se encontraron 18 posibles contenedores de planes.
Extraído: Plan='Plan Postpago S/ 69.90', Precio='S/ 69.90', Gigas='Ilimitados'
Extraído: Plan='Plan Postpago S/ 39.90', Precio='S/ 39.90', Gigas='Ilimitados'
Extraído: Plan='Plan Postpago S/ 49.90', Precio='S/ 49.90', Gigas='Ilimitados'
Extraído: Plan='Plan Postpago S/ 59.90', Precio='S/ 59.90', Gigas='Ilimitados'
Extraído: Plan='Plan Postpago S/ 79.90', Precio='S/ 79.90', Gigas='Ilimitados'
Extraído: Plan='Plan Postpago S/ 99.90', Precio='S/ 99.90', Gigas='Ilimitados'
Extraído: Plan='Ahorra 50%', Precio='S/ 49.95', Gigas='135 GB'
Extraído: Plan='Ahorra 50%', Precio='S/ 39.95', Gigas='120 GB'
Extraído: Plan='Ahorra 50%', Preci

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
import pandas as pd
import re
from webdriver_manager.chrome import ChromeDriverManager

def extraer_planes_movistar_colab():
    url = "https://www.movistar.com.pe/movil/postpago/planes-postpago"
    planes_data = []

    # --- CONFIGURACIÓN DE SELENIUM PARA COLAB ---
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')
    options.add_argument('--window-size=1920,1080')
    options.add_argument('--log-level=3')
    options.add_experimental_option('excludeSwitches', ['enable-logging'])

    driver = None

    try:
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(service=service, options=options)
        driver.get(url)

        print(f"Navegador abierto en Colab y cargando la página: {url}")

        # --- ESPERAR A QUE EL CONTENIDO DINÁMICO CARGUE ---
        wait = WebDriverWait(driver, 30)
        try:
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'p-plan__slide__soles')))
            print("Elemento de precio detectado. Esperando que carguen más elementos...")
        except:
            print("No se encontró el elemento de precio inicialmente. Intentando scroll y reintento.")
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(5)
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'p-plan__slide__soles')))

        time.sleep(5)

        print("Página cargada y elementos principales detectados. Extrayendo HTML...")

        page_source = driver.page_source
        soup = BeautifulSoup(page_source, 'html.parser')

        plan_elements = soup.find_all('div', class_='p-plan__slide__shadow')

        if not plan_elements:
            print("ERROR: No se encontraron elementos con la clase 'p-plan__slide__shadow'.")
            print("Esto podría indicar que la clase ha cambiado nuevamente o el contenido no se cargó como se esperaba.")
            return []

        print(f"Se encontraron {len(plan_elements)} posibles contenedores de planes.")

        for i, plan_element in enumerate(plan_elements):
            nombre_plan = 'N/A'
            precio = 'N/A'
            gigas = 'N/A'
            apps_ilimitadas_text = 'N/A'
            otros_beneficios = {}
            llamadas_encontradas = None
            sms_encontrados = None

            # 1. Extraer Precio
            precio_tag = plan_element.find('span', class_='p-plan__slide__soles')
            if precio_tag:
                precio = precio_tag.get_text(strip=True)

            # 2. Extraer Nombre del Plan (Limpieza Mejorada)
            head_tag = plan_element.find('div', class_='p-plan__slide__head')
            if head_tag:
                name_tag = head_tag.find(['h3', 'h4', 'span', 'p'], class_=lambda x: x and ('p-plan__slide__name' in x or 'title' in x or 'plan-name' in x))
                if name_tag:
                    nombre_plan = name_tag.get_text(strip=True)
                else:
                    nombre_plan = ' '.join(head_tag.get_text(separator=' ', strip=True).split())

                nombre_plan = re.sub(r'Plan Postpago\s*', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'S/\s*\d+\.\d+', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'al mes', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'x \d+ meses', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Precio regular:.*?(Ahorra \d+%)?', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Bono \d+ GB', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Exclusivo online', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'\*', '', nombre_plan).strip()
                nombre_plan = re.sub(r'\s{2,}', ' ', nombre_plan).strip()

                if not nombre_plan:
                    nombre_plan = f"Plan Postpago {precio}" if precio != 'N/A' else 'Plan Postpago Desconocido'


            # 3. Extraer Gigas / Datos
            gigas_cantidad_tag = plan_element.find('span', class_='p-plan__slide__cantidad')
            if gigas_cantidad_tag:
                extracted_gigas = gigas_cantidad_tag.get_text(strip=True).replace('\n', ' ').strip()
                if "GB" in extracted_gigas.upper() or re.match(r'^\d+(\.\d+)?\s*GB$', extracted_gigas, re.IGNORECASE):
                    gigas = extracted_gigas
                elif "Bono" in extracted_gigas and "GB" in extracted_gigas:
                    gigas = extracted_gigas

            if gigas == 'N/A':
                ilimitado_tag = plan_element.find(['span', 'div', 'h3', 'p'], class_=lambda x: x and ('p-plan__slide__gigas' in x or 'gigas-text' in x or 'data-info' in x))
                if ilimitado_tag and ("ilimitado" in ilimitado_tag.get_text().lower() or "sin límites" in ilimitado_tag.get_text().lower()):
                    gigas = "Ilimitados"
                else:
                    text_content_lower = plan_element.get_text(separator=' ', strip=True).lower()
                    if "ilimitado" in text_content_lower and ("datos" in text_content_lower or "gigas" in text_content_lower):
                        gigas = "Ilimitados"
                    else:
                        match_gb = re.search(r'(\d+)\s*gb', text_content_lower)
                        if match_gb:
                            gigas = f"{match_gb.group(1)} GB"
                        else:
                            match_bono_gb = re.search(r'(bono\s*\d+\s*gb\s*x\s*\d+\s*meses)', text_content_lower)
                            if match_bono_gb:
                                gigas = match_bono_gb.group(1).replace('x', 'x ')

            # 4. Extraer Apps Ilimitadas
            apps_ttl_tag = plan_element.find('p', class_='p-plan__slide__apps__ttl')
            if apps_ttl_tag:
                apps_ilimitadas_text = apps_ttl_tag.get_text(strip=True)
                apps_ilimitadas_text = re.sub(r'\s*\n\s*', ' ', apps_ilimitadas_text).strip()
            else:
                apps_ilimitadas_list_temp = []
                apps_container = plan_element.find('div', class_='p-plan__slide__apps')
                if apps_container:
                    app_elements = apps_container.find_all(['img', 'span', 'i', 'p'], class_=lambda x: x and ('app-icon' in x or 'unlimited-app-icon' in x or 'logo-app' in x or 'app-name' in x))
                    for app_el in app_elements:
                        app_name = app_el.get('alt') or app_el.get('title') or app_el.get_text(strip=True)
                        if app_name and app_name.strip():
                            apps_ilimitadas_list_temp.append(re.sub(r'\s*\n\s*', ' ', app_name).strip())

                if not apps_ilimitadas_list_temp:
                    text_content_full = plan_element.get_text(separator=' ', strip=True)
                    match_apps_text = re.search(r'(?:Apps|Redes Sociales)\s+Ilimitadas(?::\s*(.*?))?(?=[.\n]|$)', text_content_full, re.IGNORECASE | re.DOTALL)
                    if match_apps_text:
                        if match_apps_text.group(1):
                            apps_ilimitadas_list_temp.extend([re.sub(r'\s*\n\s*', ' ', app.strip()).strip() for app in match_apps_text.group(1).split(',') if app.strip()])
                        else:
                            apps_ilimitadas_list_temp.append(re.sub(r'\s*\n\s*', ' ', match_apps_text.group(0).replace(":", "").strip()).strip())

                    keywords = ["WhatsApp", "Facebook", "Instagram", "TikTok", "Spotify", "Netflix", "Youtube", "Waze", "Twitter"]
                    for keyword in keywords:
                        if f"{keyword} Ilimitado" in text_content_full or f"Acceso ilimitado a {keyword}" in text_content_full:
                            if keyword.lower() not in [a.lower() for a in apps_ilimitadas_list_temp]:
                                apps_ilimitadas_list_temp.append(keyword)

                if apps_ilimitadas_list_temp:
                    apps_ilimitadas_text = ", ".join(sorted(list(set(apps_ilimitadas_list_temp))))

            # 5. Extraer Otros Beneficios (Minutos/Llamadas, SMS y otros) - LÓGICA MEJORADA Y MÁS GRANULAR
            all_benefit_texts_raw = []

            # Priorizar la clase específica que mostraste para llamadas/SMS
            benefit_text_tags_specific = plan_element.find_all('p', class_='stefa-parrilla_blanco--body-texto')
            for tag in benefit_text_tags_specific:
                all_benefit_texts_raw.append(tag.get_text(strip=True))

            # Buscar en el contenedor general de detalles por si hay más beneficios
            details_container = plan_element.find('div', class_='p-plan__slide__details')
            if details_container:
                general_benefit_tags = details_container.find_all(['li', 'p', 'span', 'div'], class_=lambda x: x and ('benefit-item' in x or 'feature-row' in x or 'text-benefit' in x or 'item-detail' in x or 'body-text' in x or 'plan-detail' in x))
                for tag in general_benefit_tags:
                    all_benefit_texts_raw.append(tag.get_text(strip=True))

            # También considerar el texto completo del plan si no se encontró nada más específico
            full_plan_text = plan_element.get_text(separator=' ', strip=True)
            all_benefit_texts_raw.append(full_plan_text)

            processed_texts = set()

            for raw_text in all_benefit_texts_raw:
                cleaned_text = re.sub(r'\s*\n\s*', ' ', raw_text).strip()
                if not cleaned_text or cleaned_text in processed_texts:
                    continue
                processed_texts.add(cleaned_text)

                text_lower = cleaned_text.lower()

                # --- Extracción granular de Minutos/Llamadas ---
                if llamadas_encontradas is None: # Solo si no se ha encontrado una frase específica de llamadas
                    # Patrones para llamadas ilimitadas o con minutos específicos
                    match_calls = re.search(r'(llamadas ilimitadas Perú(?:,)?(?: \d+ minutos para Usa y Canadá)?|minutos ilimitados Perú(?:,)?(?: \d+ para Usa y Canadá)?|llamadas ilimitadas a todo destino nacional|minutos ilimitados a todo destino nacional)', text_lower, re.IGNORECASE)
                    if match_calls:
                        llamadas_encontradas = match_calls.group(0).replace('perú,', 'Perú,').replace('usa y canadá', 'Usa y Canadá').replace('minutos para', 'minutos para ').strip()
                    elif 'llamadas ilimitadas' in text_lower: # Captura general si no hay patrón específico
                         llamadas_encontradas = 'Llamadas ilimitadas'
                    elif re.search(r'(\d+)\s*minutos\s*para\s*(usa|canadá|internacionales)', text_lower, re.IGNORECASE):
                        llamadas_encontradas = "Minutos internacionales (especificar cantidad)" # Placeholder para refinar si es necesario

                # --- Extracción granular de SMS ---
                if sms_encontrados is None: # Solo si no se ha encontrado una frase específica de SMS
                    # Patrones para SMS
                    match_sms = re.search(r'(\d+)\s*sms|(sms ilimitados)', text_lower, re.IGNORECASE)
                    if match_sms:
                        if match_sms.group(1): # Si encontró un número de SMS
                            sms_encontrados = f"{match_sms.group(1)} SMS"
                        else: # Si encontró "SMS ilimitados"
                            sms_encontrados = "SMS ilimitados"

                # Otros beneficios generales que no sean llamadas ni SMS y que tengan contenido significativo
                if len(cleaned_text) > 10 and \
                   not (llamadas_encontradas and llamadas_encontradas in cleaned_text) and \
                   not (sms_encontrados and sms_encontrados in cleaned_text) and \
                   "gb" not in text_lower and "gigas" not in text_lower and \
                   "apps" not in text_lower and "precio" not in text_lower and \
                   "plan" not in text_lower and "bono" not in text_lower:

                    is_duplicate_or_classified = False
                    for existing_benefit_key, existing_benefit_value in otros_beneficios.items():
                        if cleaned_text == existing_benefit_value or cleaned_text in existing_benefit_value or existing_benefit_value in cleaned_text:
                            is_duplicate_or_classified = True
                            break

                    if not is_duplicate_or_classified:
                        otros_beneficios[f'Otro Beneficio {len([k for k in otros_beneficios if k.startswith("Otro Beneficio")]) + 1}'] = cleaned_text

            # Post-procesamiento para apps_ilimitadas_text que contiene información de llamadas
            if "llamadasilimitadas" in apps_ilimitadas_text.lower() and llamadas_encontradas is None:
                llamadas_encontradas = "Llamadas ilimitadas"
                apps_ilimitadas_text = re.sub(r'Internet \+ llamadasilimitadas', 'Internet', apps_ilimitadas_text, flags=re.IGNORECASE).strip()
                if apps_ilimitadas_text == 'Internet' or not apps_ilimitadas_text:
                    apps_ilimitadas_text = 'N/A'

            # Asignar los valores finales a otros_beneficios
            if llamadas_encontradas:
                otros_beneficios['Minutos/Llamadas'] = llamadas_encontradas
            if sms_encontrados:
                otros_beneficios['SMS'] = sms_encontrados


            # --- AGREGAR LOS DATOS DEL PLAN A LA LISTA ---
            planes_data.append({
                'Nombre del Plan': nombre_plan,
                'Precio (S/)': precio,
                'Gigas': gigas,
                'Apps Ilimitadas': apps_ilimitadas_text,
                **otros_beneficios
            })
            print(f"Extraído: Plan='{nombre_plan}', Precio='{precio}', Gigas='{gigas}'")

    except Exception as e:
        print(f"Ocurrió un error en la ejecución de Selenium: {e}")
        print("Revisa los selectores CSS y la conexión a internet de Colab.")
    finally:
        if driver:
            driver.quit()

    return planes_data

if __name__ == "__main__":
    print("Iniciando extracción de planes Postpago Movistar en Google Colab...")
    planes = extraer_planes_movistar_colab()
    if planes:
        print("\n--- Planes extraídos ---")
        for plan in planes:
            print(plan)

        df = pd.DataFrame(planes)
        df.to_csv("planes_movistar_postpago.csv", index=False)
        print("\nDatos guardados en planes_movistar_postpago.csv")
        print("Puedes descargarlo haciendo clic en el icono de 'Archivos' (carpeta) a la izquierda en Colab.")
    else:
        print("No se pudieron extraer los planes. Revisa los mensajes de error y los selectores finales.")

Iniciando extracción de planes Postpago Movistar en Google Colab...
Navegador abierto en Colab y cargando la página: https://www.movistar.com.pe/movil/postpago/planes-postpago
Elemento de precio detectado. Esperando que carguen más elementos...
Página cargada y elementos principales detectados. Extrayendo HTML...
Se encontraron 18 posibles contenedores de planes.
Extraído: Plan='Plan Postpago S/ 69.90', Precio='S/ 69.90', Gigas='Ilimitados'
Extraído: Plan='Plan Postpago S/ 39.90', Precio='S/ 39.90', Gigas='Ilimitados'
Extraído: Plan='Plan Postpago S/ 49.90', Precio='S/ 49.90', Gigas='Ilimitados'
Extraído: Plan='Plan Postpago S/ 59.90', Precio='S/ 59.90', Gigas='Ilimitados'
Extraído: Plan='Plan Postpago S/ 79.90', Precio='S/ 79.90', Gigas='Ilimitados'
Extraído: Plan='Plan Postpago S/ 99.90', Precio='S/ 99.90', Gigas='Ilimitados'
Extraído: Plan='Ahorra 50%', Precio='S/ 49.95', Gigas='135 GB'
Extraído: Plan='Ahorra 50%', Precio='S/ 39.95', Gigas='120 GB'
Extraído: Plan='Ahorra 50%', Preci

In [2]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
import pandas as pd
import re
from webdriver_manager.chrome import ChromeDriverManager

def extraer_planes_movistar_colab():
    url = "https://www.movistar.com.pe/movil/postpago/planes-postpago"
    planes_data = []

    # --- CONFIGURACIÓN DE SELENIUM PARA COLAB ---
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')
    options.add_argument('--window-size=1920,1080')
    options.add_argument('--log-level=3') # Reduce el nivel de logs de Chrome
    options.add_experimental_option('excludeSwitches', ['enable-logging']) # Desactiva logs de Selenium

    driver = None

    try:
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(service=service, options=options)
        driver.get(url)

        # print(f"Navegador abierto en Colab y cargando la página: {url}") # Mensaje eliminado

        # --- ESPERAR A QUE EL CONTENIDO DINÁMICO CARGUE ---
        wait = WebDriverWait(driver, 30)
        try:
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'p-plan__slide__soles')))
            # print("Elemento de precio detectado. Esperando que carguen más elementos...") # Mensaje eliminado
        except:
            # print("No se encontró el elemento de precio inicialmente. Intentando scroll y reintento.") # Mensaje eliminado
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(5)
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'p-plan__slide__soles')))

        time.sleep(5)

        # print("Página cargada y elementos principales detectados. Extrayendo HTML...") # Mensaje eliminado

        page_source = driver.page_source
        soup = BeautifulSoup(page_source, 'html.parser')

        plan_elements = soup.find_all('div', class_='p-plan__slide__shadow')

        if not plan_elements:
            print("ERROR: No se encontraron elementos con la clase 'p-plan__slide__shadow'.")
            print("Esto podría indicar que la clase ha cambiado nuevamente o el contenido no se cargó como se esperaba.")
            return []

        # print(f"Se encontraron {len(plan_elements)} posibles contenedores de planes.") # Mensaje eliminado

        for i, plan_element in enumerate(plan_elements):
            nombre_plan = 'N/A'
            precio = 'N/A'
            gigas = 'N/A'
            apps_ilimitadas_text = 'N/A'
            otros_beneficios = {}
            llamadas_encontradas = None
            sms_encontrados = None

            # 1. Extraer Precio
            precio_tag = plan_element.find('span', class_='p-plan__slide__soles')
            if precio_tag:
                precio = precio_tag.get_text(strip=True)

            # 2. Extraer Nombre del Plan (Limpieza Mejorada)
            head_tag = plan_element.find('div', class_='p-plan__slide__head')
            if head_tag:
                name_tag = head_tag.find(['h3', 'h4', 'span', 'p'], class_=lambda x: x and ('p-plan__slide__name' in x or 'title' in x or 'plan-name' in x))
                if name_tag:
                    nombre_plan = name_tag.get_text(strip=True)
                else:
                    nombre_plan = ' '.join(head_tag.get_text(separator=' ', strip=True).split())

                nombre_plan = re.sub(r'Plan Postpago\s*', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'S/\s*\d+\.\d+', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'al mes', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'x \d+ meses', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Precio regular:.*?(Ahorra \d+%)?', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Bono \d+ GB', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Exclusivo online', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'\*', '', nombre_plan).strip()
                nombre_plan = re.sub(r'\s{2,}', ' ', nombre_plan).strip()

                if not nombre_plan:
                    nombre_plan = f"Plan Postpago {precio}" if precio != 'N/A' else 'Plan Postpago Desconocido'


            # 3. Extraer Gigas / Datos
            gigas_cantidad_tag = plan_element.find('span', class_='p-plan__slide__cantidad')
            if gigas_cantidad_tag:
                extracted_gigas = gigas_cantidad_tag.get_text(strip=True).replace('\n', ' ').strip()
                if "GB" in extracted_gigas.upper() or re.match(r'^\d+(\.\d+)?\s*GB$', extracted_gigas, re.IGNORECASE):
                    gigas = extracted_gigas
                elif "Bono" in extracted_gigas and "GB" in extracted_gigas:
                    gigas = extracted_gigas

            if gigas == 'N/A':
                ilimitado_tag = plan_element.find(['span', 'div', 'h3', 'p'], class_=lambda x: x and ('p-plan__slide__gigas' in x or 'gigas-text' in x or 'data-info' in x))
                if ilimitado_tag and ("ilimitado" in ilimitado_tag.get_text().lower() or "sin límites" in ilimitado_tag.get_text().lower()):
                    gigas = "Ilimitados"
                else:
                    text_content_lower = plan_element.get_text(separator=' ', strip=True).lower()
                    if "ilimitado" in text_content_lower and ("datos" in text_content_lower or "gigas" in text_content_lower):
                        gigas = "Ilimitados"
                    else:
                        match_gb = re.search(r'(\d+)\s*gb', text_content_lower)
                        if match_gb:
                            gigas = f"{match_gb.group(1)} GB"
                        else:
                            match_bono_gb = re.search(r'(bono\s*\d+\s*gb\s*x\s*\d+\s*meses)', text_content_lower)
                            if match_bono_gb:
                                gigas = match_bono_gb.group(1).replace('x', 'x ')

            # 4. Extraer Apps Ilimitadas
            apps_ttl_tag = plan_element.find('p', class_='p-plan__slide__apps__ttl')
            if apps_ttl_tag:
                apps_ilimitadas_text = apps_ttl_tag.get_text(strip=True)
                apps_ilimitadas_text = re.sub(r'\s*\n\s*', ' ', apps_ilimitadas_text).strip()
            else:
                apps_ilimitadas_list_temp = []
                apps_container = plan_element.find('div', class_='p-plan__slide__apps')
                if apps_container:
                    app_elements = apps_container.find_all(['img', 'span', 'i', 'p'], class_=lambda x: x and ('app-icon' in x or 'unlimited-app-icon' in x or 'logo-app' in x or 'app-name' in x))
                    for app_el in app_elements:
                        app_name = app_el.get('alt') or app_el.get('title') or app_el.get_text(strip=True)
                        if app_name and app_name.strip():
                            apps_ilimitadas_list_temp.append(re.sub(r'\s*\n\s*', ' ', app_name).strip())

                if not apps_ilimitadas_list_temp:
                    text_content_full = plan_element.get_text(separator=' ', strip=True)
                    match_apps_text = re.search(r'(?:Apps|Redes Sociales)\s+Ilimitadas(?::\s*(.*?))?(?=[.\n]|$)', text_content_full, re.IGNORECASE | re.DOTALL)
                    if match_apps_text:
                        if match_apps_text.group(1):
                            apps_ilimitadas_list_temp.extend([re.sub(r'\s*\n\s*', ' ', app.strip()).strip() for app in match_apps_text.group(1).split(',') if app.strip()])
                        else:
                            apps_ilimitadas_list_temp.append(re.sub(r'\s*\n\s*', ' ', match_apps_text.group(0).replace(":", "").strip()).strip())

                    keywords = ["WhatsApp", "Facebook", "Instagram", "TikTok", "Spotify", "Netflix", "Youtube", "Waze", "Twitter"]
                    for keyword in keywords:
                        if f"{keyword} Ilimitado" in text_content_full or f"Acceso ilimitado a {keyword}" in text_content_full:
                            if keyword.lower() not in [a.lower() for a in apps_ilimitadas_list_temp]:
                                apps_ilimitadas_list_temp.append(keyword)

                if apps_ilimitadas_list_temp:
                    apps_ilimitadas_text = ", ".join(sorted(list(set(apps_ilimitadas_list_temp))))

            # 5. Extraer Otros Beneficios (Minutos/Llamadas, SMS y otros) - LÓGICA MEJORADA Y MÁS GRANULAR
            all_benefit_texts_raw = []

            # Priorizar la clase específica que mostraste para llamadas/SMS
            benefit_text_tags_specific = plan_element.find_all('p', class_='stefa-parrilla_blanco--body-texto')
            for tag in benefit_text_tags_specific:
                all_benefit_texts_raw.append(tag.get_text(strip=True))

            # Buscar en el contenedor general de detalles por si hay más beneficios
            details_container = plan_element.find('div', class_='p-plan__slide__details')
            if details_container:
                general_benefit_tags = details_container.find_all(['li', 'p', 'span', 'div'], class_=lambda x: x and ('benefit-item' in x or 'feature-row' in x or 'text-benefit' in x or 'item-detail' in x or 'body-text' in x or 'plan-detail' in x))
                for tag in general_benefit_tags:
                    all_benefit_texts_raw.append(tag.get_text(strip=True))

            # También considerar el texto completo del plan si no se encontró nada más específico
            full_plan_text = plan_element.get_text(separator=' ', strip=True)
            all_benefit_texts_raw.append(full_plan_text)

            processed_texts = set()

            for raw_text in all_benefit_texts_raw:
                cleaned_text = re.sub(r'\s*\n\s*', ' ', raw_text).strip()
                if not cleaned_text or cleaned_text in processed_texts:
                    continue
                processed_texts.add(cleaned_text)

                text_lower = cleaned_text.lower()

                # --- Extracción granular de Minutos/Llamadas ---
                if llamadas_encontradas is None: # Solo si no se ha encontrado una frase específica de llamadas
                    # Patrones para llamadas ilimitadas o con minutos específicos
                    match_calls = re.search(r'(llamadas ilimitadas Perú(?:,)?(?: \d+ minutos para Usa y Canadá)?|minutos ilimitados Perú(?:,)?(?: \d+ para Usa y Canadá)?|llamadas ilimitadas a todo destino nacional|minutos ilimitados a todo destino nacional)', text_lower, re.IGNORECASE)
                    if match_calls:
                        llamadas_encontradas = match_calls.group(0).replace('perú,', 'Perú,').replace('usa y canadá', 'Usa y Canadá').replace('minutos para', 'minutos para ').strip()
                    elif 'llamadas ilimitadas' in text_lower: # Captura general si no hay patrón específico
                           llamadas_encontradas = 'Llamadas ilimitadas'
                    elif re.search(r'(\d+)\s*minutos\s*para\s*(usa|canadá|internacionales)', text_lower, re.IGNORECASE):
                        llamadas_encontradas = "Minutos internacionales (especificar cantidad)" # Placeholder para refinar si es necesario

                # --- Extracción granular de SMS ---
                if sms_encontrados is None: # Solo si no se ha encontrado una frase específica de SMS
                    # Patrones para SMS
                    match_sms = re.search(r'(\d+)\s*sms|(sms ilimitados)', text_lower, re.IGNORECASE)
                    if match_sms:
                        if match_sms.group(1): # Si encontró un número de SMS
                            sms_encontrados = f"{match_sms.group(1)} SMS"
                        else: # Si encontró "SMS ilimitados"
                            sms_encontrados = "SMS ilimitados"

                # Otros beneficios generales que no sean llamadas ni SMS y que tengan contenido significativo
                if len(cleaned_text) > 10 and \
                   not (llamadas_encontradas and llamadas_encontradas in cleaned_text) and \
                   not (sms_encontrados and sms_encontrados in cleaned_text) and \
                   "gb" not in text_lower and "gigas" not in text_lower and \
                   "apps" not in text_lower and "precio" not in text_lower and \
                   "plan" not in text_lower and "bono" not in text_lower:

                    is_duplicate_or_classified = False
                    for existing_benefit_key, existing_benefit_value in otros_beneficios.items():
                        if cleaned_text == existing_benefit_value or cleaned_text in existing_benefit_value or existing_benefit_value in cleaned_text:
                            is_duplicate_or_classified = True
                            break

                    if not is_duplicate_or_classified:
                        otros_beneficios[f'Otro Beneficio {len([k for k in otros_beneficios if k.startswith("Otro Beneficio")]) + 1}'] = cleaned_text

            # Post-procesamiento para apps_ilimitadas_text que contiene información de llamadas
            if "llamadasilimitadas" in apps_ilimitadas_text.lower() and llamadas_encontradas is None:
                llamadas_encontradas = "Llamadas ilimitadas"
                apps_ilimitadas_text = re.sub(r'Internet \+ llamadasilimitadas', 'Internet', apps_ilimitadas_text, flags=re.IGNORECASE).strip()
                if apps_ilimitadas_text == 'Internet' or not apps_ilimitadas_text:
                    apps_ilimitadas_text = 'N/A'

            # Asignar los valores finales a otros_beneficios
            if llamadas_encontradas:
                otros_beneficios['Minutos/Llamadas'] = llamadas_encontradas
            if sms_encontrados:
                otros_beneficios['SMS'] = sms_encontrados


            # --- AGREGAR LOS DATOS DEL PLAN A LA LISTA ---
            planes_data.append({
                'Nombre del Plan': nombre_plan,
                'Precio (S/)': precio,
                'Gigas': gigas,
                'Apps Ilimitadas': apps_ilimitadas_text,
                **otros_beneficios
            })
            # print(f"Extraído: Plan='{nombre_plan}', Precio='{precio}', Gigas='{gigas}'") # Mensaje eliminado

    except Exception as e:
        print(f"Ocurrió un error en la ejecución: {e}") # Mensaje de error general simplificado
    finally:
        if driver:
            driver.quit()

    return planes_data

if __name__ == "__main__":
    # print("Iniciando extracción de planes Postpago Movistar en Google Colab...") # Mensaje eliminado
    planes = extraer_planes_movistar_colab()
    if planes:
        print("\n--- Planes extraídos ---")
        for plan in planes:
            print(plan)

        df = pd.DataFrame(planes)
        df.to_csv("planes_movistar_postpago.csv", index=False)
        print("\nDatos guardados en planes_movistar_postpago.csv")
        print("Puedes descargarlo haciendo clic en el icono de 'Archivos' (carpeta) a la izquierda en Colab.")
    else:
        print("No se pudieron extraer los planes. Revisa si la página de Movistar ha cambiado.") # Mensaje de error simplificado


--- Planes extraídos ---
{'Nombre del Plan': 'Plan Postpago S/ 69.90', 'Precio (S/)': 'S/ 69.90', 'Gigas': 'Ilimitados', 'Apps Ilimitadas': 'Internet + llamadasilimitadas', 'Minutos/Llamadas': 'llamadas ilimitadas Perú,', 'SMS': '500 SMS'}
{'Nombre del Plan': 'Plan Postpago S/ 39.90', 'Precio (S/)': 'S/ 39.90', 'Gigas': 'Ilimitados', 'Apps Ilimitadas': 'Apps ilimitadas x 12 meses*', 'Minutos/Llamadas': 'llamadas ilimitadas Perú, 350 minutos para  Usa y Canadá', 'SMS': '500 SMS'}
{'Nombre del Plan': 'Plan Postpago S/ 49.90', 'Precio (S/)': 'S/ 49.90', 'Gigas': 'Ilimitados', 'Apps Ilimitadas': 'Apps ilimitadas x 12 meses*', 'Minutos/Llamadas': 'llamadas ilimitadas Perú, 400 minutos para  Usa y Canadá', 'SMS': '500 SMS'}
{'Nombre del Plan': 'Plan Postpago S/ 59.90', 'Precio (S/)': 'S/ 59.90', 'Gigas': 'Ilimitados', 'Apps Ilimitadas': 'Apps ilimitadas x 12 meses*', 'Minutos/Llamadas': 'llamadas ilimitadas Perú,', 'SMS': '500 SMS'}
{'Nombre del Plan': 'Plan Postpago S/ 79.90', 'Precio (S/)

In [3]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
import pandas as pd
import re
from webdriver_manager.chrome import ChromeDriverManager

def extraer_planes_movistar_colab():
    url = "https://www.movistar.com.pe/movil/postpago/planes-postpago"
    planes_data = []

    # --- CONFIGURACIÓN DE SELENIUM PARA COLAB ---
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')
    options.add_argument('--window-size=1920,1080')
    options.add_argument('--log-level=3')
    options.add_experimental_option('excludeSwitches', ['enable-logging'])

    driver = None

    try:
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(service=service, options=options)
        driver.get(url)

        # --- ESPERAR A QUE EL CONTENIDO DINÁMICO CARGUE ---
        wait = WebDriverWait(driver, 30)
        try:
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'p-plan__slide__soles')))
        except:
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(5)
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'p-plan__slide__soles')))

        time.sleep(5)

        page_source = driver.page_source
        soup = BeautifulSoup(page_source, 'html.parser')

        plan_elements = soup.find_all('div', class_='p-plan__slide__shadow')

        if not plan_elements:
            print("ERROR: No se encontraron elementos con la clase 'p-plan__slide__shadow'.")
            print("Esto podría indicar que la clase ha cambiado nuevamente o el contenido no se cargó como se esperaba.")
            return []

        for i, plan_element in enumerate(plan_elements):
            nombre_plan = 'N/A'
            precio = 'N/A'
            gigas = 'N/A'
            apps_ilimitadas_text = 'N/A'
            otros_beneficios = {}
            llamadas_encontradas = None
            sms_encontrados = None

            # 1. Extraer Precio
            precio_tag = plan_element.find('span', class_='p-plan__slide__soles')
            if precio_tag:
                precio = precio_tag.get_text(strip=True)

            # 2. Extraer Nombre del Plan (Limpieza Mejorada)
            head_tag = plan_element.find('div', class_='p-plan__slide__head')
            if head_tag:
                name_tag = head_tag.find(['h3', 'h4', 'span', 'p'], class_=lambda x: x and ('p-plan__slide__name' in x or 'title' in x or 'plan-name' in x))
                if name_tag:
                    nombre_plan = name_tag.get_text(strip=True)
                else:
                    nombre_plan = ' '.join(head_tag.get_text(separator=' ', strip=True).split())

                nombre_plan = re.sub(r'Plan Postpago\s*', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'S/\s*\d+\.\d+', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'al mes', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'x \d+ meses', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Precio regular:.*?(Ahorra \d+%)?', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Bono \d+ GB', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Exclusivo online', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'\*', '', nombre_plan).strip()
                nombre_plan = re.sub(r'\s{2,}', ' ', nombre_plan).strip()

                if not nombre_plan:
                    nombre_plan = f"Plan Postpago {precio}" if precio != 'N/A' else 'Plan Postpago Desconocido'


            # 3. Extraer Gigas / Datos
            gigas_cantidad_tag = plan_element.find('span', class_='p-plan__slide__cantidad')
            if gigas_cantidad_tag:
                extracted_gigas = gigas_cantidad_tag.get_text(strip=True).replace('\n', ' ').strip()
                if "GB" in extracted_gigas.upper() or re.match(r'^\d+(\.\d+)?\s*GB$', extracted_gigas, re.IGNORECASE):
                    gigas = extracted_gigas
                elif "Bono" in extracted_gigas and "GB" in extracted_gigas:
                    gigas = extracted_gigas

            if gigas == 'N/A':
                ilimitado_tag = plan_element.find(['span', 'div', 'h3', 'p'], class_=lambda x: x and ('p-plan__slide__gigas' in x or 'gigas-text' in x or 'data-info' in x))
                if ilimitado_tag and ("ilimitado" in ilimitado_tag.get_text().lower() or "sin límites" in ilimitado_tag.get_text().lower()):
                    gigas = "Ilimitados"
                else:
                    text_content_lower = plan_element.get_text(separator=' ', strip=True).lower()
                    if "ilimitado" in text_content_lower and ("datos" in text_content_lower or "gigas" in text_content_lower):
                        gigas = "Ilimitados"
                    else:
                        match_gb = re.search(r'(\d+)\s*gb', text_content_lower)
                        if match_gb:
                            gigas = f"{match_gb.group(1)} GB"
                        else:
                            match_bono_gb = re.search(r'(bono\s*\d+\s*gb\s*x\s*\d+\s*meses)', text_content_lower)
                            if match_bono_gb:
                                gigas = match_bono_gb.group(1).replace('x', 'x ')

            # 4. Extraer Apps Ilimitadas
            apps_ttl_tag = plan_element.find('p', class_='p-plan__slide__apps__ttl')
            if apps_ttl_tag:
                apps_ilimitadas_text = apps_ttl_tag.get_text(strip=True)
                apps_ilimitadas_text = re.sub(r'\s*\n\s*', ' ', apps_ilimitadas_text).strip()
            else:
                apps_ilimitadas_list_temp = []
                apps_container = plan_element.find('div', class_='p-plan__slide__apps')
                if apps_container:
                    app_elements = apps_container.find_all(['img', 'span', 'i', 'p'], class_=lambda x: x and ('app-icon' in x or 'unlimited-app-icon' in x or 'logo-app' in x or 'app-name' in x))
                    for app_el in app_elements:
                        app_name = app_el.get('alt') or app_el.get('title') or app_el.get_text(strip=True)
                        if app_name and app_name.strip():
                            apps_ilimitadas_list_temp.append(re.sub(r'\s*\n\s*', ' ', app_name).strip())

                if not apps_ilimitadas_list_temp:
                    text_content_full = plan_element.get_text(separator=' ', strip=True)
                    match_apps_text = re.search(r'(?:Apps|Redes Sociales)\s+Ilimitadas(?::\s*(.*?))?(?=[.\n]|$)', text_content_full, re.IGNORECASE | re.DOTALL)
                    if match_apps_text:
                        if match_apps_text.group(1):
                            apps_ilimitadas_list_temp.extend([re.sub(r'\s*\n\s*', ' ', app.strip()).strip() for app in match_apps_text.group(1).split(',') if app.strip()])
                        else:
                            apps_ilimitadas_list_temp.append(re.sub(r'\s*\n\s*', ' ', match_apps_text.group(0).replace(":", "").strip()).strip())

                    keywords = ["WhatsApp", "Facebook", "Instagram", "TikTok", "Spotify", "Netflix", "Youtube", "Waze", "Twitter"]
                    for keyword in keywords:
                        if f"{keyword} Ilimitado" in text_content_full or f"Acceso ilimitado a {keyword}" in text_content_full:
                            if keyword.lower() not in [a.lower() for a in apps_ilimitadas_list_temp]:
                                apps_ilimitadas_list_temp.append(keyword)

                if apps_ilimitadas_list_temp:
                    apps_ilimitadas_text = ", ".join(sorted(list(set(apps_ilimitadas_list_temp))))

            # 5. Extraer Otros Beneficios (Minutos/Llamadas, SMS y otros) - LÓGICA MEJORADA Y MÁS GRANULAR
            all_benefit_texts_raw = []

            # Priorizar la clase específica que mostraste para llamadas/SMS
            benefit_text_tags_specific = plan_element.find_all('p', class_='stefa-parrilla_blanco--body-texto')
            for tag in benefit_text_tags_specific:
                all_benefit_texts_raw.append(tag.get_text(strip=True))

            # Buscar en el contenedor general de detalles por si hay más beneficios
            details_container = plan_element.find('div', class_='p-plan__slide__details')
            if details_container:
                general_benefit_tags = details_container.find_all(['li', 'p', 'span', 'div'], class_=lambda x: x and ('benefit-item' in x or 'feature-row' in x or 'text-benefit' in x or 'item-detail' in x or 'body-text' in x or 'plan-detail' in x))
                for tag in general_benefit_tags:
                    all_benefit_texts_raw.append(tag.get_text(strip=True))

            # También considerar el texto completo del plan si no se encontró nada más específico
            full_plan_text = plan_element.get_text(separator=' ', strip=True)
            all_benefit_texts_raw.append(full_plan_text)

            processed_texts = set()

            for raw_text in all_benefit_texts_raw:
                cleaned_text = re.sub(r'\s*\n\s*', ' ', raw_text).strip()
                if not cleaned_text or cleaned_text in processed_texts:
                    continue
                processed_texts.add(cleaned_text)

                text_lower = cleaned_text.lower()

                # --- Extracción granular de Minutos/Llamadas ---
                if llamadas_encontradas is None: # Solo si no se ha encontrado una frase específica de llamadas
                    # Patrones para llamadas ilimitadas o con minutos específicos
                    match_calls = re.search(r'(llamadas ilimitadas Perú(?:,)?(?: \d+ minutos para Usa y Canadá)?|minutos ilimitados Perú(?:,)?(?: \d+ para Usa y Canadá)?|llamadas ilimitadas a todo destino nacional|minutos ilimitados a todo destino nacional)', text_lower, re.IGNORECASE)
                    if match_calls:
                        llamadas_encontradas = match_calls.group(0).replace('perú,', 'Perú,').replace('usa y canadá', 'Usa y Canadá').replace('minutos para', 'minutos para ').strip()
                    elif 'llamadas ilimitadas' in text_lower: # Captura general si no hay patrón específico
                           llamadas_encontradas = 'Llamadas ilimitadas'
                    elif re.search(r'(\d+)\s*minutos\s*para\s*(usa|canadá|internacionales)', text_lower, re.IGNORECASE):
                        llamadas_encontradas = "Minutos internacionales (especificar cantidad)" # Placeholder para refinar si es necesario

                # --- Extracción granular de SMS ---
                if sms_encontrados is None: # Solo si no se ha encontrado una frase específica de SMS
                    # Patrones para SMS
                    match_sms = re.search(r'(\d+)\s*sms|(sms ilimitados)', text_lower, re.IGNORECASE)
                    if match_sms:
                        if match_sms.group(1): # Si encontró un número de SMS
                            sms_encontrados = f"{match_sms.group(1)} SMS"
                        else: # Si encontró "SMS ilimitados"
                            sms_encontrados = "SMS ilimitados"

                # Otros beneficios generales que no sean llamadas ni SMS y que tengan contenido significativo
                if len(cleaned_text) > 10 and \
                   not (llamadas_encontradas and llamadas_encontradas in cleaned_text) and \
                   not (sms_encontrados and sms_encontrados in cleaned_text) and \
                   "gb" not in text_lower and "gigas" not in text_lower and \
                   "apps" not in text_lower and "precio" not in text_lower and \
                   "plan" not in text_lower and "bono" not in text_lower:

                    is_duplicate_or_classified = False
                    for existing_benefit_key, existing_benefit_value in otros_beneficios.items():
                        if cleaned_text == existing_benefit_value or cleaned_text in existing_benefit_value or existing_benefit_value in cleaned_text:
                            is_duplicate_or_classified = True
                            break

                    if not is_duplicate_or_classified:
                        otros_beneficios[f'Otro Beneficio {len([k for k in otros_beneficios if k.startswith("Otro Beneficio")]) + 1}'] = cleaned_text

            # Post-procesamiento para apps_ilimitadas_text que contiene información de llamadas
            if "llamadasilimitadas" in apps_ilimitadas_text.lower() and llamadas_encontradas is None:
                llamadas_encontradas = "Llamadas ilimitadas"
                apps_ilimitadas_text = re.sub(r'Internet \+ llamadasilimitadas', 'Internet', apps_ilimitadas_text, flags=re.IGNORECASE).strip()
                if apps_ilimitadas_text == 'Internet' or not apps_ilimitadas_text:
                    apps_ilimitadas_text = 'N/A'

            # Asignar los valores finales a otros_beneficios
            if llamadas_encontradas:
                otros_beneficios['Minutos/Llamadas'] = llamadas_encontradas
            if sms_encontrados:
                otros_beneficios['SMS'] = sms_encontrados


            # --- AGREGAR LOS DATOS DEL PLAN A LA LISTA ---
            planes_data.append({
                'Nombre del Plan': nombre_plan,
                'Precio (S/)': precio,
                'Gigas': gigas,
                'Apps Ilimitadas': apps_ilimitadas_text,
                **otros_beneficios
            })

    except Exception as e:
        print(f"Ocurrió un error en la ejecución: {e}")
    finally:
        if driver:
            driver.quit()

    return planes_data

if __name__ == "__main__":
    planes = extraer_planes_movistar_colab()
    if planes:
        print("\n--- Planes extraídos ---")
        for plan in planes:
            print(plan)

        df = pd.DataFrame(planes)
        df.to_csv("planes_movistar_postpago.csv", index=False)
        print("\nDatos guardados en planes_movistar_postpago.csv")
        print("Puedes descargarlo haciendo clic en el icono de 'Archivos' (carpeta) a la izquierda en Colab.")

        # --- GENERAR SALIDA HTML ---
        html_output = """
        <!DOCTYPE html>
        <html lang="es">
        <head>
            <meta charset="UTF-8">
            <meta name="viewport" content="width=device-width, initial-scale=1.0">
            <title>Planes Postpago Movistar Perú</title>
            <style>
                body { font-family: Arial, sans-serif; margin: 20px; background-color: #f4f4f4; color: #333; }
                h1 { color: #007bff; text-align: center; }
                table { width: 100%; border-collapse: collapse; margin-top: 20px; box-shadow: 0 2px 8px rgba(0,0,0,0.1); background-color: #fff; }
                th, td { padding: 12px 15px; text-align: left; border-bottom: 1px solid #ddd; }
                th { background-color: #007bff; color: white; text-transform: uppercase; font-size: 0.9em; }
                tr:nth-child(even) { background-color: #f9f9f9; }
                tr:hover { background-color: #f1f1f1; }
                .note { margin-top: 30px; font-size: 0.9em; color: #666; text-align: center; }
            </style>
        </head>
        <body>
            <h1>Planes Postpago Movistar Perú</h1>
            <table>
                <thead>
                    <tr>
        """

        # Generar los encabezados de la tabla a partir de las columnas del DataFrame
        for col in df.columns:
            html_output += f"<th>{col}</th>\n"

        html_output += """
                    </tr>
                </thead>
                <tbody>
        """

        # Generar las filas de la tabla
        for index, row in df.iterrows():
            html_output += "<tr>\n"
            for col in df.columns:
                html_output += f"<td>{row[col]}</td>\n"
            html_output += "</tr>\n"

        html_output += """
                </tbody>
            </table>
            <p class="note">Datos extraídos de la web de Movistar Perú.</p>
        </body>
        </html>
        """

        with open("planes_movistar_postpago.html", "w", encoding="utf-8") as f:
            f.write(html_output)
        print("\nDatos guardados en planes_movistar_postpago.html")
        print("Puedes descargar este archivo para verlo en tu navegador.")

    else:
        print("No se pudieron extraer los planes. Revisa si la página de Movistar ha cambiado.")


--- Planes extraídos ---
{'Nombre del Plan': 'Plan Postpago S/ 69.90', 'Precio (S/)': 'S/ 69.90', 'Gigas': 'Ilimitados', 'Apps Ilimitadas': 'Internet + llamadasilimitadas', 'Minutos/Llamadas': 'llamadas ilimitadas Perú,', 'SMS': '500 SMS'}
{'Nombre del Plan': 'Plan Postpago S/ 39.90', 'Precio (S/)': 'S/ 39.90', 'Gigas': 'Ilimitados', 'Apps Ilimitadas': 'Apps ilimitadas x 12 meses*', 'Minutos/Llamadas': 'llamadas ilimitadas Perú, 350 minutos para  Usa y Canadá', 'SMS': '500 SMS'}
{'Nombre del Plan': 'Plan Postpago S/ 49.90', 'Precio (S/)': 'S/ 49.90', 'Gigas': 'Ilimitados', 'Apps Ilimitadas': 'Apps ilimitadas x 12 meses*', 'Minutos/Llamadas': 'llamadas ilimitadas Perú, 400 minutos para  Usa y Canadá', 'SMS': '500 SMS'}
{'Nombre del Plan': 'Plan Postpago S/ 59.90', 'Precio (S/)': 'S/ 59.90', 'Gigas': 'Ilimitados', 'Apps Ilimitadas': 'Apps ilimitadas x 12 meses*', 'Minutos/Llamadas': 'llamadas ilimitadas Perú,', 'SMS': '500 SMS'}
{'Nombre del Plan': 'Plan Postpago S/ 79.90', 'Precio (S/)

In [5]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
import pandas as pd
import re
from webdriver_manager.chrome import ChromeDriverManager

# Importar para mostrar HTML en Colab
from IPython.display import display, HTML

def extraer_planes_movistar_colab():
    url = "https://www.movistar.com.pe/movil/postpago/planes-postpago"
    planes_data = []

    # --- CONFIGURACIÓN DE SELENIUM PARA COLAB ---
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev_shm_usage')
    options.add_argument('--window-size=1920,1080')
    options.add_argument('--log-level=3')
    options.add_experimental_option('excludeSwitches', ['enable-logging'])

    driver = None

    try:
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(service=service, options=options)
        driver.get(url)

        # --- ESPERAR A QUE EL CONTENIDO DINÁMICO CARGUE ---
        wait = WebDriverWait(driver, 30)
        try:
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'p-plan__slide__soles')))
        except:
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(5)
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'p-plan__slide__soles')))

        time.sleep(5)

        page_source = driver.page_source
        soup = BeautifulSoup(page_source, 'html.parser')

        plan_elements = soup.find_all('div', class_='p-plan__slide__shadow')

        if not plan_elements:
            print("ERROR: No se encontraron elementos con la clase 'p-plan__slide__shadow'.")
            print("Esto podría indicar que la clase ha cambiado nuevamente o el contenido no se cargó como se esperaba.")
            return []

        for i, plan_element in enumerate(plan_elements):
            nombre_plan = 'N/A'
            precio = 'N/A'
            gigas = 'N/A'
            apps_ilimitadas_text = 'N/A'
            otros_beneficios = {}
            llamadas_encontradas = None
            sms_encontrados = None

            # 1. Extraer Precio
            precio_tag = plan_element.find('span', class_='p-plan__slide__soles')
            if precio_tag:
                precio = precio_tag.get_text(strip=True)

            # 2. Extraer Nombre del Plan (Limpieza Mejorada)
            head_tag = plan_element.find('div', class_='p-plan__slide__head')
            if head_tag:
                name_tag = head_tag.find(['h3', 'h4', 'span', 'p'], class_=lambda x: x and ('p-plan__slide__name' in x or 'title' in x or 'plan-name' in x))
                if name_tag:
                    nombre_plan = name_tag.get_text(strip=True)
                else:
                    nombre_plan = ' '.join(head_tag.get_text(separator=' ', strip=True).split())

                nombre_plan = re.sub(r'Plan Postpago\s*', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'S/\s*\d+\.\d+', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'al mes', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'x \d+ meses', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Precio regular:.*?(Ahorra \d+%)?', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Bono \d+ GB', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'Exclusivo online', '', nombre_plan, flags=re.IGNORECASE)
                nombre_plan = re.sub(r'\*', '', nombre_plan).strip()
                nombre_plan = re.sub(r'\s{2,}', ' ', nombre_plan).strip()

                if not nombre_plan:
                    nombre_plan = f"Plan Postpago {precio}" if precio != 'N/A' else 'Plan Postpago Desconocido'


            # 3. Extraer Gigas / Datos
            gigas_cantidad_tag = plan_element.find('span', class_='p-plan__slide__cantidad')
            if gigas_cantidad_tag:
                extracted_gigas = gigas_cantidad_tag.get_text(strip=True).replace('\n', ' ').strip()
                if "GB" in extracted_gigas.upper() or re.match(r'^\d+(\.\d+)?\s*GB$', extracted_gigas, re.IGNORECASE):
                    gigas = extracted_gigas
                elif "Bono" in extracted_gigas and "GB" in extracted_gigas:
                    gigas = extracted_gigas

            if gigas == 'N/A':
                ilimitado_tag = plan_element.find(['span', 'div', 'h3', 'p'], class_=lambda x: x and ('p-plan__slide__gigas' in x or 'gigas-text' in x or 'data-info' in x))
                if ilimitado_tag and ("ilimitado" in ilimitado_tag.get_text().lower() or "sin límites" in ilimitado_tag.get_text().lower()):
                    gigas = "Ilimitados"
                else:
                    text_content_lower = plan_element.get_text(separator=' ', strip=True).lower()
                    if "ilimitado" in text_content_lower and ("datos" in text_content_lower or "gigas" in text_content_lower):
                        gigas = "Ilimitados"
                    else:
                        match_gb = re.search(r'(\d+)\s*gb', text_content_lower)
                        if match_gb:
                            gigas = f"{match_gb.group(1)} GB"
                        else:
                            match_bono_gb = re.search(r'(bono\s*\d+\s*gb\s*x\s*\d+\s*meses)', text_content_lower)
                            if match_bono_gb:
                                gigas = match_bono_gb.group(1).replace('x', 'x ')

            # 4. Extraer Apps Ilimitadas
            apps_ttl_tag = plan_element.find('p', class_='p-plan__slide__apps__ttl')
            if apps_ttl_tag:
                apps_ilimitadas_text = apps_ttl_tag.get_text(strip=True)
                apps_ilimitadas_text = re.sub(r'\s*\n\s*', ' ', apps_ilimitadas_text).strip()
            else:
                apps_ilimitadas_list_temp = []
                apps_container = plan_element.find('div', class_='p-plan__slide__apps')
                if apps_container:
                    app_elements = apps_container.find_all(['img', 'span', 'i', 'p'], class_=lambda x: x and ('app-icon' in x or 'unlimited-app-icon' in x or 'logo-app' in x or 'app-name' in x))
                    for app_el in app_elements:
                        app_name = app_el.get('alt') or app_el.get('title') or app_el.get_text(strip=True)
                        if app_name and app_name.strip():
                            apps_ilimitadas_list_temp.append(re.sub(r'\s*\n\s*', ' ', app_name).strip())

                if not apps_ilimitadas_list_temp:
                    text_content_full = plan_element.get_text(separator=' ', strip=True)
                    match_apps_text = re.search(r'(?:Apps|Redes Sociales)\s+Ilimitadas(?::\s*(.*?))?(?=[.\n]|$)', text_content_full, re.IGNORECASE | re.DOTALL)
                    if match_apps_text:
                        if match_apps_text.group(1):
                            apps_ilimitadas_list_temp.extend([re.sub(r'\s*\n\s*', ' ', app.strip()).strip() for app in match_apps_text.group(1).split(',') if app.strip()])
                        else:
                            apps_ilimitadas_list_temp.append(re.sub(r'\s*\n\s*', ' ', match_apps_text.group(0).replace(":", "").strip()).strip())

                    keywords = ["WhatsApp", "Facebook", "Instagram", "TikTok", "Spotify", "Netflix", "Youtube", "Waze", "Twitter"]
                    for keyword in keywords:
                        if f"{keyword} Ilimitado" in text_content_full or f"Acceso ilimitado a {keyword}" in text_content_full:
                            if keyword.lower() not in [a.lower() for a in apps_ilimitadas_list_temp]:
                                apps_ilimitadas_list_temp.append(keyword)

                if apps_ilimitadas_list_temp:
                    apps_ilimitadas_text = ", ".join(sorted(list(set(apps_ilimitadas_list_temp))))

            # 5. Extraer Otros Beneficios (Minutos/Llamadas, SMS y otros) - LÓGICA MEJORADA Y MÁS GRANULAR
            all_benefit_texts_raw = []

            # Priorizar la clase específica que mostraste para llamadas/SMS
            benefit_text_tags_specific = plan_element.find_all('p', class_='stefa-parrilla_blanco--body-texto')
            for tag in benefit_text_tags_specific:
                all_benefit_texts_raw.append(tag.get_text(strip=True))

            # Buscar en el contenedor general de detalles por si hay más beneficios
            details_container = plan_element.find('div', class_='p-plan__slide__details')
            if details_container:
                general_benefit_tags = details_container.find_all(['li', 'p', 'span', 'div'], class_=lambda x: x and ('benefit-item' in x or 'feature-row' in x or 'text-benefit' in x or 'item-detail' in x or 'body-text' in x or 'plan-detail' in x))
                for tag in general_benefit_tags:
                    all_benefit_texts_raw.append(tag.get_text(strip=True))

            # También considerar el texto completo del plan si no se encontró nada más específico
            full_plan_text = plan_element.get_text(separator=' ', strip=True)
            all_benefit_texts_raw.append(full_plan_text)

            processed_texts = set()

            for raw_text in all_benefit_texts_raw:
                cleaned_text = re.sub(r'\s*\n\s*', ' ', raw_text).strip()
                if not cleaned_text or cleaned_text in processed_texts:
                    continue
                processed_texts.add(cleaned_text)

                text_lower = cleaned_text.lower()

                # --- Extracción granular de Minutos/Llamadas ---
                if llamadas_encontradas is None: # Solo si no se ha encontrado una frase específica de llamadas
                    # Patrones para llamadas ilimitadas o con minutos específicos
                    match_calls = re.search(r'(llamadas ilimitadas Perú(?:,)?(?: \d+ minutos para Usa y Canadá)?|minutos ilimitados Perú(?:,)?(?: \d+ para Usa y Canadá)?|llamadas ilimitadas a todo destino nacional|minutos ilimitados a todo destino nacional)', text_lower, re.IGNORECASE)
                    if match_calls:
                        llamadas_encontradas = match_calls.group(0).replace('perú,', 'Perú,').replace('usa y canadá', 'Usa y Canadá').replace('minutos para', 'minutos para ').strip()
                    elif 'llamadas ilimitadas' in text_lower: # Captura general si no hay patrón específico
                           llamadas_encontradas = 'Llamadas ilimitadas'
                    elif re.search(r'(\d+)\s*minutos\s*para\s*(usa|canadá|internacionales)', text_lower, re.IGNORECASE):
                        llamadas_encontradas = "Minutos internacionales (especificar cantidad)" # Placeholder para refinar si es necesario

                # --- Extracción granular de SMS ---
                if sms_encontrados is None: # Solo si no se ha encontrado una frase específica de SMS
                    # Patrones para SMS
                    match_sms = re.search(r'(\d+)\s*sms|(sms ilimitados)', text_lower, re.IGNORECASE)
                    if match_sms:
                        if match_sms.group(1): # Si encontró un número de SMS
                            sms_encontrados = f"{match_sms.group(1)} SMS"
                        else: # Si encontró "SMS ilimitados"
                            sms_encontrados = "SMS ilimitados"

                # Otros beneficios generales que no sean llamadas ni SMS y que tengan contenido significativo
                if len(cleaned_text) > 10 and \
                   not (llamadas_encontradas and llamadas_encontradas in cleaned_text) and \
                   not (sms_encontrados and sms_encontrados in cleaned_text) and \
                   "gb" not in text_lower and "gigas" not in text_lower and \
                   "apps" not in text_lower and "precio" not in text_lower and \
                   "plan" not in text_lower and "bono" not in text_lower:

                    is_duplicate_or_classified = False
                    for existing_benefit_key, existing_benefit_value in otros_beneficios.items():
                        if cleaned_text == existing_benefit_value or cleaned_text in existing_benefit_value or existing_benefit_value in cleaned_text:
                            is_duplicate_or_classified = True
                            break

                    if not is_duplicate_or_classified:
                        otros_beneficios[f'Otro Beneficio {len([k for k in otros_beneficios if k.startswith("Otro Beneficio")]) + 1}'] = cleaned_text

            # Post-procesamiento para apps_ilimitadas_text que contiene información de llamadas
            if "llamadasilimitadas" in apps_ilimitadas_text.lower() and llamadas_encontradas is None:
                llamadas_encontradas = "Llamadas ilimitadas"
                apps_ilimitadas_text = re.sub(r'Internet \+ llamadasilimitadas', 'Internet', apps_ilimitadas_text, flags=re.IGNORECASE).strip()
                if apps_ilimitadas_text == 'Internet' or not apps_ilimitadas_text:
                    apps_ilimitadas_text = 'N/A'

            # Asignar los valores finales a otros_beneficios
            if llamadas_encontradas:
                otros_beneficios['Minutos/Llamadas'] = llamadas_encontradas
            if sms_encontrados:
                otros_beneficios['SMS'] = sms_encontrados


            # --- AGREGAR LOS DATOS DEL PLAN A LA LISTA ---
            planes_data.append({
                'Nombre del Plan': nombre_plan,
                'Precio (S/)': precio,
                'Gigas': gigas,
                'Apps Ilimitadas': apps_ilimitadas_text,
                **otros_beneficios
            })

    except Exception as e:
        # LÍNEA CORREGIDA
        print(f"Ocurrió un error en la ejecución: {e}")
    finally:
        if driver:
            driver.quit()

    return planes_data

if __name__ == "__main__":
    planes = extraer_planes_movistar_colab()
    if planes:
        df = pd.DataFrame(planes)
        df.to_csv("planes_movistar_postpago.csv", index=False)
        print("Datos guardados en planes_movistar_postpago.csv (puedes descargarlo desde el panel de archivos).")

        # --- GENERAR SALIDA HTML ---
        html_output = """
        <!DOCTYPE html>
        <html lang="es">
        <head>
            <meta charset="UTF-8">
            <meta name="viewport" content="width=device-width, initial-scale=1.0">
            <title>Planes Postpago Movistar Perú</title>
            <style>
                body { font-family: Arial, sans-serif; margin: 20px; background-color: #f4f4f4; color: #333; }
                h1 { color: #007bff; text-align: center; }
                table { width: 100%; border-collapse: collapse; margin-top: 20px; box-shadow: 0 2px 8px rgba(0,0,0,0.1); background-color: #fff; }
                th, td { padding: 12px 15px; text-align: left; border-bottom: 1px solid #ddd; }
                th { background-color: #007bff; color: white; text-transform: uppercase; font-size: 0.9em; }
                tr:nth-child(even) { background-color: #f9f9f9; }
                tr:hover { background-color: #f1f1f1; }
                .note { margin-top: 30px; font-size: 0.9em; color: #666; text-align: center; }
            </style>
        </head>
        <body>
            <h1>Planes Postpago Movistar Perú</h1>
            <table>
                <thead>
                    <tr>
        """

        # Generar los encabezados de la tabla a partir de las columnas del DataFrame
        for col in df.columns:
            html_output += f"<th>{col}</th>\n"

        html_output += """
                    </tr>
                </thead>
                <tbody>
        """

        # Generar las filas de la tabla
        for index, row in df.iterrows():
            html_output += "<tr>\n"
            for col in df.columns:
                # Asegúrate de que los valores sean strings para evitar errores en HTML
                html_output += f"<td>{str(row[col])}</td>\n"
            html_output += "</tr>\n"

        html_output += """
                </tbody>
            </table>
            <p class="note">Datos extraídos de la web de Movistar Perú.</p>
        </body>
        </html>
        """

        # Mostrar el HTML directamente en la salida de Colab
        display(HTML(html_output))

        # Guarda el archivo HTML también, por si lo necesitas descargar
        with open("planes_movistar_postpago.html", "w", encoding="utf-8") as f:
            f.write(html_output)
        print("El reporte HTML también se guardó en 'planes_movistar_postpago.html' (puedes descargarlo).")

    else:
        print("No se pudieron extraer los planes. Revisa si la página de Movistar ha cambiado.")

Datos guardados en planes_movistar_postpago.csv (puedes descargarlo desde el panel de archivos).


Nombre del Plan,Precio (S/),Gigas,Apps Ilimitadas,Minutos/Llamadas,SMS
Plan Postpago S/ 69.90,S/ 69.90,Ilimitados,Internet + llamadasilimitadas,"llamadas ilimitadas Perú,",500 SMS
Plan Postpago S/ 39.90,S/ 39.90,Ilimitados,Apps ilimitadas x 12 meses*,"llamadas ilimitadas Perú, 350 minutos para Usa y Canadá",500 SMS
Plan Postpago S/ 49.90,S/ 49.90,Ilimitados,Apps ilimitadas x 12 meses*,"llamadas ilimitadas Perú, 400 minutos para Usa y Canadá",500 SMS
Plan Postpago S/ 59.90,S/ 59.90,Ilimitados,Apps ilimitadas x 12 meses*,"llamadas ilimitadas Perú,",500 SMS
Plan Postpago S/ 79.90,S/ 79.90,Ilimitados,Internet + llamadasilimitadas,"llamadas ilimitadas Perú,",500 SMS
Plan Postpago S/ 99.90,S/ 99.90,Ilimitados,Internet + llamadasilimitadas,"llamadas ilimitadas Perú,",500 SMS
Ahorra 50%,S/ 49.95,135 GB,Internet + llamadasilimitadas,"llamadas ilimitadas Perú,",500 SMS
Ahorra 50%,S/ 39.95,120 GB,Internet + llamadasilimitadas,"llamadas ilimitadas Perú,",500 SMS
Ahorra 50%,S/ 34.95,100 GB,Internet + llamadasilimitadas,"llamadas ilimitadas Perú,",500 SMS
Plan Postpago S/ 59.90,S/ 59.90,30 GB,Apps ilimitadas x 12 meses*,"llamadas ilimitadas Perú,",500 SMS


El reporte HTML también se guardó en 'planes_movistar_postpago.html' (puedes descargarlo).
