In [None]:
import os
import json
import requests
import pandas as pd
from sqlalchemy import create_engine, text
from dotenv import load_dotenv
from urllib.parse import quote_plus
from bs4 import BeautifulSoup, Comment, Doctype
import re
import time 


# Cargar variables de entorno (tu GOOGLE_API_KEY desde el archivo .env)
load_dotenv()

In [None]:
# Credenciales de la Base de Datos ANTIGUA (leídas de tu descripción)
DB_OLD_USER = "root"
DB_OLD_PASS = "" # Sin contraseña
DB_OLD_HOST = "127.0.0.1"
DB_OLD_NAME = "sai_v2"

# Credenciales de la Base de Datos NUEVA (leídas de tu descripción)
DB_NEW_USER = "root"
DB_NEW_PASS = "" # Sin contraseña
DB_NEW_HOST = "127.0.0.1"
DB_NEW_NAME = "sai_v5"

endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
api_key = os.getenv("OPENAI_API_KEY")

STATIC_CONTENT_STRUCTURE = {
    "en": {
        "special_tag": "Urgent Help",
        'description_heading'    : 'Description Heading',
        'description_text'       : 'Detailed Description',
        'summary_title'          : 'Summary Title',
        'summary_text'           : 'Summary Text',
        'help_mini_title'        : "Help People In need",
        'help_title'             : "Start Donating Today, Make The Difference",
        'help_btn_text'          : "DONATE TO THIS PROJECT >"
    },
    "es": {
        "special_tag": "Ayuda urgente",
        "description_heading": "Subtitulo por defecto",
        "description_text": "Texto de descripción por defecto",
        'summary_title': 'Titulo de resumen',
        "summary_text": "Texto de resumen",
        'help_mini_title': "Ayuda a personas en necesidad",
        'help_title': "Comienza a donar hoy, Haz la diferencia",
        'help_btn_text': "DONAR A ESTE PROYECTO >"
    }
}

STATIC_CONTENT_JSON = json.dumps(STATIC_CONTENT_STRUCTURE, ensure_ascii=False)

with open("promptproject2.txt", 'r', encoding='utf-8') as f:
    system_prompt = f.read()

In [None]:
# --- FUNCIONES AUXILIARES ---

def call_azure_openai(system_prompt, user_message, max_retries=5):
    """Envía una solicitud a Azure OpenAI y maneja errores 429 con reintentos."""
    endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
    api_key = os.getenv("OPENAI_API_KEY")

    if not endpoint or not api_key:
        print("❌ Faltan credenciales de Azure OpenAI")
        return None

    headers = {
        "Content-Type": "application/json",
        "api-key": api_key
    }

    payload = {
        "messages": [
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_message}
        ],
        "max_tokens": 4000,
        "temperature": 0.3,
        "top_p": 0.95,
        "frequency_penalty": 0.5,
        "presence_penalty": 0.5
    }

    for attempt in range(max_retries):
        try:
            response = requests.post(endpoint, headers=headers, json=payload, timeout=60)

            if response.status_code == 429:
                # Si Azure devuelve un retry-after personalizado, lo usamos
                retry_after = response.headers.get("Retry-After")
                wait_time = int(retry_after) if retry_after else 2 ** attempt
                print(f"🔁 Esperando {wait_time} segundos por límite de tasa (429)...")
                time.sleep(wait_time)
                continue

            if response.status_code != 200:
                print(f"❌ Error {response.status_code}: {response.text}")
                return None

            return response.json()["choices"][0]["message"]["content"]

        except requests.exceptions.RequestException as e:
            print(f"❌ Error en la solicitud: {e}")
            return None
        except (KeyError, IndexError, json.JSONDecodeError) as e:
            print(f"❌ Error procesando respuesta: {e}")
            return None

    print("❌ Se excedieron los reintentos por error 429.")
    return None


def clean_html(html_content):
    """Función principal de limpieza con truncamiento opcional"""
    simplified = simplify_html(html_content)
    
    # Truncar si es necesario después de simplificar
    MAX_LENGTH = 10000  # Menor que antes porque el HTML ahora es más simple
    if len(simplified) > MAX_LENGTH:
        # Truncar de manera inteligente manteniendo estructura
        soup = BeautifulSoup(simplified, 'html.parser')
        text = soup.get_text()[:MAX_LENGTH]
        return text + " [CONTENIDO TRUNCADO]"
    
    return simplified


def clean_html(html_content):
    """Función principal de limpieza con truncamiento opcional"""
    simplified = simplify_html(html_content)
    
    # Truncar si es necesario después de simplificar
    MAX_LENGTH = 10000  # Menor que antes porque el HTML ahora es más simple
    if len(simplified) > MAX_LENGTH:
        # Truncar de manera inteligente manteniendo estructura
        soup = BeautifulSoup(simplified, 'html.parser')
        text = soup.get_text()[:MAX_LENGTH]
        return text + " [CONTENIDO TRUNCADO]"
    
    return simplified

def simplify_html(html_content):
    """
    Simplifica el HTML eliminando:
    - Estilos (style, class, id)
    - Scripts y metadatos
    - Comentarios y doctypes
    - Atributos innecesarios
    - Conserva solo estructura básica y contenido
    """
    if not html_content or pd.isna(html_content):
        return ""
    
    try:
        soup = BeautifulSoup(html_content, 'html.parser')
        
        # Remover elementos no deseados
        for element in soup(['script', 'style', 'meta', 'link', 'head', 'noscript', 'iframe']):
            element.decompose()
        
        # Remover comentarios y doctypes
        for comment in soup.find_all(string=lambda text: isinstance(text, Comment)):
            comment.extract()
        
        for doctype in soup.find_all(string=lambda text: isinstance(text, Doctype)):
            doctype.extract()
        
        # Simplificar etiquetas conservando solo atributos esenciales
        for tag in soup.find_all(True):
            # Conservar solo estas etiquetas básicas
            allowed_tags = ['p', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 
                            'ul', 'ol', 'li', 'a', 'strong', 'em', 'b', 'i',
                            'table', 'tr', 'td', 'th', 'div', 'span', 'br', 'hr']
            
            if tag.name not in allowed_tags:
                tag.unwrap()  # Conserva el contenido pero elimina la etiqueta
                continue
                
            # Mantener solo estos atributos (opcional)
            allowed_attrs = ['href']
            attrs = {}
            for attr in allowed_attrs:
                if attr in tag.attrs:
                    attrs[attr] = tag.attrs[attr]
            tag.attrs = attrs
            
            # Eliminar estilos en línea
            if 'style' in tag.attrs:
                del tag.attrs['style']
        
        # Simplificar estructura
        for tag in soup.find_all(['div', 'span']):
            tag.unwrap()
        
        # Reducir espacios innecesarios
        output = str(soup)
        output = re.sub(r'\n\s+', '\n', output)  # Eliminar espacios múltiples
        output = re.sub(r'\n{3,}', '\n\n', output)  # Reducir saltos de línea múltiples
        
        return output
    
    except Exception as e:
        print(f"⚠️ Error simplificando HTML: {e}")
        # Devolver versión truncada como fallback
        return html_content[:5000] + " [HTML SIMPLIFICADO]"
    




def get_page_translations(page_id, engine):
    """Obtiene todas las traducciones para un ID de página y las pivota a un diccionario."""
    query = text("""
        SELECT column_name, value 
        FROM translations 
        WHERE table_name = 'pages' AND foreign_key = :page_id AND locale = 'es'
    """)
    
    # NUEVO: Diccionario para almacenar traducciones de la página actual
    translations = {}
    try:
        with engine.connect() as connection:
            # Ejecutamos la consulta por cada página
            result = connection.execute(query, {'page_id': page_id})
            for row in result:
                # Mapeamos 'nombre_columna' -> 'valor_traducido'
                translations[row.column_name] = row.value
    except Exception as e:
        print(f"⚠️  No se pudieron obtener traducciones para el ID {page_id}: {e}")
        
    return translations



def extract_from_old_db():
    """Extrae datos de 'pages' y AÑADE las traducciones existentes desde 'translations'."""
    print("Iniciando Fase 1: Extracción de datos y traducciones...")
    engine_old = create_db_engine(DB_OLD_USER, DB_OLD_PASS, DB_OLD_HOST, DB_OLD_NAME)
    
    # La consulta a 'pages' sigue siendo la misma
    query = """
    SELECT 
        id, title, excerpt, body, meta_description, 
        `IFRAME`, `IFRAMEES`, video, videoes, summary_es,
        summary, problem, solution, longterm
    FROM pages
    WHERE layout = 'campaign';
    """
    
    try:
        df = pd.read_sql(query, engine_old)
        print(f"✅ Extracción de 'pages' completada. Se encontraron {len(df)} registros.")
        
        # NUEVO: Iterar para obtener traducciones de cada página
        translations_list = []
        for page_id in df['id']:
            translations_list.append(get_page_translations(page_id, engine_old))
            
        # Añadimos las traducciones como una nueva columna que contiene un diccionario
        df['translations_es'] = translations_list
        
        print("✅ Traducciones asociadas correctamente.")
        return df
        
    except Exception as e:
        print(f"❌ Error al extraer datos: {e}")
        return pd.DataFrame()
    




def inspeccionar_datos_transformados(limit=5):
    """Extrae, transforma y muestra los primeros N registros listos para insertar."""
    df = extract_from_old_db()
    registros = transform_data(df)

    print(f"\n📦 Mostrando los primeros {limit} registros transformados:\n")

    for i, record in enumerate(registros[:limit]):
        print(f"🔹 Registro #{i+1} (slug: {json.loads(record['slug'])})")
        print(json.dumps(record, indent=2, ensure_ascii=False))
        print("-" * 60)
    
    # --- FASE 2: TRANSFORMACIÓN (MODIFICADA) ---

def transform_data(df):
    """Transforma el DataFrame usando las traducciones existentes y el nuevo prompt."""
    print("\nIniciando Fase 2: Transformación de datos...")
    if df.empty:
        return []
    
    # Puedes quitar o modificar este límite para procesar todos los registros
   

    prompt_template = load_prompt_template()
    transformed_records = []
    
    for index, row in df.iterrows():
        print(f"  Procesando registro {index + 1}/{len(df)} (ID antiguo: {row['id']})...")
        
        # MODIFICADO: Ahora 'translations_es' es un diccionario con las traducciones
        translations = row.get('translations_es', {})

        # 1. Unificar contenido para la IA, ahora con ambos idiomas
        input_content_for_ai = {
            "summary": {
                "en": row.get('summary', ''),
                # Usamos la traducción si existe, si no, el original como fallback
                "es": translations.get('summary', row.get('summary', '')) 
            },
            "body": {
                "en": row.get('body', ''),
                "es": translations.get('body', row.get('body', ''))
            },
            "problem": {
                "en": row.get('problem', ''),
                "es": translations.get('problem', row.get('problem', ''))
            },
            "solution": {
                "en": row.get('solution', ''),
                "es": translations.get('solution', row.get('solution', ''))
            },
            "longterm": {
                "en": row.get('longterm', ''),
                "es": translations.get('longterm', row.get('longterm', ''))
            }
        }
        
        # 2. Llamar a la IA (la función no cambia, solo el input que le damos)
        ai_response = process_with_ai(input_content_for_ai, prompt_template)
        
        # 3. Extraer partes de la respuesta (la función no cambia)
        summary_data = ai_response.get('summary_data', {})
        editor_content = ai_response.get('editor_content', {})

        # 4. Preparar la estructura 'content' final (la lógica de inyección no cambia)
        final_content_structure = json.loads(json.dumps(STATIC_CONTENT_STRUCTURE))
        summary_en = summary_data.get('en', {})
        final_content_structure['en']['summary_title'] = summary_en.get('title') or "Summary"
        final_content_structure['en']['summary_text'] = summary_en.get('text', '')
        summary_es = summary_data.get('es', {})
        final_content_structure['es']['summary_title'] = summary_es.get('title') or "Resumen"
        final_content_structure['es']['summary_text'] = summary_es.get('text', '')

        # 5. MODIFICADO: Mapear campos usando las traducciones existentes
        record = {
            # Usamos el slug original y el traducido si existe
            "slug": json.dumps({
                "en": slugify(row.get('title', '')), 
                "es": slugify(translations.get('slug', row.get('title', '')))
            }, ensure_ascii=False),
            "title": json.dumps({
                "en": row.get('title', ''), 
                "es": translations.get('title', row.get('title', ''))
            }, ensure_ascii=False),
            "excerpt": json.dumps({
                "en": row.get('excerpt', ''), 
                "es": translations.get('excerpt', row.get('summary_es', ''))
            }, ensure_ascii=False),
            "donation_iframe": json.dumps({
                "en": row.get('IFRAME', ''), 
                "es": row.get('IFRAMEES', '')
            }, ensure_ascii=False),
            "video_iframe": json.dumps({
                "en": row.get('video', ''), 
                "es": row.get('videoes', '')
            }, ensure_ascii=False),
            "meta": json.dumps({
                "en": row.get('meta_description', ''), 
                "es": translations.get('meta_description', '')
            }, ensure_ascii=False),
            
            "content": json.dumps(final_content_structure, ensure_ascii=False),
            "text_editor_content": json.dumps(editor_content, ensure_ascii=False),
            
            "status": "draft",
            "user_id": 1,
            "social_links": json.dumps({}),
        }
        transformed_records.append(record)
        
    print("✅ Transformación completada.")
    return transformed_records


# --- FASE 3: CARGA ---

def load_into_new_db(records):
    """Carga los registros transformados en la nueva base de datos."""
    print("\nIniciando Fase 3: Carga de datos...")
    
    if not records:
        print("No hay registros para cargar.")
        return

    engine_new = create_db_engine(DB_NEW_USER, DB_NEW_PASS, DB_NEW_HOST, DB_NEW_NAME)
    
    # La migración define las columnas de la tabla 'projects'
    insert_query = text("""
    INSERT INTO projects (
        slug, title, excerpt, donation_iframe, video_iframe, content, text_editor_content, meta, 
        status, user_id, social_links, created_at, updated_at
    )
    SELECT :slug, :title, :excerpt, :donation_iframe, :video_iframe, :content, :text_editor_content, :meta, 
           :status, :user_id, :social_links, NOW(), NOW()
    WHERE NOT EXISTS (
        SELECT 1 FROM projects WHERE slug = :slug
    )
""")
    
    try:
        with engine_new.connect() as connection:
            for record in records:
                connection.execute(insert_query, record)
            connection.commit() # Confirma la transacción
        print(f"✅ Carga completada. Se han insertado {len(records)} registros en la tabla 'projects'.")
    except Exception as e:
        print(f"❌ Error al cargar datos: {e}")
