In [1]:
import openai 
import pandas as pd
import re
from typing import Optional
from openai import OpenAI
from dotenv import load_dotenv
import os

load_dotenv()

openai_api_key = os.getenv("OPENAI_API_KEY")
client = openai.OpenAI(api_key=openai_api_key)

## Guion


In [None]:
from langchain_experimental.agents import create_pandas_dataframe_agent
from langchain_openai import ChatOpenAI
from langchain.agents.agent_types import AgentType
import pandas as pd
import logging
from typing import Optional

def crear_idea_guion(
    df: pd.DataFrame,
    tema: str,
    api_key: str,
    modelo: str = "gpt-4o-mini",  
    temperatura: float = 0.7,
    max_samples: int = 590  # Con este si funciona
) -> Optional[str]:
    """
    Genera ideas de guión basándose en una muestra limitada de la columna 'contenido_limpio'.
    
    Args:
        df: DataFrame con la columna 'contenido_limpio'
        tema: Tema para el nuevo video
        api_key: API key de OpenAI
        modelo: Modelo de OpenAI a utilizar
        temperatura: Nivel de creatividad (0-1)
        max_samples: Número máximo de muestras a analizar
    """
    try:
        # Verificar si existe la columna 'contenido_limpio'
        if 'contenido_limpio' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'contenido_limpio'")
        
        # esto porque no permite mucha carga 
        df_muestra = df.sample(min(max_samples, len(df))).copy()
        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Basándote en la muestra de contenidos de la columna 'contenido_limpio', 
        genera un guión para un video de TikTok sobre: {tema}
        
        El guión debe incluir:
        1. Un gancho inicial atractivo (5-10 segundos)
        2. Desarrollo del contenido (20-30 segundos)
        3. Llamada a la acción final (5-10 segundos)
        
        Mantén el guión conciso y directo, ideal para TikTok.
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"


df2=pd.read_csv("processed_data2.csv")
tema = "cupcakes de navidad"
    
try:
        print("\n--- Generando guión con muestra limitada ---\n")
        
        guion = crear_idea_guion(
            df=df2,
            tema=tema,
            api_key=openai_api_key
        )
        print("\nGuión generado:")
        print(guion)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")

## Ideas para videos

In [None]:
def ideas_principales_trans(
    df: pd.DataFrame,
    cantidad: int,
    api_key: str,
    modelo: str = "gpt-4o-mini",  
    temperatura: float = 0.7,
    max_samples: int = 500  # Con este si funciona, no entiendo pq es medio rarito
) -> Optional[str]:
    try:
        # Verificar si existe la columna 'contenido_limpio'
        if 'contenido_limpio' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'contenido_limpio'")
        
        # esto porque no permite mucha carga 
        df_muestra = df.sample(min(max_samples, len(df))).copy()
        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Basándote en la muestra de contenidos de la columna 'contenido_limpio', 
        Quiero que me des esta cantidad:{cantidad} de ideas principales sobre lo que esta referente en esa columna.
        dame la informacion  de ideas principales en guiones y con un poco de info referente a esa idea
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"
    
try:
        print("\n--- Investigando Ideas principales ---\n")
        
        ideas = ideas_principales_trans(
            df=df2,
            cantidad=4,
            api_key=openai_api_key
        )
        print("\nIdeas Principales")
        print(ideas)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")

## Ideas principales

In [None]:
def ideas_para_video_trans(
    df: pd.DataFrame,
    cantidad: int,
    api_key: str,
    modelo: str = "gpt-4o-mini",  
    temperatura: float = 0.7,
    max_samples: int = 500  # Con este si funciona, no entiendo pq es medio rarito
) -> Optional[str]:
    try:
        # Verificar si existe la columna 'contenido_limpio'
        if 'contenido_limpio' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'contenido_limpio'")
        
        # esto porque no permite mucha carga 
        df_muestra = df.sample(min(max_samples, len(df))).copy()
        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Basándote en la muestra de contenidos de la columna 'contenido_limpio', 
        Quiero que me des esta cantidad:{cantidad} de ideas para la creación de videos (Son videos de TikTok)
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"
    
try:
        print("\n--- Investigando Ideas para videos ---\n")
        
        ideas_video = ideas_para_video_trans(
            df=df2,
            cantidad=4,
            api_key=openai_api_key
        )
        print("\nIdeas Para Videos")
        print(ideas_video)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")

## Resumen 

In [None]:
def resumen_trans(
    df: pd.DataFrame,
    api_key: str,
    modelo: str = "gpt-4o-mini",  
    temperatura: float = 0.7,
    max_samples: int = 500  # Con este si funciona, no entiendo pq es medio rarito
) -> Optional[str]:
    try:
        # Verificar si existe la columna 'contenido_limpio'
        if 'contenido_limpio' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'contenido_limpio'")
        
        # esto porque no permite mucha carga 
        df_muestra = df.sample(min(max_samples, len(df))).copy()
        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Basándote en la muestra de contenidos de la columna 'contenido_limpio', 
        Quiero que me des un Resumen general en relacion a la transcirpcion de los videos que se encuntrabn en la columna 'contenido_limpio',
        Dabe el Resumen en formato parrafo, por favor
        Como ouput dame el resumen no menciones la columnas usadas ni eso 
        
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"
    
try:
        print("\n--- Investigando Resumen de Videos ---\n")
        
        resumen_tra = resumen_trans(
            df=df2,
            api_key=openai_api_key
        )
        print("\nResumen de transcripciones")
        print(resumen_tra)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")

# Documentación
Este cuaderno (archivo .ipynb) está diseñado para procesar datos referente a las transcripciones de los videos, utilizando herramientas como OpenAI y pandas para análisis y generación de texto. A continuación, se describe su estructura, funciones principales y propósitos.
# 1. Bibliotecas utilizadas

El archivo importa las siguientes bibliotecas:
- openai: Interacción con la API de OpenAI.
- pandas: Manipulación y análisis de datos.
- re: Expresiones regulares para manejo de texto.
- typing: Uso de tipos opcionales para las funciones.

# Funciones usadas
## Función: Guion
### Propósito
Esta función analiza las transcripciones de los videos y crea un guion para un video que quieres realizar relacioando al tema a eleccion, utilizando la API de OpenAI.

### Entrada
- df: Un DataFrame de pandas que contiene información sobre los videos.
- api_key: Clave de la API de OpenAI.
- Tema: esto ayuda a saber de que tema central se tiene que apegar el guion

### Salida 
Devuelve un guion distribuido en 3 partes.


## Función: Ideas para videos 
### Propósito
Obtener ideas de videos basandose en la info que esta en las transcripciones
### Entrada
- df: Un DataFrame de pandas que contiene información sobre los videos.
- api_key: Clave de la API de OpenAI.
- cantidad: numero de ideas para videos que se tienen que devolver
### Salida 
Devuelve la cantidad de ideas requeridas para videos

## Función: Ideas principales
### Propósito
### Entrada
- df: Un DataFrame de pandas que contiene información sobre los videos.
- api_key: Clave de la API de OpenAI.
- cantidad: numero de ideas principales que se tienen que devolver
### Salida 
Devuelve la cantidad de ideas principales requeridas


## Función: Resumen
### Propósito
Brinda un resumen general sobre la transcripción de los videos
### Entrada
- df: Un DataFrame de pandas que contiene información sobre los videos.
- api_key: Clave de la API de OpenAI.
### Salida 
Devuelve el resumen de la info de transcripción