In [2]:
import openai 
import pandas as pd
import re
from typing import Optional
from openai import OpenAI
from dotenv import load_dotenv
import os

load_dotenv()

openai_api_key = os.getenv("OPENAI_API_KEY")
client = openai.OpenAI(api_key=openai_api_key)

## USANDO LA INFORMACIÓN DE TRANSCRIPCIONES

## Guion 

In [3]:
from langchain_experimental.agents import create_pandas_dataframe_agent
from langchain_openai import ChatOpenAI
from langchain.agents.agent_types import AgentType
import pandas as pd
import logging
from typing import Optional

def crear_idea_guion(
    df: pd.DataFrame,
    tema: str,
    api_key: str,
    modelo: str = "gpt-4o-mini",  
    temperatura: float = 0.7,
    max_samples: int = 590  # Con este si funciona
) -> Optional[str]:
    """
    Genera ideas de guión basándose en una muestra limitada de la columna 'contenido_limpio'.
    
    Args:
        df: DataFrame con la columna 'contenido_limpio'
        tema: Tema para el nuevo video
        api_key: API key de OpenAI
        modelo: Modelo de OpenAI a utilizar
        temperatura: Nivel de creatividad (0-1)
        max_samples: Número máximo de muestras a analizar
    """
    try:
        # Verificar si existe la columna 'contenido_limpio'
        if 'contenido_limpio' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'contenido_limpio'")
        
        # esto porque no permite mucha carga 
        df_muestra = df.sample(min(max_samples, len(df))).copy()
        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Basándote en la muestra de contenidos de la columna 'contenido_limpio', 
        genera un guión para un video de TikTok sobre: {tema}
        
        El guión debe incluir:
        1. Un gancho inicial atractivo (5-10 segundos)
        2. Desarrollo del contenido (20-30 segundos)
        3. Llamada a la acción final (5-10 segundos)
        
        Mantén el guión conciso y directo, ideal para TikTok.
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"


df2=pd.read_csv("processed_data2.csv")
tema = "cupcakes de navidad"
    
try:
        print("\n--- Generando guión con muestra limitada ---\n")
        
        guion = crear_idea_guion(
            df=df2,
            tema=tema,
            api_key=openai_api_key
        )
        print("\nGuión generado:")
        print(guion)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")


--- Generando guión con muestra limitada ---



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m### Guión para Video de TikTok: Cupcakes de Navidad

**[Gancho Inicial - 5-10 segundos]**  
🎄✨ "¡Hola, amantes de la repostería! ¿Listos para sorprender a todos con unos irresistibles cupcakes de Navidad? ¡Quédense conmigo y lo haremos juntos! 🎉🧁"

---

**[Desarrollo del Contenido - 20-30 segundos]**  
"Comencemos con la receta:  
1. **Ingredientes:** Necesitamos 1 taza de harina, ½ taza de azúcar, 1/2 taza de mantequilla, 2 huevos, y un toque de esencia de vainilla.  
2. **Preparación:** Mezcla la mantequilla con el azúcar hasta que esté cremosa. Luego, agrega los huevos uno a uno y la vainilla.  
3. **Incorporar la harina:** Agrega la harina poco a poco y mezcla hasta tener una masa suave.  
4. **Decora:** Hornea a 180 grados por 20 minutos. ¡Y no olvides decorarlos con glaseado rojo y verde! Perfectos para la temporada. 🎅🧁"

---

**[Llamada a la Acción Final - 5-10 segundos]**

## Ideas principales

In [10]:
def ideas_principales_trans(
    df: pd.DataFrame,
    cantidad: int,
    api_key: str,
    modelo: str = "gpt-4o-mini",  
    temperatura: float = 0.7,
    max_samples: int = 500  # Con este si funciona, no entiendo pq es medio rarito
) -> Optional[str]:
    try:
        # Verificar si existe la columna 'contenido_limpio'
        if 'contenido_limpio' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'contenido_limpio'")
        
        # esto porque no permite mucha carga 
        df_muestra = df.sample(min(max_samples, len(df))).copy()
        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Basándote en la muestra de contenidos de la columna 'contenido_limpio', 
        Quiero que me des esta cantidad:{cantidad} de ideas principales sobre lo que esta referente en esa columna.
        dame la informacion  de ideas principales en guiones y con un poco de info referente a esa idea
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"
    
try:
        print("\n--- Investigando Ideas principales ---\n")
        
        ideas = ideas_principales_trans(
            df=df2,
            cantidad=4,
            api_key=openai_api_key
        )
        print("\nIdeas Principales")
        print(ideas)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")


--- Investigando Ideas principales ---



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAquí tienes 4 ideas principales sobre el contenido de la columna 'contenido_limpio':

- **Galletas Rellenas y Sabores Variados**: 
  El contenido menciona la variedad de galletas, destacando que existen más de 20 sabores, incluyendo opciones como chocolate y vainilla. Esto sugiere un enfoque en la diversidad de productos que pueden atraer a diferentes gustos y preferencias.

- **Preparación y Recetas**: 
  Se habla sobre la preparación de recetas, como las cajetas de coco y la manera de hacer galletas. Esto indica un interés en compartir procesos de cocina fáciles y accesibles, lo cual puede ser atractivo para aquellos que desean aprender a cocinar o mejorar sus habilidades culinarias.

- **Emprendimiento en la Gastronomía**: 
  El contenido también menciona la idea de emprender un negocio relacionado con la venta de galletas y cajetas. Esto refleja una tendencia hacia el emprendimient

## Ideas para videos

In [5]:
def ideas_para_video_trans(
    df: pd.DataFrame,
    cantidad: int,
    api_key: str,
    modelo: str = "gpt-4o-mini",  
    temperatura: float = 0.7,
    max_samples: int = 500  # Con este si funciona, no entiendo pq es medio rarito
) -> Optional[str]:
    try:
        # Verificar si existe la columna 'contenido_limpio'
        if 'contenido_limpio' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'contenido_limpio'")
        
        # esto porque no permite mucha carga 
        df_muestra = df.sample(min(max_samples, len(df))).copy()
        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Basándote en la muestra de contenidos de la columna 'contenido_limpio', 
        Quiero que me des esta cantidad:{cantidad} de ideas para la creación de videos (Son videos de TikTok)
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"
    
try:
        print("\n--- Investigando Ideas para videos ---\n")
        
        ideas_video = ideas_para_video_trans(
            df=df2,
            cantidad=4,
            api_key=openai_api_key
        )
        print("\nIdeas Para Videos")
        print(ideas_video)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")


--- Investigando Ideas para videos ---



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAquí tienes 4 ideas para la creación de videos de TikTok, basadas en el contenido de la columna 'contenido_limpio':

1. **Receta de Galletas Rellenas**: Crea un video mostrando el proceso de hacer galletas rellenas, utilizando imágenes de la mezcla de ingredientes (mantequilla, azúcares, huevo, etc.) y el horneado, intercalando tips sobre cómo lograr la textura perfecta. Puedes añadir un toque personal mostrando la reacción al probarlas.

2. **Tour Gastronómico en Miraflores**: Realiza un video estilo vlog en el que explores diferentes locales de galletas en Miraflores. Muestra las variedades que ofrecen y comparte tus recomendaciones, incluyendo una breve reseña de cada lugar y lo que hace especial a cada galleta.

3. **Desafío de Galletas**: Invita a amigos a un desafío de degustación de galletas donde cada uno prueba diferentes tipos y adivina los sabores o ingredientes. Documenta s

## Resumen

In [6]:
def resumen_trans(
    df: pd.DataFrame,
    api_key: str,
    modelo: str = "gpt-4o-mini",  
    temperatura: float = 0.7,
    max_samples: int = 500  # Con este si funciona, no entiendo pq es medio rarito
) -> Optional[str]:
    try:
        # Verificar si existe la columna 'contenido_limpio'
        if 'contenido_limpio' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'contenido_limpio'")
        
        # esto porque no permite mucha carga 
        df_muestra = df.sample(min(max_samples, len(df))).copy()
        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Basándote en la muestra de contenidos de la columna 'contenido_limpio', 
        Quiero que me des un Resumen general en relacion a la transcirpcion de los videos que se encuntrabn en la columna 'contenido_limpio',
        Dabe el Resumen en formato parrafo, por favor
        Como ouput dame el resumen no menciones la columnas usadas ni eso 
        
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"
    
try:
        print("\n--- Investigando Resumen de Videos ---\n")
        
        resumen_tra = resumen_trans(
            df=df2,
            api_key=openai_api_key
        )
        print("\nResumen de transcripciones")
        print(resumen_tra)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")


--- Investigando Resumen de Videos ---



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mLos videos transcritos abordan principalmente la temática de galletas, enfocándose en opciones saludables y accesibles. Se discuten diferentes tipos de galletas, como las de quinoa y las de chocolate, resaltando sus beneficios nutricionales y su relación con un estilo de vida saludable. Además, se menciona la percepción común de que una alimentación saludable es costosa, desafiando esta idea al presentar alternativas más económicas. Los creadores del contenido también comparten sus propias experiencias al probar y reaccionar a diferentes productos, fomentando una conexión con su audiencia al ofrecer recomendaciones y consejos sobre cómo disfrutar de galletas que son a la vez nutritivas y deliciosas. A lo largo de las transcripciones, se destaca la importancia de la transparencia en la preparación de alimentos y el compromiso con opciones que sean tanto sostenibles como accesibles para 

# Información relacionada a los videos 

## Hashtags ideales

In [7]:
df=pd.read_csv("dataset.csv")

def hashtags_ideales(
    df: pd.DataFrame,
    api_key: str,
    cantidad= int,
    modelo: str = "gpt-4o-mini",
    filtro = int,  
    temperatura: float = 0.7  # Con este si funciona, no entiendo pq es medio rarito
) -> Optional[str]:
    try:
        # Verificar si existe la columna 'playCount'
        if 'playCount' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'playCount'")
        
        if 'hashtags' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'hashtags'")
        
        # esto porque no permite mucha carga 
        df_muestra = df[df["playCount"] > filtro]        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Necesito que analises las siguientes columnas de mi dataframe: 'hashtags' y 'playCount'
        Con este analisis dame la cantidad {cantidad} de hashtags ideales para mis videos basandote en tu investigación

        
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"
    
try:
        print("\n--- Investigando Hashtags ideales ---\n")
        
        hash = hashtags_ideales(
            df=df,
            cantidad=4,
            api_key=openai_api_key,
            filtro=10000
        )
        print("\nHashtags ideales:")
        print(hash)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")


--- Investigando Hashtags ideales ---



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "import pandas as pd\n\n# Simulando el dataframe df\ndata = {\n    'hashtags': [\n        '#beautifulblue #blue #buttercream #buttercreamlessons #buttercreamdream #hydrangea',\n        '#buttercream #floralcupcakes #floralpiping #cupcakeinspo #cupcakeslovers #christmasgift',\n        '#redvelvet #cupcake #waxmelts',\n        '#buttercreamdream #buttercream #buttercreamlessons #edibleart',\n        '#cupcakeinspo #cupcakeartist #cupcakebusiness #cupcakeslovers',\n        '#cupcakeinspo #cupcakeartist #cupcakebusiness #cupcakeslovers',\n        '#buttercreamdream #buttercream #buttercreamlessons #edibleart',\n        '#cupcakeinspo #cupcakeartist #cupcakebusiness #cupcakeslovers'\n    ],\n    'playCount': [3000000, 486900, 13000, 5700000, 6600000, 6600000, 5700000, 6600000]\n}\n\n# Crear el dataframe\ndf = pd.DataFrame(data)\n\n# Separar los ha

## Ideas Principales

In [8]:
df=pd.read_csv("dataset.csv")

def ideales_principales(
    df: pd.DataFrame,
    api_key: str,
    cantidad= int,
    modelo: str = "gpt-4o-mini",
    filtro = int,  
    temperatura: float = 0.7  # Con este si funciona, no entiendo pq es medio rarito
) -> Optional[str]:
    try:
        # Verificar si existe la columna 'playCount'
        if 'playCount' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'playCount'")
        
        
        # esto porque no permite mucha carga 
        df_muestra = df[df["playCount"] > filtro]        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Necesito que analises las siguientes columnas de mi dataframe: 'text'
        quiero que analisis esta columna de mi df y con eso por favor dame este nuemro de ideas principales {cantidad}

        
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"
    
try:
        print("\n--- Investigando Ideas principales ---\n")
        
        idea = ideales_principales(
            df=df,
            cantidad=4,
            api_key=openai_api_key,
            filtro=10000
        )
        print("\nIdeas principales:")
        print(idea)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")


--- Investigando Ideas principales ---



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "# Importing necessary libraries\nimport pandas as pd\n\n# Assuming df is already defined as the dataframe\n# Analyzing the 'text' column\ntext_data = df['text']\n\n# Extracting the main ideas from the text data\nmain_ideas = []\nfor text in text_data:\n    # Basic idea extraction by looking for keywords and themes\n    if 'beautiful' in text:\n        main_ideas.append('Appreciation of beauty')\n    elif 'cupcake' in text:\n        main_ideas.append('Celebration of cupcakes and baking')\n    elif 'Christmas' in text:\n        main_ideas.append('Festive celebrations and traditions')\n    elif 'love' in text:\n        main_ideas.append('Expression of love and gratitude')\n    elif 'tutorial' in text:\n        main_ideas.append('Learning and sharing baking skills')\n\n# Getting unique main ideas\nunique_main_ideas = list(set(main_ideas))\n\n# 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


[32;1m[1;3mHe analizado la columna 'text' de tu dataframe y he extraído las siguientes ideas principales:

1. **Apreciación de la belleza**: Muchas menciones a lo hermoso, lo que sugiere un enfoque en la estética.
2. **Expresión de amor y gratitud**: Frases que reflejan sentimientos positivos y de agradecimiento.
3. **Aprendizaje y compartir habilidades de repostería**: Referencias a tutoriales y la enseñanza de técnicas de decoración.
4. **Celebración de cupcakes y repostería**: Un enfoque en la celebración y disfrute de los cupcakes y la creación de postres.

Si necesitas un análisis más detallado o específico, házmelo saber.[0m

[1m> Finished chain.[0m

Ideas principales:
He analizado la columna 'text' de tu dataframe y he extraído las siguientes ideas principales:

1. **Apreciación de la belleza**: Muchas menciones a lo hermoso, lo que sugiere un enfoque en la estética.
2. **Expresión de amor y gratitud**: Frases que reflejan sentimientos positivos y de agradecimiento.
3. **Ap

## Descripcion ideal

In [9]:
df=pd.read_csv("dataset.csv")

def descripcion(
    df: pd.DataFrame,
    api_key: str,
    tema:str,
    modelo: str = "gpt-4o-mini",
    filtro = int,  
    temperatura: float = 0.7  # Con este si funciona, no entiendo pq es medio rarito
) -> Optional[str]:
    try:
        # Verificar si existe la columna 'playCount'
        if 'playCount' not in df.columns:
            raise ValueError("El DataFrame debe contener una columna 'playCount'")
        
        
        # esto porque no permite mucha carga 
        df_muestra = df[df["playCount"] > filtro]        
        # df_muestra['contenido_limpio'] = df_muestra['contenido_limpio']
            
        agent = create_pandas_dataframe_agent(
            ChatOpenAI(
                temperature=temperatura,
                model=modelo,
                openai_api_key=api_key,
                max_tokens=2000  
            ),
            df_muestra,
            verbose=True,
            agent_type=AgentType.OPENAI_FUNCTIONS,
            allow_dangerous_code=True
        )
        
        prompt = f"""
        Necesito que analises las siguientes columnas de mi dataframe: 'text'
        Y me des la descripcion ideal para un video de tiktok sobre este tema {tema}, acuerdate que una descripcion es breve
        """
        
        resultado = agent.invoke({
            "input": prompt
        })
        
        return resultado.get('output', "No se pudo generar una respuesta")
        
    except Exception as e:
        logging.error(f"Error en crear_idea_guion: {str(e)}")
        return f"Error: {str(e)}"
    
try:
        print("\n--- Investigando Descripción ideal ---\n")
        
        descripcion = descripcion(
            df=df,
            tema="Queques de vainilla",
            api_key=openai_api_key,
            filtro=10000
        )
        print("\nIDescripcion ideal:")
        print(descripcion)
        
except Exception as e:
        print(f"Error al ejecutar el script: {str(e)}")


--- Investigando Descripción ideal ---



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': '# Filtramos el dataframe para obtener las filas que contienen el tema "Queques de vainilla" en la columna \'text\'\ndf_filtered = df[df[\'text\'].str.contains(\'queques de vainilla\', case=False, na=False)]\n\n# Mostramos el resultado filtrado\ndf_filtered[[\'text\']]'}`


[0m[36;1m[1;3mEmpty DataFrame
Columns: [text]
Index: [][0m[32;1m[1;3mNo encontré ninguna entrada en el dataframe que contenga específicamente el tema "Queques de vainilla". Sin embargo, puedo ayudarte a crear una descripción ideal para un video de TikTok sobre este tema.

### Descripción Ideal para TikTok:
"¡Descubre cómo hacer los más deliciosos queques de vainilla! 🌟 Con una textura esponjosa y un sabor irresistible, ¡son perfectos para cualquier ocasión! 🍰✨ #QuequesDeVainilla #Repostería #Delicia"

Si necesitas algo más específico o diferente, házmelo saber.[0m
