<a href="https://colab.research.google.com/github/Lumpenvisual/Tuya_AgencIA/blob/main/Tuya_AgencIA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 🧠 TUYA AGENCIA – Agencia de IA Autónoma para Creadores de Contenido
# 🎯 Canal piloto: @turbofausto
# 📌 Ejecuta paso a paso en Google Colab

print("🚀 Bienvenido a Tuya AgencIA – Agencia de IA Autónoma")
print("Vamos a analizar el canal de @turbofausto usando solo datos públicos de YouTube.\n")

##1. Instalación de dependencias

In [None]:
# Paso 1: Instalar librerías necesarias
print("🔧 Instalando dependencias...")

!pip install -q pytube pandas numpy matplotlib seaborn openai python-dotenv transformers torch gradio

!pip install -q scikit-learn          # Para modelos tradicionales (regresión, clustering)
!pip install -q torch torchvision     # PyTorch (deep learning)
!pip install -q tensorflow            # TensorFlow (redes neuronales, modelos predictivos)
!pip install google-api-python-client
!pip install -q transformers          # Hugging Face Transformers
!pip install -q datasets              # Hugging Face Datasets

print("✅ Instalación completada.")

##2. Importar librerías

In [None]:
# Paso 2: Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
import torch
import tensorflow as tf
import transformers
from pytube import Playlist, YouTube
import os
import time
from datetime import datetime
from dotenv import load_dotenv


# Configurar estilo de gráficos
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("✅ Librerías importadas.")

##3. Extraer datos públicos de Youtube

In [None]:
from googleapiclient.discovery import build
import pandas as pd

# ¡IMPORTANTE! Pega aquí tu API Key
api_key = "AIzaSyAneSITNqCa_LuuJf-i6s6I0x7e3Q3zUn8"


# Creamos una instancia para interactuar con la API de YouTube
youtube = build('youtube', 'v3', developerKey='AIzaSyAneSITNqCa_LuuJf-i6s6I0x7e3Q3zUn8')

request = youtube.search().list(
    q="Inteligencia Artificial",
    part="snippet",
    type="video",
    maxResults=5)
response = request.execute()

# Extraemos los IDs de los videos
video_ids = [item['id']['videoId'] for item in response['items']]
print(f"Se encontraron {len(video_ids)} IDs de videos.")


video_stats_request = youtube.videos().list(
    part="snippet,statistics",
    id=",".join(video_ids)
)
video_stats_response = video_stats_request.execute()

# Procesamos y guardamos los datos en una lista
video_data = []
for item in video_stats_response['items']:
    data = {
        'Titulo': item['snippet']['title'],
        'Vistas': int(item['statistics'].get('viewCount', 0)),
        'Me Gusta': int(item['statistics'].get('likeCount', 0)),
        'Comentarios': int(item['statistics'].get('commentCount', 0)),
        'Canal': item['snippet']['channelTitle']
    }
    video_data.append(data)

# Convertimos la lista en un DataFrame de Pandas para un mejor manejo
df = pd.DataFrame(video_data)

# Mostramos los primeros 5 resultados
print(df.head())


In [None]:
# Paso 3: Extraer videos del canal de @turbofausto
print("🔍 Extrayendo datos públicos del canal de @turbofausto...")

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# URL de la lista de reproducción "Videos más recientes"
# ⚠️ Reemplaza con la URL real de la playlist (puedes copiarla de YouTube)
PLAYLIST_URL = "https://www.youtube.com/playlist?list=PLKsLeERYMfn93sYx_IGo0OykPivCzRZMc"  # Verifica esta URL

try:
    playlist = Playlist(PLAYLIST_URL)
    datos = []

    print(f"📡 Obteniendo {len(playlist.video_urls)} videos...")

    for i, video_url in enumerate(playlist.video_urls[:30]):  # Máximo 30 para no saturar
        try:
            video = playlist[i]
            titulo = video.title
            url = video.watch_url
            publish_date = video.publish_date
            views = video.views
            duration = video.length  # en segundos

            datos.append({
                "titulo": titulo,
                "url": url,
                "fecha": publish_date.strftime("%Y-%m-%d") if publish_date else "N/A",
                "vistas": views,
                "duracion_seg": duration,
                "duracion_min": round(duration / 60, 1)
            })
            time.sleep(1)  # Etiqueta de respeto
        except Exception as e:
            print(f"⚠️ Error en video {i+1}: {e}")
            continue

    df = pd.DataFrame(datos)
    df.to_csv("turbofausto_videos.csv", index=False)
    print(f"✅ {len(df)} videos extraídos y guardados en 'turbofausto_videos.csv'")
    print(df.head())

except Exception as e:
    print(f"❌ Error al extraer datos: {e}")
    print("💡 Asegúrate de que la URL de la playlist sea correcta.")

##4. Análisis de datos y visualización

In [None]:
# Paso 4: Análisis y visualización
print("\n📊 Analizando el rendimiento del canal...")

# Create a sample DataFrame for demonstration purposes
"""data = {'titulo': [f'Video {i}' for i in range(20)],
        'url': [f'https://www.youtube.com/playlist?list=PLKsLeERYMfn93sYx_IGo0OykPivCzRZMc{i}' for i in range(20)],
        'fecha': pd.to_datetime(pd.date_range(start='2023-01-01', periods=20, freq='M').strftime('%Y-%m-%d')),
        'vistas': np.random.randint(1000, 100000, 20),
        'duracion_seg': np.random.randint(60, 600, 20),
        'duracion_min': np.round(np.random.randint(60, 600, 20) / 60, 1)}
        """
# URL de la lista de videos
playlist_url = "https://www.youtube.com/playlist?list=PLKsLeERYMfn93sYx_IGo0OykPivCzRZMc"

# Cargar la playlist
playlist = Playlist(playlist_url)
numero_videos = len(playlist.video_urls)
# Crear una Lista con las URL de los videos
urls_videos = []
titulos_videos = []
for index, video_url in enumerate(playlist.video_urls, start=1):
    urls_videos.append(str (video_url))
    yt = YouTube(video_url)
    titulos_videos.append(f"Video : {yt.title}")
data = {'titulo': titulos_videos,
        'url': playlist.video_urls,
        'fecha': pd.to_datetime(pd.date_range(start='2023-01-01', periods=20, freq='M').strftime('%Y-%m-%d')),
        'vistas': np.random.randint(1000, 100000, 20),
        'duracion_seg': np.random.randint(60, 600, 20),
        'duracion_min': np.round(np.random.randint(60, 600, 20) / 60, 1)}

df = pd.DataFrame(data)
print(df.head())

# Convertir fecha a datetime
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')

# Gráficos
fig, axs = plt.subplots(2, 2, figsize=(14, 10))

# 1. Distribución de vistas
axs[0, 0].hist(df['vistas'], bins=15, color='skyblue', edgecolor='black')
axs[0, 0].set_title('Distribución de Vistas')
axs[0, 0].set_xlabel('Vistas')
axs[0, 0].set_ylabel('Frecuencia')

# 2. Vistas vs Duración
axs[0, 1].scatter(df['duracion_min'], df['vistas'], alpha=0.7, color='green')
axs[0, 1].set_title('Vistas vs Duración (min)')
axs[0, 1].set_xlabel('Duración (min)')
axs[0, 1].set_ylabel('Vistas')

# 3. Top 10 videos por vistas
top10 = df.nlargest(10, 'vistas')
axs[1, 0].barh(top10['titulo'], top10['vistas'], color='coral')
axs[1, 0].set_title('Top 10 Videos por Vistas')
axs[1, 0].set_xlabel('Vistas')

# 4. Tendencia de publicaciones por mes
df['mes'] = df['fecha'].dt.to_period('M')
publicaciones_por_mes = df['mes'].value_counts().sort_index()
axs[1, 1].plot(publicaciones_por_mes.index.astype(str), publicaciones_por_mes.values, marker='o', color='purple')
axs[1, 1].set_title('Publicaciones por Mes')
axs[1, 1].set_xlabel('Mes')
axs[1, 1].set_ylabel('Cantidad')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Seleccionamos nuestras características y el objetivo
X = df[['Vistas', 'Comentarios']]
y = df['Me Gusta']

# Dividimos los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Creamos y entrenamos el modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)


##Evaluación del modelo

In [None]:
# Hacemos predicciones
predicciones = modelo.predict(X_test)

# Comparamos las predicciones con los valores reales
print("Predicción vs. Valor Real")
for i in range(5):
    print(f"Predicción: {int(predicciones[i])}, Valor Real: {y_test.iloc[i]}")

# Calculamos el error
error = mean_squared_error(y_test, predicciones)
print(f"\nError Cuadrático Medio: {error}")

##5. Contexto del creador (RAG Básico)

In [None]:
# Paso 5: Contexto del creador (Tuya AgencIA - Cerebro IA)
print("\n🧠 Cargando contexto de @turbofausto...")

contexto_turbofausto = {
    "nombre": "Fausto Murillo",
    "usuario": "@turbofausto",
    "nicho": "Fitness funcional y entrenamiento en casa",
    "tono": "Directo, motivador, sin filtros. Frases como 'Sin cuentos', 'Esto es real', 'No más excusas'.",
    "audiencia": "Hombres 18-35 que quieren mejorar su físico sin gimnasio.",
    "objetivos": "Aumentar suscriptores, escalar contenido en shorts, promocionar su app de entrenamiento.",
    "ctas": ["Suscríbete", "Activa la campanita", "Sígueme en Instagram", "Descarga mi app"]
}

print(f"✅ Contexto cargado: {contexto_turbofausto['nicho']}")

##6. Predicción de Impacto con Hugging Face

In [None]:
# Paso 6: Predicción de impacto con Hugging Face
print("\n🤖 Prediciendo impacto de títulos con Hugging Face...")

from transformers import pipeline

# Usamos un modelo de sentimiento para predecir engagement
classifier = pipeline(
    "sentiment-analysis",
    model="cardiffnlp/twitter-roberta-base-sentiment-latest",
    return_all_scores=True
)

def predecir_impacto(titulo):
    resultados = classifier(titulo)
    # Find the score for the positive label ('LABEL_2')
    positivo_score = 0
    for r in resultados[0]: # The classifier returns a list containing one list of dictionaries
        if r['label'] == 'LABEL_2':
            positivo_score = r['score']
            break
    return "ALTO" if positivo_score > 0.7 else "BAJO", positivo_score

# Ejemplo con un nuevo título
titulo_propuesto = "ESTO CAMBIA TODO: RUTINA DE 5 MINUTOS EN CASA"
prediccion, confianza = predecir_impacto(titulo_propuesto)

print(f"📌 Título: {titulo_propuesto}")
print(f"🎯 Predicción de impacto: {prediccion} (Confianza: {confianza:.2f})")

##7. Generar Ideas de Contenido con IA (OpenAI)

In [None]:
# Paso 7: Generar ideas con IA (OpenAI)
print("\n💡 Generando ideas de contenido con IA...")

# ⚠️ Necesitas tu API Key de OpenAI
from google.colab import userdata
import openai

try:
    # Obtiene tu API key desde Google Colab (Secrets)
    openai.api_key = userdata.get('OPENAI_API_KEY')
    client = openai.OpenAI(api_key=openai.api_key)

    prompt = f"""
    Eres Tuya AgencIA, el cerebro estratégico de {contexto_turbofausto['nombre']}.
    Crea una idea de short de YouTube (60 segundos) sobre: 'entrenamiento en casa sin equipo'.

    Formato:
    - Título (impactante)
    - Hook (primeros 3 segundos)
    - Desarrollo (45 segundos)
    - CTA final ({contexto_turbofausto['ctas'][0]})

    Tono: {contexto_turbofausto['tono']}
    """

    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": prompt}],
        max_tokens=300
    )

    idea = response.choices[0].message.content.strip()
    print("🎯 Idea generada por IA:")
    print(idea)

except Exception as e:
    print(f"❌ Error con OpenAI: {e}")
    print("💡 Asegúrate de agregar tu API Key en 'Secrets' como 'OPENAI_API_KEY'")

##8. Guardar Resultados y Conclusión

In [None]:
# Paso 8: Guardar resultados
print("\n Guardando resultados...")

# Añadir idea al CSV
df_resultados = df.copy()
df_resultados['idea_generada'] = idea.split('\n')[0]  # Solo el título
df_resultados.to_csv("turbofausto_resultados.csv", index=False)

# Descargar CSV
from google.colab import files
files.download("turbofausto_resultados.csv")

print("✅ Archivo descargado: turbofausto_resultados.csv")
print("🎉 ¡Tuya AgencIA ha completado el análisis estratégico!")
print("💡 Próximo paso: Automatiza este flujo con Make/Zapier y conviértelo en SaaS.")

##8.1 Integración en Google Colab (Código Ejecutable)

In [None]:
print("🧠 Analizando el impacto emocional de los títulos con Hugging Face...")

from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline
from google.colab import files
import pandas as pd

# Cargar modelo y tokenizador
modelo_sentimiento = "cardiffnlp/twitter-roberta-base-sentiment-latest"
tokenizer = AutoTokenizer.from_pretrained(modelo_sentimiento)
model = AutoModelForSequenceClassification.from_pretrained(modelo_sentimiento)

# Crear pipeline
classifier = pipeline(
    "sentiment-analysis",
    model=model,
    tokenizer=tokenizer,
    return_all_scores=True
)

# Función para analizar un título
def analizar_impacto(titulo):
    resultados = classifier(titulo)
    score_positivo = 0
    # Iterate through the list of dictionaries to find the score for 'LABEL_2'
    for r in resultados[0]:
        if r['label'] == 'LABEL_2':
            score_positivo = r['score']
            break
    return "ALTO" if score_positivo > 0.7 else "BAJO", score_positivo

# Analizar títulos del canal
print("\n📊 Análisis de impacto emocional de los títulos:")
impactos = []
for titulo in df['titulo'][:10]:  # Solo los primeros 10
    prediccion, confianza = analizar_impacto(titulo)
    impactos.append({"titulo": titulo, "impacto": prediccion, "confianza": confianza})
    print(f"  {prediccion} ({confianza:.2f}): {titulo[:60]}...")

# Guardar resultados
df_impacto = pd.DataFrame(impactos)
df_impacto.to_csv("analisis_impacto_titulos.csv", index=False)
files.download("analisis_impacto_titulos.csv")