## Uso YT dlp para la demo, scrapping basico de metadatos. Quiza tengo que pasar a una api oficial para que sea mas estable o tener acceso a mas datos

In [5]:
import yt_dlp
import json
import time

lista_canales = [
    "https://www.youtube.com/@BabyBusES",
    "https://www.youtube.com/@SmileandLearnEspa%C3%B1ol",
    "https://www.youtube.com/@creativoskids",
    "https://www.youtube.com/@JuguetesyColores",
    "https://www.youtube.com/@GenevievesPlayhouse",
    "https://www.youtube.com/@GamingWithGTA00",
    "https://www.youtube.com/@videosdejuguetespawpatrole5118",
]

def scrapear_lista_canales(urls):
    ydl_opts = {
        'quiet': True,
        'extract_flat': True,  # (solo metadatos)
        'playlistend': 10,     # L√≠mite de videos
        'ignoreerrors': True,  
        'no_warnings': True,
        # 'sleep_interval': 1,
    }

    resultados = []

    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        
        for index, url in enumerate(urls):
            
            try:
                # Extraemos la info
                info = ydl.extract_info(url, download=False)
                
                # A veces yt-dlp devuelve None si la url est√° mal
                if not info:
                    print(f" No se pudo obtener info de {url}")
                    continue

                # Estructuramos los datos
                datos = {
                    "id_canal": info.get('id'),
                    "nombre": info.get('uploader') or info.get('title'),
                    "descripcion": info.get('description', ''),
                    "suscriptores": info.get('channel_follower_count'),
                    "url_origen": url,
                    # Juntamos los t√≠tulos de los videos en una lista simple
                    "videos_recientes": []
                }

                # Extraer videos (validando que existan entradas)
                if 'entries' in info:
                    for video in info['entries']:
                        if video and video.get('title'):
                            datos["videos_recientes"].append(video.get('title'))
                
                resultados.append(datos)
                print(f"    OK: {datos['nombre']} ({len(datos['videos_recientes'])} videos)")

            except Exception as e:
                print(f"    Error en este canal: {str(e)}")

    return resultados

# --- EJECUCI√ìN ---

start = time.time()
data_scraped = scrapear_lista_canales(lista_canales)
end = time.time()

print(f"\n‚ú® Proceso terminado en {end - start:.2f} segundos.")

# 2. Guardar en un archivo JSON (Esto es lo que usar√° tu IA despu√©s)
nombre_archivo = "dataset_canales.json"
with open(nombre_archivo, 'w', encoding='utf-8') as f:
    json.dump(data_scraped, f, ensure_ascii=False, indent=4)

print(f"üìÇ Datos guardados en '{nombre_archivo}'.")

    OK: BabyBus - Canciones Infantiles & Videos para Ni√±os (3 videos)
    OK: Smile and Learn - Espa√±ol (3 videos)
    OK: Creativos Kids (2 videos)
    OK: Juguetes y Colores (10 videos)
    OK: Genevieve's Playhouse - Learning Videos for Kids (2 videos)
    OK: Gaming With GTA  (10 videos)
    OK: Videos de juguetes Paw Patrol en espa√±ol (10 videos)

‚ú® Proceso terminado en 4.43 segundos.
üìÇ Datos guardados en 'dataset_canales.json'.


In [2]:
import json
import time
from sentence_transformers import SentenceTransformer, util

try:
    with open('dataset_canales.json', 'r', encoding='utf-8') as f:
        datos_canales = json.load(f)
    print(f"   --> {len(datos_canales)} canales cargados.")
except FileNotFoundError:
    print(" Error: No encontr√© el archivo 'dataset_canales.json'. Ejecuta el scraper primero.")
    exit()

# El modelo necesita un solo texto por canal para entender de qu√© trata.
corpus_textos = []

for canal in datos_canales:
    # Unimos los titulos de videos con comas
    txt_videos = ", ".join(canal.get('videos_recientes', []))
    
    # Creamos el texto maestro para la IA
    # "Nombre: [X]. Descripci√≥n: [Y]. Contenido reciente: [Z]"
    texto_full = f"Canal: {canal['nombre']}. Descripci√≥n: {canal['descripcion']}. Temas de videos: {txt_videos}"
    
    corpus_textos.append(texto_full)

# --- INDEXACI√ìN  ---
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

embeddings_db = model.encode(corpus_textos, convert_to_tensor=True)

def buscar(query_usuario, top_k=3):
    start_time = time.time()
    
    # Vectorizamos lo que escribi√≥ el usuario
    query_embedding = model.encode(query_usuario, convert_to_tensor=True)
    
    # Buscamos similitud
    hits = util.semantic_search(query_embedding, embeddings_db, top_k=top_k)
    
    print(f" B√∫squeda: '{query_usuario}' ({time.time() - start_time:.4f} seg)")
    
    for hit in hits[0]:
        score = hit['score']
        id_canal = hit['corpus_id'] # El √≠ndice en la lista original
        canal_original = datos_canales[id_canal] # Recuperamos el objeto JSON original
        
        # Filtro de calidad
        if score < 0.25: 
            continue
            
        print(f" Match: {score:.2f} | {canal_original['nombre']}")
        # por que hizo match?
        print(f"      (Contexto: {canal_original['videos_recientes'][:2]}...)")
    print("-" * 30)

# --- PRUEBAS ---
# Ahora simulamos las queries libres de tus clientes
buscar("videos")
buscar("aprender")
buscar("juegos")
buscar("tutoriales")
buscar("dibujos animados para bebes")
buscar("ni√±os creativos")
buscar("diversion")
buscar("jugar")

   --> 7 canales cargados.


Loading weights: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 199/199 [00:00<00:00, 563.98it/s, Materializing param=pooler.dense.weight]                               
BertModel LOAD REPORT from: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


 B√∫squeda: 'videos' (0.0274 seg)
 Match: 0.49 | Genevieve's Playhouse - Learning Videos for Kids
      (Contexto: ["Genevieve's Playhouse - Learning Videos for Kids - Videos", "Genevieve's Playhouse - Learning Videos for Kids - Shorts"]...)
 Match: 0.49 | Videos de juguetes Paw Patrol en espa√±ol
      (Contexto: ['We play and learn to brush our teeth with the puppies', 'Paw Patrol visits the aquarium üê†‚ú® | Daycare']...)
 Match: 0.46 | Creativos Kids
      (Contexto: ['Creativos Kids - Videos', 'Creativos Kids - Shorts']...)
------------------------------
 B√∫squeda: 'aprender' (0.0235 seg)
 Match: 0.48 | Smile and Learn - Espa√±ol
      (Contexto: ['Smile and Learn - Espa√±ol - Videos', 'Smile and Learn - Espa√±ol - Live']...)
 Match: 0.43 | Genevieve's Playhouse - Learning Videos for Kids
      (Contexto: ["Genevieve's Playhouse - Learning Videos for Kids - Videos", "Genevieve's Playhouse - Learning Videos for Kids - Shorts"]...)
 Match: 0.37 | Juguetes y Colores
      (Contexto


#### *VOLVAMOS A INTENTAR, USANDO LA BASE DE DATOS QUE YA TENEMOS EN KIDSCORP YT*


In [3]:
import os
import pickle  # <--- Librer√≠a para guardar archivos

# Nombre del archivo donde guardaremos los "cerebros"
ARCHIVO_EMBEDDINGS = "embeddings_cache.pkl"

def cargar_o_generar_embeddings(df):
    # 1. ¬øYa existe el archivo guardado?
    if os.path.exists(ARCHIVO_EMBEDDINGS):
        print(f"üíæ Cargando embeddings desde '{ARCHIVO_EMBEDDINGS}'...")
        with open(ARCHIVO_EMBEDDINGS, 'rb') as f:
            datos_guardados = pickle.load(f)
            # Verificamos que coincidan con los datos actuales (opcional pero recomendado)
            if len(datos_guardados) == len(df):
                print("‚úÖ Embeddings cargados exitosamente.")
                return datos_guardados
            else:
                print(" Recalculando embeddings...")

    # 2. Si no existe o cambiaron los datos, generamos de cero
    model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
    
    # Aseg√∫rate de haber creado la columna 'texto_para_ia' antes
    embeddings = model.encode(df['texto_para_ia'].tolist(), convert_to_tensor=True)
    
    # 3. Guardamos para la pr√≥xima
    print(f"üíæ Guardando en '{ARCHIVO_EMBEDDINGS}' para el futuro...")
    with open(ARCHIVO_EMBEDDINGS, 'wb') as f:
        pickle.dump(embeddings, f)
        
    return embeddings

In [4]:
import os
import psycopg2
import pandas as pd
from sentence_transformers import SentenceTransformer, util
import time
from dotenv import load_dotenv

# Carga las variables
load_dotenv(override=True)

def obtener_datos():
    conn = None
    try:
        conn = psycopg2.connect(
            host=os.getenv("DB_HOST"),
            database=os.getenv("DB_NAME"),
            user=os.getenv("DB_USER"),
            password=os.getenv("DB_PASS"),
            port="5432",
            sslmode="require"
        )
        
        query = """
            SELECT channel_title, channel_description, channel_bs_ch_keywords 
            FROM ods.tbl_canales 
            LIMIT 10000;
        """
        
        df = pd.read_sql_query(query, conn)
        return df

    except Exception as e:
        print(f"Error al conectar: {str(e)}")
        return pd.DataFrame()
    finally:
        if conn: conn.close()

# --- PROCESO PRINCIPAL ---
start = time.time()

# 1. Obtener Datos
df_canales = obtener_datos()

if df_canales.empty:
    print(" No se descargaron datos.")
    exit()

# Rellenamos los NULLs con texto vac√≠o para que no explote la IA
df_canales = df_canales.fillna('')

# 3. CREAR TEXTO ENRIQUECIDO
# Juntamos T√≠tulo + Descripci√≥n + Keywords en una sola columna para la IA
df_canales['texto_para_ia'] = (
    "Canal: " + df_canales['channel_title'] + ". " +
    "Descripci√≥n: " + df_canales['channel_description'] + ". " +
    "Keywords: " + df_canales['channel_bs_ch_keywords']
)

# 4. VECTORIZAR
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# 2. En lugar de llamar a model.encode directo, llamas a la funci√≥n inteligente
embeddings_sb = cargar_o_generar_embeddings(df_canales)

print(f" Proceso terminado en {time.time() - start:.2f} segundos.")
print(f" Canales procesados: {len(df_canales)}")
# --- TEST DE B√öSQUEDA ---
def buscar(query_usuario):
    query_vec = model.encode(query_usuario, convert_to_tensor=True)
    hits = util.semantic_search(query_vec, embeddings_sb, top_k=100)
    
    for hit in hits[0]:
        idx = hit['corpus_id']
        info_canal = df_canales.iloc[idx]
        print(f" {hit['score']:.2f} | {info_canal['channel_title']}")

# Pru√©balo aqu√≠ mismo
buscar("videos de manualidades para ni√±os")
buscar("gameplay de minecraft")

  df = pd.read_sql_query(query, conn)
Loading weights: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 199/199 [00:00<00:00, 453.12it/s, Materializing param=pooler.dense.weight]                               
BertModel LOAD REPORT from: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


üíæ Cargando embeddings desde 'embeddings_cache.pkl'...
‚úÖ Embeddings cargados exitosamente.
 Proceso terminado en 25.14 segundos.
 Canales procesados: 10000
 0.79 | KiKi-RiKi Videos Infantiles para ni√±os
 0.74 | Juntines Planes
 0.73 | Marie Leiner
 0.72 | Bee Brinquedos
 0.72 | Video Juguetes
 0.71 | Daniel Alon.Videos educativos y entretenidos.
 0.70 | Manualidades Para Todos
 0.70 | Bluey y BurriKiKi
 0.69 | Ensinando meu filho
 0.67 | HooplaKidz Edu - Educational Videos For Kids
 0.67 | Dolly & Amigos em Portugu√™s - Brasil
 0.67 | INGL√âS EnSimplesPalabras
 0.66 | Brinquedoteca da Geni
 0.66 | ¬°Oh, se da√±√≥! 
 0.66 | LOS JUEGOS INFANTILES DE OLGA
 0.65 | Betinha ARTEIRA
 0.64 | LUNAVENTURAS
 0.64 | Maria Clara y JP en espa√±ol
 0.64 | Mimonona Stories
 0.63 | Flash Videos - Craft
 0.63 | guiainfantil
 0.63 | FamilyTube
 0.63 | ByGuillex
 0.63 | Chipobre
 0.62 | Dima y Coches
 0.62 | Dibujitos para ti
 0.62 | WildBrain Peques
 0.61 | Talentos en Manualidades
 0.61 | Momentos 

In [5]:
buscar("canciones")
buscar("aprender idiomas")
buscar("poopie")
buscar("mrbeast")

 0.65 | Canciones De Amor
 0.64 | Sarah Cabello
 0.63 | Lyrics Music
 0.63 | CancionesDivertidasNi√±os
 0.61 | Apertei, mandei!
 0.60 | SYML
 0.60 | Timeless Music
 0.60 | Reggaeton Music
 0.59 | Encanta M√∫sica
 0.59 | Romantic Music
 0.59 | Kids Songs & Stories
 0.58 |  Kasterwey Music ec
 0.58 | AKAPELA RECORDS
 0.58 | Leord music
 0.58 | PeeWee Music
 0.58 | Mainstage
 0.57 | Julmer Music
 0.57 | DubonÊÑõ
 0.57 | Mayr√© Mart√≠nez
 0.57 | Best Of Rock Music
 0.57 | Ovy On The Drums
 0.57 | Apples and Bananas Portugu√™s - Can√ß√£o Infantil
 0.57 | Alex Boye
 0.57 | Mental music ent
 0.56 | Secplay
 0.56 | 7k7music
 0.56 | REGGAE MUSIC
 0.56 | Dream Music
 0.56 | Love Songs Collection
 0.56 | Melissa Music
 0.56 | XTRAKY MUSIC
 0.56 | Lyrics Corner
 0.56 | Charlie Parra del Riego
 0.56 | LEFUL MUSIC
 0.56 | Amasing Music
 0.56 | Mix of Indie Mainstream Music
 0.56 | GAL√ÅXIA Music
 0.56 | Yare Music
 0.55 | Music L.A
 0.55 | Radio Rock Music
 0.55 | Tyana Music
 0.55 | Nogastic Music


### La base de datos vectorial eventualmente se puede guardar en postgreSQL, aunque la base de datos necesita tener instalada la extension *vector*

### Proximos pasos :
#### Mejorar la recopilacion de data. Usar la base de datos que tenemos, y descargar descripciones ultimos 10 videos y si podemos integrar el trafico de cada canal al sistema. Osea, cuantos seguidores tiene (mas asincronico) y cuanto trafico relativo tuvo en el ultimo tiempo asi nos aseguramos de que tengan un buen potencial de generacion de impresiones.
#### Convertir en clases y modularizar.
#### Pensar algun metodo de benchmark.
#### Investigar que hace la funcion semantic search (seguro es cosine similarity pero quiza hay una variante mas util para este problema).
#### Determinar modos de busqueda, osea si van a ser una palabra solo, varias palabras, ambas. Ver lo de la negativa (como hago para notBuscar, funcion aparte o puedo hacerlo todo junto?)(no quiero videos de futbol, por ejemplo)


<span style="color:green">Notas anteriores:</span>

<span style="color:white">Podria hacer un funnel con embeddings - ReRankers, pero creo que para este caso no es muy necesario (se usa para evitar fallas en entender el contexto, el reranker "lee la frase completa")

Quiza pifia con nombre inventados, por ejemplo si alguien le pinta buscar mrbeast puede no salir (solucion hibrida con un tf-idf, para resultados mas exactos)</span>
#### Definir estructura de datos
#### Integrar el grafo que tenemos (?)
#### Necesito tener una cuenta en hugging face para que el modelo pueda administrar mas rapido el trafico

In [9]:
## Codigo para la negativa, aritmetica de vectores
import numpy as np
from sentence_transformers import util
def buscar_con_negativa(query_positiva,query_negativa=None):
    vec_pos = model.encode(query_positiva, convert_to_tensor=True)
    vector_final = vec_pos

    if query_negativa:
        vec_neg = model.encode(query_negativa, convert_to_tensor=True)
        vector_final = vec_pos - vec_neg
        vector_final = vec_pos - (vec_neg * 0.5) ### 0.5 actua como hyperparametro, se puede retocar para mejores resultados

    hits = util.semantic_search(vector_final, embeddings_sb, top_k=10)
    for hit in hits[0]:
        idx = hit['corpus_id']
        titulo = df_canales.iloc[idx]['channel_title']
        desc = df_canales.iloc[idx]['channel_description'][:60] 
        print(f" {hit['score']:.3f} | {titulo} ({desc}...)")
buscar_con_negativa("animales")
print("--- BUSQUEDA CON NEGATIVA ---")
buscar_con_negativa("animales","Rex")

    # Esto tambien se puede hacer con un filtro mas duro, como un if que me saque los resultados que contengan cierta palabra

 0.625 | Animales Mecanimales - WildBrain (Conoce a los Animal Mechanical: Rex, Unicorn, Komodo, Squatc...)
 0.583 | Siux (CR7 THE GOAT...)
 0.553 | XAVI MONSI (HOLAAA... soy POLAR üê∂, en este canal mi papi y yo probamos c...)
 0.544 | 100%JC (üëä...)
 0.535 | Curiosidade Animal (Bem vindo ao canal Curiosidade Animal!N√≥s do Curiosidade Ani...)
 0.516 | animaLize21 (Hola soy animalize, intento hacer v√≠deos graciosos...)
 0.516 | Todo Sobre el Perro (¬°¬°Hola amigos perreros!! Si el mundo de los perros te apasio...)
 0.509 | Chips_Robloxüíö (CLICK AQUI Holaüêà‚Äç‚¨õü¶ÅüêÖ me gustan los animales y empezare a  su...)
 0.507 | Wolf Pica en Espa√±ol (Bienvenido a theWolf Pica en Espa√±olWolf Pica es un lindo lo...)
 0.503 | Orphle Brasil - Desenhos Animados em Portugu√™s ("Mila e o animal de estima√ß√£o mais m√°gico de todos, Morphle,...)
--- BUSQUEDA CON NEGATIVA ---
 0.427 | Todo Sobre el Perro (¬°¬°Hola amigos perreros!! Si el mundo de los perros te apasio...)
 0.406 | CartoonKiD