In [None]:
import numpy as np
import pandas as pd
from googleapiclient.discovery import build


# Configuración de la API de YouTube
api_key = 'AIzaSyAr5xeKq4GIuEq27-zGL477LHnKiE81_fQ'  # Reemplaza con tu clave de API válida
youtube = build('youtube', 'v3', developerKey=api_key)

# Función para obtener videos y detalles relacionados con una búsqueda
def obtener_videos_y_detalles(busqueda, max_results=50):
    """
    Obtiene los videos y detalles de la búsqueda en YouTube.
    
    Args:
        busqueda (str): Término de búsqueda para los videos.
        max_results (int): Número máximo de resultados a obtener (máx. 50).
        
    Returns:
        list: Lista de tuplas que contienen ID, título, canal y URL del video.
    """
    videos = []  # Inicializar lista para almacenar los videos
    search_response = youtube.search().list(
        q=busqueda,
        part='id,snippet',
        maxResults=max_results
    ).execute()  # Realizar la solicitud a la API

    # Procesar los resultados de la búsqueda
    for item in search_response['items']:
        # Verificar que el tipo de item es un video
        if item['id']['kind'] == 'youtube#video':
            video_id = item['id']['videoId']
            video_title = item['snippet']['title']
            canal_title = item['snippet']['channelTitle']
            # Generar la URL del video
            video_url = f"https://www.youtube.com/watch?v={video_id}"
            videos.append((video_id, video_title, canal_title, video_url))  # Almacenar los detalles en la lista

    return videos  # Retornar la lista de videos

# Función para obtener detalles específicos de un video
def obtener_detalles_video(video_id):
    """
    Obtiene detalles estadísticos de un video específico en YouTube.
    
    Args:
        video_id (str): ID del video para obtener detalles.
        
    Returns:
        dict: Diccionario con vistas, suscriptores y número de comentarios.
    """
    video_response = youtube.videos().list(
        part='statistics,snippet',
        id=video_id
    ).execute()  # Realizar la solicitud a la API

    detalles = video_response['items'][0]  # Extraer detalles del video
    vistas = detalles['statistics'].get('viewCount', 0)  # Obtener el conteo de vistas
    likes = detalles['statistics'].get('likeCount', 0)  # Obtener el conteo de likes (opcional)
    canal_id = detalles['snippet']['channelId']  # Obtener el ID del canal

    # Obtener información del canal asociado al video
    canal_response = youtube.channels().list(
        part='statistics',
        id=canal_id
    ).execute()

    subscriptores = canal_response['items'][0]['statistics'].get('subscriberCount', 0)  # Contar suscriptores
    num_comentarios = detalles['statistics'].get('commentCount', 0)  # Obtener número de comentarios

    return {
        'vistas': vistas,
        'subscriptores': subscriptores,
        'num_comentarios': num_comentarios
    }  # Retornar un diccionario con los detalles

# Lista de consultas en diferentes idiomas
consultas = [
    #------# Conjunto de consultas en Español #------#
    'Las mejores Estrategias para Oro Trading',
    'Las mejores Estrategias para XAUUSD Trading',
    'ESTRATEGIAS GANADORAS EN ORO Trading',
    'Estrategias Ganadoras en XAUUSD Trading',
    'estrategias PARA OPERAR xauusd Trading', 
    'Estrategias para operar en oro Trading', 
    'Las mejores Estrategias para Oro', 
    'Las mejores Estrategias para XAUUSD',
    'ESTRATEGIAS GANADORAS EN ORO',
    'Estrategias Ganadoras en XAUUSD',
    'eSTRATEGIAS PARA OPERAR xauusd', 
    'Estrategias para operar en oro',

    #------# Conjunto de consultas en Inglés #------#
    'The best Strategies for Gold Trading',
    'The best Strategies for XAUUSD Trading',
    'Winning Strategies in Gold Trading',
    'Winning Strategies in XAUUSD Trading',
    'Strategies to Trade XAUUSD',
    'Strategies to Trade Gold',
    'The best Strategies for Gold',
    'The best Strategies for XAUUSD',
    'Winning Strategies in Gold',
    'Winning Strategies in XAUUSD',
    'Strategies to Trade XAUUSD',
    'Strategies to Trade Gold',

    #------# Conjunto de consultas en Chino #------#
    '黄金交易的最佳策略',  # Best Strategies for Gold Trading
    'XAUUSD交易的最佳策略',  # Best Strategies for XAUUSD Trading
    '黄金交易的赢家策略',  # Winning Strategies in Gold Trading
    'XAUUSD交易的赢家策略',  # Winning Strategies in XAUUSD Trading
    '交易XAUUSD的策略',  # Strategies to Trade XAUUSD
    '交易黄金的策略',  # Strategies to Trade Gold
    '黄金的最佳策略',  # Best Strategies for Gold
    'XAUUSD的最佳策略',  # Best Strategies for XAUUSD
    '黄金的赢家策略',  # Winning Strategies in Gold
    'XAUUSD的赢家策略',  # Winning Strategies in XAUUSD
    '交易XAUUSD策略',  # Strategies to Trade XAUUSD
    '交易黄金策略',  # Strategies to Trade Gold

    #------# Conjunto de consultas en Ruso #------#
    'Лучшие стратегии для торговли золотом',  # Best Strategies for Gold Trading
    'Лучшие стратегии для торговли XAUUSD',  # Best Strategies for XAUUSD Trading
    'Выигрышные стратегии для торговли золотом',  # Winning Strategies in Gold Trading
    'Выигрышные стратегии для торговли XAUUSD',  # Winning Strategies in XAUUSD Trading
    'Стратегии торговли XAUUSD',  # Strategies to Trade XAUUSD
    'Стратегии торговли золотом',  # Strategies to Trade Gold
    'Лучшие стратегии для золота',  # Best Strategies for Gold
    'Лучшие стратегии для XAUUSD',  # Best Strategies for XAUUSD
    'Выигрышные стратегии для золота',  # Winning Strategies in Gold
    'Выигрышные стратегии для XAUUSD',  # Winning Strategies in XAUUSD
    'Стратегии для торговли XAUUSD',  # Strategies to Trade XAUUSD
    'Стратегии для торговли золотом',  # Strategies to Trade Gold
]

# Iterar sobre cada consulta, obtener videos y guardar los resultados en DataFrames separados
for consulta in consultas:
    videos = obtener_videos_y_detalles(consulta, max_results=100)  # Obtener videos de la consulta

    # Preparar lista para almacenar los datos de cada video
    datos = []
    for video_id, video_title, canal_title, video_url in videos:
        detalles = obtener_detalles_video(video_id)  # Obtener detalles del video
        datos.append({
            'Titulo': video_title,
            'Nombre del Canal': canal_title,
            'Subcriptores': detalles['subscriptores'],
            'Vistas Totales': detalles['vistas'],
            'Numero de Comentarios': detalles['num_comentarios'],
            'Direccion': video_url  # Almacenar la URL del video
        })

    # Crear un DataFrame de pandas con los datos recopilados
    df = pd.DataFrame(datos)
    
    # Asegurarse de que las columnas relevantes son numéricas
    df['Vistas Totales'] = pd.to_numeric(df['Vistas Totales'], errors='coerce')
    df['Subcriptores'] = pd.to_numeric(df['Subcriptores'], errors='coerce')
    df['Numero de Comentarios'] = pd.to_numeric(df['Numero de Comentarios'], errors='coerce')

    # Calcular la columna 'Ratio' utilizando las estadísticas obtenidas
    df['Ratio'] = df['Vistas Totales'] * (df['Subcriptores'] / (df['Vistas Totales'] / df['Subcriptores'])) * (df['Vistas Totales'] / df['Numero de Comentarios'])

    # Guardar cada DataFrame en un archivo CSV diferente, sanitizando el nombre del archivo
    nombre_archivo = consulta.replace(' ', '_').replace('á', 'a').replace('é', 'e').replace('í', 'i').replace('ó', 'o').replace('ú', 'u').replace('ñ', 'n').lower() + '.csv'
    df.to_csv(nombre_archivo, index=False)  # Guardar el DataFrame en un archivo CSV

    # Confirmar la exportación exitosa
    print(f"Resultados guardados en: {nombre_archivo}")  # Mensaje de confirmación

### Limpieza de datos
Comenzaremos a limpiar se hizo una nueva limitacion Que solamente solo se hara un borrado y asignacion a 0 si el video tiene como comentarios y likes el valor de 0 para evitar los inf, se eliminara

In [21]:
import os
import pandas as pd
import numpy as np

def importar_csvs_carpeta(carpeta):
    """
    Importa todos los archivos CSV de la carpeta especificada
    y los almacena en un diccionario de DataFrames.

    Args:
        carpeta (str): La ruta de la carpeta que contiene archivos CSV.

    Returns:
        dict: Un diccionario con DataFrames, donde las claves son 'df1', 'df2', ...
    """
    dataframes = {}
    contador = 1

    # Recorrer todos los archivos en la carpeta
    for archivo in os.listdir(carpeta):
        if archivo.endswith(".csv"):  # Verificar si el archivo es un CSV
            ruta_archivo = os.path.join(carpeta, archivo)
            try:
                # Leer el CSV y almacenarlo en el diccionario
                dataframes[f'df{contador}'] = pd.read_csv(ruta_archivo)
                #print(f'Archivo {archivo} cargado correctamente en df{contador}') Si quieres inspeccionar cada archivo subido elimina el "#" y este texto para saber 
                contador += 1
            except Exception as e:
                print(f'Error al cargar {archivo}: {e}')
    
    return dataframes

def extraer_video_ids(dataframes):
    """
    Extrae el ID del video de la columna 'Direccion' de cada DataFrame.

    Args:
        dataframes (list): Lista de DataFrames.

    Returns:
        None: Modifica los DataFrames en su lugar.
    """
    for df in dataframes:
        df['video_id'] = df['Direccion'].str.replace('https://www.youtube.com/watch?v=', '', regex=False)

def limpiar_datos(df):
    """
    Filtra el DataFrame para eliminar filas con valores no válidos en la columna 'Ratio'.

    Args:
        df (DataFrame): El DataFrame a limpiar.

    Returns:
        DataFrame: El DataFrame limpio.
    """
    return df[~df['Ratio'].isin([0, np.inf]) & ~df['Ratio'].isna()]

def Top_30(ruta_carpeta):
    """
    Procesa los archivos CSV en la carpeta especificada para seleccionar
    los 30 videos con mayor alcance según la columna 'Ratio'.

    Args:
        ruta_carpeta (str): La ruta de la carpeta que contiene archivos CSV.

    Returns:
        DataFrame: Un DataFrame con los 30 videos con mayor 'Ratio'.
    """
    # Importar CSVs
    csvs_en_variables = importar_csvs_carpeta(ruta_carpeta)

    # Crear una lista con todos los DataFrames
    lista_dataframes = list(csvs_en_variables.values())

    # Extraer video IDs
    extraer_video_ids(lista_dataframes)

    # Unificar todos los DataFrames en uno solo
    df_unificado = pd.concat(lista_dataframes, ignore_index=True)

    # Eliminar duplicados basados en la columna 'video_id'
    df_unificado.drop_duplicates(subset=['video_id'], inplace=True)

    # Limpiar datos
    df_unificado = limpiar_datos(df_unificado)

    # Seleccionar los 30 videos con más alcance
    return df_unificado.nlargest(30, 'Ratio')

# Llamadas a la función para diferentes idiomas
resultados = {}
idiomas = ['Español', 'Ingles', 'Chino', 'Ruso']

for idioma in idiomas:
    ruta = f'C:/Users/spinz/OneDrive/Desktop/Proyect article Scientist/Data_Consultas/{idioma}'
    resultados[idioma] = Top_30(ruta)

### Extraccion de subtitulos e los top 30

In [55]:
from youtube_transcript_api import YouTubeTranscriptApi
import pandas as pd
from concurrent.futures import ThreadPoolExecutor, as_completed

def extract_subtitle(video_id):
    """
    Extrae la transcripción de un video de YouTube en varios idiomas.
    
    Parameters:
        video_id (str): ID del video de YouTube.
        
    Returns:
        tuple: Texto completo de la transcripción y el idioma correspondiente,
               o ('Sin subtítulos', None) si no se encuentra.
    """
    # Lista de idiomas permitidos para la transcripción
    idiomas = [
        "en",  # Inglés
        "es",  # Español
        "fr",  # Francés
        "de",  # Alemán
        "it",  # Italiano
        "pt",  # Portugués
        "ru",  # Ruso
        "zh-Hans",  # Chino Simplificado
        "zh-Hant",  # Chino Tradicional
        "ja",  # Japonés
        "ko",  # Coreano
        "ar",  # Árabe
        "tr",  # Turco
        "hi",  # Hindi
        "nl",  # Neerlandés
        "sv",  # Sueco
        "da",  # Danés
        "no",  # Noruego
        "fi",  # Finlandés
        "cs",  # Checo
        "hu",  # Húngaro
        "pl",  # Polaco
        "ro",  # Rumano
        "bg",  # Búlgaro
        "el"   # Griego
    ]
    
    # Intentar obtener la transcripción en cada idioma especificado
    for idioma in idiomas:
        try:
            # Obtener la transcripción del video
            transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=[idioma])
            # Extraer solo el texto de la transcripción
            text_list = [entry['text'] for entry in transcript]
            # Unir todos los textos en un solo párrafo
            full_text = ' '.join(text_list)
            return full_text, idioma  # Devuelve el texto y el idioma de la transcripción
        except Exception as e:
            # Registrar el error específico para facilitar la depuración
            print(f"Error al obtener subtítulos para {video_id} en {idioma}: {e}")
            continue  # Continuar al siguiente idioma si ocurre un error

    return 'Sin subtítulos', None  # Si no se encuentra ninguna transcripción

def extract_subtitles_parallel(df):
    """
    Extrae subtítulos de videos en paralelo y agrega los resultados al DataFrame.
    
    Parameters:
        df (pd.DataFrame): DataFrame que contiene los 'video_id'.
        
    Returns:
        pd.DataFrame: DataFrame actualizado con los resultados de los subtítulos.
    """
    # Usar un ThreadPoolExecutor para ejecutar la función en paralelo
    results = []
    with ThreadPoolExecutor(max_workers=10) as executor:  # Ajustar el número de trabajadores según sea necesario
        # Enviar tareas al executor
        future_to_video = {executor.submit(extract_subtitle, row['video_id']): row for index, row in df.iterrows()}
        for future in as_completed(future_to_video):
            try:
                result = future.result()  # Obtener el resultado de la tarea
                results.append(result)  # Agregar el resultado a la lista
            except Exception as e:
                print(f"Error al procesar: {e}")
                results.append(('Sin subtítulos', None))  # Agregar un valor predeterminado en caso de error

    # Agregar los resultados al DataFrame
    df[['resultado', 'Idioma']] = pd.DataFrame(results, index=df.index)
    return df

# Aplicar la función al DataFrame
Chino = resultados['Chino']
Español = resultados['Español']
Ruso = resultados['Ruso']
Ingles = resultados['Ingles']

# Extraer subtítulos en paralelo
Español = extract_subtitles_parallel(Español)
Ingles = extract_subtitles_parallel(Ingles)
Chino = extract_subtitles_parallel(Chino)
Ruso = extract_subtitles_parallel(Ruso)


Error al obtener subtítulos para pxMDa9Ht2Oc en en: 
Could not retrieve a transcript for the video https://www.youtube.com/watch?v=pxMDa9Ht2Oc! This is most likely caused by:

No transcripts were found for any of the requested language codes: ['en']

For this video (pxMDa9Ht2Oc) transcripts are available in the following languages:

(MANUALLY CREATED)
None

(GENERATED)
 - es ("Spanish (auto-generated)")[TRANSLATABLE]

(TRANSLATION LANGUAGES)
 - ab ("Abkhazian")
 - aa ("Afar")
 - af ("Afrikaans")
 - ak ("Akan")
 - sq ("Albanian")
 - am ("Amharic")
 - ar ("Arabic")
 - hy ("Armenian")
 - as ("Assamese")
 - ay ("Aymara")
 - az ("Azerbaijani")
 - bn ("Bangla")
 - ba ("Bashkir")
 - eu ("Basque")
 - be ("Belarusian")
 - bho ("Bhojpuri")
 - bs ("Bosnian")
 - br ("Breton")
 - bg ("Bulgarian")
 - my ("Burmese")
 - ca ("Catalan")
 - ceb ("Cebuano")
 - zh-Hans ("Chinese (Simplified)")
 - zh-Hant ("Chinese (Traditional)")
 - co ("Corsican")
 - hr ("Croatian")
 - cs ("Czech")
 - da ("Danish")
 - dv 

In [57]:
Chino.to_csv('Resultados/Chino_Dataframe.csv')
Ruso.to_csv('Resultados/Ruso_Dataframe.csv')
Ingles.to_csv('Resultados/Ingles_Dataframe.csv')
Español.to_csv('Resultados/Español_Dataframe.csv')