In [23]:
# === ANALISIS DE POPULARIDAD DE TED TALKS ===
# Aplicacion de Extraccion de Informacion y Comparacion de Modelos ML

print("Iniciando analisis de TED Talks")
print("Dataset: ted_talks_en.csv")
print("Objetivo: Extraccion de informacion + Modelos ML")

# Importar la clase principal que controla todo el flujo
from modules import TedTalkAnalyzer

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

print("Modulos cargados correctamente")

Iniciando analisis de TED Talks
Dataset: ted_talks_en.csv
Objetivo: Extraccion de informacion + Modelos ML
Modulos cargados correctamente


In [24]:
# === CREAR INSTANCIA DEL ANALIZADOR ===

print("Creando instancia del analizador TED Talks...")

# Crear instancia de la clase principal
analyzer = TedTalkAnalyzer()

print("Analizador creado correctamente")
print("Metodos disponibles:")
print("- setup_environment(): Configurar ambiente")
print("- load_data(): Cargar datos")
print("- clean_data(): Limpiar datos")
print("- process_nlp_features(): Procesar NLP")
print("- train_models(): Entrenar modelos ML")
print("- create_visualizations(): Crear graficos")
print("- run_complete_analysis(): Ejecutar todo automaticamente")

Creando instancia del analizador TED Talks...
Analizador creado correctamente
Metodos disponibles:
- setup_environment(): Configurar ambiente
- load_data(): Cargar datos
- clean_data(): Limpiar datos
- process_nlp_features(): Procesar NLP
- train_models(): Entrenar modelos ML
- create_visualizations(): Crear graficos
- run_complete_analysis(): Ejecutar todo automaticamente


In [25]:
# === CONFIGURACION DEL AMBIENTE ===

import time
from datetime import datetime

print("INICIO:", datetime.now().strftime("%H:%M:%S"))
print("Configurando ambiente y dependencias...")
print("Esto puede tomar 2-5 minutos la primera vez")
print("=" * 50)

# Configurar ambiente usando el metodo del analizador
start_time = time.time()
analyzer.setup_environment()
end_time = time.time()

elapsed = end_time - start_time
print(f"\nTiempo total: {elapsed:.1f} segundos")
print(f"COMPLETADO:", datetime.now().strftime("%H:%M:%S"))
print("=" * 50)

INICIO: 05:16:05
Configurando ambiente y dependencias...
Esto puede tomar 2-5 minutos la primera vez

=== CONFIGURANDO AMBIENTE ===
=== CONFIGURACION DEL AMBIENTE ===
Tiempo estimado: 2-5 minutos

PASO 1/3: Instalando 8 paquetes esenciales...
  [1/8] Instalando pandas>=1.3.0... OK
  [2/8] Instalando numpy>=2.0.0... OK
  [3/8] Instalando scikit-learn>=1.0.0... OK
  [4/8] Instalando matplotlib>=3.4.0... OK
  [5/8] Instalando seaborn>=0.11.0... OK
  [6/8] Instalando nltk>=3.7... OK
  [7/8] Instalando textblob>=0.17.0... OK
  [8/8] Instalando tqdm>=4.64.0... OK

Paquetes esenciales: 8/8 instalados

PASO 2/3: Instalando 3 paquetes opcionales...
  [1/3] Instalando plotly>=5.0.0... OK
  [2/3] Instalando spacy>=3.4.0... OK
  [3/3] Instalando wordcloud>=1.8.0... OK

Paquetes opcionales: 3/3 instalados

PASO 3/3: Configurando modelos de NLP...
  Descargando datos NLTK... OK
  Verificando spaCy... No disponible (se usará NLTK)

CONFIGURACION COMPLETADA
=== DESCARGANDO MODELOS TRANSFORMER ===
⚠ Er

In [26]:
# === CARGA DE DATOS ===

print("Cargando dataset ted_talks_en.csv...")

# Cargar datos usando el metodo del analizador
analyzer.load_data('ted_talks_en.csv')

# Mostrar informacion basica
if analyzer.df_original is not None:
    print(f"Dataset cargado exitosamente")
    print(f"Filas: {analyzer.df_original.shape[0]:,}")
    print(f"Columnas: {analyzer.df_original.shape[1]}")
    print(f"Memoria utilizada: {analyzer.df_original.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

    # Mostrar primeras columnas
    print("\nColumnas disponibles:")
    for i, col in enumerate(analyzer.df_original.columns):
        print(f"  {i+1}. {col}")
else:
    print("ERROR: No se pudo cargar el dataset")

Cargando dataset ted_talks_en.csv...

=== CARGANDO DATASET: ted_talks_en.csv ===
✓ Dataset cargado: 4005 filas x 19 columnas

Columnas disponibles:
 1. talk_id
 2. title
 3. speaker_1
 4. all_speakers
 5. occupations
 6. about_speakers
 7. views
 8. recorded_date
 9. published_date
10. event
11. native_lang
12. available_lang
13. comments
14. duration
15. topics
16. related_talks
17. url
18. description
19. transcript
Dataset cargado exitosamente
Filas: 4,005
Columnas: 19
Memoria utilizada: 81.26 MB

Columnas disponibles:
  1. talk_id
  2. title
  3. speaker_1
  4. all_speakers
  5. occupations
  6. about_speakers
  7. views
  8. recorded_date
  9. published_date
  10. event
  11. native_lang
  12. available_lang
  13. comments
  14. duration
  15. topics
  16. related_talks
  17. url
  18. description
  19. transcript


In [27]:
# === LIMPIEZA DE DATOS ===

print("Aplicando limpieza profesional de datos...")

# Limpiar datos usando el metodo del analizador
analyzer.clean_data()

# Mostrar resultados de la limpieza
if analyzer.df_clean is not None:
    original_count = analyzer.df_original.shape[0]
    clean_count = analyzer.df_clean.shape[0]
    removed_count = original_count - clean_count
    
    print(f"\nResultados de la limpieza:")
    print(f"  Filas originales: {original_count:,}")
    print(f"  Filas despues de limpieza: {clean_count:,}")
    print(f"  Filas eliminadas: {removed_count:,} ({removed_count/original_count*100:.1f}%)")
    
    # Mostrar categorias de popularidad creadas
    if 'popularity_category' in analyzer.df_clean.columns:
        print("\nCategorias de popularidad:")
        categories = analyzer.df_clean['popularity_category'].value_counts().sort_index()
        for category, count in categories.items():
            print(f"  {category}: {count:,} videos")
            
    # Mostrar calidad de datos
    if 'data_cleaning' in analyzer.results:
        quality_score = analyzer.results['data_cleaning']['quality_results']['quality_score']
        print(f"\nPuntuacion de calidad de datos: {quality_score:.2f}/10")
else:
    print("ERROR: No se pudo limpiar el dataset")

Aplicando limpieza profesional de datos...

=== LIMPIANDO DATOS ===
Iniciando: Iniciando limpieza profesional de datos
Tiempo de inicio: 05:16:33
[05:16:33] Dataset original: 4005 filas x 19 columnas
[1/4] (25.0%) Eliminando outliers con método IQR... OK
   📊 Analizando distribución de 'views'...
   - Q1 (25%): 882,069
   - Q3 (75%): 2,133,110
   - IQR: 1,251,041
   - Límite inferior: -994,492
   - Límite superior: 4,009,672
   - Outliers identificados: 393 (9.81%)
[05:16:33] Dataset después de eliminar outliers: 3612 filas
[2/4] (50.0%) Limpiando datos textuales... OK
[05:16:33] Procesando columna: title
     - Valores vacíos: 0
     - Longitud promedio: 38.4 caracteres
[05:16:33] Procesando columna: description
     - Valores vacíos: 0
     - Longitud promedio: 352.8 caracteres
[05:16:34] Procesando columna: transcript
     - Valores vacíos: 0
     - Longitud promedio: 9870.6 caracteres
[05:16:36] Procesadas 3 columnas de texto
[3/4] (75.0%) Creando categorías de popularidad... OK
  

In [28]:
# === EXTRACCION DE INFORMACION CON NLP ===

print("Aplicando tecnicas de extraccion de informacion...")
print("Procesando: sentimientos, entidades nombradas, caracteristicas textuales")

# Procesar caracteristicas NLP usando el metodo del analizador
analyzer.process_nlp_features(text_column='transcript_clean')

# Mostrar caracteristicas extraidas
if analyzer.df_processed is not None:
    print(f"\nExtraccion de informacion completada")
    print(f"Dataset procesado: {analyzer.df_processed.shape}")

    # Identificar caracteristicas NLP creadas
    nlp_features = [col for col in analyzer.df_processed.columns if
                   col.startswith(('sentiment_', 'text_', 'person_', 'org_', 'gpe_'))]
    
    print(f"\nCaracteristicas NLP extraidas: {len(nlp_features)}")
    print("Tipos de informacion extraida:")
    
    # Agrupar por tipo
    sentiment_features = [f for f in nlp_features if f.startswith('sentiment_')]
    text_features = [f for f in nlp_features if f.startswith('text_')]
    entity_features = [f for f in nlp_features if f.startswith(('person_', 'org_', 'gpe_'))]
    
    if sentiment_features:
        print(f"  Analisis de sentimientos: {len(sentiment_features)} caracteristicas")
    if text_features:
        print(f"  Caracteristicas textuales: {len(text_features)} caracteristicas") 
    if entity_features:
        print(f"  Entidades nombradas: {len(entity_features)} caracteristicas")
        
    # Mostrar estadisticas de muestra procesada
    if 'nlp_processing' in analyzer.results:
        sample_size = analyzer.results['nlp_processing']['sample_size']
        print(f"\nMuestra procesada: {sample_size} registros")
else:
    print("ERROR: No se pudo procesar las caracteristicas NLP")

Aplicando tecnicas de extraccion de informacion...
Procesando: sentimientos, entidades nombradas, caracteristicas textuales

=== PROCESANDO CARACTERÍSTICAS NLP ===
✗ Error procesando NLP: name 'process_text_features' is not defined


AttributeError: 'TedTalkAnalyzer' object has no attribute 'df_processed'

In [None]:
# === ENTRENAMIENTO Y COMPARACION DE MODELOS ML ===

print("Entrenando y comparando modelos de Machine Learning...")
print("Objetivo: F1-score > 0.78")

# Entrenar modelos usando el metodo del analizador
analyzer.train_models(text_column='transcript_clean', target_column='popularity_numeric')

# Mostrar resultados de los modelos
if 'machine_learning' in analyzer.results:
    ml_results = analyzer.results['machine_learning']['model_results']
    classifier = analyzer.results['machine_learning']['classifier']
    
    print("\nRESULTADOS DE MODELOS:")
    print("=" * 50)
    
    # Mostrar resultados de cada modelo
    for model_name, results in ml_results.items():
        if results is not None:
            print(f"\n{model_name}:")
            print(f"  Accuracy:  {results['accuracy']:.4f}")
            print(f"  Precision: {results['precision']:.4f}")
            print(f"  Recall:    {results['recall']:.4f}")
            print(f"  F1-Score:  {results['f1_score']:.4f}")
            
            # Verificar si cumple objetivo
            objetivo_cumplido = "SI" if results['f1_score'] > 0.78 else "NO"
            print(f"  Objetivo F1>0.78: {objetivo_cumplido}")
    
    # Identificar mejor modelo
    best_model_name, best_model, best_score = classifier.get_best_model()
    print(f"\nMEJOR MODELO: {best_model_name}")
    print(f"F1-Score: {best_score:.4f}")
    
    if best_score > 0.78:
        print("Objetivo cumplido! F1-Score > 0.78")
    else:
        print("Objetivo no cumplido. Considerar mas datos o mejores caracteristicas.")
        
    # Guardar el mejor modelo para referencia
    analyzer.best_model_name = best_model_name
    analyzer.best_f1_score = best_score
else:
    print("ERROR: No se pudieron entrenar los modelos")

Entrenando y comparando modelos de Machine Learning...
Objetivo: F1-score > 0.78

=== ENTRENANDO MODELOS DE MACHINE LEARNING ===
✗ Error entrenando modelos: name 'create_ml_pipeline' is not defined
ERROR: No se pudieron entrenar los modelos


In [None]:
# === METRICAS DE RENDIMIENTO Y VISUALIZACIONES ===

print("Generando metricas de rendimiento y visualizaciones...")

# Crear visualizaciones usando el metodo del analizador
analyzer.create_visualizations()

# Mostrar informacion sobre las visualizaciones creadas
if 'visualizations' in analyzer.results:
    print("\nVisualizaciones creadas exitosamente:")
    
    # Si hay un clasificador disponible, mostrar importancia de caracteristicas
    if hasattr(analyzer, 'best_model_name') and 'machine_learning' in analyzer.results:
        classifier = analyzer.results['machine_learning']['classifier']
        
        print(f"\nImportancia de caracteristicas del mejor modelo ({analyzer.best_model_name}):")
        try:
            feature_importance = classifier.get_feature_importance(analyzer.best_model_name, top_n=10)
            for i, (feature, importance) in enumerate(feature_importance, 1):
                print(f"  {i:2d}. {feature}: {importance:.4f}")
        except Exception as e:
            print(f"  No se pudo obtener importancia de caracteristicas: {e}")
    
    print("\nTipos de visualizaciones disponibles:")
    print("  - Distribucion de datos")
    print("  - Correlaciones entre variables")
    print("  - Metricas de modelos ML")
    print("  - Matrices de confusion")
    print("  - Comparacion de rendimiento")
else:
    print("ERROR: No se pudieron crear las visualizaciones")

print("\nAnalisis completo finalizado")

Generando metricas de rendimiento y visualizaciones...

=== CREANDO VISUALIZACIONES ===
✗ Error creando visualizaciones: name 'print_summary_statistics' is not defined

Visualizaciones creadas exitosamente:

Tipos de visualizaciones disponibles:
  - Distribucion de datos
  - Correlaciones entre variables
  - Metricas de modelos ML
  - Matrices de confusion
  - Comparacion de rendimiento

Analisis completo finalizado


In [None]:
# === RESUMEN FINAL Y CONCLUSIONES ===

print("RESUMEN FINAL DEL ANALISIS:")
print("=" * 50)

# Usar el metodo de resumen final del analizador
analyzer.print_final_summary()

# Informacion adicional sobre el estado del proyecto
print("\nESTADO DEL PROYECTO:")
if hasattr(analyzer, 'best_f1_score'):
    if analyzer.best_f1_score > 0.78:
        print("EXITOSO - Objetivo de F1 > 0.78 cumplido")
    else:
        print("REQUIERE MEJORAS - Objetivo no cumplido")
        print("Recomendaciones:")
        print("  - Aumentar tamano de la muestra")
        print("  - Agregar mas caracteristicas NLP")
        print("  - Probar diferentes algoritmos")
        print("  - Mejorar limpieza de datos")
else:
    print("INCOMPLETO - No se entrenaron modelos")

print("\nACCESO A RESULTADOS:")
print("- analyzer.data_original: Dataset original")
print("- analyzer.data_clean: Dataset limpio")
print("- analyzer.data_processed: Dataset con caracteristicas NLP")
print("- analyzer.results: Diccionario con todos los resultados")

# Mostrar tamanos de datos procesados
if analyzer.df_original is not None:
    print(f"\nTAMANOS DE DATOS:")
    print(f"  Original: {analyzer.df_original.shape}")
if analyzer.df_clean is not None:
    print(f"  Limpio: {analyzer.df_clean.shape}")
if analyzer.df_processed is not None:
    print(f"  Procesado: {analyzer.df_processed.shape}")

print("\nANALISIS COMPLETADO")

RESUMEN FINAL DEL ANALISIS:

📋 RESUMEN FINAL DEL ANÁLISIS
📊 Datos procesados: 4005 → 3612 filas
📈 Calidad de datos: 7.85/10
✅ Pasos completados: 2/6
⚠ Algunos pasos no se completaron correctamente

ESTADO DEL PROYECTO:
INCOMPLETO - No se entrenaron modelos

ACCESO A RESULTADOS:
- analyzer.data_original: Dataset original
- analyzer.data_clean: Dataset limpio
- analyzer.data_processed: Dataset con caracteristicas NLP
- analyzer.results: Diccionario con todos los resultados


AttributeError: 'TedTalkAnalyzer' object has no attribute 'data_original'

In [None]:
# === OPCION: EJECUCION AUTOMATICA COMPLETA ===

print("OPCION ALTERNATIVA: Ejecutar todo el analisis automaticamente")
print("Esta opcion ejecuta todos los pasos en una sola celda")
print("=" * 60)

# Descomenta las siguientes lineas para ejecutar todo automaticamente:

# print("Iniciando analisis automatico...")
# analyzer_auto = TedTalkAnalyzer()
# results = analyzer_auto.run_complete_analysis('ted_talks_en.csv')
# print("Analisis automatico completado")

print("\nEsta opcion automatica ejecuta:")
print("  1. Configuracion del ambiente")
print("  2. Carga de datos") 
print("  3. Limpieza de datos")
print("  4. Extraccion de informacion NLP")
print("  5. Entrenamiento de modelos ML")
print("  6. Creacion de visualizaciones")
print("  7. Resumen final")

print("\nResultado esperado: F1-score > 0.78 en el mejor modelo")
print("Tiempo estimado: 5-10 minutos")
print("Dataset optimizado para extraccion de informacion de ted_talks_en.csv")

print("\nPara usar esta opcion:")
print("1. Descomenta las lineas 7-10")
print("2. Ejecuta esta celda")
print("3. Los resultados estaran en 'analyzer_auto' y 'results'")