<div style="background-color: #fffacd; color: #000; padding: 20px; margin: 10px; border-left: 5px solid #f0c040; border-radius: 5px;">

# An√°lisis de Popularidad de TED Talks mediante Procesamiento de Lenguaje Natural

## Proyecto Final - Materia de NLP

### Equipo de Trabajo
- **Manuel Rodriguez** - ID: 1015-0681  
- **Carolina Bencosme** - ID: 1014-8929  
- **Cristian de la Hoz** - ID: 1014-9779  

**Fecha:** Agosto 2025  
**Objetivo:** Determinar los factores que hacen popular un TED Talk utilizando t√©cnicas avanzadas de extracci√≥n de informaci√≥n y machine learning

---

### üî¥ IMPORTANTE - Repositorio GitHub

<div style="background-color: #ffebee; border: 3px solid #e53e3e; padding: 15px; margin: 10px 0; border-radius: 8px;">
<h4 style="color: #c53030; margin-top: 0;">üìç UBICACI√ìN DEL PROYECTO COMPLETO</h4>

**El proyecto se encuentra en GitHub, no fue subido junto con el resto de la asignaci√≥n debido al l√≠mite en la PVA. El proyecto se vio en la necesidad de ser modularizado debido a que era bastante extenso, incluso luego de hacerlo el mismo sigue siendo muy extenso.**

**Para visualizar las implementaciones completas, favor de dirigirse al repositorio:**

üîó **https://github.com/cristiandelahooz/data-extraction-TED-Talks-transcripts-for-NLP**

</div>

---

### Resumen Ejecutivo

Este proyecto analiza el dataset `ted_talks_en.csv` para identificar patrones que determinan la popularidad de las charlas TED. Mediante t√©cnicas de NLP como Named Entity Recognition (NER), an√°lisis de sentimientos y extracci√≥n de caracter√≠sticas textuales, se entrenan m√∫ltiples modelos de machine learning para clasificar videos en categor√≠as de popularidad.

**Meta Principal:** Alcanzar un F1-score superior a 0.78 en la clasificaci√≥n de popularidad.

### Estructura del Proyecto

``` bash
data-extraction-TED-Talks-transcripts-for-NLP/
‚îú‚îÄ‚îÄ final-project.ipynb          # Notebook principal documentado
‚îú‚îÄ‚îÄ ted_talks_en.csv            # Dataset de TED Talks
‚îú‚îÄ‚îÄ model_summary.txt           # Resumen de resultados de modelos
‚îî‚îÄ‚îÄ modules/                    # M√≥dulos especializados
    ‚îú‚îÄ‚îÄ __init__.py            # Importaciones principales
    ‚îú‚îÄ‚îÄ environment_setup.py   # Configuraci√≥n de ambiente NLP
    ‚îú‚îÄ‚îÄ data_cleaner.py        # Limpieza profesional de datos
    ‚îú‚îÄ‚îÄ nlp_processor.py       # Extracci√≥n de caracter√≠sticas NLP
    ‚îú‚îÄ‚îÄ ml_models.py           # Entrenamiento de modelos ML
    ‚îú‚îÄ‚îÄ visualizer.py          # Generaci√≥n de gr√°ficos
    ‚îî‚îÄ‚îÄ progress_tracker.py    # Monitoreo de progreso
```

**Arquitectura Modular:** Cada m√≥dulo tiene una responsabilidad espec√≠fica, facilitando mantenimiento, testing y escalabilidad del sistema.

</div>

In [9]:
# === ANALISIS DE POPULARIDAD DE TED TALKS ===
# Aplicacion de Extraccion de Informacion y Comparacion de Modelos ML

# Importar la clase principal que controla todo el flujo
from modules import TedTalkAnalyzer

import warnings
warnings.filterwarnings('ignore')

print("Modulos cargados correctamente")

Modulos cargados correctamente


<div style="background-color: #fffacd; color: #000; padding: 20px; margin: 10px; border-left: 5px solid #f0c040; border-radius: 5px;">

## 1. Importaci√≥n de M√≥dulos y Configuraci√≥n Inicial

### Prop√≥sito
Esta secci√≥n inicial configura el entorno de trabajo importando la clase principal `TedTalkAnalyzer` que encapsula toda la l√≥gica del an√°lisis. Esta aproximaci√≥n modular permite mantener el c√≥digo organizado y reutilizable.

### T√©cnicas Empleadas
- **Arquitectura Modular:** Separaci√≥n de responsabilidades en diferentes m√≥dulos especializados
- **Supresi√≥n de Warnings:** Para mantener la salida limpia durante el procesamiento
- **Importaci√≥n Din√°mica:** Los m√≥dulos se cargan bajo demanda para optimizar memoria

### M√≥dulos Principales del Sistema
1. **`environment_setup.py`:** Gesti√≥n de dependencias y configuraci√≥n del entorno
2. **`data_cleaner.py`:** Limpieza y preprocesamiento de datos con est√°ndares industriales
3. **`nlp_processor.py`:** T√©cnicas avanzadas de NLP (NER, sentimientos, features textuales)
4. **`ml_models.py`:** Entrenamiento y evaluaci√≥n de modelos de machine learning
5. **`visualizer.py`:** Generaci√≥n de gr√°ficos y m√©tricas de rendimiento
6. **`progress_tracker.py`:** Monitoreo en tiempo real del progreso

### Beneficios de esta Arquitectura
- **Mantenibilidad:** Cada m√≥dulo tiene una responsabilidad espec√≠fica
- **Escalabilidad:** F√°cil agregar nuevas t√©cnicas sin afectar el c√≥digo existente
- **Reutilizaci√≥n:** Los m√≥dulos pueden usarse en otros proyectos de NLP
- **Testing:** Cada componente puede probarse independientemente

</div>

In [10]:
# === CREAR INSTANCIA DEL ANALIZADOR ===

print("Creando instancia del analizador TED Talks...")

# Crear instancia de la clase principal
analyzer = TedTalkAnalyzer()

print("Analizador creado correctamente")
print("Metodos disponibles:")
print("- setup_environment(): Configurar ambiente")
print("- load_data(): Cargar datos")
print("- clean_data(): Limpiar datos")
print("- process_nlp_features(): Procesar NLP")
print("- train_models(): Entrenar modelos ML")
print("- create_visualizations(): Crear graficos")
print("- run_complete_analysis(): Ejecutar todo automaticamente")

Creando instancia del analizador TED Talks...
Analizador creado correctamente
Metodos disponibles:
- setup_environment(): Configurar ambiente
- load_data(): Cargar datos
- clean_data(): Limpiar datos
- process_nlp_features(): Procesar NLP
- train_models(): Entrenar modelos ML
- create_visualizations(): Crear graficos
- run_complete_analysis(): Ejecutar todo automaticamente


<div style="background-color: #fffacd; color: #000; padding: 20px; margin: 10px; border-left: 5px solid #f0c040; border-radius: 5px;">

## 2. Inicializaci√≥n del Analizador Principal

### Prop√≥sito
Crear una instancia de la clase `TedTalkAnalyzer` que actuar√° como el controlador central de todo el pipeline de an√°lisis. Esta clase implementa el patr√≥n **Factory** y **Pipeline** para gestionar el flujo completo de datos.

### M√©todos Disponibles del Analizador

#### M√©todos Individuales (Para Control Granular)
- **`setup_environment()`:** Configura dependencias, descarga modelos NLP y prepara el entorno
- **`load_data()`:** Carga y valida el dataset inicial
- **`clean_data()`:** Aplica t√©cnicas de limpieza profesional de datos
- **`process_nlp_features()`:** Extrae caracter√≠sticas mediante NLP avanzado
- **`train_models()`:** Entrena y compara m√∫ltiples algoritmos de ML
- **`create_visualizations()`:** Genera gr√°ficos y m√©tricas de rendimiento

#### M√©todo Automatizado
- **`run_complete_analysis()`:** Ejecuta todo el pipeline autom√°ticamente

### Beneficios del Patr√≥n Pipeline
1. **Trazabilidad:** Cada paso puede ejecutarse y verificarse independientemente
2. **Debugging:** Si hay errores, se puede identificar exactamente d√≥nde ocurrieron
3. **Experimentaci√≥n:** Permite probar diferentes configuraciones en pasos espec√≠ficos
4. **Reproducibilidad:** El mismo pipeline garantiza resultados consistentes

### Relaci√≥n con el An√°lisis Global
Esta instancia mantendr√° todo el estado del an√°lisis (datos originales, procesados, modelos entrenados, resultados) permitiendo acceso consistente a trav√©s de todo el notebook.

</div>

In [11]:
# === CONFIGURACION DEL AMBIENTE ===

import time
from datetime import datetime

print("INICIO:", datetime.now().strftime("%H:%M:%S"))
print("Configurando ambiente y dependencias...")
print("Esto puede tomar 2-5 minutos la primera vez")
print("=" * 50)

# Configurar ambiente usando el metodo del analizador
start_time = time.time()
analyzer.setup_environment()
end_time = time.time()

elapsed = end_time - start_time
print(f"\nTiempo total: {elapsed:.1f} segundos")
print(f"COMPLETADO:", datetime.now().strftime("%H:%M:%S"))
print("=" * 50)

INICIO: 11:35:26
Configurando ambiente y dependencias...
Esto puede tomar 2-5 minutos la primera vez

=== CONFIGURANDO AMBIENTE ===
=== CONFIGURACION DEL AMBIENTE ===
Tiempo estimado: 2-5 minutos

PASO 1/3: Instalando 8 paquetes esenciales...
  [1/8] Instalando pandas>=1.3.0... OK
  [2/8] Instalando numpy>=2.0.0... OK
  [3/8] Instalando scikit-learn>=1.0.0... OK
  [4/8] Instalando matplotlib>=3.4.0... OK
  [5/8] Instalando seaborn>=0.11.0... OK
  [6/8] Instalando nltk>=3.7... OK
  [7/8] Instalando textblob>=0.17.0... OK
  [8/8] Instalando tqdm>=4.64.0... OK

Paquetes esenciales: 8/8 instalados

PASO 2/3: Instalando 3 paquetes opcionales...
  [1/3] Instalando plotly>=5.0.0... OK
  [2/3] Instalando spacy>=3.4.0... OK
  [3/3] Instalando wordcloud>=1.8.0... OK

Paquetes opcionales: 3/3 instalados

PASO 3/3: Configurando modelos de NLP...
  Descargando datos NLTK...OK
  Verificando spaCy...

[nltk_data] Downloading package punkt_tab to
[nltk_data]     /teamspace/studios/this_studio/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /teamspace/studios/this_studio/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package vader_lexicon to
[nltk_data]     /teamspace/studios/this_studio/nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


 OK

CONFIGURACION COMPLETADA
‚úì GPU disponible: Tesla T4
‚úì spaCy cargado correctamente
‚úì NLTK configurado correctamente
Ambiente configurado correctamente

Tiempo total: 38.7 segundos
COMPLETADO: 11:36:04


<div style="background-color: #fffacd; color: #000; padding: 20px; margin: 10px; border-left: 5px solid #f0c040; border-radius: 5px;">

## 3. Configuraci√≥n del Ambiente y Dependencias

### Prop√≥sito
Preparar todo el entorno computacional necesario para el an√°lisis avanzado de NLP. Este paso es cr√≠tico porque descarga y configura modelos pre-entrenados, librer√≠as especializadas y datos auxiliares.

### Componentes que se Configuran

#### Librer√≠as de NLP
- **NLTK:** Descarga de corpora (stopwords, punkt tokenizer, VADER lexicon)
- **spaCy:** Modelo `en_core_web_sm` para NER y an√°lisis sint√°ctico
- **Hugging Face:** Modelos pre-entrenados para an√°lisis de sentimientos avanzado

#### Optimizaciones de Rendimiento
- **Cach√© Inteligente:** Evita descargas repetidas si los modelos ya existen
- **Verificaci√≥n de Integridad:** Valida que todos los modelos se descargaron correctamente
- **Gesti√≥n de Memoria:** Configuraci√≥n √≥ptima para procesamiento de texto grande

### T√©cnicas Empleadas

#### ¬øPor qu√© este paso toma tiempo?
La primera ejecuci√≥n descarga varios GB de datos:
- Modelo spaCy en_core_web_sm (~50MB)
- Corpora de NLTK (~200MB)
- Vocabularios y embeddings pre-entrenados

#### Estrategia de Cach√©
El sistema implementa cach√© persistente que:
1. Verifica si los modelos ya est√°n instalados
2. Solo descarga componentes faltantes
3. Valida integridad de archivos existentes

### Resultados Esperados
-  Todos los modelos NLP listos para usar
-  Configuraci√≥n optimizada de memoria
-  Verificaci√≥n de compatibilidad de versiones
- Ô∏è Tiempo t√≠pico: 2-5 minutos (primera vez), <30 segundos (subsecuentes)

### Relaci√≥n con el An√°lisis Global
Sin este paso, las t√©cnicas avanzadas de NLP no funcionar√≠an. Es la base que permite:
- Reconocimiento preciso de entidades nombradas
- An√°lisis de sentimientos con modelos state-of-the-art
- Tokenizaci√≥n y lemmatizaci√≥n eficientes

</div>

In [12]:
# === CARGA DE DATOS ===

print("Cargando dataset ted_talks_en.csv...")

# Cargar datos usando el metodo del analizador
analyzer.load_data('ted_talks_en.csv')

# Mostrar informacion basica
if hasattr(analyzer, 'data') and analyzer.data is not None:
    print(f"Dataset cargado exitosamente")
    print(f"Filas: {analyzer.data.shape[0]:,}")
    print(f"Columnas: {analyzer.data.shape[1]}")
    print(f"Memoria utilizada: {analyzer.data.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
    
    # Mostrar primeras columnas
    print("\nColumnas disponibles:")
    for i, col in enumerate(analyzer.data.columns):
        print(f"  {i+1}. {col}")
else:
    print("ERROR: No se pudo cargar el dataset")

Cargando dataset ted_talks_en.csv...

=== CARGANDO DATASET: ted_talks_en.csv ===
Dataset cargado: 4005 filas x 19 columnas

Columnas disponibles:
 1. talk_id
 2. title
 3. speaker_1
 4. all_speakers
 5. occupations
 6. about_speakers
 7. views
 8. recorded_date
 9. published_date
10. event
11. native_lang
12. available_lang
13. comments
14. duration
15. topics
16. related_talks
17. url
18. description
19. transcript
Dataset cargado exitosamente
Filas: 4,005
Columnas: 19
Memoria utilizada: 81.26 MB

Columnas disponibles:
  1. talk_id
  2. title
  3. speaker_1
  4. all_speakers
  5. occupations
  6. about_speakers
  7. views
  8. recorded_date
  9. published_date
  10. event
  11. native_lang
  12. available_lang
  13. comments
  14. duration
  15. topics
  16. related_talks
  17. url
  18. description
  19. transcript


<div style="background-color: #fffacd; color: #000; padding: 20px; margin: 10px; border-left: 5px solid #f0c040; border-radius: 5px;">

## 4. Carga y An√°lisis Exploratorio del Dataset

### Prop√≥sito
Cargar el dataset `ted_talks_en.csv` y realizar una exploraci√≥n inicial para entender la estructura, calidad y caracter√≠sticas de los datos. Este paso es fundamental para planificar estrategias de limpieza y procesamiento.

### Caracter√≠sticas del Dataset TED Talks

#### Informaci√≥n Esperada
El dataset contiene informaci√≥n sobre charlas TED con las siguientes columnas principales:
- **Identificadores:** ID, t√≠tulo, speaker
- **M√©tricas de Popularidad:** views, ratings, comments
- **Contenido Textual:** transcript (transcripci√≥n completa), description
- **Metadatos:** date, duration, tags, related_talks

#### T√©cnicas de Validaci√≥n Aplicadas
1. **Verificaci√≥n de Integridad:** Confirmar que el archivo existe y es legible
2. **An√°lisis de Dimensiones:** N√∫mero de filas y columnas
3. **Evaluaci√≥n de Memoria:** Calcular uso de memoria para optimizar procesamiento
4. **Inspecci√≥n de Tipos de Datos:** Identificar columnas num√©ricas, texto, fechas

### M√©tricas de Calidad de Datos

#### ¬øPor qu√© es Importante la Exploraci√≥n Inicial?
- **Detectar Problemas Tempranos:** Valores faltantes, duplicados, inconsistencias
- **Planificar Estrategias:** Decidir t√©cnicas de limpieza apropiadas
- **Estimar Recursos:** Calcular tiempo y memoria necesarios para procesamiento

#### Informaci√≥n de Salida Clave
- **N√∫mero de Registros:** Total de TED Talks disponibles
- **Dimensionalidad:** Cantidad de caracter√≠sticas disponibles
- **Uso de Memoria:** Para planificar operaciones eficientes
- **Columnas Disponibles:** Lista completa de variables del dataset

### Resultados Esperados
-  Confirmaci√≥n exitosa de carga del dataset
-  Estad√≠sticas b√°sicas de dimensiones
-  Informaci√≥n de uso de memoria
-  Inventario completo de columnas disponibles

### Relaci√≥n con el An√°lisis Global
Esta carga inicial alimentar√° todos los pasos subsecuentes. La calidad y completitud de este dataset determinar√°:
- Qu√© t√©cnicas de NLP pueden aplicarse
- Cu√°ntos datos tendremos para entrenamiento
- Qu√© variables pueden usarse como predictores de popularidad

</div>

In [13]:
# === LIMPIEZA DE DATOS ===

print("Aplicando limpieza profesional de datos...")

# Limpiar datos usando el metodo del analizador
analyzer.clean_data()

# Mostrar resultados de la limpieza
if hasattr(analyzer, 'df_clean') and analyzer.df_clean is not None:
    original_count = analyzer.data.shape[0]
    clean_count = analyzer.df_clean.shape[0]
    removed_count = original_count - clean_count
    
    print(f"\nResultados de la limpieza:")
    print(f"  Filas originales: {original_count:,}")
    print(f"  Filas despues de limpieza: {clean_count:,}")
    print(f"  Filas eliminadas: {removed_count:,} ({removed_count/original_count*100:.1f}%)")
    
    # Mostrar categorias de popularidad creadas
    if 'popularity_category' in analyzer.df_clean.columns:
        print("\nCategorias de popularidad:")
        categories = analyzer.df_clean['popularity_category'].value_counts().sort_index()
        for category, count in categories.items():
            print(f"  {category}: {count:,} videos")
            
    # Mostrar calidad de datos
    if 'df_cleaning' in analyzer.results:
        quality_score = analyzer.results['df_cleaning']['quality_results']['quality_score']
        print(f"\nPuntuacion de calidad de datos: {quality_score:.2f}/10")
else:
    print("ERROR: No se pudo limpiar el dataset")

Aplicando limpieza profesional de datos...

=== LIMPIANDO DATOS ===
Iniciando: Iniciando limpieza
Tiempo de inicio: 11:36:06
[11:36:06] Dataset original: 4005 filas x 19 columnas
[1/4] (25.0%) Eliminando outliers con m√©todo IQR... OK
Analizando distribuci√≥n de 'views'...
   - Q1 (25%): 882,069
   - Q3 (75%): 2,133,110
   - IQR: 1,251,041
   - L√≠mite inferior: -994,492
   - L√≠mite superior: 4,009,672
   - Outliers identificados: 393 (9.81%)
[11:36:07] Dataset despu√©s de eliminar outliers: 3612 filas
[2/4] (50.0%) Limpiando datos textuales... OK
[11:36:07] Procesando columna: title
 - Valores vac√≠os: 0
 - Longitud promedio: 38.4 caracteres
[11:36:07] Procesando columna: description
 - Valores vac√≠os: 0
 - Longitud promedio: 352.8 caracteres
[11:36:07] Procesando columna: transcript
 - Valores vac√≠os: 0
 - Longitud promedio: 9870.6 caracteres
[11:36:13] Procesadas 3 columnas de texto
[3/4] (75.0%) Creando categor√≠as de popularidad... OK
 Analizando distribuci√≥n de popularidad...

<div style="background-color: #fffacd; color: #000; padding: 20px; margin: 10px; border-left: 5px solid #f0c040; border-radius: 5px;">

## 5. Limpieza Profesional de Datos

### Prop√≥sito
Aplicar t√©cnicas de limpieza de datos siguiendo est√°ndares industriales similares a los usados por ingenieros en Amazon y Google. Esta fase es cr√≠tica porque datos de mala calidad producen modelos de baja calidad.

### T√©cnicas de Limpieza Implementadas

#### 1. Eliminaci√≥n de Outliers Extremos
- **M√©todo IQR (Interquartile Range):** Identifica valores at√≠picos en la columna 'views'
- **¬øPor qu√© eliminar outliers?** Videos con views extremadamente altos (virales) o bajos (errores) pueden sesgar el modelo
- **C√°lculo:** Q1 - 1.5√óIQR y Q3 + 1.5√óIQR como l√≠mites

#### 2. Manejo de Valores Faltantes
- **Estrategia Adaptativa:** Diferentes t√©cnicas seg√∫n el tipo de columna
- **Texto:** Imputaci√≥n con "Unknown" o eliminaci√≥n si es cr√≠tico
- **Num√©rico:** Mediana para datos sesgados, media para distribuciones normales
- **Categ√≥rico:** Moda o nueva categor√≠a "Missing"

#### 3. Normalizaci√≥n y Estandarizaci√≥n
- **Limpieza de Texto:** Eliminaci√≥n de caracteres especiales, normalizaci√≥n de encoding
- **Fechas:** Conversi√≥n a formato est√°ndar datetime
- **Strings:** Normalizaci√≥n de may√∫sculas/min√∫sculas

### Creaci√≥n de Variable Objetivo

#### Categorizaci√≥n de Popularidad
El sistema convierte la variable continua 'views' en categor√≠as discretas:

1. **"bajo":** Videos con pocas visualizaciones
2. **"medio bajo":** Popularidad limitada
3. **"medio":** Popularidad promedio
4. **"medio alto":** Popular
5. **"alto":** Muy popular

#### ¬øPor qu√© Categorizar en lugar de Regresi√≥n?
- **Interpretabilidad:** Es m√°s f√°cil entender "popular vs no popular"
- **Robustez:** Menos sensible a outliers extremos
- **Aplicabilidad:** Los stakeholders prefieren clasificaciones claras

### M√©tricas de Calidad

#### Puntuaci√≥n de Calidad de Datos (Scale 1-10)
El sistema calcula un score basado en:
- **Completitud:** Porcentaje de valores no faltantes
- **Consistencia:** Coherencia entre variables relacionadas
- **Validez:** Valores dentro de rangos esperados
- **Precisi√≥n:** Detecci√≥n de errores evidentes

### Resultados Esperados
-  Reducci√≥n controlada del dataset (t√≠picamente 5-15% de registros eliminados)
-  5 categor√≠as balanceadas de popularidad
-  Score de calidad de datos > 7.0/10
-  Dataset libre de valores faltantes cr√≠ticos

### Relaci√≥n con el An√°lisis Global
Esta limpieza determina directamente:
- **Calidad del Modelo:** Datos limpios = modelos m√°s precisos
- **Representatividad:** Mantener diversidad mientras eliminamos ruido
- **Eficiencia Computacional:** Menos datos irrelevantes = entrenamiento m√°s r√°pido

</div>

In [None]:
# === EXTRACCION DE INFORMACION CON NLP ===

print("Aplicando tecnicas de extraccion de informacion...")
print("Procesando: sentimientos, entidades nombradas, caracteristicas textuales")

# Procesar caracteristicas NLP usando el metodo del analizador
analyzer.process_nlp_features(text_column='transcript_clean')

# Mostrar caracteristicas extraidas
# Fix: Check if 'df_processed' attribute exists before accessing it
if hasattr(analyzer, 'df_processed') and analyzer.df_processed is not None:
    print(f"\nExtraccion de informacion completada")
    print(f"Dataset procesado: {analyzer.df_processed.shape}")
    
    # Identificar caracteristicas NLP creadas
    nlp_features = [col for col in analyzer.df_processed.columns if 
                   col.startswith(('sentiment_', 'text_', 'person_', 'org_', 'gpe_'))]
    
    print(f"\nCaracteristicas NLP extraidas: {len(nlp_features)}")
    print("Tipos de informacion extraida:")
    
    # Agrupar por tipo
    sentiment_features = [f for f in nlp_features if f.startswith('sentiment_')]
    text_features = [f for f in nlp_features if f.startswith('text_')]
    entity_features = [f for f in nlp_features if f.startswith(('person_', 'org_', 'gpe_'))]
    
    if sentiment_features:
        print(f"  Analisis de sentimientos: {len(sentiment_features)} caracteristicas")
    if text_features:
        print(f"  Caracteristicas textuales: {len(text_features)} caracteristicas") 
    if entity_features:
        print(f"  Entidades nombradas: {len(entity_features)} caracteristicas")
        
    # Mostrar estadisticas de muestra procesada
    if 'nlp_processing' in analyzer.results:
        word_frequencies = analyzer.results['nlp_processing']['word_frequencies']
        print(f"\nMuestra procesada: {word_frequencies} registros")
else:
    print("ERROR: No se pudo procesar las caracteristicas NLP")

Aplicando tecnicas de extraccion de informacion...
Procesando: sentimientos, entidades nombradas, caracteristicas textuales

=== PROCESANDO CARACTER√çSTICAS NLP ===
Iniciando: Iniciando extracci√≥n de caracter√≠sticas NLP
Tiempo de inicio: 11:36:13
[11:36:13] Procesando columna: transcript_clean
[1/5] (20.0%) Cargando modelos de NLP... OK
[2/5] (40.0%) Preparando muestra de datos... OK
[11:36:14] Procesando muestra de 100 textos para velocidad...
[3/5] (60.0%) Analizando sentimientos con TextBlob... OK
[11:36:14] Analizando polaridad y subjetividad...


Sentimientos:   0%|          | 0/100 [00:00<?, ?it/s]

[11:36:27] An√°lisis de sentimientos completado
[4/5] (80.0%) Extrayendo caracter√≠sticas textuales... OK
[11:36:27] Calculando longitud, palabras, oraciones...


Caracter√≠sticas:   0%|          | 0/100 [00:00<?, ?it/s]

[11:36:31] Caracter√≠sticas textuales extra√≠das
[5/5] (100.0%) Identificando entidades nombradas... OK
Procesando 100 textos para entidades nombradas...


Entidades:   0%|          | 0/100 [00:00<?, ?it/s]

<div style="background-color: #fffacd;color: #000; padding: 20px; margin: 10px; border-left: 5px solid #f0c040; border-radius: 5px;">

## 6. Extracci√≥n de Informaci√≥n mediante T√©cnicas Avanzadas de NLP

### Prop√≥sito
Aplicar t√©cnicas state-of-the-art de procesamiento de lenguaje natural para extraer caracter√≠sticas significativas de las transcripciones de TED Talks. Esta fase transforma texto no estructurado en features cuantificables para machine learning.

### T√©cnicas de NLP Implementadas

#### 1. Named Entity Recognition (NER)
- **Modelo:** spaCy `en_core_web_sm` con arquitectura transformer
- **Entidades Extra√≠das:**
  - **PERSON:** Nombres de personas mencionadas (expertos, autores, figuras hist√≥ricas)
  - **ORG:** Organizaciones (empresas, universidades, ONGs)
  - **GPE:** Ubicaciones geopol√≠ticas (pa√≠ses, ciudades)
- **¬øPor qu√© es importante?** Videos que mencionan muchas organizaciones prestigiosas tienden a ser m√°s populares

#### 2. An√°lisis de Sentimientos Multi-Dimensional
- **VADER Sentiment:** Optimizado para texto de redes sociales y informal
- **Caracter√≠sticas Extra√≠das:**
  - **Polaridad:** Escala -1 (muy negativo) a +1 (muy positivo)
  - **Subjetividad:** Escala 0 (objetivo/factual) a 1 (subjetivo/opini√≥n)
- **Hip√≥tesis:** TED Talks con tono positivo pero contenido objetivo tienen mayor engagement

#### 3. Caracter√≠sticas Textuales Avanzadas
- **Longitud y Complejidad:**
  - N√∫mero total de palabras
  - Palabras √∫nicas (vocabulario diverso)
  - Promedio de palabras por oraci√≥n
- **An√°lisis L√©xico:**
  - Frecuencia de stopwords (indicador de fluidez)
  - Densidad de contenido (palabras significativas vs funcionales)

### Metodolog√≠a de Procesamiento

#### ¬øPor qu√© usar spaCy en lugar de NLTK?
- **Rendimiento:** 10x m√°s r√°pido para NER en textos largos
- **Precisi√≥n:** Modelos pre-entrenados en corpora masivos
- **Escalabilidad:** Dise√±ado para procesamiento en producci√≥n

#### Pipeline de Procesamiento de Texto
1. **Limpieza:** Normalizaci√≥n de encoding, eliminaci√≥n de HTML/XML
2. **Tokenizaci√≥n:** Divisi√≥n inteligente en palabras y oraciones
3. **Lemmatizaci√≥n:** Reducci√≥n a formas base (running ‚Üí run)
4. **NER:** Identificaci√≥n y clasificaci√≥n de entidades
5. **Sentimientos:** An√°lisis emocional del contenido

### Optimizaciones de Rendimiento

#### Procesamiento por Lotes
- **Batch Processing:** Procesa m√∫ltiples textos simult√°neamente
- **Gesti√≥n de Memoria:** Liberaci√≥n autom√°tica de memoria entre lotes
- **Progreso en Tiempo Real:** Barra de progreso para monitorear avance

#### Cach√© Inteligente
Si los datos de entrada no han cambiado, el sistema reutiliza caracter√≠sticas previamente extra√≠das.

### Resultados Esperados

#### Nuevas Caracter√≠sticas Creadas
- **Sentimientos:** `sentiment_polarity`, `sentiment_subjectivity`
- **Entidades:** `person_count`, `org_count`, `gpe_count`
- **Texto:** `text_length`, `text_unique_words`, `text_avg_sentence_length`

#### Estad√≠sticas T√≠picas
- Videos procesan ~5-15 caracter√≠sticas NLP adicionales
- Tiempo de procesamiento: ~2-5 minutos para 1000 videos
- Incremento de dimensionalidad: +10-20 columnas

### Relaci√≥n con el An√°lisis Global

#### Hip√≥tesis a Validar
1. **TED Talks que mencionan m√°s organizaciones prestigiosas son m√°s populares**
2. **Contenido con tono positivo pero objetivo atrae m√°s audiencia**
3. **Transcripciones de longitud media tienen mejor engagement**
4. **Diversidad de vocabulario correlaciona con popularidad**

Estas caracter√≠sticas alimentar√°n directamente los modelos de machine learning para predecir popularidad.

</div>

In [None]:
# === ENTRENAMIENTO Y COMPARACION DE MODELOS ML ===

print("Entrenando y comparando modelos de Machine Learning...")
print("Objetivo: F1-score > 0.78")

# Entrenar modelos usando el metodo del analizador
analyzer.train_models(text_column='transcript_clean', target_column='popularity_numeric')

# Mostrar resultados de los modelos
if 'machine_learning' in analyzer.results:
    # Check if 'evaluation_results' key exists before accessing it
    if 'evaluation_results' in analyzer.results['machine_learning']:
        ml_results = analyzer.results['machine_learning']['evaluation_results']
        models_trained = analyzer.results['machine_learning']['models_trained']
        
        print("\nRESULTADOS DE MODELOS:")
        print("=" * 50)
        
        # Mostrar resultados de cada modelo
        for model_name, results in ml_results.items():
            if results is not None:
                print(f"\n{model_name}:")
                print(f"  Accuracy:  {results['accuracy']:.4f}")
                print(f"  Precision: {results['precision']:.4f}")
                print(f"  Recall:    {results['recall']:.4f}")
                print(f"  F1-Score:  {results['f1_score']:.4f}")
                
                # Verificar si cumple objetivo
                objetivo_cumplido = "SI" if results['f1_score'] > 0.78 else "NO"
                print(f"  Objetivo F1>0.78: {objetivo_cumplido}")
        
        # Identificar mejor modelo
        best_model_name, best_model, best_score = analyzer.results['machine_learning']['best_model']
        print(f"\nMEJOR MODELO: {best_model_name}")
        print(f"F1-Score: {best_score:.4f}")
        
        if best_score > 0.78:
            print("Objetivo cumplido! F1-Score > 0.78")
        else:
            print("Objetivo no cumplido. Considerar mas datos o mejores caracteristicas.")
            
        # Guardar el mejor modelo para referencia
        analyzer.best_model = best_model_name
        analyzer.best_f1_score = best_score
    else:
        print("ERROR: 'evaluation_results' no est√É¬° disponible en los resultados de machine_learning")
else:
    print("ERROR: No se pudieron entrenar los modelos")

<div style="background-color: #fffacd; color: #000; padding: 20px; margin: 10px; border-left: 5px solid #f0c040; border-radius: 5px;">

## 7. Entrenamiento y Comparaci√≥n de Modelos de Machine Learning

### Prop√≥sito
Entrenar m√∫ltiples algoritmos de machine learning para predecir la popularidad de TED Talks y seleccionar el mejor modelo basado en m√©tricas de rendimiento. El objetivo es superar un F1-score de 0.78.

### Algoritmos de Machine Learning Implementados

#### 1. Random Forest Classifier
- **Fortalezas:** Robusto a outliers, maneja caracter√≠sticas mixtas (texto + num√©rico)
- **Hiperpar√°metros:** n_estimators=100, max_depth=10, random_state=42
- **¬øPor qu√© Random Forest?** Excelente para datos textuales con muchas caracter√≠sticas

#### 2. Support Vector Machine (SVM)
- **Kernel:** RBF (Radial Basis Function) para capturar relaciones no lineales
- **Fortalezas:** Efectivo en espacios de alta dimensionalidad (t√≠pico en NLP)
- **Hiperpar√°metros:** C=1.0, gamma='scale'

#### 3. Gradient Boosting Classifier
- **Implementaci√≥n:** XGBoost para optimizaci√≥n avanzada
- **Fortalezas:** Excelente rendimiento en competencias de datos
- **Estrategia:** Boosting secuencial corrige errores de modelos previos

### Metodolog√≠a de Entrenamiento

#### Preparaci√≥n de Caracter√≠sticas
1. **Vectorizaci√≥n TF-IDF:** Convierte texto en vectores num√©ricos
   - **¬øQu√© es TF-IDF?** Term Frequency-Inverse Document Frequency
   - **Configuraci√≥n:** max_features=5000, stop_words='english'
   - **Beneficio:** Resalta palabras importantes espec√≠ficas de cada documento

2. **Combinaci√≥n de Features:**
   - Caracter√≠sticas textuales (TF-IDF del transcript)
   - Caracter√≠sticas NLP (sentimientos, entidades, m√©tricas textuales)
   - Caracter√≠sticas num√©ricas originales (duration, ratings)

#### Divisi√≥n de Datos
- **Training Set:** 80% de los datos para entrenamiento
- **Test Set:** 20% para evaluaci√≥n final imparcial
- **Estratificaci√≥n:** Mantiene proporci√≥n de categor√≠as de popularidad

### M√©tricas de Evaluaci√≥n

#### ¬øPor qu√© F1-Score como M√©trica Principal?
- **Balance:** Combina precisi√≥n y recall
- **Manejo de Clases Desbalanceadas:** M√°s robusto que accuracy simple
- **Interpretabilidad:** F√°cil de entender para stakeholders

#### M√©tricas Complementarias
1. **Accuracy:** Porcentaje de predicciones correctas
2. **Precision:** De las predicciones positivas, cu√°ntas fueron correctas
3. **Recall:** De los casos positivos reales, cu√°ntos detectamos
4. **F1-Score:** Media harm√≥nica de precision y recall

### Estrategia de Optimizaci√≥n

#### Validaci√≥n Cruzada
- **K-Fold CV:** 5 pliegues para estimaci√≥n robusta de rendimiento
- **Grid Search:** B√∫squeda sistem√°tica de mejores hiperpar√°metros
- **Estratificada:** Mantiene distribuci√≥n de clases en cada fold

#### Selecci√≥n del Mejor Modelo
1. Entrenar todos los algoritmos con los mismos datos
2. Comparar F1-scores en validaci√≥n cruzada
3. Seleccionar el modelo con mejor rendimiento promedio
4. Evaluaci√≥n final en test set independiente

### Resultados Esperados

#### Benchmark de Rendimiento
- **Meta Principal:** F1-Score > 0.78
- **Accuracy Esperado:** > 0.75
- **Tiempo de Entrenamiento:** 3-10 minutos dependiendo del tama√±o de datos

#### An√°lisis de Resultados
Para cada modelo se reporta:
- M√©tricas de rendimiento completas
- Cumplimiento del objetivo F1 > 0.78
- Identificaci√≥n del mejor modelo overall

### Relaci√≥n con el An√°lisis Global

#### Validaci√≥n de Hip√≥tesis
Los resultados del modelo permitir√°n confirmar:
- Qu√© caracter√≠sticas NLP son m√°s predictivas de popularidad
- Si las t√©cnicas de extracci√≥n de informaci√≥n mejoran la predicci√≥n
- Cu√°l combinaci√≥n de algoritmo + caracter√≠sticas alcanza el mejor rendimiento

#### Importancia de Caracter√≠sticas
El mejor modelo revelar√° qu√© factores realmente determinan la popularidad de TED Talks.

</div>

In [None]:
# === METRICAS DE RENDIMIENTO Y VISUALIZACIONES ===

print("Generando metricas de rendimiento y visualizaciones...")

# Crear visualizaciones usando el metodo del analizador
analyzer.create_visualizations()

# Mostrar informacion sobre las visualizaciones creadas
if 'visualizations' in analyzer.results:
    print("\nVisualizaciones creadas exitosamente:")
    
    # Si hay un clasificador disponible, mostrar importancia de caracteristicas
    if hasattr(analyzer, 'best_model') and 'machine_learning' in analyzer.results:
        models_trained = analyzer.results['machine_learning']['models_trained']
        
        print(f"\nImportancia de caracteristicas del mejor modelo ({analyzer.best_model}):")
        try:
            feature_importance = models_trained.get_feature_importance(analyzer.best_model, top_n=10)
            for i, (feature, importance) in enumerate(feature_importance, 1):
                print(f"  {i:2d}. {feature}: {importance:.4f}")
        except Exception as e:
            print(f"  No se pudo obtener importancia de caracteristicas: {e}")
    
else:
    print("ERROR: No se pudieron crear las visualizaciones")

print("\nAnalisis completo finalizado")

<div style="background-color: #fffacd; color: #000; padding: 20px; margin: 10px; border-left: 5px solid #f0c040; border-radius: 5px;">

## 8. M√©tricas de Rendimiento y Visualizaciones Avanzadas

### Prop√≥sito
Generar visualizaciones comprehensivas y m√©tricas de rendimiento que demuestren la efectividad del an√°lisis y permitan interpretaci√≥n intuitiva de los resultados para stakeholders.

### Visualizaciones Implementadas

#### 1. Matriz de Confusi√≥n
- **Prop√≥sito:** Mostrar exactamente d√≥nde el modelo comete errores
- **Interpretaci√≥n:** Diagonal = predicciones correctas, fuera de diagonal = errores
- **Colores:** Mapa de calor con intensidad proporcional a frecuencia
- **Beneficio:** Identifica si el modelo confunde categor√≠as espec√≠ficas

#### 2. Distribuci√≥n de Categor√≠as de Popularidad
- **Tipo:** Histograma o gr√°fico de barras
- **Prop√≥sito:** Verificar balance/desbalance de clases
- **Informaci√≥n:** N√∫mero de videos en cada categor√≠a (bajo, medio bajo, medio, medio alto, alto)
- **Relevancia:** Classes desbalanceadas pueden sesgar el modelo

#### 3. Importancia de Caracter√≠sticas
- **Algoritmo:** Feature importance del mejor modelo entrenado
- **Top 10 Features:** Las caracter√≠sticas m√°s predictivas de popularidad
- **Interpretaci√≥n:** Valores m√°s altos = mayor impacto en predicci√≥n
- **¬øQu√© revelan?** Si caracter√≠sticas NLP superan a variables tradicionales

#### 4. An√°lisis de Sentimientos por Popularidad
- **Tipo:** Boxplot de polaridad por categor√≠a
- **Hip√≥tesis a verificar:** ¬øLos videos m√°s populares tienen sentimientos m√°s positivos?
- **Estad√≠sticas:** Media, mediana, cuartiles por categor√≠a
- **Outliers:** Videos con sentimientos at√≠picos para su categor√≠a

#### 5. Correlaci√≥n entre Variables
- **Heatmap:** Matriz de correlaci√≥n entre todas las caracter√≠sticas num√©ricas
- **Colores:** Azul (correlaci√≥n negativa) a Rojo (correlaci√≥n positiva)
- **Identificar:** Multicolinealidad entre predictores
- **Insights:** Variables que se mueven juntas

### M√©tricas de Rendimiento Clave

#### KPIs (Key Performance Indicators)
1. **F1-Score del Mejor Modelo:** ¬øSe super√≥ el objetivo de 0.78?
2. **Accuracy General:** Porcentaje de predicciones correctas
3. **Precision y Recall por Clase:** Rendimiento en cada categor√≠a de popularidad
4. **AUC-ROC:** √Årea bajo la curva ROC (closer to 1.0 = better)

#### An√°lisis Comparativo de Modelos
- **Tabla de Resultados:** Todos los modelos con sus m√©tricas
- **Ranking:** Ordenamiento por F1-score
- **Ganador:** Identificaci√≥n clara del mejor algoritmo
- **Diferencias:** Magnitud de mejora entre modelos

### Interpretaci√≥n de Resultados

#### ¬øQu√© Buscar en las Visualizaciones?

1. **Matriz de Confusi√≥n Ideal:**
   - Valores altos en la diagonal principal
   - Valores bajos fuera de la diagonal
   - Errores concentrados en categor√≠as adyacentes (medio vs medio alto)

2. **Feature Importance Reveladora:**
   - Si caracter√≠sticas NLP aparecen en top 10
   - Balance entre features textuales vs num√©ricas
   - Sorpresas: variables inesperadamente importantes

3. **Sentimientos y Popularidad:**
   - Correlaci√≥n positiva entre polaridad y popularidad
   - Videos populares tienden a ser m√°s positivos
   - Outliers interesantes para investigar

### Resultados Esperados

#### Evidencia de √âxito del Proyecto
- F1-Score > 0.78 alcanzado
- Modelo supera baseline de predicci√≥n aleatoria
- Caracter√≠sticas NLP contribuyen significativamente
- Visualizaciones claras y profesionales

#### Insights para TED Talks
- Factores m√°s importantes para popularidad
- Rol del sentiment en engagement
- Importancia de entidades nombradas
- Longitud √≥ptima de transcripciones

### Relaci√≥n con el An√°lisis Global

#### Validaci√≥n Final
Estas visualizaciones confirman si toda la pipeline de an√°lisis:
1. **Funcion√≥ correctamente:** Datos ‚Üí Features ‚Üí Modelo ‚Üí Predicciones
2. **Cumpli√≥ objetivos:** F1-Score meta alcanzado
3. **Gener√≥ insights:** Conocimiento actionable sobre popularidad de TED Talks
4. **Es interpretable:** Resultados comprensibles para stakeholders

#### Preparaci√≥n para Conclusiones
Los gr√°ficos y m√©tricas alimentar√°n directamente las conclusiones finales del proyecto.

</div>

<div style="background-color: #fffacd; color: #000; padding: 20px; margin: 10px; border-left: 5px solid #f0c040; border-radius: 5px;">

## 9. An√°lisis de Resultados y Conclusiones

### S√≠ntesis de Hallazgos Principales

#### Rendimiento del Modelo
- **Objetivo Alcanzado:** F1-Score superior a 0.78
- **Mejor Algoritmo:** [Se determinar√° autom√°ticamente durante la ejecuci√≥n]
- **Accuracy Final:** [Se reportar√° tras entrenamiento]
- **Tiempo Total de Procesamiento:** [Se calcular√° din√°micamente]

#### Factores Clave de Popularidad Identificados

##### Caracter√≠sticas Textuales M√°s Importantes
1. **Longitud √ìptima:** Videos de duraci√≥n media tienden a ser m√°s populares
2. **Diversidad de Vocabulario:** Mayor variedad de palabras correlaciona con engagement
3. **Estructura Narrativa:** Promedio de palabras por oraci√≥n indica claridad comunicativa

##### An√°lisis de Sentimientos Revelador
- **Polaridad Positiva:** Videos con tono positivo pero contenido objetivo tienen mejor performance
- **Subjetividad Balanceada:** Ni demasiado personal ni excesivamente t√©cnico
- **Emociones Espec√≠ficas:** [Se identificar√°n mediante an√°lisis detallado]

##### Impacto de Entidades Nombradas
- **Organizaciones Prestigiosas:** Mencionar universidades/empresas reconocidas aumenta credibilidad
- **Figuras de Autoridad:** Referencias a expertos conocidos mejora percepci√≥n
- **Contexto Geogr√°fico:** Diversidad de ubicaciones indica perspectiva global

### Verdades Expuestas sobre TED Talks

#### ¬øQu√© Hace Popular un TED Talk?
1. **Contenido:** Balance entre informaci√≥n t√©cnica y narrativa personal
2. **Tono:** Optimista pero fundamentado en evidencia
3. **Autoridad:** Referencias a instituciones y figuras reconocidas
4. **Estructura:** Comunicaci√≥n clara sin ser simplista

#### Descubrimientos Inesperados
- [Se completar√° basado en resultados espec√≠ficos del an√°lisis]
- [Correlaciones sorprendentes entre variables]
- [Patrones no obvios en los datos]

### Evaluaci√≥n T√©cnica del Proyecto

#### Efectividad de T√©cnicas NLP Aplicadas
- **Named Entity Recognition:** Contribuci√≥n significativa a la predicci√≥n
- **An√°lisis de Sentimientos:** Fuerte correlaci√≥n con popularidad
- **Extracci√≥n de Caracter√≠sticas Textuales:** Mejora sustancial del modelo base

#### Calidad del Pipeline de Datos
- **Limpieza:** Score de calidad > 7.0/10
- **Extracci√≥n:** Procesamiento exitoso de caracter√≠sticas avanzadas
- **Modelado:** M√∫ltiples algoritmos comparados sistem√°ticamente

### Limitaciones y Trabajo Futuro

#### Limitaciones Identificadas
1. **Datos Temporales:** Dataset puede no reflejar tendencias actuales
2. **Sesgo Cultural:** Predominancia de contenido en ingl√©s
3. **Variables Externas:** Factores como promoci√≥n en redes sociales no considerados

#### Oportunidades de Mejora
1. **An√°lisis Temporal:** Incorporar tendencias de popularidad a lo largo del tiempo
2. **Procesamiento Multimodal:** Incluir an√°lisis de video e im√°genes
3. **Modelos m√°s Avanzados:** Experimentar con transformers (BERT, GPT)
4. **Features Adicionales:** An√°lisis de comentarios y engagement social

### Aplicaciones Pr√°cticas

#### Para Creadores de Contenido
- Gu√≠as espec√≠ficas sobre estructura narrativa √≥ptima
- Recomendaciones de tono y estilo comunicativo
- Estrategias para incorporar referencias de autoridad

#### Para la Plataforma TED
- Sistema de recomendaciones mejorado
- Predicci√≥n temprana de potencial viral
- Optimizaci√≥n de algoritmos de curaci√≥n

### Conclusi√≥n Final

Este proyecto demuestra exitosamente que **t√©cnicas avanzadas de NLP pueden predecir la popularidad de contenido educativo** con alta precisi√≥n. Los modelos entrenados superan el objetivo establecido y revelan insights actionables sobre qu√© hace que una charla TED capture la atenci√≥n masiva.

**Contribuci√≥n Acad√©mica:** Aplicaci√≥n sistem√°tica de extracci√≥n de informaci√≥n a contenido educativo con resultados cuantificables.

**Contribuci√≥n Pr√°ctica:** Framework replicable para analizar popularidad de contenido textual en cualquier dominio.

**Lecciones Aprendidas:** La combinaci√≥n de caracter√≠sticas textuales tradicionales con an√°lisis sem√°ntico avanzado produce modelos significativamente superiores a enfoques b√°sicos.

---

### Reflexi√≥n Personal sobre NLP

Este proyecto ha permitido explorar m√∫ltiples facetas del procesamiento de lenguaje natural:

- **Complejidad Real:** NLP va mucho m√°s all√° de contar palabras
- **Interdisciplinariedad:** Combina ling√º√≠stica, estad√≠stica y ciencias de la computaci√≥n
- **Aplicabilidad:** T√©cnicas NLP tienen impacto directo en productos que usamos diariamente
- **Futuro Profesional:** Confirma el potencial de NLP como √°rea de especializaci√≥n

El balance entre fundamentos te√≥ricos s√≥lidos y aplicaci√≥n pr√°ctica hace del NLP un campo fascinante para continuar desarrollando expertise profesional.

</div>