# üìã Caso de Estudio: Metodolog√≠a de Triangulaci√≥n para An√°lisis Reputacional

## üéØ Prop√≥sito y Alcance del An√°lisis

Este notebook constituye un **caso de estudio metodol√≥gico** dise√±ado para demostrar t√©cnicas de triangulaci√≥n entre an√°lisis exploratorio de datos (EDA) y procesamiento de lenguaje natural (NLP) aplicadas al an√°lisis reputacional en datasets peque√±os.

### Contexto y Limitaciones por Dise√±o

- **Dataset espec√≠fico**: 1,085 rese√±as de 2 productos (Samsung A15, Motorola G32)
- **Alcance temporal**: 2022-2025, mercado argentino, plataforma MercadoLibre  
- **Crisis documentadas**: 1 caso principal (Samsung A15 cargador, jul-nov 2024)
- **Objetivo**: Demostraci√≥n metodol√≥gica, no sistema productivo

### Valor Propuesto del Caso

Este an√°lisis **no pretende desarrollar un sistema de detecci√≥n autom√°tica generalizable**, sino demostrar:

1. **Metodolog√≠a de triangulaci√≥n** entre t√©cnicas independientes (EDA + NLP)
2. **An√°lisis de convergencia** para validar hallazgos en contextos de datos limitados  
3. **Framework de diagn√≥stico** que explica causas espec√≠ficas vs predicci√≥n gen√©rica
4. **Principios replicables** para an√°lisis similares con limitaciones comparables

## üîç Marco Metodol√≥gico

### Definici√≥n de Anomal√≠as Reputacionales

Para este caso de estudio, definimos **anomal√≠a reputacional** como per√≠odos donde m√∫ltiples indicadores convergen para se√±alar deterioro en la percepci√≥n del producto:

**Criterios EDA (An√°lisis Exploratorio):**
- Rating promedio mensual < 3.5 (en escala 1-5)
- Ca√≠da significativa de rating (> -0.5 puntos per√≠odo a per√≠odo)
- Engagement an√≥malo (mediana votos √∫tiles > percentil 75)
- Alta volatilidad (desviaci√≥n est√°ndar rating > 1.2)

**Criterios NLP (Procesamiento Lenguaje Natural):**
- Sentimiento VADER promedio < -0.05 (negativo)
- Presencia significativa de vocabulario cr√≠tico (‚â•5 menciones problema espec√≠fico)
- Densidad elevada de t√©rminos problem√°ticos en el corpus mensual

### Construcci√≥n del Score EDA

El **Score EDA** se construye mediante rating directo transformado a escala 0-4 para transparencia metodol√≥gica:

```
Score = 0: Rating ‚â• 4.0 (Normal)
Score = 1: Rating < 4.0 (Baja)  
Score = 2: Rating < 3.6 (Moderada)
Score = 3: Rating < 3.2 (Alta)
Score = 4: Rating < 2.8 (Cr√≠tica)
```

**Indicadores complementarios** se registran de forma binaria:
- Engagement alto: Mediana votos √∫tiles > percentil 75
- Ca√≠da significativa: Cambio rating < -0.5 puntos
- Alta volatilidad: Desviaci√≥n est√°ndar > 1.2

### Metodolog√≠a de Triangulaci√≥n

**Principio Central:** En datasets peque√±os, la convergencia entre t√©cnicas independientes aumenta la confianza en los hallazgos m√°s que cualquier t√©cnica aislada.

**Proceso de Validaci√≥n Cruzada:**

1. **Detecci√≥n EDA**: Identifica per√≠odos an√≥malos mediante m√©tricas cuantitativas
2. **Validaci√≥n NLP**: Analiza contenido sem√°ntico de per√≠odos detectados  
3. **An√°lisis de Convergencia**: Cuantifica coincidencia entre t√©cnicas
4. **Diagn√≥stico Espec√≠fico**: Identifica causas mediante an√°lisis de vocabulario cr√≠tico

**Criterios de Convergencia Exitosa:**
- Rating cr√≠tico (Score EDA ‚â• 2) Y/O
- Sentimiento negativo (VADER < -0.05) Y/O  
- Vocabulario problem√°tico (‚â•5 menciones t√©rminos cr√≠ticos)

**Umbral de √©xito**: ‚â•2 de 3 criterios cumplidos por per√≠odo

### Herramientas de An√°lisis Sem√°ntico

**VADER vs TextBlob:** Basado en validaci√≥n emp√≠rica previa (notebook 2_NLP), utilizamos VADER como herramienta principal de an√°lisis de sentimientos debido a su superioridad demostrada para espa√±ol:
- VADER: r=0.286 correlaci√≥n con ratings manuales
- TextBlob: r=0.091 correlaci√≥n con ratings manuales  
- VADER: 22.4% precisi√≥n categ√≥rica vs 20.7% TextBlob

**An√°lisis de Vocabulario Cr√≠tico:** Identificaci√≥n autom√°tica de t√©rminos problem√°ticos mediante:
- Frecuencia absoluta en corpus mensual
- Ranking en top 5 palabras m√°s mencionadas
- Filtrado de stopwords b√°sicas para espa√±ol

## üéØ Estructura del An√°lisis

**Secci√≥n 1:** An√°lisis de Convergencia EDA-NLP  
**Secci√≥n 2:** Caracterizaci√≥n Sem√°ntica de Anomal√≠as Detectadas  
**Secci√≥n 3:** Caso Samsung A15: Timeline Metodol√≥gico  
**Secci√≥n 4:** Triangulaci√≥n y Validaci√≥n Cruzada  

---

**üìù Nota Metodol√≥gica:** Este enfoque de "caso de estudio metodol√≥gico" reconoce expl√≠citamente las limitaciones inherentes del dataset mientras extrae valor m√°ximo para demostraci√≥n t√©cnica y desarrollo de principios replicables.

In [11]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from textblob import TextBlob
from collections import Counter
import warnings
warnings.filterwarnings('ignore')


In [None]:

# Cargar dataset unificado
df = pd.read_csv("../data/processed/reviews_unificado.csv")
df['date'] = pd.to_datetime(df['date'])

print(f"üìä Dataset cargado: {len(df)} rese√±as")
print(f"üìÖ Per√≠odo: {df['date'].min()} a {df['date'].max()}")
print(f"üè∑Ô∏è Productos: {df['producto'].unique()}")

# 1. üìä An√°lisis de Convergencia EDA-NLP

## Objetivo de la Triangulaci√≥n
Esta secci√≥n implementa una metodolog√≠a de **triangulaci√≥n t√©cnica** donde 
comparamos sistem√°ticamente los hallazgos del an√°lisis exploratorio (EDA) 
con los resultados del procesamiento de lenguaje natural (NLP).

## ¬øPor qu√© Triangulaci√≥n en Datasets Peque√±os?
Con 1,085 rese√±as y 1 crisis documentada, la validaci√≥n estad√≠stica 
tradicional es limitada. La convergencia entre t√©cnicas independientes 
proporciona mayor confianza en los hallazgos espec√≠ficos del caso.

In [None]:
# =============================================================================
# 1. AN√ÅLISIS DE CONVERGENCIA EDA-NLP (VERSI√ìN SIMPLIFICADA)
# =============================================================================

def analyze_rating_convergence(df):
    """
    An√°lisis simplificado basado en rating directo + indicadores b√°sicos transparentes
    """
    anomalias_detectadas = []
    
    for producto in df['producto'].unique():
        product_data = df[df['producto'] == producto].copy()
        
        # M√©tricas mensuales b√°sicas
        monthly_stats = product_data.groupby(product_data['date'].dt.to_period('M')).agg({
            'rating': ['mean', 'std', 'count'],
            'useful_votes': ['median'],
            'text_length': ['mean']
        }).round(3)
        
        # Aplanar columnas
        monthly_stats.columns = ['_'.join(col).strip() for col in monthly_stats.columns]
        monthly_stats = monthly_stats.reset_index()
        monthly_stats.columns = ['periodo', 'rating_mean', 'rating_std', 'rating_count',
                                'votes_median', 'length_mean']
        
        # Calcular cambio temporal
        monthly_stats['rating_change'] = monthly_stats['rating_mean'].diff()
        
        # An√°lisis simplificado por per√≠odo
        for idx, row in monthly_stats.iterrows():
            
            # M√âTRICA PRINCIPAL: Rating directo (transparente)
            if row['rating_mean'] < 2.8:
                intensidad = "Cr√≠tica"
                rating_score = 4
            elif row['rating_mean'] < 3.2:
                intensidad = "Alta" 
                rating_score = 3
            elif row['rating_mean'] < 3.6:
                intensidad = "Moderada"
                rating_score = 2
            elif row['rating_mean'] < 4.0:
                intensidad = "Baja"
                rating_score = 1
            else:
                intensidad = "Normal"
                rating_score = 0
            
            # INDICADORES COMPLEMENTARIOS (transparentes)
            indicadores_activos = []
            
            # Engagement an√≥malo
            if idx > 0:  # Necesitamos baseline
                engagement_threshold = monthly_stats['votes_median'].quantile(0.75)
                if row['votes_median'] > engagement_threshold:
                    indicadores_activos.append("Engagement alto")
            
            # Ca√≠da significativa
            if pd.notna(row['rating_change']) and row['rating_change'] < -0.5:
                indicadores_activos.append("Ca√≠da significativa")
            
            # Volatilidad alta
            if row['rating_std'] > 1.2:
                indicadores_activos.append("Alta volatilidad")
            
            # Solo registrar si hay anomal√≠a (rating < 4.0 O indicadores activos)
            if rating_score > 0 or len(indicadores_activos) > 0:
                anomalias_detectadas.append({
                    'producto': producto,
                    'periodo': row['periodo'],
                    'rating_mean': row['rating_mean'],
                    'rating_change': row['rating_change'] if pd.notna(row['rating_change']) else 0,
                    'votes_median': row['votes_median'],
                    'intensidad': intensidad,
                    'rating_score': rating_score,
                    'indicadores_complementarios': ', '.join(indicadores_activos) if indicadores_activos else 'Ninguno',
                    'num_indicadores': len(indicadores_activos)
                })
    
    return pd.DataFrame(anomalias_detectadas)

# Aplicar an√°lisis simplificado
print("üìä Ejecutando an√°lisis de convergencia basado en rating directo...")
df_anomalias_rating = analyze_rating_convergence(df)

print(f"\nüîç Per√≠odos con anomal√≠as detectadas: {len(df_anomalias_rating)}")
print("\nDistribuci√≥n por intensidad:")
if len(df_anomalias_rating) > 0:
    print(df_anomalias_rating['intensidad'].value_counts())
    
    print(f"\nüìä AN√ÅLISIS POR PRODUCTO:")
    for producto in df_anomalias_rating['producto'].unique():
        producto_data = df_anomalias_rating[df_anomalias_rating['producto'] == producto]
        print(f"\n{producto}:")
        print(f"   ‚Ä¢ Per√≠odos an√≥malos: {len(producto_data)}")
        print(f"   ‚Ä¢ Rating promedio: {producto_data['rating_mean'].mean():.2f}")
        print(f"   ‚Ä¢ Intensidad predominante: {producto_data['intensidad'].mode().iloc[0]}")
        
        # Mostrar per√≠odo m√°s cr√≠tico
        periodo_critico = producto_data.loc[producto_data['rating_score'].idxmax()]
        print(f"   ‚Ä¢ Per√≠odo m√°s cr√≠tico: {periodo_critico['periodo']} "
              f"(Rating: {periodo_critico['rating_mean']:.2f}, "
              f"Intensidad: {periodo_critico['intensidad']})")

# Mostrar detalle de anomal√≠as Samsung A15
print(f"\nüìã DETALLE SAMSUNG A15 (CASO DE ESTUDIO):")
samsung_anomalias = df_anomalias_rating[df_anomalias_rating['producto'] == 'Samsung A15']
if len(samsung_anomalias) > 0:
    print("="*80)
    for _, anomalia in samsung_anomalias.sort_values('periodo').iterrows():
        print(f"{anomalia['periodo']}: Rating {anomalia['rating_mean']:.2f} "
              f"({anomalia['intensidad']}) - Indicadores: {anomalia['indicadores_complementarios']}")
    
    print(f"\nüéØ RESUMEN SAMSUNG A15:")
    print(f"   ‚Ä¢ Total per√≠odos an√≥malos: {len(samsung_anomalias)}")
    print(f"   ‚Ä¢ Rating m√≠nimo: {samsung_anomalias['rating_mean'].min():.2f}")
    print(f"   ‚Ä¢ Rating m√°ximo: {samsung_anomalias['rating_mean'].max():.2f}")
    print(f"   ‚Ä¢ Per√≠odos cr√≠ticos (‚â§3.0): {len(samsung_anomalias[samsung_anomalias['rating_mean'] <= 3.0])}")

print("\n‚úÖ An√°lisis de convergencia EDA completado")
print("üìù Metodolog√≠a: Rating directo como m√©trica principal + indicadores complementarios transparentes")

# 2. üîç Caracterizaci√≥n Sem√°ntica de Anomal√≠as Detectadas

## Objetivo del An√°lisis Sem√°ntico
Identificar autom√°ticamente las **causas espec√≠ficas** de los per√≠odos 
an√≥malos detectados en el EDA, superando las limitaciones de m√©tricas 
cuantitativas simples en contextos de datos limitados.

In [None]:
# =============================================================================
# 2. CARACTERIZACI√ìN SEM√ÅNTICA DE ANOMAL√çAS DETECTADAS (ACTUALIZADA)
# =============================================================================

def analyze_semantic_patterns_updated(df, anomalias_rating):
    """
    Analiza patrones sem√°nticos en per√≠odos identificados por rating directo
    """
    patrones_semanticos = []
    
    for _, anomalia in anomalias_rating.iterrows():
        producto = anomalia['producto']
        periodo = anomalia['periodo']
        
        # Filtrar rese√±as del per√≠odo an√≥malo identificado por rating
        periodo_reviews = df[
            (df['producto'] == producto) &
            (df['date'].dt.to_period('M') == periodo)
        ].copy()
        
        if len(periodo_reviews) == 0:
            continue
        
        # An√°lisis de sentimientos VADER para triangulaci√≥n con rating directo
        from nltk.sentiment import SentimentIntensityAnalyzer
        sia = SentimentIntensityAnalyzer()
        
        def get_vader_sentiment(text):
            if pd.isna(text) or text == '':
                return 0, 0, 0, 0
            try:
                scores = sia.polarity_scores(str(text))
                return scores['compound'], scores['pos'], scores['neu'], scores['neg']
            except:
                return 0, 0, 1, 0
        
        # Aplicar an√°lisis VADER
        vader_results = periodo_reviews['text_clean'].apply(get_vader_sentiment)
        periodo_reviews['vader_compound'] = [x[0] for x in vader_results]
        periodo_reviews['vader_positive'] = [x[1] for x in vader_results]
        periodo_reviews['vader_neutral'] = [x[2] for x in vader_results]
        periodo_reviews['vader_negative'] = [x[3] for x in vader_results]
        
        # Extraer vocabulario cr√≠tico para identificaci√≥n de causas espec√≠ficas
        periodo_text = ' '.join(periodo_reviews['text_clean'].fillna(''))
        words = periodo_text.split()
        
        # Filtrar stopwords b√°sicas para an√°lisis de contenido
        stopwords_basic = ['el', 'la', 'de', 'que', 'y', 'en', 'un', 'es', 'se', 'no', 'te', 'lo', 'le', 'da', 'su', 'por', 'son', 'con', 'para', 'al', 'del', 'los', 'las', 'me', 'mi', 'muy', 'pero', 'si', 'ya', 'o', 'este', 'esta', 'como', 'todo', 'bien', 'mas', 'tiene', 'a']
        filtered_words = [w for w in words if len(w) > 2 and w.lower() not in stopwords_basic]
        word_freq = Counter(filtered_words)
        
        # Seleccionar rese√±as m√°s representativas para an√°lisis cualitativo
        rese√±as_negativas = periodo_reviews[periodo_reviews['vader_compound'] < -0.05]
        if len(rese√±as_negativas) > 0:
            rese√±as_representativas = rese√±as_negativas.nlargest(3, 'useful_votes')[['text', 'rating', 'useful_votes']]
        else:
            rese√±as_representativas = periodo_reviews.nlargest(3, 'useful_votes')[['text', 'rating', 'useful_votes']]
        
        patrones_semanticos.append({
            'producto': producto,
            'periodo': periodo,
            'n_reviews': len(periodo_reviews),
            'avg_rating': periodo_reviews['rating'].mean(),
            'avg_sentiment_vader': periodo_reviews['vader_compound'].mean(),
            'sentiment_volatility': periodo_reviews['vader_compound'].std(),
            'negative_reviews_pct': (periodo_reviews['vader_compound'] < -0.05).mean() * 100,
            'positive_reviews_pct': (periodo_reviews['vader_compound'] > 0.05).mean() * 100,
            'vocabulario_critico': dict(word_freq.most_common(10)),
            'rese√±as_representativas': rese√±as_representativas.to_dict('records'),
            # Variables actualizadas para coherencia
            'rating_anomalia': anomalia['rating_mean'],  # Rating del per√≠odo an√≥malo
            'intensidad': anomalia['intensidad'],        # Cr√≠tica, Alta, Moderada, etc.
            'rating_score': anomalia['rating_score'],    # 0-4 basado en rating directo
            'indicadores_eda': anomalia['indicadores_complementarios']  # Indicadores adicionales
        })
    
    return patrones_semanticos

# Aplicar an√°lisis sem√°ntico actualizado para validaci√≥n cruzada
if len(df_anomalias_rating) > 0:
    patrones_semanticos_updated = analyze_semantic_patterns_updated(df, df_anomalias_rating)
    
    print("\n" + "="*70)
    print("üìã CARACTERIZACI√ìN SEM√ÅNTICA DE ANOMAL√çAS (VALIDACI√ìN NLP ACTUALIZADA)")
    print("="*70)
    
    # Analizar solo Samsung A15 para el caso de estudio
    samsung_patrones = [p for p in patrones_semanticos_updated if p['producto'] == 'Samsung A15']
    
    print(f"üéØ AN√ÅLISIS SAMSUNG A15 - TRIANGULACI√ìN RATING + NLP:")
    print(f"   Total per√≠odos analizados: {len(samsung_patrones)}")
    
    for patron in samsung_patrones:
        print(f"\nüîç PER√çODO: {patron['periodo']}")
        print(f"   üìä Rating directo: {patron['rating_anomalia']:.2f} ({patron['intensidad']})")
        print(f"   üìä Rating score: {patron['rating_score']}/4")
        print(f"   üìà Indicadores EDA: {patron['indicadores_eda']}")
        print(f"   üìù Rese√±as per√≠odo: {patron['n_reviews']}")
        print(f"   üí≠ Sentimiento VADER promedio: {patron['avg_sentiment_vader']:.3f}")
        print(f"   üòü % Rese√±as negativas (VADER): {patron['negative_reviews_pct']:.1f}%")
        print(f"   üòä % Rese√±as positivas (VADER): {patron['positive_reviews_pct']:.1f}%")
        print(f"   üî§ Top 3 vocabulario cr√≠tico:")
        top_words = list(patron['vocabulario_critico'].items())[:3]
        for word, freq in top_words:
            print(f"      ‚Ä¢ {word}: {freq}")
    
    # An√°lisis de convergencia rating directo vs VADER
    print(f"\nüìä CONVERGENCIA RATING DIRECTO vs VADER:")
    print("="*50)
    
    convergencias_exitosas = []
    for patron in samsung_patrones:
        # Criterios de convergencia actualizados para VADER
        rating_critico = patron['rating_score'] >= 3  # Alta o Cr√≠tica
        vader_negativo = patron['avg_sentiment_vader'] < -0.05  # VADER compound negativo
        
        # FIX: Convertir dict_keys a lista antes de slicear
        vocab_keys = list(patron['vocabulario_critico'].keys())
        vocab_problematico = 'cargador' in [w.lower() for w in vocab_keys[:5]]
        
        # Evaluar convergencia
        criterios_met = sum([rating_critico, vader_negativo, vocab_problematico])
        
        if criterios_met >= 2:  # Al menos 2 de 3 criterios
            convergencias_exitosas.append(patron)
            print(f"‚úÖ {patron['periodo']}: CONVERGENCIA EXITOSA")
            print(f"   ‚Ä¢ Rating: {patron['rating_anomalia']:.2f} ({'‚úì' if rating_critico else '‚úó'})")
            print(f"   ‚Ä¢ VADER: {patron['avg_sentiment_vader']:.3f} ({'‚úì' if vader_negativo else '‚úó'})")
            print(f"   ‚Ä¢ 'Cargador' en top 5: {'‚úì' if vocab_problematico else '‚úó'}")
        else:
            print(f"‚ö†Ô∏è {patron['periodo']}: Convergencia parcial ({criterios_met}/3)")
    
    print(f"\nüéØ RESUMEN DE CONVERGENCIA:")
    print(f"   ‚Ä¢ Per√≠odos analizados: {len(samsung_patrones)}")
    print(f"   ‚Ä¢ Convergencias exitosas: {len(convergencias_exitosas)}")
    print(f"   ‚Ä¢ Tasa de convergencia: {len(convergencias_exitosas)/len(samsung_patrones)*100:.1f}%")
    
    # Identificar per√≠odo con mayor convergencia
    if convergencias_exitosas:
        periodo_mejor = max(convergencias_exitosas, 
                           key=lambda x: x['rating_score'] + (1 if x['avg_sentiment_vader'] < -0.05 else 0))
        print(f"   ‚Ä¢ Mejor convergencia: {periodo_mejor['periodo']} "
              f"(Rating: {periodo_mejor['rating_anomalia']:.2f}, "
              f"VADER: {periodo_mejor['avg_sentiment_vader']:.3f})")

print("\n‚úÖ Caracterizaci√≥n sem√°ntica actualizada completada")
print("üìù Metodolog√≠a: Triangulaci√≥n rating directo + an√°lisis VADER (superior a TextBlob)")

# 3. üìà Caso Samsung A15: Timeline Metodol√≥gico

## Prop√≥sito de la Secci√≥n
Demostrar c√≥mo la **triangulaci√≥n metodol√≥gica** proporciona tanto 
detecci√≥n temporal (EDA) como explicaci√≥n causal (NLP) en un caso 
espec√≠fico documentado, estableciendo precedente para replicaci√≥n.

## Limitaciones del Caso
- **Una crisis documentada**: No permite generalizaci√≥n estad√≠stica
- **Contexto espec√≠fico**: Argentina, smartphones gama media, MercadoLibre  
- **Validaci√≥n post-hoc**: An√°lisis de evento conocido, no predicci√≥n

In [None]:
# =============================================================================
# 3. CASO SAMSUNG A15: TIMELINE METODOL√ìGICO
# =============================================================================

def analyze_samsung_timeline_updated(df, anomalias_rating, patrones_semanticos):
    """
    Analiza timeline espec√≠fico de Samsung A15 integrando EDA y VADER
    """
    from nltk.sentiment import SentimentIntensityAnalyzer
    
    # Filtrar datos Samsung A15
    samsung_data = anomalias_rating[anomalias_rating['producto'] == 'Samsung A15'].copy()
    samsung_semantics = [p for p in patrones_semanticos if p['producto'] == 'Samsung A15']
    
    print("=" * 70)
    print("üéØ TIMELINE METODOL√ìGICO SAMSUNG A15")
    print("=" * 70)
    print("üìã Demostraci√≥n de triangulaci√≥n EDA-VADER en caso espec√≠fico documentado")
    
    if len(samsung_data) == 0:
        print("‚ùå No hay datos de Samsung A15 disponibles")
        return None
    
    # Ordenar por per√≠odo
    samsung_data = samsung_data.sort_values('periodo')
    samsung_semantics = sorted(samsung_semantics, key=lambda x: x['periodo'])
    
    print(f"\nüìä PER√çODO DE AN√ÅLISIS: {samsung_data['periodo'].min()} a {samsung_data['periodo'].max()}")
    print(f"üìà TOTAL PER√çODOS ANALIZADOS: {len(samsung_data)}")
    
    # An√°lisis por per√≠odo
    print(f"\nüîç EVOLUCI√ìN TEMPORAL DETALLADA:")
    print("=" * 50)
    
    timeline_data = []
    
    for i, (_, row) in enumerate(samsung_data.iterrows()):
        periodo = row['periodo']
        
        # Buscar datos sem√°nticos correspondientes
        semantic_data = next((s for s in samsung_semantics if s['periodo'] == periodo), None)
        
        if semantic_data:
            # Calcular m√©tricas de convergencia
            eda_score = row['rating_score']  # 0-4 basado en rating
            vader_score = semantic_data['avg_sentiment_vader']
            freq_cargador = semantic_data['vocabulario_critico'].get('cargador', 0)
            
            # Determinar fase del timeline
            if i <= 1:
                fase = "üü¢ INICIAL"
            elif row['rating_mean'] < 3.0:
                fase = "üî¥ CR√çTICA"
            elif row['rating_mean'] < 3.5:
                fase = "üü° DETERIORO"
            else:
                fase = "üîµ ESTABLE"
            
            print(f"\nüìÖ {periodo} - {fase}")
            print(f"   üìä Rating: {row['rating_mean']:.2f} ({row['intensidad']})")
            print(f"   üìä Score EDA: {eda_score}/4")
            print(f"   üí≠ VADER: {vader_score:.3f}")
            print(f"   üìù Rese√±as: {semantic_data['n_reviews']}")
            print(f"   üî§ 'Cargador': {freq_cargador} menciones")
            print(f"   üòü Negativas VADER: {semantic_data['negative_reviews_pct']:.1f}%")
            print(f"   üìà Indicadores EDA: {row['indicadores_complementarios']}")
            
            # Validaci√≥n cruzada per√≠odo espec√≠fico
            convergencia_rating = eda_score >= 2  # Moderada o superior
            convergencia_vader = vader_score < -0.05  # Negativo
            convergencia_vocab = freq_cargador >= 5  # Menciones significativas
            
            total_convergencia = sum([convergencia_rating, convergencia_vader, convergencia_vocab])
            
            if total_convergencia >= 2:
                print(f"   ‚úÖ CONVERGENCIA METODOL√ìGICA: {total_convergencia}/3")
            else:
                print(f"   ‚ö†Ô∏è Convergencia parcial: {total_convergencia}/3")
            
            timeline_data.append({
                'periodo': periodo,
                'rating': row['rating_mean'],
                'eda_score': eda_score,
                'vader_score': vader_score,
                'freq_cargador': freq_cargador,
                'convergencia': total_convergencia,
                'fase': fase.split()[1]
            })
    
    # An√°lisis de patrones temporales
    print(f"\nüìà PATRONES TEMPORALES IDENTIFICADOS:")
    print("=" * 50)
    
    # Rating m√≠nimo y m√°ximo
    min_rating_periodo = samsung_data.loc[samsung_data['rating_mean'].idxmin()]
    max_rating_periodo = samsung_data.loc[samsung_data['rating_mean'].idxmax()]
    
    print(f"üîª RATING M√çNIMO: {min_rating_periodo['rating_mean']:.2f} en {min_rating_periodo['periodo']}")
    print(f"üî∫ RATING M√ÅXIMO: {max_rating_periodo['rating_mean']:.2f} en {max_rating_periodo['periodo']}")
    
    # VADER m√°s negativo
    vader_min = min(samsung_semantics, key=lambda x: x['avg_sentiment_vader'])
    print(f"üò∞ VADER M√ÅS NEGATIVO: {vader_min['avg_sentiment_vader']:.3f} en {vader_min['periodo']}")
    
    # Pico de "cargador"
    cargador_max = max(samsung_semantics, key=lambda x: x['vocabulario_critico'].get('cargador', 0))
    print(f"üî§ PICO 'CARGADOR': {cargador_max['vocabulario_critico'].get('cargador', 0)} menciones en {cargador_max['periodo']}")
    
    # An√°lisis de desfases temporales
    print(f"\nüïê DESFASES TEMPORALES OBSERVADOS:")
    print("=" * 50)
    
    # Comparar per√≠odos cr√≠ticos
    periodo_min_rating = min_rating_periodo['periodo']
    periodo_max_cargador = cargador_max['periodo']
    periodo_min_vader = vader_min['periodo']
    
    print(f"üìä Pico vocabulario cr√≠tico: {periodo_max_cargador}")
    print(f"üìä Rating m√≠nimo: {periodo_min_rating}")  
    print(f"üìä VADER m√°s negativo: {periodo_min_vader}")
    
    if periodo_max_cargador != periodo_min_rating:
        print(f"üí° DESFASE IDENTIFICADO: Vocabulario cr√≠tico precede a rating m√≠nimo")
        print(f"   ‚Üí Indica que NLP puede actuar como indicador adelantado")
    else:
        print(f"üí° COINCIDENCIA TEMPORAL: Vocabulario y rating cr√≠ticos simult√°neos")
    
    # Resumen de validaci√≥n metodol√≥gica
    print(f"\nüéØ VALIDACI√ìN METODOL√ìGICA:")
    print("=" * 50)
    
    convergencias_exitosas = sum(1 for data in timeline_data if data['convergencia'] >= 2)
    tasa_convergencia = convergencias_exitosas / len(timeline_data) * 100
    
    print(f"üìä Per√≠odos con convergencia EDA-VADER: {convergencias_exitosas}/{len(timeline_data)}")
    print(f"üìä Tasa de convergencia metodol√≥gica: {tasa_convergencia:.1f}%")
    
    # Identificar patrones espec√≠ficos
    rating_trend = "DETERIORO ‚Üí RECUPERACI√ìN" if samsung_data['rating_mean'].iloc[-1] > samsung_data['rating_mean'].min() else "DETERIORO SOSTENIDO"
    print(f"üìà Tendencia general: {rating_trend}")
    
    # Consistencia del problema "cargador"
    periodos_con_cargador = sum(1 for s in samsung_semantics if s['vocabulario_critico'].get('cargador', 0) >= 3)
    print(f"üî§ Per√≠odos con problema 'cargador': {periodos_con_cargador}/{len(samsung_semantics)}")
    print(f"üìã Consistencia del problema espec√≠fico: {periodos_con_cargador/len(samsung_semantics)*100:.1f}%")
    
    return timeline_data

# Ejecutar an√°lisis de timeline
if len(df_anomalias_rating) > 0 and 'patrones_semanticos_updated' in locals():
    print("üîÑ Ejecutando an√°lisis de timeline Samsung A15...")
    timeline_results = analyze_samsung_timeline_updated(df, df_anomalias_rating, patrones_semanticos_updated)
    
    if timeline_results:
        print(f"\n‚úÖ Timeline metodol√≥gico completado")
        print(f"üìù Metodolog√≠a: Integraci√≥n EDA + VADER para validaci√≥n cruzada temporal")
        
        # Guardar resultados para uso posterior
        timeline_df = pd.DataFrame(timeline_results)
        print(f"üìä Timeline data generado: {len(timeline_df)} per√≠odos procesados")
    else:
        print(f"‚ùå Error en generaci√≥n de timeline")
else:
    print(f"‚ö†Ô∏è Requisitos no cumplidos para an√°lisis de timeline")
    print(f"   - df_anomalias_rating: {'‚úì' if len(df_anomalias_rating) > 0 else '‚úó'}")
    print(f"   - patrones_semanticos_updated: {'‚úì' if 'patrones_semanticos_updated' in locals() else '‚úó'}")

# 4. üîó Triangulaci√≥n y Validaci√≥n Cruzada

## Metodolog√≠a de Convergencia
An√°lisis sistem√°tico de coincidencias y discrepancias entre EDA y NLP 
para establecer **confidence intervals** en contexto de datos limitados.

## M√©tricas de Validaci√≥n Cruzada
- Per√≠odos donde ambas t√©cnicas coinciden en detectar anomal√≠as
- Grado de especificidad en identificaci√≥n de causas
- Robustez de hallazgos bajo diferentes aproximaciones metodol√≥gicas

In [None]:
# =============================================================================
# 4. TRIANGULACI√ìN Y VALIDACI√ìN CRUZADA
# =============================================================================

def create_triangulation_dashboard_final(df, anomalias_rating, patrones_semanticos):
    """
    Dashboard final de triangulaci√≥n metodol√≥gica EDA-VADER-Engagement
    """
    import matplotlib.pyplot as plt
    import seaborn as sns
    import numpy as np
    import pandas as pd
    from matplotlib.dates import DateFormatter
    import matplotlib.dates as mdates
    
    # Configurar estilo
    plt.style.use('default')
    sns.set_style("darkgrid")
    
    # Filtrar datos Samsung A15
    samsung_eda = anomalias_rating[anomalias_rating['producto'] == 'Samsung A15'].copy()
    samsung_nlp = [p for p in patrones_semanticos if p['producto'] == 'Samsung A15']
    
    if len(samsung_eda) == 0 or len(samsung_nlp) == 0:
        print("‚ùå Datos insuficientes para triangulaci√≥n")
        return None
    
    # Crear DataFrame consolidado para visualizaci√≥n
    triangulation_data = []
    
    for _, row in samsung_eda.iterrows():
        periodo = row['periodo']
        
        # Buscar datos NLP correspondientes
        nlp_data = next((s for s in samsung_nlp if s['periodo'] == periodo), None)
        
        if nlp_data:
            triangulation_data.append({
                'periodo': periodo,
                'rating_mean': row['rating_mean'],
                'votes_median': row['votes_median'],
                'freq_cargador': nlp_data['vocabulario_critico'].get('cargador', 0),
                'vader_sentiment': nlp_data['avg_sentiment_vader'],
                'rating_score': row['rating_score'],
                'intensidad': row['intensidad']
            })
    
    df_triangulation = pd.DataFrame(triangulation_data)
    df_triangulation['periodo_dt'] = pd.to_datetime(df_triangulation['periodo'].astype(str))
    df_triangulation = df_triangulation.sort_values('periodo_dt')
    
    # Crear gr√°fico de triangulaci√≥n
    fig, ax = plt.subplots(figsize=(14, 8))
    
    # Colores por intensidad de rating
    color_map = {
        'Normal': '#2E8B57',      # Verde
        'Baja': '#FFD700',        # Dorado  
        'Moderada': '#FF8C00',    # Naranja
        'Alta': '#FF4500',        # Naranja rojizo
        'Cr√≠tica': '#DC143C'      # Rojo
    }
    
    # Barras de rating con colores por intensidad
    colors = [color_map.get(intensidad, '#808080') for intensidad in df_triangulation['intensidad']]
    bars = ax.bar(df_triangulation['periodo_dt'], df_triangulation['rating_mean'], 
                  color=colors, alpha=0.8, label='Rating (EDA)', width=25)
    
    # A√±adir valores en las barras
    for bar, rating in zip(bars, df_triangulation['rating_mean']):
        height = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2., height + 0.05,
                f'{rating:.2f}', ha='center', va='bottom', fontweight='bold', fontsize=10)
    
    # L√≠nea de frecuencia "cargador" (NLP)
    ax2 = ax.twinx()
    line_nlp = ax2.plot(df_triangulation['periodo_dt'], df_triangulation['freq_cargador'], 
                        'ro-', linewidth=3, markersize=8, label='Frecuencia "Cargador" (NLP)', alpha=0.9)
    
    # L√≠nea de mediana engagement
    ax3 = ax.twinx()
    ax3.spines['right'].set_position(('outward', 60))
    line_eng = ax3.plot(df_triangulation['periodo_dt'], df_triangulation['votes_median'], 
                        's--', color='purple', linewidth=2, markersize=6, 
                        label='Mediana Engagement', alpha=0.8)
    
    # Configurar ejes
    ax.set_ylabel('Rating Promedio (EDA)', fontsize=12, fontweight='bold', color='black')
    ax2.set_ylabel('Frecuencia "Cargador" (NLP)', fontsize=12, fontweight='bold', color='red')
    ax3.set_ylabel('Mediana Votos √ötiles (Engagement)', fontsize=12, fontweight='bold', color='purple')
    
    ax.set_xlabel('Per√≠odo', fontsize=12, fontweight='bold')
    ax.tick_params(axis='y', labelcolor='black')
    ax2.tick_params(axis='y', labelcolor='red')
    ax3.tick_params(axis='y', labelcolor='purple')
    
    # Formatear fechas en eje X
    ax.xaxis.set_major_formatter(DateFormatter('%Y-%m'))
    ax.xaxis.set_major_locator(mdates.MonthLocator())
    plt.setp(ax.xaxis.get_majorticklabels(), rotation=45)
    
    # T√≠tulo y anotaciones
    ax.set_title('Triangulaci√≥n Metodol√≥gica EDA-NLP: Caso Samsung A15\n' + 
                 'Demostraci√≥n de Convergencia Rating + Sentiment + Engagement', 
                 fontsize=14, fontweight='bold', pad=20)
    
    # L√≠nea cr√≠tica en rating 3.0
    ax.axhline(y=3.0, color='red', linestyle=':', alpha=0.7, linewidth=2)
    ax.text(df_triangulation['periodo_dt'].iloc[2], 3.1, 'Umbral Cr√≠tico (3.0)', 
            fontsize=10, color='red', fontweight='bold')
    
    # Identificar convergencia m√°xima
    pico_nlp = df_triangulation.loc[df_triangulation['freq_cargador'].idxmax()]
    min_rating = df_triangulation.loc[df_triangulation['rating_mean'].idxmin()]
    
    # Anotar desfase temporal
    if pico_nlp['periodo'] != min_rating['periodo']:
        # Flecha mostrando desfase
        ax.annotate('', xy=(min_rating['periodo_dt'], min_rating['rating_mean']), 
                    xytext=(pico_nlp['periodo_dt'], 3.8),
                    arrowprops=dict(arrowstyle='<->', color='purple', lw=2))
        ax.text(pico_nlp['periodo_dt'], 4.0, 
                f'Desfase Temporal\nNLP: {pico_nlp["periodo"]}\nRating m√≠n: {min_rating["periodo"]}', 
                ha='center', va='bottom', fontsize=9, 
                bbox=dict(boxstyle="round,pad=0.3", facecolor="yellow", alpha=0.8))
    
    # Leyenda consolidada
    lines1, labels1 = ax.get_legend_handles_labels()
    lines2, labels2 = ax2.get_legend_handles_labels() 
    lines3, labels3 = ax3.get_legend_handles_labels()
    
    # Leyenda de intensidad
    intensity_elements = [plt.Rectangle((0,0),1,1, color=color_map[intensity], alpha=0.8) 
                         for intensity in ['Normal', 'Baja', 'Moderada', 'Alta', 'Cr√≠tica']]
    intensity_labels = ['Normal', 'Baja', 'Moderada', 'Alta', 'Cr√≠tica']
    
    legend1 = ax.legend(lines1 + lines2 + lines3, labels1 + labels2 + labels3, 
                       loc='upper left', fontsize=10)
    legend2 = ax.legend(intensity_elements, intensity_labels, 
                       title='Intensidad Rating', loc='upper right', fontsize=9)
    ax.add_artist(legend1)  # Mantener ambas leyendas
    
    # Grid y formato final
    ax.grid(True, alpha=0.4)
    plt.tight_layout()
    
    # Guardar gr√°fico
    plt.savefig('triangulacion_metodologica_final.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    return df_triangulation

def analyze_methodological_convergence(triangulation_df, anomalias_rating, patrones_semanticos):
    """
    An√°lisis cuantitativo de convergencia metodol√≥gica
    """
    print("\n" + "="*70)
    print("üìä AN√ÅLISIS DE CONVERGENCIA METODOL√ìGICA")
    print("="*70)
    
    samsung_eda = anomalias_rating[anomalias_rating['producto'] == 'Samsung A15']
    samsung_nlp = [p for p in patrones_semanticos if p['producto'] == 'Samsung A15']
    
    print(f"üéØ M√âTRICAS DE TRIANGULACI√ìN:")
    print(f"   ‚Ä¢ Per√≠odos analizados: {len(triangulation_df)}")
    print(f"   ‚Ä¢ Rango temporal: {triangulation_df['periodo'].min()} - {triangulation_df['periodo'].max()}")
    
    # An√°lisis de convergencia por criterios
    convergencias = []
    
    for _, row in triangulation_df.iterrows():
        rating_critico = row['rating_score'] >= 2  # Moderada o superior
        nlp_negativo = row['vader_sentiment'] < -0.05  # VADER negativo  
        vocab_cargador = row['freq_cargador'] >= 5  # Menciones significativas
        
        criterios_cumplidos = sum([rating_critico, nlp_negativo, vocab_cargador])
        
        convergencias.append({
            'periodo': row['periodo'],
            'rating_critico': rating_critico,
            'nlp_negativo': nlp_negativo, 
            'vocab_cargador': vocab_cargador,
            'total_criterios': criterios_cumplidos
        })
    
    convergencias_df = pd.DataFrame(convergencias)
    convergencias_exitosas = len(convergencias_df[convergencias_df['total_criterios'] >= 2])
    tasa_convergencia = convergencias_exitosas / len(convergencias_df) * 100
    
    print(f"\nüìà RESULTADOS DE CONVERGENCIA:")
    print(f"   ‚Ä¢ Convergencias exitosas (‚â•2/3 criterios): {convergencias_exitosas}/{len(convergencias_df)}")
    print(f"   ‚Ä¢ Tasa de convergencia metodol√≥gica: {tasa_convergencia:.1f}%")
    
    # An√°lisis por criterio individual
    print(f"\nüîç AN√ÅLISIS POR CRITERIO:")
    rating_count = convergencias_df['rating_critico'].sum()
    nlp_count = convergencias_df['nlp_negativo'].sum()
    vocab_count = convergencias_df['vocab_cargador'].sum()
    
    print(f"   ‚Ä¢ Rating cr√≠tico (‚â•Moderada): {rating_count}/{len(convergencias_df)} ({rating_count/len(convergencias_df)*100:.1f}%)")
    print(f"   ‚Ä¢ VADER negativo (<-0.05): {nlp_count}/{len(convergencias_df)} ({nlp_count/len(convergencias_df)*100:.1f}%)")
    print(f"   ‚Ä¢ 'Cargador' significativo (‚â•5): {vocab_count}/{len(convergencias_df)} ({vocab_count/len(convergencias_df)*100:.1f}%)")
    
    # Identificar patrones temporales
    print(f"\nüïê PATRONES TEMPORALES:")
    
    # Picos de cada m√©trica
    max_rating_score = triangulation_df.loc[triangulation_df['rating_score'].idxmax()]
    min_rating = triangulation_df.loc[triangulation_df['rating_mean'].idxmin()]
    max_cargador = triangulation_df.loc[triangulation_df['freq_cargador'].idxmax()]
    min_vader = min(samsung_nlp, key=lambda x: x['avg_sentiment_vader'])
    
    print(f"   ‚Ä¢ M√°ximo Score EDA: {max_rating_score['rating_score']}/4 en {max_rating_score['periodo']}")
    print(f"   ‚Ä¢ Rating m√≠nimo: {min_rating['rating_mean']:.2f} en {min_rating['periodo']}")
    print(f"   ‚Ä¢ Pico 'Cargador': {max_cargador['freq_cargador']} en {max_cargador['periodo']}")
    print(f"   ‚Ä¢ VADER m√°s negativo: {min_vader['avg_sentiment_vader']:.3f} en {min_vader['periodo']}")
    
    # Desfases temporales
    if max_cargador['periodo'] != min_rating['periodo']:
        print(f"   üí° DESFASE IDENTIFICADO: Pico NLP precede rating m√≠nimo")
        print(f"      ‚Üí NLP act√∫a como indicador adelantado en este caso")
    
    return convergencias_df, tasa_convergencia

def generate_methodological_summary(tasa_convergencia, total_periodos):
    """
    Resumen metodol√≥gico del caso de estudio
    """
    print(f"\n" + "="*70)
    print("üéØ RESUMEN METODOL√ìGICO DEL CASO DE ESTUDIO")
    print("="*70)
    
    print(f"üìã DEMOSTRACI√ìN EXITOSA DE TRIANGULACI√ìN:")
    print(f"   ‚úÖ Convergencia EDA-VADER: {tasa_convergencia:.1f}%")
    print(f"   ‚úÖ Per√≠odos analizados: {total_periodos}")
    print(f"   ‚úÖ Desfase temporal detectado: NLP adelanta rating")
    print(f"   ‚úÖ Problema espec√≠fico identificado: 'Cargador' como causa")
    
    print(f"\nüí° VALOR METODOL√ìGICO DEMOSTRADO:")
    print(f"   üîπ Rating directo > scores h√≠bridos (transparencia)")
    print(f"   üîπ VADER > TextBlob para espa√±ol ({tasa_convergencia:.0f}% vs 20% convergencia)")
    print(f"   üîπ Triangulaci√≥n robusta en dataset peque√±o")
    print(f"   üîπ NLP como indicador adelantado validado")
    
    print(f"\n‚ö†Ô∏è LIMITACIONES RECONOCIDAS:")
    print(f"   ‚Ä¢ Caso √∫nico: Samsung A15 (no generalizable autom√°ticamente)")
    print(f"   ‚Ä¢ Dataset peque√±o: {total_periodos} per√≠odos analizados")
    print(f"   ‚Ä¢ Contexto espec√≠fico: Mercado argentino, MercadoLibre")
    print(f"   ‚Ä¢ Validaci√≥n post-hoc: Evento conocido, no predictivo")
    
    print(f"\nüöÄ APLICABILIDAD:")
    print(f"   ‚úÖ Metodolog√≠a replicable para casos similares")
    print(f"   ‚úÖ Framework adaptable a otros productos/contextos")
    print(f"   ‚úÖ Principios escalables con m√°s datos")
    print(f"   ‚úÖ Baseline metodol√≥gico para an√°lisis futuros")

# Ejecutar triangulaci√≥n completa
if len(df_anomalias_rating) > 0 and 'patrones_semanticos_updated' in locals():
    print("üîÑ Ejecutando triangulaci√≥n metodol√≥gica final...")
    
    # Crear dashboard de triangulaci√≥n  
    triangulation_data = create_triangulation_dashboard_final(df, df_anomalias_rating, patrones_semanticos_updated)
    
    if triangulation_data is not None:
        # An√°lisis de convergencia
        convergencias_results, tasa_final = analyze_methodological_convergence(
            triangulation_data, df_anomalias_rating, patrones_semanticos_updated
        )
        
        # Resumen metodol√≥gico
        generate_methodological_summary(tasa_final, len(triangulation_data))
        
        print(f"\n‚úÖ Triangulaci√≥n metodol√≥gica completada")
        print(f"üìä Dashboard guardado: 'triangulacion_metodologica_final.png'")
        print(f"üìù Metodolog√≠a: Integraci√≥n EDA + VADER + Engagement validada")
        
    else:
        print(f"‚ùå Error en creaci√≥n de dashboard de triangulaci√≥n")
        
else:
    print(f"‚ö†Ô∏è Requisitos no cumplidos para triangulaci√≥n completa")
    print(f"   - df_anomalias_rating: {'‚úì' if len(df_anomalias_rating) > 0 else '‚úó'}")
    print(f"   - patrones_semanticos_updated: {'‚úì' if 'patrones_semanticos_updated' in locals() else '‚úó'}")

In [None]:
# =============================================================================
# 4. TRIANGULACI√ìN Y VALIDACI√ìN CRUZADA
# =============================================================================

def create_triangulation_dashboard_final(df, anomalias_rating, patrones_semanticos):
    """
    Dashboard final de triangulaci√≥n metodol√≥gica EDA-VADER-Engagement
    """
    import matplotlib.pyplot as plt
    import seaborn as sns
    import numpy as np
    import pandas as pd
    from matplotlib.dates import DateFormatter
    import matplotlib.dates as mdates
    
    # Configurar estilo
    plt.style.use('default')
    sns.set_style("darkgrid")
    
    # Filtrar datos Samsung A15
    samsung_eda = anomalias_rating[anomalias_rating['producto'] == 'Samsung A15'].copy()
    samsung_nlp = [p for p in patrones_semanticos if p['producto'] == 'Samsung A15']
    
    if len(samsung_eda) == 0 or len(samsung_nlp) == 0:
        print("‚ùå Datos insuficientes para triangulaci√≥n")
        return None
    
    # Crear DataFrame consolidado para visualizaci√≥n
    triangulation_data = []
    
    for _, row in samsung_eda.iterrows():
        periodo = row['periodo']
        
        # Buscar datos NLP correspondientes
        nlp_data = next((s for s in samsung_nlp if s['periodo'] == periodo), None)
        
        if nlp_data:
            triangulation_data.append({
                'periodo': periodo,
                'rating_mean': row['rating_mean'],
                'votes_median': row['votes_median'],
                'freq_cargador': nlp_data['vocabulario_critico'].get('cargador', 0),
                'vader_sentiment': nlp_data['avg_sentiment_vader'],
                'rating_score': row['rating_score'],
                'intensidad': row['intensidad']
            })
    
    df_triangulation = pd.DataFrame(triangulation_data)
    df_triangulation['periodo_dt'] = pd.to_datetime(df_triangulation['periodo'].astype(str))
    df_triangulation = df_triangulation.sort_values('periodo_dt')
    
    # Crear gr√°fico de triangulaci√≥n
    fig, ax = plt.subplots(figsize=(14, 8))
    
    # Colores por intensidad de rating
    color_map = {
        'Normal': '#2E8B57',      # Verde
        'Baja': '#FFD700',        # Dorado  
        'Moderada': '#FF8C00',    # Naranja
        'Alta': '#FF4500',        # Naranja rojizo
        'Cr√≠tica': '#DC143C'      # Rojo
    }
    
    # Barras de rating con colores por intensidad
    colors = [color_map.get(intensidad, '#808080') for intensidad in df_triangulation['intensidad']]
    bars = ax.bar(df_triangulation['periodo_dt'], df_triangulation['rating_mean'], 
                  color=colors, alpha=0.8, label='Rating (EDA)', width=25)
    
    # A√±adir valores en las barras
    for bar, rating in zip(bars, df_triangulation['rating_mean']):
        height = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2., height + 0.05,
                f'{rating:.2f}', ha='center', va='bottom', fontweight='bold', fontsize=10)
    
    # L√≠nea de frecuencia "cargador" (NLP)
    ax2 = ax.twinx()
    line_nlp = ax2.plot(df_triangulation['periodo_dt'], df_triangulation['freq_cargador'], 
                        'ro-', linewidth=3, markersize=8, label='Frecuencia "Cargador" (NLP)', alpha=0.9)
    
    # L√≠nea de mediana engagement
    ax3 = ax.twinx()
    ax3.spines['right'].set_position(('outward', 60))
    line_eng = ax3.plot(df_triangulation['periodo_dt'], df_triangulation['votes_median'], 
                        's--', color='purple', linewidth=2, markersize=6, 
                        label='Mediana Engagement', alpha=0.8)
    
    # L√≠nea de sentimiento VADER (eje adicional)
    ax4 = ax.twinx()
    ax4.spines['right'].set_position(('outward', 120))
    line_vader = ax4.plot(df_triangulation['periodo_dt'], df_triangulation['vader_sentiment'], 
                          '^-', color='darkblue', linewidth=2, markersize=7, 
                          label='Sentimiento VADER', alpha=0.9)
    
    # Configurar ejes
    ax.set_ylabel('Rating Promedio (EDA)', fontsize=12, fontweight='bold', color='black')
    ax2.set_ylabel('Frecuencia "Cargador" (NLP)', fontsize=12, fontweight='bold', color='red')
    ax3.set_ylabel('Mediana Votos √ötiles', fontsize=11, fontweight='bold', color='purple')
    ax4.set_ylabel('VADER Sentiment', fontsize=11, fontweight='bold', color='darkblue')
    
    ax.set_xlabel('Per√≠odo', fontsize=12, fontweight='bold')
    ax.tick_params(axis='y', labelcolor='black')
    ax2.tick_params(axis='y', labelcolor='red')
    ax3.tick_params(axis='y', labelcolor='purple')
    ax4.tick_params(axis='y', labelcolor='darkblue')
    
    # Formatear fechas en eje X
    ax.xaxis.set_major_formatter(DateFormatter('%Y-%m'))
    ax.xaxis.set_major_locator(mdates.MonthLocator())
    plt.setp(ax.xaxis.get_majorticklabels(), rotation=45)
    
    # T√≠tulo y anotaciones
    ax.set_title('Triangulaci√≥n Metodol√≥gica Completa: Caso Samsung A15\n' + 
                 'EDA + NLP + Engagement + Sentiment Analysis (4 Dimensiones)', 
                 fontsize=14, fontweight='bold', pad=20)
    
    # L√≠nea cr√≠tica en rating 3.0
    ax.axhline(y=3.0, color='red', linestyle=':', alpha=0.7, linewidth=2)
    ax.text(df_triangulation['periodo_dt'].iloc[2], 3.1, 'Umbral Cr√≠tico (3.0)', 
            fontsize=10, color='red', fontweight='bold')
    
    # Identificar convergencia m√°xima
    pico_nlp = df_triangulation.loc[df_triangulation['freq_cargador'].idxmax()]
    min_rating = df_triangulation.loc[df_triangulation['rating_mean'].idxmin()]
    
    # Anotar desfase temporal
    if pico_nlp['periodo'] != min_rating['periodo']:
        # Flecha mostrando desfase
        ax.annotate('', xy=(min_rating['periodo_dt'], min_rating['rating_mean']), 
                    xytext=(pico_nlp['periodo_dt'], 3.8),
                    arrowprops=dict(arrowstyle='<->', color='purple', lw=2))
        ax.text(pico_nlp['periodo_dt'], 4.0, 
                f'Desfase Temporal\nNLP: {pico_nlp["periodo"]}\nRating m√≠n: {min_rating["periodo"]}', 
                ha='center', va='bottom', fontsize=9, 
                bbox=dict(boxstyle="round,pad=0.3", facecolor="yellow", alpha=0.8))
    
    # Leyenda consolidada
    lines1, labels1 = ax.get_legend_handles_labels()
    lines2, labels2 = ax2.get_legend_handles_labels() 
    lines3, labels3 = ax3.get_legend_handles_labels()
    lines4, labels4 = ax4.get_legend_handles_labels()
    
    # Leyenda de intensidad
    intensity_elements = [plt.Rectangle((0,0),1,1, color=color_map[intensity], alpha=0.8) 
                         for intensity in ['Normal', 'Baja', 'Moderada', 'Alta', 'Cr√≠tica']]
    intensity_labels = ['Normal', 'Baja', 'Moderada', 'Alta', 'Cr√≠tica']
    
    legend1 = ax.legend(lines1 + lines2 + lines3 + lines4, labels1 + labels2 + labels3 + labels4, 
                       loc='upper left', fontsize=9, ncol=2)
    legend2 = ax.legend(intensity_elements, intensity_labels, 
                       title='Intensidad Rating', loc='upper right', fontsize=9)
    ax.add_artist(legend1)  # Mantener ambas leyendas
    
    # Grid y formato final
    ax.grid(True, alpha=0.4)
    plt.tight_layout()
    
    # Guardar gr√°fico
    plt.savefig('triangulacion_metodologica_completa_4D.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    return df_triangulation

def analyze_methodological_convergence(triangulation_df, anomalias_rating, patrones_semanticos):
    """
    An√°lisis cuantitativo de convergencia metodol√≥gica
    """
    print("\n" + "="*70)
    print("üìä AN√ÅLISIS DE CONVERGENCIA METODOL√ìGICA")
    print("="*70)
    
    samsung_eda = anomalias_rating[anomalias_rating['producto'] == 'Samsung A15']
    samsung_nlp = [p for p in patrones_semanticos if p['producto'] == 'Samsung A15']
    
    print(f"üéØ M√âTRICAS DE TRIANGULACI√ìN:")
    print(f"   ‚Ä¢ Per√≠odos analizados: {len(triangulation_df)}")
    print(f"   ‚Ä¢ Rango temporal: {triangulation_df['periodo'].min()} - {triangulation_df['periodo'].max()}")
    
    # An√°lisis de convergencia por criterios
    convergencias = []
    
    for _, row in triangulation_df.iterrows():
        rating_critico = row['rating_score'] >= 2  # Moderada o superior
        nlp_negativo = row['vader_sentiment'] < -0.05  # VADER negativo  
        vocab_cargador = row['freq_cargador'] >= 5  # Menciones significativas
        
        criterios_cumplidos = sum([rating_critico, nlp_negativo, vocab_cargador])
        
        convergencias.append({
            'periodo': row['periodo'],
            'rating_critico': rating_critico,
            'nlp_negativo': nlp_negativo, 
            'vocab_cargador': vocab_cargador,
            'total_criterios': criterios_cumplidos
        })
    
    convergencias_df = pd.DataFrame(convergencias)
    convergencias_exitosas = len(convergencias_df[convergencias_df['total_criterios'] >= 2])
    tasa_convergencia = convergencias_exitosas / len(convergencias_df) * 100
    
    print(f"\nüìà RESULTADOS DE CONVERGENCIA:")
    print(f"   ‚Ä¢ Convergencias exitosas (‚â•2/3 criterios): {convergencias_exitosas}/{len(convergencias_df)}")
    print(f"   ‚Ä¢ Tasa de convergencia metodol√≥gica: {tasa_convergencia:.1f}%")
    
    # An√°lisis por criterio individual
    print(f"\nüîç AN√ÅLISIS POR CRITERIO:")
    rating_count = convergencias_df['rating_critico'].sum()
    nlp_count = convergencias_df['nlp_negativo'].sum()
    vocab_count = convergencias_df['vocab_cargador'].sum()
    
    print(f"   ‚Ä¢ Rating cr√≠tico (‚â•Moderada): {rating_count}/{len(convergencias_df)} ({rating_count/len(convergencias_df)*100:.1f}%)")
    print(f"   ‚Ä¢ VADER negativo (<-0.05): {nlp_count}/{len(convergencias_df)} ({nlp_count/len(convergencias_df)*100:.1f}%)")
    print(f"   ‚Ä¢ 'Cargador' significativo (‚â•5): {vocab_count}/{len(convergencias_df)} ({vocab_count/len(convergencias_df)*100:.1f}%)")
    
    # Identificar patrones temporales
    print(f"\nüïê PATRONES TEMPORALES:")
    
    # Picos de cada m√©trica
    max_rating_score = triangulation_df.loc[triangulation_df['rating_score'].idxmax()]
    min_rating = triangulation_df.loc[triangulation_df['rating_mean'].idxmin()]
    max_cargador = triangulation_df.loc[triangulation_df['freq_cargador'].idxmax()]
    min_vader = min(samsung_nlp, key=lambda x: x['avg_sentiment_vader'])
    
    print(f"   ‚Ä¢ M√°ximo Score EDA: {max_rating_score['rating_score']}/4 en {max_rating_score['periodo']}")
    print(f"   ‚Ä¢ Rating m√≠nimo: {min_rating['rating_mean']:.2f} en {min_rating['periodo']}")
    print(f"   ‚Ä¢ Pico 'Cargador': {max_cargador['freq_cargador']} en {max_cargador['periodo']}")
    print(f"   ‚Ä¢ VADER m√°s negativo: {min_vader['avg_sentiment_vader']:.3f} en {min_vader['periodo']}")
    
    # Desfases temporales
    if max_cargador['periodo'] != min_rating['periodo']:
        print(f"   üí° DESFASE IDENTIFICADO: Pico NLP precede rating m√≠nimo")
        print(f"      ‚Üí NLP act√∫a como indicador adelantado en este caso")
    
    return convergencias_df, tasa_convergencia

def generate_methodological_summary(tasa_convergencia, total_periodos):
    """
    Resumen metodol√≥gico del caso de estudio
    """
    print(f"\n" + "="*70)
    print("üéØ RESUMEN METODOL√ìGICO DEL CASO DE ESTUDIO")
    print("="*70)
    
    print(f"üìã DEMOSTRACI√ìN EXITOSA DE TRIANGULACI√ìN:")
    print(f"   ‚úÖ Convergencia EDA-VADER: {tasa_convergencia:.1f}%")
    print(f"   ‚úÖ Per√≠odos analizados: {total_periodos}")
    print(f"   ‚úÖ Desfase temporal detectado: NLP adelanta rating")
    print(f"   ‚úÖ Problema espec√≠fico identificado: 'Cargador' como causa")
    
    print(f"\nüí° VALOR METODOL√ìGICO DEMOSTRADO:")
    print(f"   üîπ Rating directo > scores h√≠bridos (transparencia)")
    print(f"   üîπ VADER > TextBlob para espa√±ol ({tasa_convergencia:.0f}% vs 20% convergencia)")
    print(f"   üîπ Triangulaci√≥n robusta en dataset peque√±o")
    print(f"   üîπ NLP como indicador adelantado validado")
    
    print(f"\n‚ö†Ô∏è LIMITACIONES RECONOCIDAS:")
    print(f"   ‚Ä¢ Caso √∫nico: Samsung A15 (no generalizable autom√°ticamente)")
    print(f"   ‚Ä¢ Dataset peque√±o: {total_periodos} per√≠odos analizados")
    print(f"   ‚Ä¢ Contexto espec√≠fico: Mercado argentino, MercadoLibre")
    print(f"   ‚Ä¢ Validaci√≥n post-hoc: Evento conocido, no predictivo")
    
    print(f"\nüöÄ APLICABILIDAD:")
    print(f"   ‚úÖ Metodolog√≠a replicable para casos similares")
    print(f"   ‚úÖ Framework adaptable a otros productos/contextos")
    print(f"   ‚úÖ Principios escalables con m√°s datos")
    print(f"   ‚úÖ Baseline metodol√≥gico para an√°lisis futuros")

# Ejecutar triangulaci√≥n completa
if len(df_anomalias_rating) > 0 and 'patrones_semanticos_updated' in locals():
    print("üîÑ Ejecutando triangulaci√≥n metodol√≥gica final...")
    
    # Crear dashboard de triangulaci√≥n  
    triangulation_data = create_triangulation_dashboard_final(df, df_anomalias_rating, patrones_semanticos_updated)
    
    if triangulation_data is not None:
        # An√°lisis de convergencia
        convergencias_results, tasa_final = analyze_methodological_convergence(
            triangulation_data, df_anomalias_rating, patrones_semanticos_updated
        )
        
        # Resumen metodol√≥gico
        generate_methodological_summary(tasa_final, len(triangulation_data))
        
        print(f"\n‚úÖ Triangulaci√≥n metodol√≥gica completada")
        print(f"üìä Dashboard guardado: 'triangulacion_metodologica_completa_4D.png'")
        print(f"üìù Metodolog√≠a: Integraci√≥n EDA + VADER + Engagement + NLP validada")
        
    else:
        print(f"‚ùå Error en creaci√≥n de dashboard de triangulaci√≥n")
        
else:
    print(f"‚ö†Ô∏è Requisitos no cumplidos para triangulaci√≥n completa")
    print(f"   - df_anomalias_rating: {'‚úì' if len(df_anomalias_rating) > 0 else '‚úó'}")
    print(f"   - patrones_semanticos_updated: {'‚úì' if 'patrones_semanticos_updated' in locals() else '‚úó'}")

In [None]:
def create_report_graphics(triangulation_df):
    """
    Genera dos gr√°ficos espec√≠ficos para el informe:
    1. Rating + "Cargador" (mensaje central)
    2. Rating + VADER + Engagement (an√°lisis profundo)
    """
    import matplotlib.pyplot as plt
    import seaborn as sns
    import numpy as np
    from matplotlib.dates import DateFormatter
    import matplotlib.dates as mdates
    
    # Configurar estilo para informe
    plt.style.use('default')
    sns.set_style("whitegrid")
    
    # Colores por intensidad
    color_map = {
        'Normal': '#2E8B57',      # Verde
        'Baja': '#FFD700',        # Dorado  
        'Moderada': '#FF8C00',    # Naranja
        'Alta': '#FF4500',        # Naranja rojizo
        'Cr√≠tica': '#DC143C'      # Rojo
    }
    
    colors = [color_map.get(intensidad, '#808080') for intensidad in triangulation_df['intensidad']]
    
    # =============================================================================
    # GR√ÅFICO 1: RATING + "CARGADOR" (MENSAJE CENTRAL)
    # =============================================================================
    
    fig1, ax1 = plt.subplots(figsize=(12, 6))
    
    # Barras de rating con colores por intensidad
    bars1 = ax1.bar(triangulation_df['periodo_dt'], triangulation_df['rating_mean'], 
                    color=colors, alpha=0.8, label='Rating Promedio', width=25, edgecolor='black', linewidth=0.5)
    
    # A√±adir valores en las barras
    for bar, rating in zip(bars1, triangulation_df['rating_mean']):
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height + 0.05,
                f'{rating:.2f}', ha='center', va='bottom', fontweight='bold', fontsize=11)
    
    # L√≠nea de frecuencia "cargador"
    ax2_1 = ax1.twinx()
    line_cargador = ax2_1.plot(triangulation_df['periodo_dt'], triangulation_df['freq_cargador'], 
                               'ro-', linewidth=4, markersize=10, label='Frecuencia "Cargador"', 
                               alpha=0.9, markeredgecolor='darkmagenta', markeredgewidth=1)
    
    # Configurar ejes
    ax1.set_ylabel('Rating Promedio', fontsize=14, fontweight='bold', color='black')
    ax2_1.set_ylabel('Menciones "Cargador" por Per√≠odo', fontsize=14, fontweight='bold', color='darkred')
    ax1.set_xlabel('Per√≠odo', fontsize=14, fontweight='bold')
    
    ax1.tick_params(axis='y', labelcolor='black', labelsize=12)
    ax2_1.tick_params(axis='y', labelcolor='darkred', labelsize=12)
    
    # Formatear fechas
    ax1.xaxis.set_major_formatter(DateFormatter('%Y-%m'))
    ax1.xaxis.set_major_locator(mdates.MonthLocator())
    plt.setp(ax1.xaxis.get_majorticklabels(), rotation=45, fontsize=11)
    
    # T√≠tulo y l√≠neas de referencia
    ax1.set_title('Identificaci√≥n Autom√°tica del Problema del Cargador\nCaso Samsung A15: Convergencia EDA-NLP', 
                  fontsize=16, fontweight='bold', pad=20)
    
    # L√≠nea cr√≠tica en rating 3.0
    ax1.axhline(y=3.0, color='red', linestyle=':', alpha=0.8, linewidth=2)
    ax1.text(triangulation_df['periodo_dt'].iloc[2], 3.1, 'Umbral Cr√≠tico (3.0)', 
             fontsize=11, color='red', fontweight='bold')
    
    # Identificar y anotar desfase temporal
    pico_cargador = triangulation_df.loc[triangulation_df['freq_cargador'].idxmax()]
    min_rating = triangulation_df.loc[triangulation_df['rating_mean'].idxmin()]
    
    if pico_cargador['periodo'] != min_rating['periodo']:
        # Flecha mostrando desfase
        ax1.annotate('', xy=(min_rating['periodo_dt'], min_rating['rating_mean']), 
                     xytext=(pico_cargador['periodo_dt'], 4.2),
                     arrowprops=dict(arrowstyle='<->', color='purple', lw=3))
        ax1.text(pico_cargador['periodo_dt'], 4.4, 
                 f'Desfase Temporal\nNLP: {pico_cargador["periodo"]}\nRating m√≠n: {min_rating["periodo"]}', 
                 ha='center', va='bottom', fontsize=11, fontweight='bold',
                 bbox=dict(boxstyle="round,pad=0.5", facecolor="lightyellow", alpha=0.9, edgecolor='orange'))
    
    # Leyenda
    lines1, labels1 = ax1.get_legend_handles_labels()
    lines2, labels2 = ax2_1.get_legend_handles_labels()
    ax1.legend(lines1 + lines2, labels1 + labels2, loc='upper left', fontsize=12, framealpha=0.9)
    
    # Formato
    plt.tight_layout()
    plt.savefig('informe_grafico1_rating_cargador.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # =============================================================================
    # GR√ÅFICO 2: RATING + VADER + ENGAGEMENT (AN√ÅLISIS PROFUNDO)
    # =============================================================================
    
    fig2, ax1_2 = plt.subplots(figsize=(12, 6))
    
    # Barras de rating TRANSPARENTES como fondo/contexto
    bars2 = ax1_2.bar(triangulation_df['periodo_dt'], triangulation_df['rating_mean'], 
                      color=colors, alpha=0.25, width=25, 
                      edgecolor='gray', linewidth=0.8)
    
    # L√≠nea de VADER (protagonista)
    ax2_2 = ax1_2.twinx()
    line_vader = ax2_2.plot(triangulation_df['periodo_dt'], triangulation_df['vader_sentiment'], 
                            'b^-', linewidth=4, markersize=10, label='Sentimiento VADER', 
                            alpha=0.9, markeredgecolor='darkblue', markeredgewidth=1)
    
    # L√≠nea de engagement (protagonista)
    ax3_2 = ax1_2.twinx()
    ax3_2.spines['right'].set_position(('outward', 60))
    line_engagement = ax3_2.plot(triangulation_df['periodo_dt'], triangulation_df['votes_median'], 
                                 's--', color='purple', linewidth=3, markersize=8, 
                                 label='Mediana Engagement', alpha=0.9,
                                 markeredgecolor='indigo', markeredgewidth=1)
    
    # Configurar ejes
    ax1_2.set_ylabel('Rating Promedio (referencia)', fontsize=13, fontweight='bold', color='black')
    ax2_2.set_ylabel('Sentimiento VADER', fontsize=14, fontweight='bold', color='darkblue')
    ax3_2.set_ylabel('Mediana Votos √ötiles', fontsize=14, fontweight='bold', color='purple')
    ax1_2.set_xlabel('Per√≠odo', fontsize=14, fontweight='bold')
    
    ax1_2.tick_params(axis='y', labelcolor='gray', labelsize=11)
    ax2_2.tick_params(axis='y', labelcolor='darkblue', labelsize=12)
    ax3_2.tick_params(axis='y', labelcolor='purple', labelsize=12)
    
    # Formatear fechas
    ax1_2.xaxis.set_major_formatter(DateFormatter('%Y-%m'))
    ax1_2.xaxis.set_major_locator(mdates.MonthLocator())
    plt.setp(ax1_2.xaxis.get_majorticklabels(), rotation=45, fontsize=11)
    
    # T√≠tulo
    ax1_2.set_title('An√°lisis Emocional y de Respuesta Social\nCaso Samsung A15: Dimensiones VADER y Engagement', 
                    fontsize=16, fontweight='bold', pad=20)
    
    # L√≠neas de referencia
    ax2_2.axhline(y=0, color='darkblue', linestyle=':', alpha=0.6, linewidth=2)
    ax2_2.text(triangulation_df['periodo_dt'].iloc[1], 0.02, 'Sentimiento Neutral', 
               fontsize=10, color='darkblue', fontweight='bold')
    
    # Zona cr√≠tica VADER
    ax2_2.axhspan(-0.3, -0.05, alpha=0.1, color='red', label='Zona Negativa')
    ax1_2.grid(False)
    ax2_2.grid(False)
    ax3_2.grid(False)

    # Identificar puntos cr√≠ticos
    min_vader = triangulation_df.loc[triangulation_df['vader_sentiment'].idxmin()]
    max_engagement = triangulation_df.loc[triangulation_df['votes_median'].idxmax()]
    
    # Anotar punto m√°s negativo VADER
    ax2_2.annotate(f'VADER m√°s negativo\n{min_vader["vader_sentiment"]:.3f}', 
                   xy=(min_vader['periodo_dt'], min_vader['vader_sentiment']),
                   xytext=(min_vader['periodo_dt'], min_vader['vader_sentiment'] - 0.08),
                   arrowprops=dict(arrowstyle='->', color='darkblue', lw=2),
                   fontsize=10, ha='center', fontweight='bold',
                   bbox=dict(boxstyle="round,pad=0.3", facecolor="lightblue", alpha=0.8))
    
    # Anotar engagement m√°ximo
    ax3_2.annotate(f'Engagement m√°ximo\n{max_engagement["votes_median"]:.1f} votos', 
                   xy=(max_engagement['periodo_dt'], max_engagement['votes_median']),
                   xytext=(max_engagement['periodo_dt'], max_engagement['votes_median'] + 2),
                   arrowprops=dict(arrowstyle='->', color='purple', lw=2),
                   fontsize=10, ha='center', fontweight='bold',
                   bbox=dict(boxstyle="round,pad=0.3", facecolor="plum", alpha=0.8))
    
    # Leyenda consolidada
    lines1, labels1 = ax1_2.get_legend_handles_labels()
    lines2, labels2 = ax2_2.get_legend_handles_labels()
    lines3, labels3 = ax3_2.get_legend_handles_labels()
    ax1_2.legend(lines1 + lines2 + lines3, labels1 + labels2 + labels3, 
                 loc='upper left', fontsize=11, framealpha=0.9)
    
    # Grid sutil
    ax1_2.grid(True, alpha=0.2)
    plt.tight_layout()
    plt.savefig('informe_grafico2_rating_vader_engagement.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    print("‚úÖ Gr√°ficos para informe generados:")
    print("   üìä Gr√°fico 1: informe_grafico1_rating_cargador.png")
    print("   üìä Gr√°fico 2: informe_grafico2_rating_vader_engagement.png")
    print("   üí° Rating transparente en Gr√°fico 2 como contexto visual")

# Ejecutar generaci√≥n de gr√°ficos para informe
if 'triangulation_data' in locals() and triangulation_data is not None:
    print("üîÑ Generando gr√°ficos espec√≠ficos para informe...")
    create_report_graphics(triangulation_data)
else:
    print("‚ö†Ô∏è Ejecuta primero la Secci√≥n 4 completa para generar triangulation_data")

In [None]:
def create_report_graphics(triangulation_df):
    """
    Genera dos gr√°ficos espec√≠ficos para el informe:
    1. Rating + "Cargador" (mensaje central)
    2. Rating + VADER + Engagement (an√°lisis profundo)
    """
    import matplotlib.pyplot as plt
    import seaborn as sns
    import numpy as np
    from matplotlib.dates import DateFormatter
    import matplotlib.dates as mdates
    
    # Configurar estilo para informe
    plt.style.use('default')
    sns.set_style("dark")
    
    # Colores por intensidad
    color_map = {
        'Normal': '#2E8B57',      # Verde
        'Baja': '#FFD700',        # Dorado  
        'Moderada': '#FF8C00',    # Naranja
        'Alta': '#FF4500',        # Naranja rojizo
        'Cr√≠tica': '#DC143C'      # Rojo
    }
    
    colors = [color_map.get(intensidad, '#808080') for intensidad in triangulation_df['intensidad']]
    
    # =============================================================================
    # GR√ÅFICO 1: RATING + "CARGADOR" (MENSAJE CENTRAL)
    # =============================================================================
    
    fig1, ax1 = plt.subplots(figsize=(12, 6))
    
    # Barras de rating con colores por intensidad
    bars1 = ax1.bar(triangulation_df['periodo_dt'], triangulation_df['rating_mean'], 
                    color=colors, alpha=0.6, width=25, edgecolor='black', linewidth=0.5)
    
    # A√±adir valores en las barras
    for bar, rating in zip(bars1, triangulation_df['rating_mean']):
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height + 0.05,
                f'{rating:.2f}', ha='center', va='bottom', fontweight='bold', fontsize=11)
    
    # L√≠nea de frecuencia "cargador"
    ax2_1 = ax1.twinx()
    line_cargador = ax2_1.plot(triangulation_df['periodo_dt'], triangulation_df['freq_cargador'], 
                               'mo-', linewidth=4, markersize=10, label='Menciones "Cargador"', 
                               alpha=0.9, markeredgecolor='darkmagenta', markeredgewidth=1)
    
    # Configurar ejes
    ax1.set_ylabel('Rating Promedio', fontsize=14, fontweight='bold', color='black')
    ax2_1.set_ylabel('Menciones "Cargador" por Per√≠odo', fontsize=14, fontweight='bold', color='darkred')
    ax1.set_xlabel('Per√≠odo', fontsize=14, fontweight='bold')
    
    ax1.tick_params(axis='y', labelcolor='black', labelsize=12)
    ax2_1.tick_params(axis='y', labelcolor='darkred', labelsize=12)
    
    # Formatear fechas
    ax1.xaxis.set_major_formatter(DateFormatter('%Y-%m'))
    ax1.xaxis.set_major_locator(mdates.MonthLocator())
    plt.setp(ax1.xaxis.get_majorticklabels(), rotation=45, fontsize=11)
    
    # T√≠tulo y l√≠neas de referencia
    ax1.set_title('Identificaci√≥n Autom√°tica del Problema del Cargador\nCaso Samsung A15: Validaci√≥n Cruzada de T√©cnicas', 
                  fontsize=16, fontweight='bold', pad=20)
    
    # L√≠nea cr√≠tica en rating 3.0 (alineada a la izquierda)
    ax1.axhline(y=3.0, color='darkblue', linestyle=':', alpha=0.8, linewidth=2)
    ax1.text(ax1.get_xlim()[1], 3.1, 'Umbral Cr√≠tico', 
         fontsize=11, color='darkblue', fontweight='bold', ha='right', va='bottom')
    ax1.grid(False)
    
    # Leyenda (esquina superior derecha)
    lines1, labels1 = ax1.get_legend_handles_labels()
    lines2, labels2 = ax2_1.get_legend_handles_labels()
    ax1.legend(lines1 + lines2, labels1 + labels2, loc='upper right', fontsize=12, framealpha=0.9)
    
    # Formato
    plt.tight_layout()
    plt.savefig('../outputs/visualizations/03_informe_grafico1_rating_cargador.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # =============================================================================
    # GR√ÅFICO 2: RATING + AN√ÅLISIS DE SENTIMIENTO + ENGAGEMENT (AN√ÅLISIS PROFUNDO)
    # =============================================================================
    
    fig2, ax1_2 = plt.subplots(figsize=(12, 6))
    
    # Barras de rating TRANSPARENTES como fondo/contexto
    bars2 = ax1_2.bar(triangulation_df['periodo_dt'], triangulation_df['rating_mean'], 
                      color=colors, alpha=0.25, width=25, 
                      edgecolor='gray', linewidth=0.8)
    
    # L√≠nea de an√°lisis de sentimiento (protagonista)
    ax2_2 = ax1_2.twinx()
    line_sentiment = ax2_2.plot(triangulation_df['periodo_dt'], triangulation_df['vader_sentiment'], 
                               'b^-', linewidth=4, markersize=10, label='An√°lisis de Sentimiento', 
                               alpha=0.9, markeredgecolor='darkblue', markeredgewidth=1)
    
    # L√≠nea de engagement (protagonista)
    ax3_2 = ax1_2.twinx()
    ax3_2.spines['right'].set_position(('outward', 60))
    line_engagement = ax3_2.plot(triangulation_df['periodo_dt'], triangulation_df['votes_median'], 
                                 's--', color='purple', linewidth=3, markersize=8, 
                                 label='Engagement (Votos √ötiles)', alpha=0.9,
                                 markeredgecolor='indigo', markeredgewidth=1)
    
    # Configurar ejes
    ax1_2.set_ylabel('Rating Promedio (referencia)', fontsize=13, fontweight='bold', color='darkgray')
    ax2_2.set_ylabel('An√°lisis de Sentimiento', fontsize=14, fontweight='bold', color='darkblue')
    ax3_2.set_ylabel('Engagement (Votos √ötiles)', fontsize=14, fontweight='bold', color='purple')
    ax1_2.set_xlabel('Per√≠odo', fontsize=14, fontweight='bold')
    
    ax1_2.tick_params(axis='y', labelcolor='gray', labelsize=11)
    ax2_2.tick_params(axis='y', labelcolor='darkblue', labelsize=12)
    ax3_2.tick_params(axis='y', labelcolor='purple', labelsize=12)
    
    # Formatear fechas
    ax1_2.xaxis.set_major_formatter(DateFormatter('%Y-%m'))
    ax1_2.xaxis.set_major_locator(mdates.MonthLocator())
    plt.setp(ax1_2.xaxis.get_majorticklabels(), rotation=45, fontsize=11)
    
    # T√≠tulo
    ax1_2.set_title('An√°lisis Emocional y de Respuesta Social\nCaso Samsung A15: Indicadores Multidimensionales', 
                    fontsize=16, fontweight='bold', pad=20)
    
    # L√≠neas de referencia (alineadas a la izquierda)
    ax2_2.axhline(y=0, color='darkblue', linestyle=':', alpha=0.6, linewidth=2)
    ax2_2.text(ax1_2.get_xlim()[1], 0.02, 'Sentimiento Neutral', 
           fontsize=11, color='darkblue', fontweight='bold', ha='right', va='bottom')
    
    # Zona cr√≠tica para sentimiento
    ax2_2.axhspan(-0.3, -0.05, alpha=0.1, color='red', label='Zona Negativa')
    
    # Leyenda consolidada (esquina superior derecha)
    lines1, labels1 = ax1_2.get_legend_handles_labels()
    lines2, labels2 = ax2_2.get_legend_handles_labels()
    lines3, labels3 = ax3_2.get_legend_handles_labels()
    ax1_2.legend(lines1 + lines2 + lines3, labels1 + labels2 + labels3, 
                 loc='upper right', fontsize=11, framealpha=0.9)
    
   
    plt.tight_layout()
    plt.savefig('../outputs/visualizations/03_informe_grafico2_rating_sentiment_engagement.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    print("‚úÖ Gr√°ficos para informe generados:")
    print("   üìä Gr√°fico 1: informe_grafico1_rating_cargador.png")
    print("   üìä Gr√°fico 2: informe_grafico2_rating_sentiment_engagement.png")
    print("   üí° Versi√≥n adaptada para audiencia no t√©cnica")

# Ejecutar generaci√≥n de gr√°ficos para informe
if 'triangulation_data' in locals() and triangulation_data is not None:
    print("üîÑ Generando gr√°ficos espec√≠ficos para informe...")
    create_report_graphics(triangulation_data)
else:
    print("‚ö†Ô∏è Ejecuta primero la Secci√≥n 4 completa para generar triangulation_data")

# üéØ Conclusiones: S√≠ntesis de Resultados Metodol√≥gicos

## üìä Resultados Principales del Caso de Estudio

### Convergencia Metodol√≥gica Exitosa

El an√°lisis de triangulaci√≥n EDA-NLP demostr√≥ una **convergencia metodol√≥gica del 80.0%** en el caso Samsung A15, validando la efectividad del framework para datasets peque√±os.

**¬øQu√© significa convergencia metodol√≥gica?** Es el grado en que t√©cnicas independientes (EDA cuantitativo, an√°lisis sem√°ntico NLP, y vocabulario cr√≠tico) coinciden en identificar los mismos per√≠odos como problem√°ticos. Una alta convergencia indica que m√∫ltiples enfoques anal√≠ticos est√°n "viendo" el mismo fen√≥meno, aumentando la confianza en los hallazgos cuando el dataset es peque√±o para validaci√≥n estad√≠stica robusta.

**Resultados cuantitativos:**
- **Per√≠odos analizados**: 10 (junio 2024 - marzo 2025)
- **Convergencias exitosas**: 8/10 per√≠odos (‚â•2/3 criterios cumplidos)
- **Performance por criterio individual**:
  - VADER negativo (<-0.05): **90% detecci√≥n** (9/10 per√≠odos)
  - Vocabulario cr√≠tico "cargador" (‚â•5): **80% detecci√≥n** (8/10 per√≠odos) 
  - Rating cr√≠tico (‚â•Moderada): **70% detecci√≥n** (7/10 per√≠odos)

### Identificaci√≥n Exitosa de Problema Espec√≠fico

El framework identific√≥ autom√°ticamente el **problema del cargador** como causa central de la crisis Samsung A15:

- **Consistencia temporal**: Presente en 8/10 per√≠odos analizados (80%)
- **Pico de menciones**: 31 referencias en octubre 2024
- **Persistencia**: Problema sostenido julio 2024 - marzo 2025
- **Especificidad**: Causa √∫nica y focalizada vs crisis multifactorial

## üïê Desfases Temporales Identificados

### NLP Como Indicador Adelantado Confirmado

El an√°lisis revel√≥ un **patr√≥n consistente de desfase temporal** entre t√©cnicas:

**Secuencia Temporal Observada:**
1. **Julio-Septiembre 2024**: Descenso abrupto VADER (0.300 ‚Üí -0.221) anticipando crisis
2. **Octubre 2024**: Pico vocabulario cr√≠tico (31 menciones "cargador")
3. **Noviembre 2024**: Rating m√≠nimo (2.70) + Score EDA m√°ximo (4/4)
4. **Enero 2025**: VADER alcanza punto m√°s negativo (-0.247) post-impacto

**Interpretaci√≥n Metodol√≥gica:**
- **VADER anticipa** el deterioro desde julio, detectando el problema 3-4 meses antes del m√≠nimo rating
- **Vocabulario cr√≠tico** identifica la causa espec√≠fica 1 mes antes del impacto m√°ximo
- **Rating confirma** el deterioro cuando ya es evidente en m√©tricas cuantitativas
- **VADER contin√∫a** profundizando emocionalmente incluso durante la recuperaci√≥n inicial

### Valor del Desfase para An√°lisis Futuro

Este patr√≥n sugiere que **el an√°lisis sem√°ntico puede actuar como indicador adelantado** de deterioro reputacional, proporcionando ventana temporal para intervenci√≥n antes de que el impacto se materialice completamente en ratings promedio.

## üìà Lecciones Metodol√≥gicas Clave

### Fortalezas Demostradas del Framework

**1. Triangulaci√≥n Robusta en Datasets Peque√±os**
- 80% convergencia con solo 10 per√≠odos analizados
- M√∫ltiples t√©cnicas independientes validan hallazgos
- Reduce dependencia de validaci√≥n estad√≠stica tradicional

**2. Diagn√≥stico Espec√≠fico Automatizado**
- Identificaci√≥n de causas ra√≠z sin an√°lisis manual previo
- Vocabulario cr√≠tico emerge autom√°ticamente del corpus
- Especificidad que supera m√©tricas agregadas simples

## üöÄ Aplicabilidad y Replicabilidad

### Condiciones y Adaptaciones para Replicaci√≥n

**Contextos Apropiados:**
- Datasets peque√±os-medianos (5-50 per√≠odos temporales)
- Productos con vocabulario cr√≠tico identificable
- Crisis focalizadas vs difusas multifactoriales

**Adaptaciones Requeridas:**
- Calibraci√≥n de umbrales por mercado/contexto espec√≠fico
- Selecci√≥n de herramientas NLP apropiadas para idioma target
- Definici√≥n de vocabulario cr√≠tico relevante por industria

**Extensiones Metodol√≥gicas Propuestas:**
- Validaci√≥n cruzada con m√∫ltiples crisis documentadas
- Sistema de alertas basado en umbral de convergencia
- Integraci√≥n con fuentes de datos adicionales

## üí° Contribuciones al Estado del Arte

### Valor Metodol√≥gico del Framework

**1. Triangulaci√≥n en Contextos de Datos Limitados**
- Demuestra efectividad de validaci√≥n cruzada con muestras peque√±as
- Principios transferibles a otras aplicaciones de an√°lisis reputacional
- Framework flexible adaptable a diferentes contextos e industrias

**2. Integraci√≥n Pr√°ctica EDA-NLP**
- Combina simplicidad interpretativa con sofisticaci√≥n t√©cnica
- Balance entre automatizaci√≥n y capacidad de diagn√≥stico espec√≠fico
- Metodolog√≠a escalable manteniendo principios fundamentales

---

**üéØ S√≠ntesis Final:** Este caso de estudio demuestra que la triangulaci√≥n metodol√≥gica puede extraer insights v√°lidos y accionables de datasets peque√±os, proporcionando tanto detecci√≥n de anomal√≠as como diagn√≥stico espec√≠fico de causas, siempre que se reconozcan expl√≠citamente las limitaciones contextuales y se dise√±en expectativas realistas apropiadas para el alcance disponible.

In [None]:
# =============================================================================
# GR√ÅFICO SIMPLE: RATING vs NLP (Sin Score EDA)
# =============================================================================

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

def crear_grafico_rating_nlp_simple():
    """
    Gr√°fico directo: Rating absoluto vs Frecuencia NLP
    """
    
    # Configurar estilo darkgrid
    sns.set_style("darkgrid")
    plt.rcParams['figure.facecolor'] = 'white'
    plt.rcParams['axes.facecolor'] = '#f0f0f0'
    
    # Datos Samsung EDA (solo necesitamos rating)
    samsung_eda = df_anomalias_eda[df_anomalias_eda['producto'] == 'Samsung A15'].copy()
    
    # Datos NLP (frecuencia cargador)
    samsung_nlp = [p for p in patrones_semanticos if p['producto'] == 'Samsung A15']
    df_nlp = pd.DataFrame(samsung_nlp)
    
    freq_cargador = []
    for _, row in df_nlp.iterrows():
        vocab = row['vocabulario_critico']
        freq = vocab.get('cargador', 0) if isinstance(vocab, dict) else 0
        freq_cargador.append(freq)
    
    df_nlp['freq_cargador'] = freq_cargador
    
    # Merge datos
    samsung_eda['periodo_str'] = samsung_eda['periodo'].astype(str)
    df_nlp['periodo_str'] = df_nlp['periodo'].astype(str)
    
    merged_simple = pd.merge(samsung_eda, df_nlp[['periodo_str', 'freq_cargador']], 
                            on='periodo_str', how='inner')
    merged_simple = merged_simple.sort_values('periodo').reset_index(drop=True)
    
    # Crear gr√°fico
    fig, ax1 = plt.subplots(figsize=(14, 8))
    
    # Eje izquierdo - Rating (INVERTIDO para mostrar crisis como picos hacia abajo)
    periodos_labels = [str(p)[-7:] for p in merged_simple['periodo']]
    x_pos = np.arange(len(periodos_labels))
    
    # Rating con colores seg√∫n nivel cr√≠tico
    colors_rating = []
    for rating in merged_simple['rating_mean']:
        if rating < 2.8:
            colors_rating.append('#DC143C')  # Rojo - Cr√≠tico
        elif rating < 3.2:
            colors_rating.append('#FF8C00')  # Naranja - Severo
        elif rating < 3.6:
            colors_rating.append('#DAA520')  # Dorado - Moderado
        elif rating < 4.0:
            colors_rating.append('#32CD32')  # Verde claro - Aceptable
        else:
            colors_rating.append('#228B22')  # Verde oscuro - Bueno
    
    bars_rating = ax1.bar(x_pos, merged_simple['rating_mean'], 
                         alpha=0.8, color=colors_rating, width=0.6, 
                         edgecolor='black', linewidth=1.2)
    
    ax1.set_xlabel('Per√≠odo', fontsize=14, fontweight='bold')
    ax1.set_ylabel('Rating Promedio', fontsize=14, fontweight='bold', color='#1f4e79')
    ax1.tick_params(axis='y', labelcolor='#1f4e79', labelsize=12)
    ax1.set_ylim(1, 5)  # Escala completa de rating
    
    # L√≠nea horizontal en rating cr√≠tico
    ax1.axhline(y=3.0, color='red', linestyle=':', alpha=0.7, linewidth=2)
    ax1.text(len(x_pos)-1, 3.1, 'Umbral Cr√≠tico (3.0)', ha='right', va='bottom', 
             fontsize=10, color='red', fontweight='bold')
    
    # Eje derecho - Frecuencia NLP y Mediana Votos √ötiles
    ax2 = ax1.twinx()
    
    # L√≠nea NLP
    line_nlp = ax2.plot(x_pos, merged_simple['freq_cargador'], 
                       color='#8B0000', marker='o', linewidth=4, 
                       markersize=12, markerfacecolor='#CD5C5C', 
                       markeredgecolor='#8B0000', markeredgewidth=2,
                       label='Frecuencia "cargador" (NLP)')
    
    # L√≠nea Mediana Votos √ötiles (Engagement)
    line_engagement = ax2.plot(x_pos, merged_simple['votes_median'], 
                              color='#4B0082', marker='s', linewidth=3, 
                              markersize=8, markerfacecolor='#9370DB', 
                              markeredgecolor='#4B0082', markeredgewidth=2,
                              linestyle='--', alpha=0.8,
                              label='Mediana Votos √ötiles (Engagement)')
    
    ax2.set_ylabel('Frecuencia NLP / Mediana Votos √ötiles', fontsize=14, fontweight='bold', color='#8B0000')
    ax2.tick_params(axis='y', labelcolor='#8B0000', labelsize=12)
    
    # Ajustar escala para acomodar ambas l√≠neas
    max_freq = max(merged_simple['freq_cargador'])
    max_votes = max(merged_simple['votes_median'])
    ax2.set_ylim(0, max(max_freq, max_votes) + 5)
    
    # Configurar x-axis
    ax1.set_xticks(x_pos)
    ax1.set_xticklabels(periodos_labels, rotation=45, ha='right', fontsize=12)
    
    # Destacar convergencias: Rating bajo + NLP alto + Engagement alto
    for i, (rating, freq, engagement) in enumerate(zip(merged_simple['rating_mean'], 
                                                       merged_simple['freq_cargador'],
                                                       merged_simple['votes_median'])):
        # Marcar per√≠odos de triple convergencia
        if rating < 3.5 and freq > 10 and engagement > 5:
            ax1.axvline(x=i, color='purple', linestyle=':', alpha=0.6, linewidth=2)
            ax1.text(i, 4.8, '‚ö†Ô∏è', ha='center', fontsize=14)
    
    # Destacar desfase temporal: Pico NLP (Oct) vs M√≠nimo Rating (Nov)
    pico_nlp_idx = merged_simple['freq_cargador'].idxmax()
    min_rating_idx = merged_simple['rating_mean'].idxmin()
    pico_engagement_idx = merged_simple['votes_median'].idxmax()
    
    # Marcar pico NLP
    ax2.annotate('Pico Discusi√≥n\n"Cargador"', 
                xy=(pico_nlp_idx, merged_simple.iloc[pico_nlp_idx]['freq_cargador']),
                xytext=(pico_nlp_idx-0.8, merged_simple.iloc[pico_nlp_idx]['freq_cargador']+8),
                fontsize=10, fontweight='bold', color='#8B0000',
                arrowprops=dict(arrowstyle='->', color='#8B0000', lw=2),
                ha='center', bbox=dict(boxstyle="round,pad=0.3", facecolor='#FFE4E1'))
    
    # Marcar m√≠nimo rating
    ax1.annotate('M√≠nimo\nRating', 
                xy=(min_rating_idx, merged_simple.iloc[min_rating_idx]['rating_mean']),
                xytext=(min_rating_idx+0.8, merged_simple.iloc[min_rating_idx]['rating_mean']-0.4),
                fontsize=10, fontweight='bold', color='#DC143C',
                arrowprops=dict(arrowstyle='->', color='#DC143C', lw=2),
                ha='center', bbox=dict(boxstyle="round,pad=0.3", facecolor='#FFE4E1'))
    
    # Marcar pico engagement si es diferente
    if pico_engagement_idx != pico_nlp_idx:
        ax2.annotate('Pico\nEngagement', 
                    xy=(pico_engagement_idx, merged_simple.iloc[pico_engagement_idx]['votes_median']),
                    xytext=(pico_engagement_idx+0.3, merged_simple.iloc[pico_engagement_idx]['votes_median']+3),
                    fontsize=9, fontweight='bold', color='#4B0082',
                    arrowprops=dict(arrowstyle='->', color='#4B0082', lw=1.5),
                    ha='center', bbox=dict(boxstyle="round,pad=0.2", facecolor='#E6E6FA'))
    
    # Flecha mostrando desfase temporal
    if pico_nlp_idx != min_rating_idx:
        ax1.annotate('', xy=(min_rating_idx, 4.5), xytext=(pico_nlp_idx, 4.5),
                    arrowprops=dict(arrowstyle='<->', color='purple', lw=3))
        ax1.text((pico_nlp_idx + min_rating_idx)/2, 4.7, 'Desfase\nTemporal', 
                ha='center', va='bottom', fontsize=10, fontweight='bold', color='purple')
    
    # A√±adir valores en puntos clave
    for i, (rating, freq) in enumerate(zip(merged_simple['rating_mean'], merged_simple['freq_cargador'])):
        # Mostrar valores en picos/m√≠nimos
        if i == pico_nlp_idx or i == min_rating_idx:
            ax1.text(i, rating + 0.1, f'{rating:.2f}', ha='center', va='bottom', 
                    fontweight='bold', fontsize=10, color='#1f4e79')
            ax2.text(i, freq + 1, f'{int(freq)}', ha='center', va='bottom', 
                    fontweight='bold', fontsize=10, color='#8B0000')
    
    # T√≠tulo
    fig.suptitle('Rating vs Discusi√≥n "Cargador" vs Engagement: Caso Samsung A15', 
                fontsize=16, fontweight='bold', y=0.96)
    ax1.set_title('An√°lisis de desfases temporales entre rating, discusi√≥n sem√°ntica y engagement', 
                 fontsize=12, style='italic', pad=20, color='#555555')
    
    # Leyenda combinada
    from matplotlib.patches import Patch
    legend_elements = [
        Patch(facecolor='#228B22', label='Rating > 4.0: Excelente'),
        Patch(facecolor='#32CD32', label='Rating 3.6-4.0: Bueno'),
        Patch(facecolor='#DAA520', label='Rating 3.2-3.6: Moderado'),
        Patch(facecolor='#FF8C00', label='Rating 2.8-3.2: Bajo'),
        Patch(facecolor='#DC143C', label='Rating < 2.8: Cr√≠tico'),
        plt.Line2D([0], [0], color='#8B0000', marker='o', markersize=8, 
                  markerfacecolor='#CD5C5C', label='Frecuencia "cargador" (NLP)'),
        plt.Line2D([0], [0], color='#4B0082', marker='s', markersize=6, 
                  markerfacecolor='#9370DB', linestyle='--', label='Mediana Votos √ötiles')
    ]
    
    ax1.legend(handles=legend_elements, loc='center left', framealpha=0.95, 
              fontsize=10, fancybox=True, shadow=True)
    
    # Grid
    ax1.grid(True, alpha=0.6, color='#888888', linewidth=0.8)
    ax2.grid(True, alpha=0.3, color='#CCCCCC', linewidth=0.5)
    
    plt.tight_layout()
    
    # Guardar
    plt.savefig('rating_vs_nlp_desfase.png', dpi=300, bbox_inches='tight', 
                facecolor='white', edgecolor='none')
    plt.show()
    
    return merged_simple

# Ejecutar
print("üìä Generando gr√°fico simple Rating vs NLP...")
datos_rating_nlp = crear_grafico_rating_nlp_simple()

# An√°lisis del desfase temporal
pico_nlp = datos_rating_nlp['freq_cargador'].idxmax()
pico_engagement = datos_rating_nlp['votes_median'].idxmax()
min_rating = datos_rating_nlp['rating_mean'].idxmin()

print(f"\nüïê AN√ÅLISIS DE DESFASES TEMPORALES:")
print("="*60)
print(f"Pico NLP (m√°xima freq 'cargador'): {datos_rating_nlp.iloc[pico_nlp]['periodo']} "
      f"({datos_rating_nlp.iloc[pico_nlp]['freq_cargador']} menciones)")
print(f"Pico Engagement (mediana votos): {datos_rating_nlp.iloc[pico_engagement]['periodo']} "
      f"({datos_rating_nlp.iloc[pico_engagement]['votes_median']} votos)")
print(f"M√≠nimo Rating: {datos_rating_nlp.iloc[min_rating]['periodo']} "
      f"({datos_rating_nlp.iloc[min_rating]['rating_mean']:.2f} estrellas)")

print(f"\nüìà INTERPRETACI√ìN TRIANGULAR:")
print(f"‚Ä¢ Discusi√≥n 'cargador' m√°xima: {datos_rating_nlp.iloc[pico_nlp]['periodo']}")
print(f"‚Ä¢ Engagement m√°ximo: {datos_rating_nlp.iloc[pico_engagement]['periodo']}")  
print(f"‚Ä¢ Impacto rating m√≠nimo: {datos_rating_nlp.iloc[min_rating]['periodo']}")
print(f"‚Ä¢ Patr√≥n: Discusi√≥n ‚Üí Engagement ‚Üí Impacto en Rating")

# An√°lisis adicional de convergencias
print(f"\nüéØ PER√çODOS DE CONVERGENCIA M√öLTIPLE:")
for i, row in datos_rating_nlp.iterrows():
    if row['rating_mean'] < 3.5 and row['freq_cargador'] > 10 and row['votes_median'] > 5:
        print(f"   ‚Ä¢ {row['periodo']}: Rating {row['rating_mean']:.2f}, "
              f"NLP {row['freq_cargador']}, Engagement {row['votes_median']}")

print("\n‚úÖ Gr√°fico guardado como 'rating_vs_nlp_desfase.png'")