# üìù An√°lisis Sem√°ntico de Campos de Texto

**Objetivo:** Analizar los campos de texto de las pel√≠culas para descubrir patrones ling√º√≠sticos y tem√°ticos que se correlacionen con el ROI.

**Campos analizados:**
- `title`: T√≠tulo de la pel√≠cula
- `overview`: Sinopsis/descripci√≥n
- `tagline`: Frase promocional
- `genres`: G√©neros cinematogr√°ficos
- `keywords`: Palabras clave

**Metodolog√≠as:**
1. **TF-IDF (Term Frequency-Inverse Document Frequency)**: Identifica t√©rminos distintivos
2. **An√°lisis de correlaci√≥n**: Relaciona t√©rminos con ROI
3. **Segmentaci√≥n por ROI**: Compara vocabulario entre pel√≠culas exitosas y no exitosas

## 1. Instalaci√≥n de dependencias

In [None]:
# Instalar dependencias necesarias para an√°lisis sem√°ntico
%pip install scikit-learn scipy matplotlib seaborn pandas numpy sqlalchemy psycopg2-binary

## 2. Imports y configuraci√≥n

In [None]:
# Imports est√°ndar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuraci√≥n
warnings.filterwarnings('ignore')
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (12, 8)
plt.rcParams['font.size'] = 10
pd.set_option('display.max_columns', None)

# Importar m√≥dulos de an√°lisis sem√°ntico
import sys
sys.path.append('/mnt/SSD_DATA/jonyloco/itba/DS/filmining-scraper')

from src.analysis import TextPreprocessor, TFIDFAnalyzer, MovieDataLoader

print("‚úì Imports completados")

## 3. Carga y preparaci√≥n de datos

Se cargan las pel√≠culas con sus campos de texto y datos financieros v√°lidos.

In [None]:
print("=== CARGA DE DATOS PARA AN√ÅLISIS SEM√ÅNTICO ===")

# Conectar a la base de datos
loader = MovieDataLoader('postgresql://postgres:postgres@localhost:25432/movie_database')

# Cargar pel√≠culas con text fields y datos financieros v√°lidos
df_text = loader.load_movies_with_text(
    min_budget=100000,  # Filtrar datos mal cargados
    include_genres=True,
    include_keywords=True
)

print(f"\n‚úì Pel√≠culas cargadas: {len(df_text):,}")
print(f"‚úì ROI promedio: {df_text['roi'].mean():.3f}")
print(f"‚úì ROI mediano: {df_text['roi'].median():.3f}")

df_text.head()

In [None]:
# Estad√≠sticas de campos de texto
print("\n=== ESTAD√çSTICAS DE CAMPOS DE TEXTO ===")

for field in ['title', 'overview', 'tagline', 'genres', 'keywords']:
    if field in df_text.columns:
        non_empty = df_text[field].notna().sum()
        pct = (non_empty / len(df_text)) * 100
        print(f"{field:12s}: {non_empty:5,} ({pct:5.1f}%) registros no vac√≠os")

## 4. Preprocesamiento de texto

Se combinan todos los campos de texto en un "documento" por pel√≠cula, aplicando:
- Limpieza de texto (min√∫sculas, puntuaci√≥n, etc.)
- Ponderaci√≥n de campos (el t√≠tulo se repite para darle m√°s peso)
- Filtrado de palabras cortas

In [None]:
print("=== PREPROCESAMIENTO DE TEXTO ===")

# Inicializar preprocesador
preprocessor = TextPreprocessor(
    lowercase=True,
    remove_punctuation=True,
    remove_numbers=False,
    min_word_length=2
)

# Preparar documentos combinando todos los campos de texto
df_documents = preprocessor.prepare_movie_documents(
    df_text,
    include_title=True,
    include_overview=True,
    include_tagline=True,
    include_genres=True,
    include_keywords=True,
    title_weight=2,  # El t√≠tulo se repite 2 veces
    tagline_weight=1
)

print(f"\n‚úì Documentos preparados: {len(df_documents):,}")
print(f"‚úì Longitud promedio: {df_documents['document'].str.len().mean():.0f} caracteres")
print(f"‚úì Palabras promedio: {df_documents['document'].str.split().str.len().mean():.0f} palabras")

In [None]:
# Mostrar ejemplo de documento procesado
print("\n=== EJEMPLO DE DOCUMENTO PROCESADO ===")

sample_idx = df_documents['roi'].idxmax()  # Pel√≠cula con mayor ROI
print(f"Pel√≠cula: {df_documents.loc[sample_idx, 'title']}")
print(f"ROI: {df_documents.loc[sample_idx, 'roi']:.2f}")
print(f"\nDocumento procesado:")
print(df_documents.loc[sample_idx, 'document'][:500] + "...")

## 5. An√°lisis TF-IDF

**TF-IDF (Term Frequency-Inverse Document Frequency)** identifica t√©rminos importantes en cada documento.

- **TF (Term Frequency)**: Frecuencia del t√©rmino en el documento
- **IDF (Inverse Document Frequency)**: Qu√© tan √∫nico es el t√©rmino en todo el corpus

Los t√©rminos con alto TF-IDF son frecuentes en un documento espec√≠fico pero raros en el resto, lo que los hace **distintivos**.

In [None]:
print("=== AN√ÅLISIS TF-IDF ===")

# Crear y ajustar analizador TF-IDF
tfidf = TFIDFAnalyzer(
    max_features=500,      # M√°ximo 500 t√©rminos
    min_df=5,              # T√©rmino debe aparecer en al menos 5 pel√≠culas
    max_df=0.8,            # T√©rmino no debe aparecer en m√°s del 80% de pel√≠culas
    ngram_range=(1, 2),    # Unigramas y bigramas
    use_idf=True,
    sublinear_tf=True      # Escala logar√≠tmica para TF
)

# Ajustar TF-IDF
tfidf_matrix = tfidf.fit_transform(df_documents['document'])

print(f"\n‚úì Matriz TF-IDF shape: {tfidf_matrix.shape}")
print(f"‚úì Sparsity: {(1 - tfidf_matrix.nnz / (tfidf_matrix.shape[0] * tfidf_matrix.shape[1])) * 100:.2f}%")

### 5.1 T√©rminos m√°s importantes globalmente

In [None]:
# T√©rminos m√°s importantes globalmente
print("=== T√âRMINOS M√ÅS IMPORTANTES GLOBALMENTE ===")

top_terms_global = tfidf.get_top_terms_global(top_n=30)
print(top_terms_global.to_string(index=False))

In [None]:
# Visualizar t√©rminos globales
tfidf.plot_top_terms(top_n=25, figsize=(14, 10))

### 5.2 Correlaci√≥n entre t√©rminos y ROI

Se analiza qu√© t√©rminos est√°n m√°s correlacionados con el ROI:
- **Correlaci√≥n positiva**: T√©rminos que aparecen m√°s en pel√≠culas rentables
- **Correlaci√≥n negativa**: T√©rminos que aparecen m√°s en pel√≠culas no rentables

In [None]:
print("=== CORRELACI√ìN DE T√âRMINOS CON ROI ===")

# Asegurar que los √≠ndices coincidan
roi_values = df_documents.loc[df_documents.index, 'roi']

# Calcular correlaciones (Spearman es m√°s robusto a outliers)
correlations = tfidf.correlate_with_target(
    roi_values,
    method='spearman',
    top_n=40
)

print("\nTop 20 t√©rminos m√°s correlacionados con ROI:")
print(correlations.head(20).to_string(index=False))

In [None]:
# Visualizar correlaciones
tfidf.plot_correlation_with_roi(
    roi_values,
    top_n=15,
    method='spearman',
    figsize=(16, 8)
)

### 5.3 An√°lisis por segmentos de ROI

Se divide el dataset en cuartiles seg√∫n ROI y se analizan los t√©rminos m√°s caracter√≠sticos de cada segmento.

In [None]:
print("=== AN√ÅLISIS POR SEGMENTOS DE ROI ===")

segments_results = tfidf.analyze_roi_segments(
    df_documents,
    roi_column='roi',
    n_segments=4,
    top_terms_per_segment=15
)

# Mostrar resultados por segmento
for segment_name, segment_df in sorted(segments_results.items()):
    print(f"\n{'='*60}")
    print(f"SEGMENTO: {segment_name}")
    print('='*60)
    print(segment_df.to_string(index=False))

### 5.4 Comparaci√≥n: Alto ROI vs Bajo ROI

In [None]:
# Comparaci√≥n visual de vocabulario
print("=== COMPARACI√ìN: ALTO ROI vs BAJO ROI ===")

# Dividir en dos grupos: top 25% y bottom 25%
roi_q75 = df_documents['roi'].quantile(0.75)
roi_q25 = df_documents['roi'].quantile(0.25)

high_roi_mask = df_documents['roi'] >= roi_q75
low_roi_mask = df_documents['roi'] <= roi_q25

print(f"Pel√≠culas con ALTO ROI (>= {roi_q75:.2f}): {high_roi_mask.sum()}")
print(f"Pel√≠culas con BAJO ROI (<= {roi_q25:.2f}): {low_roi_mask.sum()}")

# Gr√°fico comparativo
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(18, 8))

# Top t√©rminos en pel√≠culas de alto ROI
if 'Q4' in segments_results:
    high_roi_terms = segments_results['Q4'].head(15)
    ax1.barh(range(len(high_roi_terms)), high_roi_terms['mean_tfidf'], color='green', alpha=0.7)
    ax1.set_yticks(range(len(high_roi_terms)))
    ax1.set_yticklabels(high_roi_terms['term'])
    ax1.set_xlabel('Mean TF-IDF Score')
    ax1.set_title('Top T√©rminos en Pel√≠culas de ALTO ROI (Q4)', fontweight='bold', fontsize=12)
    ax1.invert_yaxis()

# Top t√©rminos en pel√≠culas de bajo ROI
if 'Q1' in segments_results:
    low_roi_terms = segments_results['Q1'].head(15)
    ax2.barh(range(len(low_roi_terms)), low_roi_terms['mean_tfidf'], color='red', alpha=0.7)
    ax2.set_yticks(range(len(low_roi_terms)))
    ax2.set_yticklabels(low_roi_terms['term'])
    ax2.set_xlabel('Mean TF-IDF Score')
    ax2.set_title('Top T√©rminos en Pel√≠culas de BAJO ROI (Q1)', fontweight='bold', fontsize=12)
    ax2.invert_yaxis()

plt.tight_layout()
plt.show()

### 5.5 Reducci√≥n de dimensionalidad (SVD)

Se aplica SVD (Singular Value Decomposition) para reducir la dimensionalidad de la matriz TF-IDF y crear features compactas para modelos predictivos.

In [None]:
print("=== REDUCCI√ìN DE DIMENSIONALIDAD CON SVD ===")

reduced_features = tfidf.apply_dimensionality_reduction(n_components=50)

print(f"\n‚úì Features reducidas shape: {reduced_features.shape}")

In [None]:
# Visualizar varianza explicada
explained_var = tfidf.svd_model.explained_variance_ratio_
cumulative_var = np.cumsum(explained_var)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

# Varianza por componente
ax1.bar(range(len(explained_var)), explained_var, alpha=0.7)
ax1.set_xlabel('Componente')
ax1.set_ylabel('Varianza explicada')
ax1.set_title('Varianza explicada por componente SVD')

# Varianza acumulada
ax2.plot(range(len(cumulative_var)), cumulative_var, marker='o', linewidth=2)
ax2.axhline(y=0.8, color='r', linestyle='--', label='80% varianza')
ax2.axhline(y=0.9, color='g', linestyle='--', label='90% varianza')
ax2.set_xlabel('N√∫mero de componentes')
ax2.set_ylabel('Varianza explicada acumulada')
ax2.set_title('Varianza acumulada')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Encontrar cu√°ntos componentes necesitamos para 80% y 90%
n_80 = np.argmax(cumulative_var >= 0.8) + 1
n_90 = np.argmax(cumulative_var >= 0.9) + 1
print(f"\nComponentes necesarios para 80% varianza: {n_80}")
print(f"Componentes necesarios para 90% varianza: {n_90}")

## 6. Exportar features para modelado

Se pueden exportar las features TF-IDF o las reducidas con SVD para usarlas en modelos predictivos.

In [None]:
# Crear DataFrame con features TF-IDF reducidas
feature_columns = [f'tfidf_svd_{i}' for i in range(reduced_features.shape[1])]
df_tfidf_features = pd.DataFrame(
    reduced_features,
    index=df_documents.index,
    columns=feature_columns
)

# Combinar con datos originales
df_for_modeling = df_documents[['id', 'title', 'roi', 'budget', 'revenue']].copy()
df_for_modeling = pd.concat([df_for_modeling, df_tfidf_features], axis=1)

print(f"‚úì DataFrame para modelado: {df_for_modeling.shape}")
df_for_modeling.head()

## 7. Resumen y conclusiones

### Hallazgos principales:

**1. T√©rminos globalmente importantes:**
- Los t√©rminos con mayor TF-IDF representan conceptos distintivos en el corpus
- Revelan los temas y g√©neros m√°s representados en el dataset

**2. Relaci√≥n con ROI:**
- Se identificaron t√©rminos con correlaci√≥n significativa con ROI
- **Correlaciones positivas**: T√©rminos que aparecen m√°s en pel√≠culas rentables
- **Correlaciones negativas**: T√©rminos que aparecen m√°s en pel√≠culas no rentables
- La correlaci√≥n sugiere patrones pero no implica causalidad

**3. Diferencias por segmento:**
- Pel√≠culas de alto ROI (Q4) tienen vocabulario caracter√≠stico diferente al de bajo ROI (Q1)
- Los t√©rminos distintivos pueden reflejar:
  - G√©neros m√°s rentables
  - Temas narrativos exitosos
  - Keywords de marketing efectivas

**4. Aplicabilidad:**
- Las features TF-IDF pueden usarse en modelos predictivos de ROI
- La reducci√≥n con SVD permite trabajar con features m√°s compactas
- 50 componentes SVD capturan la mayor parte de la varianza del texto

### Limitaciones:

1. **TF-IDF no captura sem√°ntica**: "king" y "queen" son tratados como completamente independientes
2. **Sensible a preprocesamiento**: La limpieza de texto afecta significativamente los resultados
3. **Correlaci√≥n ‚â† Causalidad**: Los t√©rminos correlacionados pueden ser s√≠ntomas, no causas del √©xito

### Pr√≥ximos pasos sugeridos:

1. **Sentence Embeddings (BERT, Sentence-BERT)**: Para capturar sem√°ntica profunda
2. **Topic Modeling (LDA)**: Para descubrir temas latentes
3. **Sentiment Analysis**: En overview y tagline
4. **Integraci√≥n en modelos**: Usar features TF-IDF en modelos de ML para predecir ROI