# Inferencía y analisís de comunidades en Redes sociales

# Introducción

## Problemática y Motivación

La identificación de comunidades en redes sociales ha sido tradicionalmente abordada mediante el análisis de conexiones explícitas entre usuarios (redes de seguimiento, menciones, interacciones directas). Sin embargo, este enfoque presenta limitaciones significativas: requiere acceso a datos de conectividad que no siempre están disponibles, puede verse afectado por comportamientos artificiales o estratégicos, y no necesariamente refleja afinidades ideológicas o temáticas reales entre usuarios.

## Propuesta Metodológica

Este proyecto desarrolla una **metodología alternativa para la inferencia automática de comunidades** que se basa exclusivamente en el **análisis semántico del contenido textual** generado por los usuarios. La hipótesis central es que usuarios con afinidades similares tienden a expresarse sobre temas comunes utilizando vocabulario, marcos conceptuales y estructuras discursivas similares, creando patrones detectables mediante técnicas de procesamiento de lenguaje natural y aprendizaje automático.

## Marco Teórico

### Análisis Semántico Multidimensional

La metodología propuesta reconoce que el contenido textual puede ser representado desde múltiples perspectivas complementarias:

1. **Nivel Léxico**: Frecuencia y distribución de términos específicos
2. **Nivel Temático**: Identificación de tópicos latentes en el corpus
3. **Nivel Semántico**: Representaciones densas que capturan significado contextual

### Clustering Ensemble

Para maximizar la robustez de la identificación de comunidades, se implementa un enfoque de **clustering multi-view** que combina múltiples representaciones vectoriales del discurso. Esta estrategia mitiga las limitaciones inherentes de métodos individuales y aprovecha las fortalezas complementarias de diferentes aproximaciones.

## Arquitectura Metodológica

### 1. Pipeline de Vectorización Textual

#### TF-IDF (Term Frequency-Inverse Document Frequency)
- Cuantifica la importancia de términos específicos en documentos individuales
- Identifica vocabulario distintivo de diferentes grupos de usuarios
- Proporciona interpretabilidad directa de las características más discriminativas

#### Topic Modeling
- **Non-negative Matrix Factorization (NMF)**: Descompone el corpus en temas latentes interpretables
- **Alternativa**: Latent Dirichlet Allocation (LDA) para distribuciones probabilísticas de temas
- Captura estructuras temáticas de alto nivel que trascienden términos individuales

#### Document Embeddings
- Representaciones vectoriales densas que capturan contexto semántico
- **Aprendizaje supervisado**: Utiliza etiquetas disponibles (ej. afinidad política) para guiar la representación
- **Implementación**: Redes neuronales con TensorFlow para optimización end-to-end

### 2. Sistema de Clustering Multicapa

#### Algoritmos Evaluados
- **Clustering Aglomerativo**: Construye jerarquías naturales mediante fusión iterativa
- **K-Means**: Optimiza particiones mediante minimización de varianza intra-cluster
- **Clustering Espectral**: Detecta estructuras complejas mediante análisis de eigenvalores

#### Votación Ponderada
- Combina resultados de múltiples algoritmos y representaciones
- Asigna pesos adaptativos basados en métricas de calidad (silhouette, cohesión interna)
- Genera consenso robusto que trasciende limitaciones individuales

### 3. Construcción de Redes de Similitud

#### Matriz de Similitud
- Cuantifica proximidad semántica entre usuarios basada en clustering
- Incorpora múltiples métricas: coseno, euclidiana, correlación
- Permite análisis de estructura comunitaria a diferentes escalas

#### Grafo Ponderado
- Transforma similitudes en red navegable
- Facilita visualización y análisis topológico
- Habilita aplicación de algoritmos de detección de comunidades en grafos

## Ventajas Metodológicas

### Independencia de Conectividad Explícita
- No requiere datos de seguimiento o conexiones directas
- Aplicable a plataformas con APIs restringidas
- Revela afinidades implícitas no manifiestas en conexiones

### Robustez y Generalización
- Múltiples representaciones reducen dependencia de sesgos específicos
- Ensemble clustering mejora estabilidad de resultados
- Metodología transferible entre dominios y plataformas

### Interpretabilidad
- TF-IDF y topic modeling proporcionan insights semánticos directos
- Comunidades pueden ser caracterizadas por vocabulario y temas distintivos
- Facilita análisis cualitativo de resultados cuantitativos

## Implementación Técnica

### Stack Tecnológico
- **Procesamiento de texto**: scikit-learn, NLTK, spaCy
- **Machine Learning**: scikit-learn, TensorFlow
- **Análisis de redes**: NetworkX, igraph
- **Visualización**: Streamlit, Plotly, Matplotlib

## Aplicaciones y Casos de Uso

### Investigación Académica
- Estudios de polarización y fragmentación social
- Análisis de discurso político y formación de opinión
- Investigación en comunicación mediada por computadora

### Aplicaciones Comerciales
- Segmentación de audiencias para marketing
- Análisis de sentiment y brand monitoring
- Personalización de contenido y recomendaciones

### Monitoreo Social
- Detección temprana de tendencias emergentes
- Análisis de campañas de desinformación
- Evaluación de políticas públicas de comunicación

## Contribuciones y Futuras Direcciones

Esta metodología representa una contribución significativa al campo de la minería de comunidades al demostrar que el análisis puramente textual puede revelar estructuras sociales complejas. Las direcciones futuras incluyen el análisis temporal de evolución comunitaria, y extensión a contenido multimodal.

## Estructura de carpetas


 ``` 
Estructura general del directorio:
├── app # Aplicación para mostrar resultados de manera interactiva
│   ├── .streamlit # Configuración de la app
│   ├── app.py # Aplicación principal
│   ├── components # Componentes
│   ├── full_pages # Páginas
│   ├── static 
│   │   └── plots # Plots generados
│   ├── styling.py # Estilo
│   └── utils # Utilidades
├── data.csv # CSV con los datos de usuarios
└── data_analysis.ipynb # Programa principal del proyecto, generación de plots, modelos, etc
 ``` 

# Empaquetado

In [None]:
# Importación de librerias 
from itertools import combinations  # Para generar combinaciones de elementos
from IPython.display import display  # Para mostrar objetos en entornos IPython/Jupyter
import matplotlib.colors as mcolors  # Para utilidades de colores de Matplotlib
import matplotlib.pyplot as plt  # Para la creación de gráficos y visualizaciones
import networkx as nx  # Para la creación, manipulación y estudio de estructuras de redes
import nltk  # Para procesamiento de lenguaje natural
from nltk.corpus import stopwords  # Para acceder a listas de palabras vacías (stopwords)
import numpy as np  # Para trabajo con matrices y operaciones numéricas de alto rendimiento
import os  # Para interactuar con el sistema operativo
from os.path import join  # Para unir rutas de archivos de manera independiente del sistema operativo
import pandas as pd  # Para manipulación y análisis de datos en estructuras tabulares
import plotly  # Para la creación de gráficos interactivos y dashboards
import plotly.graph_objects as go  # Para construir figuras de Plotly
from plotly.subplots import make_subplots  # Para crear subplots en Plotly
from matplotlib.patches import Patch  # Para crear parches en gráficos de Matplotlib (ej. leyendas)
import random  # Para generar números aleatorios
import re  # Para operaciones con expresiones regulares
from scipy.optimize import linear_sum_assignment  # Para resolver el problema de asignación lineal
from scipy.stats import gaussian_kde  # Para estimación de densidad de kernel gaussiana
import seaborn as sns # Para graficar
from sklearn.base import clone  # Para clonar estimadores de scikit-learn
from sklearn.cluster import KMeans, AgglomerativeClustering, SpectralClustering  # Para algoritmos de clustering
from sklearn.decomposition import NMF  # Para Factorización de Matrices No Negativas
from sklearn.feature_extraction.text import CountVectorizer  # Para convertir colecciones de documentos de texto en matrices de conteo de tokens
from sklearn.feature_extraction.text import TfidfVectorizer  # Para convertir colecciones de documentos de texto en matrices TF-IDF
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score  # Para métricas de evaluación de clustering
from sklearn.metrics.pairwise import cosine_similarity  # Para calcular la similitud del coseno entre vectores
from sklearn.model_selection import ParameterSampler  # Para muestreo de hiperparámetros
from sklearn.model_selection import train_test_split  # Para dividir datos en conjuntos de entrenamiento y prueba
from sklearn.preprocessing import LabelEncoder  # Para codificar etiquetas categóricas en valores numéricos
import tensorflow as tf  # Para aprendizaje automático y redes neuronales
from tensorflow.keras.preprocessing.sequence import pad_sequences  # Para rellenar secuencias con la misma longitud
from tensorflow.keras.preprocessing.text import Tokenizer  # Para tokenización de texto
from tqdm import tqdm  # Para mostrar barras de progreso en bucles
from typing import Tuple  # Para anotaciones de tipo (tuplas y cualquier tipo)
from wordcloud import WordCloud  # Para generar nubes de palabras

# Obtención de datos

In [None]:
# Ruta al archivo CSV con los datos
data_path = 'data.csv'

# Carga los datos desde el archivo CSV en un DataFrame
df = pd.read_csv(data_path)

# Muestra el DataFrame
df

In [None]:
# Selecciona las columnas de interés para el análisis
data = df[['username', 'platform', 'text', 'num_interaction', 'candidate_name']]

# 1.- Analizar los textos publicados por los 50 usuarios top de cada plataforma.

## 1.1 Obtener los textos

In [None]:
# Define cuántos usuarios principales por plataforma
n = 1000

# Suma las interacciones por usuario y plataforma
top_users = data.groupby(['platform', 'username'])['num_interaction'].sum().reset_index()

# Obtén el candidato más frecuente asociado a cada usuario
users_candidate = data.groupby(['platform', 'username'])['candidate_name'].apply(lambda x: x.mode()[0]).reset_index()

# Agrupa todos los textos publicados por cada usuario en una lista
user_texts = data.groupby(['platform', 'username'])['text'].apply(list).reset_index()

# Fusiona los DataFrames de interacciones, candidato y textos
top_users = top_users.merge(users_candidate, on=['platform', 'username'])
top_users = top_users.merge(user_texts, on=['platform', 'username'])

# Ordena por plataforma y número de interacciones (descendente)
top_users = top_users.sort_values(by=['platform', 'num_interaction'], ascending=[True, False])

# Selecciona los primeros 'n' usuarios por plataforma
top_users = top_users.groupby('platform').head(n)

# Reinicia el índice tras el filtrado
top_users.reset_index(drop=True, inplace=True)

# Muestra el DataFrame resultante
top_users

In [None]:
# Activa las barras de progreso en métodos pandas (apply, etc.)
tqdm.pandas()

In [None]:
# Descarga la lista de palabras vacías en español
nltk.download('stopwords')

# Crea el conjunto de stopwords en español y añade términos específicos del contexto
stop_words = set(stopwords.words('spanish'))
extra_stopwords = ['rt', 'https', 'creativecommonsorglicensesby40', 'http', 'creative',
                   'atribución', 'commons', 'licencia', '_', '40', 'com', '__',
                   'httpscreativecommonsorglicensesby40', 'httpaudionautixcom']
stop_words.update(extra_stopwords)

# Función para limpiar texto: pasa a minúsculas, elimina puntuación y filtra stopwords
def clean_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    tokens = text.split()
    stop_words = set(stopwords.words('spanish'))
    tokens = [w for w in tokens if not w in stop_words]
    text = ' '.join(tokens)
    return text

# Aplica la limpieza a cada texto en la lista de publicaciones
top_users['clean_text'] = top_users['text'].progress_apply(
    lambda x: [clean_text(str(text)) for text in x]
)
# Concadena todos los textos originales por usuario en una sola cadena
top_users['doc'] = top_users['text'].progress_apply(lambda x: ' '.join(x))
# Concadena todos los textos ya limpiados por usuario en una sola cadena
top_users['clean_doc'] = top_users['clean_text'].progress_apply(lambda x: ' '.join(x))


In [None]:
# Diccionario para almacenar DataFrames por plataforma
platform_dfs = {}

# Itera sobre cada plataforma única en top_users
for platform in top_users['platform'].unique():
    # Filtra los usuarios de la plataforma actual y reinicia el índice
    platform_df = top_users[top_users['platform'] == platform].reset_index(drop=True)

    # Guarda el DataFrame filtrado en el diccionario
    platform_dfs[platform] = platform_df

    # Muestra las primeras filas para inspección rápida
    display(platform_df.head(5))

In [None]:
# Correción de errores en la obtención de datos, especificamente en la asignación de apoyo a candidato

wrong_candidate_xochtil_users = ['Xóchitl Gálvez Ruiz', 'Xochitl2024', 'XochitlGalvez']
for platform, platform_df in platform_dfs.items():
    data = platform_df.copy()
    for wrong_candidate in wrong_candidate_xochtil_users:
        data.loc[data['username'] == wrong_candidate, 'candidate_name'] = 'Xóchitl Gálvez'
    platform_dfs[platform] = data

# 2.- Generar representaciones vectoriales del discurso y agrupar usuarios por afinidad semántica.

## 2.1 Generar representaciones vectoriales

In [None]:
def train_doc2vec_supervised(
    df: pd.DataFrame,
    text_col: str,
    label_col: str,
    vocab_size: int = 20000,
    maxlen: int = 200,
    embed_dim: int = 128,
    hidden_units: int = 64,
    test_size: float = 0.2,
    random_state: int = 123,
    epochs: int = 10,
    batch_size: int = 32
) -> Tuple[
    tf.keras.Model,      # modelo completo entrenado
    Tokenizer,           # tokenizer ajustado
    tf.keras.Model,      # encoder para extraer embeddings
    np.ndarray           # embeddings de todos los documentos
]:
    # --- FIJAR SEMILLAS PARA DETERMINISMO ---
    np.random.seed(random_state) # Semilla para NumPy
    random.seed(random_state)    # Semilla para el módulo random de Python
    tf.random.set_seed(random_state) # Semilla para TensorFlow

    # 1) Codificar etiquetas de texto a vectores one-hot
    le = LabelEncoder()
    y_int = le.fit_transform(df[label_col])
    y_cat = tf.keras.utils.to_categorical(y_int, num_classes=len(le.classes_))

    # 2) Tokenización de textos y padding de las secuencias
    tokenizer = Tokenizer(num_words=vocab_size, oov_token="<OOV>")
    tokenizer.fit_on_texts(df[text_col])
    seqs = tokenizer.texts_to_sequences(df[text_col])
    X = pad_sequences(seqs, maxlen=maxlen, padding='post')

    # 3) División de datos en conjuntos de entrenamiento y validación
    # random_state asegura que esta división sea determinista
    X_train, X_val, y_train, y_val = train_test_split(
        X, y_cat,
        test_size=test_size,
        random_state=random_state, # Usando el random_state pasado a la función
    )

    # 4) Definición de la arquitectura: embedding → pooling → capa oculta → softmax
    # Las inicializaciones de pesos serán deterministas gracias a tf.random.set_seed
    inp = tf.keras.Input(shape=(maxlen,), name="input_doc")
    x   = tf.keras.layers.Embedding(
              input_dim=vocab_size,
              output_dim=embed_dim,
              input_length=maxlen,
              name="word_embedding"
          )(inp)
    x   = tf.keras.layers.GlobalAveragePooling1D(name="doc_pooling")(x)
    x   = tf.keras.layers.Dense(hidden_units, activation='relu', name="dense_relu")(x)
    out = tf.keras.layers.Dense(y_cat.shape[1], activation='softmax', name="pred_label")(x)

    model = tf.keras.Model(inputs=inp, outputs=out, name="Doc2Vec_Supervised")
    model.compile(
        optimizer='adam',
        loss='categorical_crossentropy',
        metrics=['accuracy']
    )

    # 5) Entrenamiento del modelo
    # El entrenamiento será determinista por las semillas fijadas
    model.fit(
        X_train, y_train,
        validation_data=(X_val, y_val),
        epochs=epochs,
        batch_size=batch_size,
        verbose=0
    )

    # 6) Construcción de encoder para obtener embeddings de documentos
    encoder = tf.keras.Model(
        inputs = model.input,
        outputs = model.get_layer('doc_pooling').output,
        name   = "Doc2Vec_Encoder"
    )
    doc_embeddings = encoder.predict(X, batch_size=batch_size)

    return model, tokenizer, encoder, doc_embeddings


# Para cada plataforma, entrena y guarda los embeddings en el DataFrame correspondiente
for platform, data in platform_dfs.items():
    df = data.copy()

    # Puedes pasar un random_state diferente si quieres variabilidad entre plataformas,
    # pero para total determinismo global, lo mantienes constante.
    d2v_tf, tokenizer, encoder, doc_embeddings = train_doc2vec_supervised(
        df,
        text_col='clean_doc',
        label_col='candidate_name',
        vocab_size=20000,
        maxlen=200,
        embed_dim=128,
        hidden_units=64,
        test_size=0.2,
        random_state=42, # Asegura que cada entrenamiento con esta semilla sea determinista
        epochs=20,
        batch_size=32
    )
    platform_dfs[platform] = df
    platform_dfs[platform]['doc2vec_tf_embs'] = doc_embeddings.tolist()

In [None]:
# Función para generar vectores TF-IDF a partir de los textos limpios
def create_tf_idf_vectors(df, ngram_range=(1, 1), max_features=5000):
    # Inicializa el vectorizador con rango de n-gramas y número máximo de características
    vectorizer = TfidfVectorizer(ngram_range=ngram_range, max_features=max_features)
    # Ajusta el modelo y transforma los documentos en una matriz dispersa de TF-IDF
    vectors = vectorizer.fit_transform(df['clean_doc'])
    return vectors

# Aplica la creación de vectores TF-IDF para cada plataforma
for platform, data in platform_dfs.items():
    temp_df = data.copy()
    # Genera vectores TF-IDF (ngramas de 1 a 2, hasta 3000 características) y almacénalos como listas
    temp_df['tf-idf_vectors'] = create_tf_idf_vectors(
        temp_df,
        ngram_range=(1, 2),
        max_features=3000
    ).toarray().tolist()
    platform_dfs[platform] = temp_df

In [None]:
def find_best_num_topics(texts, max_topics=15):
    # 1) Vectoriza los documentos en una matriz término-documento
    vectorizer = CountVectorizer()
    doc_term_matrix = vectorizer.fit_transform(texts)

    # 2) Prueba distintos números de temas y guarda el error de reconstrucción
    reconstruction_errors = []
    topic_range = range(2, max_topics + 1)
    for n_topics in topic_range:
        nmf_model = NMF(
            n_components=n_topics,
            init='nndsvd',          # inicialización recomendada para texto
            random_state=42,
            max_iter=200
        )
        nmf_model.fit(doc_term_matrix)
        # reconstruction_err_ mide el error de reconstrucción tras el fit
        reconstruction_errors.append(nmf_model.reconstruction_err_)

    # 3) Retorna el número de temas que minimiza el error
    best_n_topics = topic_range[np.argmin(reconstruction_errors)]
    return best_n_topics

def create_topic_model_vectors(df, num_topics):
    # 1) Vectoriza los documentos nuevamente
    vectorizer = CountVectorizer()
    doc_term_matrix = vectorizer.fit_transform(df['clean_doc'])

    # 2) Ajusta NMF y obtiene las representaciones W (n_docs × num_topics)
    nmf_model = NMF(
        n_components=num_topics,
        init='nndsvd',
        random_state=42,
        max_iter=200
    )
    topic_vectors = nmf_model.fit_transform(doc_term_matrix)

    # 3) Construye etiquetas de tema con las top palabras de cada componente H
    topic_labels = {}
    top_n = 10
    feature_names = vectorizer.get_feature_names_out()
    for topic_idx, component in enumerate(nmf_model.components_):
        top_words = [
            feature_names[i]
            for i in component.argsort()[:-top_n - 1:-1]
        ]
        topic_labels[topic_idx] = ", ".join(top_words)

    return topic_vectors, topic_labels

# --- Aplicación del modelado de temas a cada plataforma ---
topic_label_dicts = {}

for platform, data in platform_dfs.items():
    temp_df = data.copy()
    # Determina el mejor número de temas para esta plataforma
    best_n = find_best_num_topics(temp_df['clean_doc'])
    # Crea los vectores de temas y las etiquetas correspondientes
    topic_vectors, topic_labels = create_topic_model_vectors(
        temp_df, num_topics=best_n
    )
    # Almacena los vectores de temas en el DataFrame
    temp_df['topic_vectors'] = topic_vectors.tolist()
    platform_dfs[platform] = temp_df
    # Guarda las etiquetas de cada tema para referencia
    topic_label_dicts[platform] = topic_labels

    # Imprime un resumen de los temas detectados
    print(f"Temas por plataforma {platform}:")
    for topic_idx, labels in topic_labels.items():
        print(f"\tTema {topic_idx + 1}: {labels}")

In [None]:
# Define las columnas de vectores de características a combinar y asigna pesos iguales a cada una
vector_columns = ['tf-idf_vectors', 'doc2vec_tf_embs', 'topic_vectors']
column_weights = [1/len(vector_columns)] * len(vector_columns)

In [None]:
# Función para normalizar vectores de forma segura (evita división por cero)
def safe_normalize(x):
    norm = np.linalg.norm(x)
    if norm == 0:
        return x
    return x / norm

# Itera sobre cada plataforma y aplica la normalización a cada columna de vectores
for platform, data in platform_dfs.items():
    temp_df = data.copy()
    for col in tqdm(vector_columns, desc=f"{platform} - columnas", leave=False):
        # Normaliza cada vector en la columna y vuelve a lista
        temp_df[col] = temp_df[col].apply(lambda x: safe_normalize(np.array(x)).tolist())
    platform_dfs[platform] = temp_df

## 2.2 Agrupar usuarios

In [None]:
# Columnas que contienen diferentes representaciones vectoriales a evaluar
tvector_columns = ['tf-idf_vectors', 'doc2vec_tf_embs', 'topic_vectors']

# Configuración de métricas de evaluación y modelos con sus rangos de hiperparámetros
METRICS = {
    'calinski_harabasz': calinski_harabasz_score
}
MODELS = {
    'KMeans': {
        'model': KMeans,
        'params': {
            'n_clusters': list(range(2, 10)),
            'init': ['k-means++', 'random'],
            'random_state': [42]
        }
    },
    'Agglomerative': {
        'model': AgglomerativeClustering,
        'params': {
            'n_clusters': list(range(2, 10)),
            'linkage': ['ward', 'complete', 'average', 'single']
        }
    },
    'SpectralClustering': {
        'model': SpectralClustering,
        'params': {
            'n_clusters': list(range(2, 10)),
            'affinity': ['nearest_neighbors', 'rbf'],
            'random_state': [42],
            'assign_labels': ['kmeans', 'discretize']
        }
    }
}

def evaluate_clustering(X, labels, metrics):
    results = {}
    # Algunos algoritmos pueden generar etiquetas -1 para outliers, evitar errores:
    if len(set(labels)) == 1 or -1 in labels:
        # Cluster único o etiquetas inválidas, métrica no computable o mínima
        for metric_name in metrics.keys():
            results[metric_name] = -np.inf
        return results

    for metric_name, metric_func in metrics.items():
        results[metric_name] = metric_func(X, labels)
    return results

def optimize_hyperparameters(X, metrics, model_name, model, params, n_iter=20):
    sampler = ParameterSampler(params, n_iter=n_iter, random_state=42)
    best_score = float('-inf')
    best_params = None
    best_labels = None

    for param_set in tqdm(sampler, desc=f"{model_name} - parametros", leave=False):
        try:
            model_instance = clone(model(**param_set))
            model_instance.fit(X)
            labels = model_instance.labels_ if hasattr(model_instance, "labels_") else model_instance.fit_predict(X)
            evaluation = evaluate_clustering(X, labels, metrics)
            score = list(evaluation.values())[0]
            if score > best_score:
                best_score = score
                best_params = param_set
                best_labels = labels
        except Exception as e:
            # En caso de error en parámetros, saltar
            continue

    return {
        'best_params': best_params,
        'best_labels': best_labels,
        'best_score': best_score,
        'model_name': model_name
    }

def get_best_model(X, metrics, models, n_iter=20):
    results = []
    for model_name, model_info in models.items():
        res = optimize_hyperparameters(X, metrics, model_name,
                                       model_info['model'], model_info['params'], n_iter)
        results.append(res)
    return max(results, key=lambda x: x['best_score']), results

def align_labels_hungarian(reference_labels, target_labels):
    ref_clusters = np.unique(reference_labels)
    target_clusters = np.unique(target_labels)
    n_ref = len(ref_clusters)
    n_target = len(target_clusters)
    cost_matrix = np.zeros((n_ref, n_target))

    for i, ref_cluster in enumerate(ref_clusters):
        for j, target_cluster in enumerate(target_clusters):
            intersection = np.sum((reference_labels == ref_cluster) &
                                  (target_labels == target_cluster))
            cost_matrix[i, j] = -intersection

    row_indices, col_indices = linear_sum_assignment(cost_matrix)

    label_mapping = {}
    for i, j in zip(row_indices, col_indices):
        if j < len(target_clusters):
            label_mapping[target_clusters[j]] = ref_clusters[i]

    aligned_labels = np.copy(target_labels)
    for old_label, new_label in label_mapping.items():
        aligned_labels[target_labels == old_label] = new_label

    return aligned_labels

def late_fusion_weighted_voting(labels_dict, scores_dict):
    views = list(labels_dict.keys())
    n_samples = len(list(labels_dict.values())[0])

    total_score = sum(scores_dict.values())
    weights = {view: score / total_score for view, score in scores_dict.items()}

    reference_view = views[0]
    reference_labels = labels_dict[reference_view]
    aligned_labels = {reference_view: reference_labels}

    for view in views[1:]:
        aligned_labels[view] = align_labels_hungarian(
            reference_labels, labels_dict[view]
        )

    final_labels = np.zeros(n_samples, dtype=int)
    voting_confidence = np.zeros(n_samples)

    for i in range(n_samples):
        cluster_votes = {}
        for view, labels in aligned_labels.items():
            cluster_votes[labels[i]] = cluster_votes.get(labels[i], 0) + weights[view]
        best_cluster, best_weight = max(cluster_votes.items(), key=lambda x: x[1])
        final_labels[i] = best_cluster
        voting_confidence[i] = best_weight

    voting_info = {
        'weights': weights,
        'aligned_labels': aligned_labels,
        'confidence': voting_confidence
    }
    return final_labels, voting_info

def get_labels_with_late_fusion(views, view_names, metrics, models, n_iter=20):
    results = {}
    for X, name in zip(views, view_names):
        best_model_result, all_results = get_best_model(X, metrics, models, n_iter)
        results[name] = {
            'best': best_model_result,
            'all': all_results
        }

    best_global_result = max([res['best'] for res in results.values()], key=lambda x: x['best_score'])
    model_name = best_global_result['model_name']
    best_params = best_global_result['best_params']

    labels_per_view = {}
    scores_per_view = {}

    for i, (view_name, res) in enumerate(results.items()):
        model_instance = clone(models[model_name]['model'](**best_params))
        model_instance.fit(views[i])
        labels = model_instance.labels_ if hasattr(model_instance, "labels_") else model_instance.fit_predict(views[i])
        labels_per_view[view_name] = labels
        evaluation = evaluate_clustering(views[i], labels, metrics)
        scores_per_view[view_name] = list(evaluation.values())[0]

    fusion_labels, fusion_info = late_fusion_weighted_voting(
        labels_per_view, scores_per_view
    )

    return fusion_labels, fusion_info, results

def print_clusters(labels, names):
    for c in np.unique(labels):
        members = names[labels == c]
        print(f"Cluster {c}: {', '.join(members)}")

# Diccionario para nombres más amigables de los vectores
friendly_names = {
    'tf-idf_vectors': 'TF-IDF',
    'doc2vec_tf_embs': 'Embeddings de documentos',
    'topic_vectors': 'Vectores de tópicos'
}

def plot_model_comparison(all_results, vector_name, ax):
    data = []
    for res in all_results:
        score = res['best_score']
        params = res['best_params']
        model = res['model_name']
        data.append({
            'Modelo': model,
            'Score': score,
        })

    df_plot = pd.DataFrame(data)
    sns.barplot(data=df_plot, x='Modelo', y='Score', dodge=False, palette='viridis', ax=ax)
    # Usar nombre amigable para el título
    ax.set_title(f"Clustering por {friendly_names.get(vector_name, vector_name)}", fontsize=12)
    ax.set_ylabel('Calinski-Harabasz Score', fontsize=10)
    ax.set_xlabel('')
    ax.tick_params(axis='x', rotation=45)
    ax.grid(axis='y', linestyle='--', alpha=0.7)
    ax.get_legend().remove() if ax.get_legend() else None

    for container in ax.containers:
        ax.bar_label(container, fmt='%.2f', label_type='edge', padding=1)

    ymax = ax.get_ylim()[1]
    ax.set_ylim(top=ymax * 1.1)


# --- EJEMPLO DE USO para cada plataforma ---
weights_per_platform = {}

for platform, data in platform_dfs.items():
    print(f"Plataforma: {platform}")
    df = data.copy()
    X_views = [np.array(df[col].tolist()) for col in tvector_columns]

    fusion_labels, fusion_info, all_results_dict = get_labels_with_late_fusion(
        X_views, tvector_columns, METRICS, MODELS, n_iter=16
    )
    weights_per_platform[platform] = fusion_info['weights']
    print_clusters(fusion_labels, df['username'])
    df['voted_cluster'] = fusion_labels
    platform_dfs[platform] = df

    # Crear figura con subplots lado a lado, uno por vector
    fig, axs = plt.subplots(1, len(tvector_columns), figsize=(4 * len(tvector_columns), 5), squeeze=False)

    for i, view_name in enumerate(tvector_columns):
        all_results = all_results_dict[view_name]['all']
        plot_model_comparison(all_results, view_name, axs[0, i])

    plt.tight_layout()
    plt.show()

In [None]:
# Este diccionario almacenará los nombres de los clusters para cada plataforma.
cluster_names = {
    'Facebook': {
        0: 'Partidarios de Xóchitl Gálvez y Oposición',
        1: 'Noticias y Figuras Políticas Diversas',
        2: 'Partidarios de Morena y la 4T',
        3: 'Partidarios de Movimiento Ciudadano',
        4: 'Contenido de Memes y Entretenimiento',
    },
    'Instagram': {
        0: 'Medios Globales y Nacionales con Figuras Políticas Diversas',
        1: 'Figuras Políticas, Medios y Contenido Diverso',
        2: 'Movimiento Ciudadano (Políticos y Afines)',
        3: 'Líderes de Oposición y Partidarios de Xóchitl Gálvez',
        4: 'Partidarios de Claudia Sheinbaum y la 4T (Morena y Afines)',
        5: 'Partidos Políticos de Oposición (PRI, PAN, PRD y Afines)',
    },
    'X': {
        0: 'Líderes Políticos y Medios Globales',
        1: 'Actores Clave del Escenario Político Mexicano',
        2: 'Movimiento Ciudadano y Críticos Políticos',
        3: 'Partidarios de Oposición y Críticos de la 4T (Xóchitl Gálvez)',
    },
    'Youtube': {
        0: 'Canales de Noticias y Opinión Variada',
        1: 'Medios de Comunicación y Análisis Político',
    }
}

In [None]:
for platform, data in platform_dfs.items():
    df = data.copy()
    df['cluster_name'] = df['voted_cluster'].map(cluster_names[platform])
    platform_dfs[platform] = df

# 3 Mapear la estructura de la red entre ellos y medir métricas de cohesión y polarización.

## 3.1 Mapear la estructura de la red

In [None]:
def create_similarity_matrix(df, vector_column, similarity_function=cosine_similarity):
    # Convierte la columna de vectores en una matriz NumPy
    vectors = np.array(df[vector_column].to_list())

    # Calcula la similitud entre todos los pares de vectores
    similarity_matrix = similarity_function(vectors)

    # Anula la similitud de cada elemento consigo mismo
    for i in range(len(similarity_matrix)):
        similarity_matrix[i][i] = 0

    # Devuelve un DataFrame indexado por username para facilitar la lectura
    similarity_df = pd.DataFrame(
        similarity_matrix,
        index=df['username'],
        columns=df['username']
    )
    return similarity_df

In [None]:
def combine_matrices(matrices, weights):
    # Convierte las matrices en arrays de NumPy
    arrays = [np.array(matrix) for matrix in matrices]
    # Inicializa un array vacío con la misma forma
    combined_array = np.zeros_like(arrays[0])

    # Suma ponderada de cada matriz
    for array, weight in zip(arrays, weights):
        combined_array += array * weight

    # Convierte de nuevo a lista y crea un DataFrame con índices y columnas
    combined = combined_array.tolist()
    df = pd.DataFrame(combined, index=matrices[0].index, columns=matrices[0].columns)
    return df

In [None]:
similarity_matrices = {}

# Para cada plataforma, crea y combina sus matrices de similitud usando los pesos definidos
for platform, data in platform_dfs.items():
    # Obtener el dataframe
    df = data.copy()

    # Obtener pesos y columnas
    vector_cols = list(weights_per_platform[platform].keys())
    weights = list(weights_per_platform[platform].values())

    # Definir matrices
    sim_matrices = {}
    for col in vector_cols:
        sim_matrices[col] = create_similarity_matrix(df, col)

    # Juntar matrices y asignar
    combined = combine_matrices(list(sim_matrices.values()), weights)
    similarity_matrices[platform] = {
        'combined': combined,
        'individual': sim_matrices
    }

In [None]:
def create_influence_network(df, similarity_matrix):
    # Inicializa un grafo dirigido y una lista para acumular pesos de influencia
    G = nx.DiGraph()
    influence_weights = []

    # Añade cada usuario como nodo con sus atributos relevantes
    for user in similarity_matrix.index:
        row = df[df['username'] == user].iloc[0]
        candidate = row['candidate_name']
        # Asigna etiqueta numérica al candidato
        if candidate == 'Claudia Sheinbaum':
            candidate_label = 1
        elif candidate == 'Jorge Álvarez Máynez':
            candidate_label = 3
        else:
            candidate_label = 0

        G.add_node(
            user,
            #doc=row['doc'],
            candidate=candidate,
            candidate_label=candidate_label,
            num_interaction=row['num_interaction'],
            tf_idf_vector=row['tf-idf_vectors'],
            doc2vec_vector=row['doc2vec_tf_embs'],
            topic_vector=row['topic_vectors'],
            cluster=row['voted_cluster'],
            cluster_name=row['cluster_name']
        )

    # Calcula todos los posibles pesos de similtud
    for u1 in similarity_matrix.index:
        for u2 in similarity_matrix.columns:
            sim = similarity_matrix.loc[u1, u2]
            infl = sim
            influence_weights.append(infl)

    # Determina el umbral como el percentil n de los pesos
    threshold = np.percentile(influence_weights, 90)

    # Añade aristas sólo si el peso supera el umbral
    for u1 in similarity_matrix.index:
        for u2 in similarity_matrix.columns:
            sim = similarity_matrix.loc[u1, u2]
            weight = sim
            if weight > threshold:
                G.add_edge(u1, u2, weight=weight)

    return G

# Construcción de la red de influencia para cada plataforma
platform_networks = {}
for platform, data in platform_dfs.items():
    print(f"---- Creando Red para Plataforma: {platform} ----")
    sim_matrix = similarity_matrices[platform]['combined']
    G = create_influence_network(data.copy(), sim_matrix)
    platform_networks[platform] = G

In [None]:
def get_individual_network(graph, individual_node):
    # Reúne vecinos de aristas entrantes y salientes, usando el peso máximo si existen ambas
    neighbors = {}
    # Obtiene posibles vecinos combinando predecesores y sucesores
    potential_neigh = set(graph.predecessors(individual_node)).union(set(graph.successors(individual_node)))
    for neighbor in potential_neigh:
        # Peso de la arista saliente (individual -> vecino)
        weight_out = graph[individual_node][neighbor]['weight'] if graph.has_edge(individual_node, neighbor) else 0
        # Peso de la arista entrante (vecino -> individual)
        weight_in = graph[neighbor][individual_node]['weight'] if graph.has_edge(neighbor, individual_node) else 0
        # Selecciona el mayor de los dos
        neighbors[neighbor] = max(weight_in, weight_out)
    # Ordena vecinos por peso descendente y construye la lista de nodos del subgrafo
    selected_neighbors = sorted(neighbors, key=neighbors.get, reverse=True)
    sub_nodes = selected_neighbors + [individual_node]
    # Devuelve el subgrafo inducido por el individual y sus vecinos
    return graph.subgraph(sub_nodes).copy()

In [None]:
politicians = ['Claudia Sheinbaum', 'Claudia Sheinbaum Pardo', 'Xóchitl Gálvez Ruiz', 'Xochitl2024', 'Jorge Álvarez Máynez', 'Mario Delgado Carrillo', 'Mario Delgado', 'Miguel Torruco Garza', 'Samuel García', 'Kenia López Rabadán', 'Rocío Nahle', 'Tatiana Clouthier', 'Lilia Aguilar', 'Renán Barrera', 'Marcelo Ebrard', 'Alejandro Moreno']

media = ['El Universal Online', 'Conexión Mx', 'Sin Censura TV', 'EL FINANCIERO', 'Campaigns and Elections Mexico', 'Radio Fórmula', 'MILENIO', 'sdpnoticias', 'Político MX', 'LA OCTAVA', 'Reporte Índigo', 'Imagen Noticias', 'El Heraldo de México', 'La Jornada', 'Once Noticias']

political_parties = ['Partido del Trabajo México', 'Partido Morena', 'PRI', 'Movimiento Ciudadano', 'Partido Acción Nacional', 'PartidoMorenaMx']


# Agrupamos las listas bajo un mismo diccionario para iterar fácilmente
categories = {
    'politicos': politicians,
    'medios': media,
    'partidos': political_parties,
}

In [None]:
# Diccionario para almacenar las ego-redes por categoría y usuario
individual_networks = {}

# Iteramos sobre cada plataforma y su red correspondiente
for platform, G in platform_networks.items():
    print(f"Creando redes individuales para la plataforma: {platform}")
    individual_networks[platform] = {}

    # Iteramos sobre cada categoría de usuarios relevantes
    for category_name, user_list in categories.items():
        individual_networks[platform][category_name] = {}
        # Iteramos sobre cada usuario dentro de la categoría
        for user in user_list:
            # Verificamos si el usuario existe en la red actual
            if user in G:
                # Obtenemos la ego-red para el usuario
                ego_graph = get_individual_network(G, user)
                # Almacenamos la ego-red en el diccionario
                individual_networks[platform][category_name][user] = ego_graph
                print(f"      Ego-red de {user} creada con {ego_graph.number_of_nodes()} nodos y {ego_graph.number_of_edges()} aristas.")

In [None]:
def plot_network(graph, layout, title="Network", highlight_node=None):
    cluster_names_raw = list(set(nx.get_node_attributes(graph, 'cluster_name').values()))
    cluster_names = sorted([str(name) if isinstance(name, (str, int, float)) else 'Unknown' for name in cluster_names_raw if isinstance(name, (str, int, float))])

    neon_colors = [
        '#00FFFF', '#FF0080', '#00FF41', '#FF4000', '#8000FF', '#FFFF00',
        '#FF0040', '#40FF00', '#0080FF', '#FF8000', '#80FF00', '#FF00FF'
    ]

    cluster_plotly_colors = {
        name: neon_colors[i % len(neon_colors)]
        for i, name in enumerate(cluster_names)
    }

    edge_x, edge_y = [], []
    for edge in graph.edges():
        x0, y0 = layout[edge[0]]
        x1, y1 = layout[edge[1]]
        edge_x += [x0, x1, None]
        edge_y += [y0, y1, None]

    edge_trace = go.Scatter(
        x=edge_x, y=edge_y,
        line=dict(width=1, color='rgba(100, 100, 255, 0.3)'),
        hoverinfo='none', mode='lines',
        showlegend=False
    )

    node_x, node_y = [], []
    node_colors, node_sizes = [], []
    halo_sizes, outer_halo_sizes, node_text = [], [], []
    symbols = []

    for node, data in graph.nodes(data=True):
        x, y = layout[node]
        node_x.append(x)
        node_y.append(y)

        cluster_name = data.get('cluster_name', 'Unknown')
        base_color = cluster_plotly_colors.get(str(cluster_name), '#FFFFFF')

        degree = graph.degree(node)
        base_size = 4
        log_scale = np.emath.logn(64, degree + 1) * 3
        node_size = base_size + log_scale

        if highlight_node is not None and str(node) == str(highlight_node):
            node_colors.append('#FFD700')
            node_sizes.append(node_size * 1.8)
            halo_sizes.append(node_size * 4)
            outer_halo_sizes.append(node_size * 6)
            symbols.append('star')
        else:
            node_colors.append(base_color)
            node_sizes.append(node_size)
            halo_sizes.append(node_size * 2.5)
            outer_halo_sizes.append(node_size * 3.5)
            symbols.append('circle')

        hover_info = f"<b>User: {node}</b><br>"
        hover_info += f"<span style='color: #00FFFF'>Connections:</span> {degree}<br>"
        for key, value in data.items():
            if not isinstance(value, (list, dict)) and len(str(value)) < 100:
                hover_info += f"<span style='color: #00FFFF'>{key.capitalize()}:</span> {value}<br>"
        node_text.append(hover_info)

    halo_trace = go.Scatter(
        x=node_x, y=node_y, mode='markers',
        hoverinfo='none',
        marker=dict(
            color=node_colors,
            size=halo_sizes,
            opacity=0.15, line=dict(width=0)
        ),
        showlegend=False  # ocultar de leyenda
    )

    outer_halo_trace = go.Scatter(
        x=node_x, y=node_y, mode='markers',
        hoverinfo='none',
        marker=dict(
            color=node_colors,
            size=outer_halo_sizes,
            opacity=0.08, line=dict(width=0)
        ),
        showlegend=False  # ocultar de leyenda
    )

    node_trace = go.Scatter(
        x=node_x, y=node_y,
        mode='markers',
        hoverinfo='text',
        text=node_text,
        marker=dict(
            showscale=False,
            color=node_colors,
            size=node_sizes,
            line=dict(width=0),
            opacity=0.7,
            symbol=symbols
        ),
        showlegend=False
    )

    # Leyenda: colores de los clusters
    legend_traces = []
    for name, color in cluster_plotly_colors.items():
        trace = go.Scatter(
            x=[None], y=[None],
            mode='markers',
            marker=dict(size=10, color=color),
            legendgroup=str(name),
            showlegend=True,
            name=f'{name}'
        )
        legend_traces.append(trace)

    fig = go.Figure(data=legend_traces + [outer_halo_trace, halo_trace, edge_trace, node_trace],
                 layout=go.Layout(
                    title={
                        'text': f'<span style="color: #000000; font-size: 24px;"><b>{title}</b></span>',
                        'x': 0.5, 'xanchor': 'center'
                    },
                    showlegend=True,
                    hovermode='closest',
                    plot_bgcolor='#040238',
                    paper_bgcolor='rgb(246, 248, 250)',
                    font=dict(color='#000000', family='Arial Black'),
                    margin=dict(b=20, l=5, r=5, t=60),
                    xaxis=dict(showgrid=False, zeroline=False, showticklabels=False, showline=False),
                    yaxis=dict(showgrid=False, zeroline=False, showticklabels=False, showline=False),
                    annotations=[]
                ))

    fig.update_layout(
        hoverlabel=dict(
            bgcolor="rgba(0, 0, 0, 0.8)",
            bordercolor="cyan",
            font_size=12,
            font_family="Arial"
        ),
    )

    return fig

In [None]:
def plot_node_density(graph, layout, title="Node Density Plot", bandwidth=None, grid_size=100):
    # Extrae coordenadas de todos los nodos
    coords = np.array([layout[n] for n in graph.nodes()])
    x, y = coords[:, 0], coords[:, 1]

    # Estima la densidad con KDE gaussiano
    kde = gaussian_kde(np.vstack([x, y]), bw_method=bandwidth)

    # Crea una malla regular sobre el rango de datos
    xi = np.linspace(x.min(), x.max(), grid_size)
    yi = np.linspace(y.min(), y.max(), grid_size)
    xx, yy = np.meshgrid(xi, yi)

    # Evalúa la densidad en cada punto de la malla
    zz = kde(np.vstack([xx.ravel(), yy.ravel()])).reshape(grid_size, grid_size)

    # Aplica la transformación logarítmica
    zz_log = np.log2(zz + 1)  # log(1 + x) para evitar -inf en ceros

    # Crea el trazo de contorno de densidad con escala logarítmica
    density_trace = go.Contour(
        x=xi, y=yi, z=zz_log,
        colorscale='Hot',
        contours=dict(
            coloring='heatmap',
            showlabels=False
        ),
        hoverinfo='skip',
        showscale=True,
        colorbar=dict(title='log2(1 + Densidad)')
    )

    # Monta la figura
    fig = go.Figure(data=[density_trace],
                    layout=go.Layout(
                        title=f'<b>{title}</b>',
                        xaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
                        yaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
                        margin=dict(b=20, l=5, r=5, t=40)
                    ))

    return fig

In [None]:
def plot_arc_diagram(source, target, weights, title):
    all_nodes = sorted(set(source + target))
    node_indices = {name: idx for idx, name in enumerate(all_nodes)}

    x = list(range(len(all_nodes)))
    y = [0] * len(all_nodes)

    cmap = plt.colormaps['viridis']
    node_colors = [mcolors.rgb2hex(cmap(i / (len(all_nodes)-1))) for i in range(len(all_nodes))]

    node_trace = go.Scatter(
        x=x,
        y=y,
        mode='markers',
        marker=dict(
            size=22,
            color=node_colors,
            line=dict(width=1.5, color='black')
        ),
        hoverinfo='text',
        text=all_nodes,
        showlegend=False
    )

    edge_traces = []
    max_weight = max(weights) if weights else 1

    for s, t, w in zip(source, target, weights):
        if w <= 0:
            continue
        x0, x1 = node_indices[s], node_indices[t]
        x_middle = (x0 + x1) / 2
        height = abs(x1 - x0) * 0.3

        bezier_x = [x0, x_middle, x1]
        bezier_y = [0, height, 0]

        edge_color = 'LightSkyBlue'
        width = 1 + (w / max_weight) * 4

        edge_trace = go.Scatter(
            x=bezier_x,
            y=bezier_y,
            mode='lines',
            line=dict(width=width, color=edge_color, shape='spline'),
            hoverinfo='text',
            text=f'{s} → {t}<br>Peso: {w:.2f}',
            showlegend=False
        )
        edge_traces.append(edge_trace)

    fig = go.Figure()

    for edge in edge_traces:
        fig.add_trace(edge)
    fig.add_trace(node_trace)

    annotations = []
    for i, name in enumerate(all_nodes):
        annotations.append(
            dict(
                x=x[i],
                y=-0.3,
                text=name,
                showarrow=False,
                textangle=65,
                font=dict(size=12),
                xanchor='center',
                yanchor='top'
            )
        )

    fig.update_layout(
        title=title,
        title_font_size=20,
        showlegend=False,
        plot_bgcolor='white',
        xaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
        yaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
        margin=dict(t=60, b=20, l=20, r=20),
        height=500,
        annotations=annotations
    )

    return fig

In [None]:
def get_inter_cluster_weights(G):
    # Encontrar todos los clusters
    node_clusters_dict = nx.get_node_attributes(G, 'cluster_name')
    # Encontrar todos los nombres de clusters únicos
    unique_clusters = set(node_clusters_dict.values())
    # Encontrar todas las combinaciones de 2 clusters únicos
    cluster_combinations = list(combinations(unique_clusters, 2))

    source = []
    target = []
    source_target_weight = []

    # Iterar sobre cada par de clusters en las combinaciones
    for cluster1, cluster2 in cluster_combinations: # Usamos cluster1, cluster2 directamente del tuple
        # Filtrar nodos que pertenecen a cluster1 usando el diccionario original
        nodes_cluster1 = [node for node, cluster_value in node_clusters_dict.items() if cluster_value == cluster1]
        # Filtrar nodos que pertenecen a cluster2 usando el diccionario original
        nodes_cluster2 = [node for node, cluster_value in node_clusters_dict.items() if cluster_value == cluster2]

        # Añadir clusters a resultados
        source.append(cluster1)
        target.append(cluster2) # target should also be a single cluster name per pair

        # Añadir número de conecciones.
        w = 0
        for node1 in nodes_cluster1:
            for node2 in nodes_cluster2:
                # Check for edges in both directions
                if G.has_edge(node1, node2):
                    w += G[node1][node2]['weight']
                if G.has_edge(node2, node1): # Consider edges in the reverse direction as well
                    w += G[node2][node1]['weight']
        source_target_weight.append(int(w))

    return source, target, source_target_weight

In [None]:
for platform, G in platform_networks.items():
    print(f"--- Analizando redes para la plataforma: {platform} ---")

    # Crear carpeta para la plataforma
    folder_path = os.path.join("app", "static", "plots", "platforms", platform)
    os.makedirs(folder_path, exist_ok=True)

    pos = nx.spring_layout(G, k=0.1)

    # Graficar y guardar network plot
    network_fig = plot_network(G, pos, title=f"Red de Usuarios de {platform} por similtud discursiva")
    network_file = os.path.join(folder_path, "network_plot.html")
    network_fig.write_html(network_file)
    network_fig.show()

    # Graficar y guardar density plot
    density_fig = plot_node_density(G, pos, title=f"Plot de densidad de usuarios de {platform} por similtud discursiva")
    density_file = os.path.join(folder_path, "density_plot.html")
    density_fig.write_html(density_file)
    density_fig.show()

    # arc_fig = plot_arc_diagram(*get_inter_cluster_weights(G), title=f"Diagrama de arcos para comunidades de {platform} por similtud discursiva")
    # arc_file = os.path.join(folder_path, "arc_diagram.html")
    # arc_fig.write_html(arc_file)


In [None]:
for platform, G in individual_networks.items():
    print(f"--- Analizando redes individuales para la plataforma: {platform} ---")
    for category, user_graphs in G.items():
        print(f"  Categoría: {category}")
        for user, ego_graph in user_graphs.items():
            if ego_graph.number_of_nodes() > 1:
                print(f"    Graficando red de: {user} ({ego_graph.number_of_nodes()} nodos, {ego_graph.number_of_edges()} aristas)")
                pos = nx.spring_layout(ego_graph, k=0.1)
                plot_network(ego_graph, pos, highlight_node=user, title=f"{platform} - Red de similtud discursiva de {user}").show()
                plot_node_density(ego_graph, pos, title=f"{platform} - Red de densidad discursiva de {user}").show()
            else:
                print(f"{user} solo tiene un nodo.")

## 3.2 Medir Metricas

### 3.2.1 Cohesion

In [None]:
def calculate_cohesion_metrics(G: nx.DiGraph) -> dict:
    metrics = {}

    # 1. Densidad
    dens = nx.density(G)
    metrics['densidad'] = dens

    # 2. Clustering promedio
    und = G.to_undirected()
    clust = nx.average_clustering(und)
    metrics['clustering_promedio'] = clust

    # 3. Transitividad
    trans = nx.transitivity(und)
    metrics['transitividad'] = trans

    # 4. Reciprocidad
    try:
        rec = nx.reciprocity(G)
        metrics['reciprocidad'] = rec
    except Exception:
        metrics['reciprocidad'] = np.nan

    # 5. Longitud media del camino más corto
    if nx.is_strongly_connected(G):
        avg_sp = nx.average_shortest_path_length(G, weight=None)
        metrics['camino_mas_corto_medio'] = avg_sp
        sub = G
    else:
        comp = max(nx.strongly_connected_components(G), key=len)
        sub = G.subgraph(comp)
        try:
            avg_sp = nx.average_shortest_path_length(sub, weight=None)
            metrics['camino_mas_corto_medio'] = avg_sp
        except:
            metrics['camino_mas_corto_medio'] = np.nan

    # 6. Diámetro
    try:
        diam = nx.diameter(sub)
        metrics['diametro'] = diam
    except Exception:
        metrics['diametro'] = np.nan

    # 7. Conectividad
    try:
        node_conn = nx.node_connectivity(und)
        edge_conn = nx.edge_connectivity(und)
        metrics['conectividad_nodos'] = node_conn
        metrics['conectividad_aristas'] = edge_conn
    except Exception:
        metrics['conectividad_nodos'] = np.nan
        metrics['conectividad_aristas'] = np.nan


    return metrics

In [None]:
cohesion_results = {}
for platform, category_data in individual_networks.items():
    cohesion_results[platform] = {}
    for category, networks in category_data.items():
        cohesion_results[platform][category] = {}
        for user, network in networks.items():
            print(f"Calculando metricas de cohesión para {platform} - {category} - {user}")
            metrics = calculate_cohesion_metrics(network)
            cohesion_results[platform][category][user] = metrics

flat_cohesion_data = []
for platform, category_data in cohesion_results.items():
    for category, user_data in category_data.items():
        for user, metrics in user_data.items():
            entry = {'platform': platform, 'category': category, 'username': user}
            entry.update(metrics)
            flat_cohesion_data.append(entry)

# Crear el df
cohesion_df = pd.DataFrame(flat_cohesion_data)

# Mostrar el df
display(cohesion_df.head(5))

### 3.2.2 Polarización

In [None]:

def calculate_entropy(partition_labels: list) -> float:
    # Contar la frecuencia de cada etiqueta de cluster
    value_counts = pd.Series(partition_labels).value_counts()
    # Calcular las probabilidades
    probabilities = value_counts / len(partition_labels)
    # Calcular la entropía
    entropy_value = -np.sum(probabilities * np.log2(probabilities + 1e-9)) # Add epsilon for log(0)
    return entropy_value

def calculate_e_i_index(graph: nx.Graph, partition_labels: list) -> float:
    # Mapear nodos a sus etiquetas de cluster
    node_to_label = {node: label for node, label in zip(graph.nodes(), partition_labels)}

    # Contar aristas inter-cluster (E) y intra-cluster (I)
    e_edges = 0
    i_edges = 0

    for u, v in graph.edges():
        if node_to_label[u] != node_to_label[v]:
            e_edges += 1
        else:
            i_edges += 1

    # Calcular el índice E-I
    # Evitar división por cero si no hay aristas
    if (e_edges + i_edges) == 0:
        return np.nan
    else:
        return (e_edges - i_edges) / (e_edges + i_edges)

def analyze_polarization_metrics(graph: nx.Graph, cluster_name: str) -> dict:
    metrics = {}

    # Obtener las etiquetas de cluster para los nodos
    node_attributes = nx.get_node_attributes(graph, cluster_name)

    # Si no hay información del cluster, no se pueden calcular las métricas de polarización
    if not node_attributes:
        print(f"No hay atributo '{cluster_name}' en los nodos del grafo.")
        return metrics

    # Asegurarse de que las etiquetas estén en el mismo orden que los nodos
    ordered_labels = [node_attributes.get(node) for node in graph.nodes()]

    # Calcular Entropía
    metrics['entropia'] = calculate_entropy(ordered_labels)

    # Calcular Índice E-I
    undirected_graph = graph.to_undirected()
    metrics['indice E-I'] = calculate_e_i_index(undirected_graph, ordered_labels)

    return metrics

# --- Aplicación de la función de análisis de polarización ---
polarization_results = {}
for platform, category_data in individual_networks.items():
    polarization_results[platform] = {}
    for category, networks in category_data.items():
        polarization_results[platform][category] = {}
        for user, network in networks.items():
            print(f"Calculando metricas de polarización para {platform} - {category} - {user}")
            # Utilizamos 'cluster_name' como el atributo de nodo para la partición
            metrics = analyze_polarization_metrics(network, 'cluster_name')
            polarization_results[platform][category][user] = metrics

# Aplanar los resultados en un DataFrame
flat_polarization_data = []
for platform, category_data in polarization_results.items():
    for category, user_data in category_data.items():
        for user, metrics in user_data.items():
            entry = {'platform': platform, 'category': category, 'username': user}
            entry.update(metrics)
            flat_polarization_data.append(entry)

# Crear el DataFrame
polarization_df = pd.DataFrame(flat_polarization_data)

# Mostrar el DataFrame
display(polarization_df.head())

# 4 Relacionar las comunidades con sus métricas de influencia (likes, views, comentarios).

In [None]:
# Colores representativos de los partidos
PARTY_COLORS = {
    'Jorge Álvarez Máynez': '#FF5E00',
    'Xóchitl Gálvez': '#005BAC',
    'Claudia Sheinbaum': '#A6192E'
}

def save_wordcloud_image(text, filepath):
    wc = WordCloud(width=600, height=400, background_color='white', colormap='viridis').generate(text)
    wc.to_file(filepath)
    print(f"WordCloud guardada en: {filepath}")

def plot_cluster_analysis(candidate_counts, title, num_users, avg_interactions, top_users):
    pie = go.Pie(
        labels=candidate_counts.index,
        values=candidate_counts.values,
        marker=dict(colors=[PARTY_COLORS.get(name, '#888888') for name in candidate_counts.index],
                    line=dict(color='#111111', width=1)),
        textinfo='percent+label',
        pull=[0.02] * len(candidate_counts),
        opacity=0.9,
        domain=dict(x=[0.15, 0.85], y=[0.3, 1.0])  
    )

    users_text = ", ".join(top_users)
    stats_text = (
        f"Usuarios: {num_users}<br>"
        f"Prom. Interacciones: {avg_interactions:.2f}<br>"
        f"Principales usuarios: {users_text}<br>"
    )

    layout = go.Layout(
        title=dict(
            text=f"{title}",
            x=0.5,
            xanchor="center",
            font=dict(size=18)
        ),
        width=1250,
        height=750,  
        paper_bgcolor='rgb(246, 248, 250)',
        plot_bgcolor='#FFFFFF',
        annotations=[
            dict(
                text=stats_text,
                x=0.5,
                y=0.1, 
                showarrow=False,
                font=dict(size=13),
                align="center",
                xanchor="center",
                yanchor="top"
            )
        ]
    )

    fig = go.Figure(data=[pie], layout=layout)
    return fig

def plot_and_save_cluster_metrics(df, platform):
    clusters = df['cluster_name'].unique()

    for c_name in clusters:
        cluster_df = df[df['cluster_name'] == c_name].copy()
        cluster_candidates = cluster_df['candidate_name'].tolist()
        candidate_counts = pd.Series(cluster_candidates).value_counts()
        avg_interactions = cluster_df['num_interaction'].mean()
        num_users = len(cluster_df)
        top_users = (
            cluster_df.sort_values(by='num_interaction', ascending=False)
            .head(5)['username']
            .tolist()
        )

        # Texto combinado para WordCloud
        wordcloud_text = " ".join(cluster_df['clean_text'].dropna().astype(str).tolist())

        output_dir = f"app/static/plots/platforms/{platform}/clusters/"
        os.makedirs(output_dir, exist_ok=True)

        # Guardar WordCloud por separado
        wc_filepath = os.path.join(output_dir, f"wordcloud_{c_name}.png")
        save_wordcloud_image(wordcloud_text, wc_filepath)

        title = f'Análisis de Comunidad: {c_name}'
        fig = plot_cluster_analysis(candidate_counts, title, num_users, avg_interactions, top_users)

        output_path = os.path.join(output_dir, f"cluster_{c_name}.html")
        fig.write_html(output_path)
        print(f"Gráfico guardado en: {output_path}")

        fig.show()

# Ejecutar para cada plataforma
for platform, df_platform in platform_dfs.items():
    print(f"--- Analizando Clusters para la Plataforma: {platform} ---")
    plot_and_save_cluster_metrics(df_platform, platform)

# 5 Documentar el nivel de fragmentación del espacio discursivo electoral.

In [None]:
def plot_cohesion(df: pd.DataFrame, title):
    object_columns = ['platform', 'category', 'username']
    numeric_columns = [col for col in df.columns if col not in object_columns]

    num_metrics = len(numeric_columns)
    if num_metrics <= 2:
        rows, cols = 1, num_metrics
    elif num_metrics <= 4:
        rows, cols = 2, 2
    elif num_metrics <= 6:
        rows, cols = 2, 3
    elif num_metrics <= 9:
        rows, cols = 3, 3
    else:
        rows = (num_metrics + 2) // 3
        cols = 3

    subplot_titles = [f"<b>{col.replace('_', ' ').title()}</b>" for col in numeric_columns]

    fig = make_subplots(
        rows=rows,
        cols=cols,
        subplot_titles=subplot_titles,
        vertical_spacing=0.1 if rows > 1 else 0,
        horizontal_spacing=0.07 if cols > 1 else 0
    )

    bar_colors = plotly.colors.qualitative.Plotly

    for i, metric in enumerate(numeric_columns):
        current_row = i // cols + 1
        current_col = i % cols + 1

        df_sorted = df.sort_values(by=metric, ascending=False)

        hover_texts = [
            f"<b>Usuario:</b> {user}<br>"
            f"<b>{metric.replace('_', ' ').title()}:</b> {value:.2f} "
            f"{'(' + platform + ')' if 'platform' in df_sorted.columns else ''}"
            for user, value, platform in zip(
                df_sorted['username'],
                df_sorted[metric],
                df_sorted['platform'] if 'platform' in df_sorted.columns else ['N/A'] * len(df_sorted)
            )
        ]

        fig.add_trace(
            go.Bar(
                x=df_sorted['username'],
                y=df_sorted[metric],
                name=metric.replace('_', ' ').title(),
                marker_color=bar_colors[i % len(bar_colors)],
                hovertext=hover_texts,
                hoverinfo='text',
                text=[f"{val:.2f}" if isinstance(val, float) else f"{val}" for val in df_sorted[metric]],
                textposition='none',
            ),
            row=current_row,
            col=current_col
        )

        fig.update_xaxes(type='category', tickangle=45, row=current_row, col=current_col)
        fig.update_yaxes(title_text="Value", showgrid=True, gridwidth=0.5, gridcolor='LightGrey', row=current_row, col=current_col)

    fig_height = 800 * rows
    fig_width = 600 * cols if cols > 1 else 700

    fig.update_layout(
        title_text=f"{title}",
        title_x=0.5,
        height=max(600, fig_height),
        width=max(800, fig_width),
        showlegend=False,
        template="plotly_white",
        font=dict(family="Arial, sans-serif", size=12, color="black"),
        paper_bgcolor='rgb(246, 248, 250)',
        plot_bgcolor='rgba(240,240,240,0.95)',
        margin=dict(l=60, r=60, t=80, b=120)
    )

    return fig

plot_cohesion_df = cohesion_df.copy()
plot_cohesion_df['username'] = cohesion_df['username'] + ' (' + cohesion_df['platform'] + ')'


os.makedirs('app/static/plots/cohesion', exist_ok=True)

category_list = plot_cohesion_df['category'].unique()
for category in category_list:
    category_df = plot_cohesion_df[plot_cohesion_df['category'] == category]
    title = f"<b>Comparación de metricas de cohesión para: {category}</b>"
    fig = plot_cohesion(category_df, title)
    fig.show()
    output_path = f"app/static/plots/cohesion/{category}.html"
    fig.write_html(output_path)

In [None]:
def plot_polarization(df: pd.DataFrame, title):

    object_columns = ['platform', 'category', 'username']
    numeric_columns = ['entropia', 'indice E-I'] # Especificamos las columnas numéricas de polarización

    num_metrics = len(numeric_columns)
    rows, cols = 1, num_metrics

    subplot_titles = [f"{col.replace('_', ' ').title()}</b>" for col in numeric_columns]

    fig = make_subplots(
        rows=rows,
        cols=cols,
        subplot_titles=subplot_titles,
        vertical_spacing=0.1 if rows > 1 else 0,
        horizontal_spacing=0.07 if cols > 1 else 0
    )

    bar_colors = plotly.colors.qualitative.Plotly

    for i, metric in enumerate(numeric_columns):
        current_row = i // cols + 1
        current_col = i % cols + 1

        # Ordenar por la métrica para una mejor visualización
        df_sorted = df.sort_values(by=metric, ascending=False)

        hover_texts = [
            f"Usuario:</b> {user}<br>"
            f"{metric.replace('_', ' ').title()}:</b> {value:.4f} " # Formato a 4 decimales
            f" ({platform})"
            for user, value, platform in zip(
                df_sorted['username'],
                df_sorted[metric],
                df_sorted['platform']
            )
        ]

        fig.add_trace(
            go.Bar(
                x=df_sorted['username'],
                y=df_sorted[metric],
                name=metric.replace('_', ' ').title(),
                marker_color=bar_colors[i % len(bar_colors)],
                hovertext=hover_texts,
                hoverinfo='text',
                text=[f"{val:.4f}" if isinstance(val, float) else f"{val}" for val in df_sorted[metric]],
                textposition='none', # Ocultar texto en la barra, usar hover
            ),
            row=current_row,
            col=current_col
        )

        fig.update_xaxes(type='category', tickangle=45, row=current_row, col=current_col)
        fig.update_yaxes(title_text="Value", showgrid=True, gridwidth=0.5, gridcolor='LightGrey', row=current_row, col=current_col)

    fig_height = 600
    fig_width = 1200

    fig.update_layout(
        title_text=f"{title}</b>",
        title_x=0.5,
        height=fig_height,
        width=fig_width,
        showlegend=False,
        template="plotly_white",
        font=dict(family="Arial, sans-serif", size=12, color="black"),
        paper_bgcolor='rgb(246, 248, 250)',
        plot_bgcolor='rgba(240,240,240,0.95)',
        margin=dict(l=60, r=60, t=80, b=120)
    )

    return fig


plot_polarization_df = polarization_df.copy()
plot_polarization_df['username'] = polarization_df['username'] + ' (' + polarization_df['platform'] + ')'

os.makedirs('app/static/plots/polarization', exist_ok=True)

category_list = plot_polarization_df['category'].unique()
for category in category_list:
    category_df = plot_polarization_df[plot_polarization_df['category'] == category]
    title = f"Comparación de métricas de polarización para: {category}"
    fig = plot_polarization(category_df, title)
    fig.show()
    output_path = f"app/static/plots/polarization/{category}.html"
    fig.write_html(output_path)