# IMEDIA

> **Estado**: MVP funcional (Reddit) · Arquitectura escalable a Facebook/Threads/X · Medallion (`raw → bronze → silver → gold`)

# 1) Introducción

**Contexto.** IMEDIA vive en el dominio de **Social Media Analytics** y **Inteligencia de Contenidos**: monitoreo de comunidades, extracción de señales (engagement, temas, sentimiento) y habilitación de análisis/ML para decisiones editoriales y de producto.

**Problema y relevancia.** Equipos editoriales, de marketing y de policy necesitan **detectar tendencias y entender qué contenido rinde mejor** sin depender de scroll manual ni reportes ad-hoc. El valor nace en **datos limpios, trazables y versionados** que soporten análisis comparables y reproducibles.

**Alcance de esta primera entrega (MVP).**  
- **Sí:** ingestión de **Reddit** (posts y 1er post con comentarios), normalización por **medallion** (`raw → bronze → silver`), persistencia **Parquet + SQLite**, y CLI reproducible con **uv**.  
- **No (todavía):** capa **GOLD** (KPIs/ML/LLMs), multifuente (Facebook/Threads/X), descarga masiva de comentarios y dashboards. Estas piezas están en **roadmap**.

**Dataset (breve).** Lote de **posts de Reddit** (tabla `posts`), tamaño actual **857 filas × 19 columnas**, con variables clave como `score` (engagement), `num_comments`, `is_self`, `link_flair_text`, metadatos temporales y de subreddit/autor.

---

# 2) Antecedentes

**Trabajos/casos relevantes (2–4):**
1. **PRAW (Reddit API Wrapper)** – estándar de facto para acceso estable a Reddit (extracción reproducible).  
2. **VADER (Hutto & Gilbert, 2014)** – baseline robusto para sentimiento en medios sociales (inglés) usado en monitoreo de comunidades.  
3. **LDA / BERTopic** – técnicas canónicas de **topic modeling** para descubrir temas latentes en foros/redes.  
4. **Arquitecturas de *data lakes* por capas (Medallion)** – patrón ampliamente adoptado para gobernanza y trazabilidad de datos analíticos.

**Cómo influyen en el enfoque.**  
- **PRAW** guía la **ingestión idempotente** y el control de límites de API.  
- **VADER / Topic modeling** orientan la futura capa **GOLD** (features y KPIs semánticos).  
- **Medallion** justifica separar **RAW/BRONZE/SILVER** para auditar transformaciones y minimizar *coupling* con el análisis.

**Brecha/oportunidad.** La mayoría de implementaciones públicas carecen de: (i) **Trazabilidad por capas** lista para ML/BI, (ii) **multi-origen** fácilmente extensible y (iii) **reglas de limpieza** alineadas al rendimiento de contenido (p. ej., manejo de *outliers* y fuga). IMEDIA cubre esa brecha con un **pipeline reproducible** y *ready-to-analyze*.

---

# 3) Objetivos

**General (medible).** Automatizar la **ingestión y normalización** de Reddit para producir datasets **SILVER** listos para análisis/ML (≥99% de completitud en columnas críticas; jobs reproducibles vía CLI), habilitando en siguiente iteración una capa **GOLD** con KPIs y features.

**Específicos (3–5).**
1. Construir **pipeline medallion** y persistencia dual (**Parquet + SQLite**) con claves coherentes y *upserts*.  
2. **Evaluar y mejorar calidad de datos** (tipos, nulos, duplicados, fugas) con evidencia **antes/después**.  
3. **Diseñar reglas de limpieza**: exclusión de columnas con fuga, imputación de `link_flair_text`, *winsorization/clipping* y derivación de calendarios/longitudes.  
4. Entregar **CLI** con modos `--subreddit` y `--discover-hot` (parámetros reproducibles con `uv`).  
5. Dejar **esquema y contratos** para **GOLD** (KPIs/ML/LLMs) y métricas base (p. ej., MAE/RMSE sobre `log1p(score)` o `score_clipped`).

**Criterios de éxito/aceptación.**
- Pipeline corre end-to-end y genera `dim_*` y `fact_*` en **SILVER** + **SQLite** sin fallos.  
- Columnas críticas (`score`, `num_comments`, `title`) con **≥99% de completitud**; `link_flair_text` imputada.  
- Evidencia de **reducción de asimetría** del target tras clipping/transformación (histogramas *antes/después*).  
- Reejecución idempotente (no pisa RAW; BRONZE/SILVER con contratos de esquema).

---

# 4) Planteamiento del problema

**Formulación.** ¿Qué factores explican y permiten **predecir el rendimiento** de un post en Reddit (medido por `score`), y cómo orquestar un pipeline reproducible que prepare esos datos para análisis/ML?

**Variables clave y supuestos.**
- **Salida (target):** `score` (y su versión robusta `score_clipped` / `log1p(score)`).  
- **Entradas candidatas:** `num_comments` (capado p99), `is_self`, `link_flair_text`, `subreddit`, `author` (colapsado), `title_len`, `selftext_len`, calendarios (`year/month/dayofweek/hour`), `recency_days`, binarios (`over_18`, `spoiler`, `is_weekend`).  
- **Supuestos:** `post_id` es único en origen; el *engagement* refleja interés del público; la ventana temporal del lote es suficientemente homogénea para validación **temporal** (train anterior / test posterior).

**Impacto esperado.**  
- Para negocio/editorial: priorización de **temas y formatos** que maximizan engagement; rutas rápidas a **KPIs** por subreddit/tema.  
- Para analítica/ML: datasets **confiables y trazables** que habilitan baselines y futuras mejoras (sentimiento, tópicos, LLMs).

**Riesgos conocidos.**  
- **Datos:** asimetría extrema y *outliers* (posts virales), tamaño de muestra (857) → riesgo de **overfitting**.  
- **Sesgos:** eventos noticiosos/políticos pueden sesgar señales globales.  
- **Fuga de información:** `post_id`, `url`, `permalink`, `thumbnail`, y el propio `score` deben **excluirse** como features.  
- **Limitaciones operativas:** cambios de API, *rate limits*, variabilidad en `link_flair_text`.  
- **Mitigaciones:** clipping/winsorization, **validación temporal**, regularización y selección cauta de features.

# 5) EDA — Resumen (detalle en 01_eda_inicial.ipynb)

## Qué se exploró y por qué (criterio)
- **Ámbito:** base `imedia.sqlite` y, dentro de ella, la tabla **`posts`** por ser la unidad que concentra el desempeño (target `score`) y permite integrar contexto de autor y subreddit.
- **Criterios:** calidad/estructura del dataset (tipos, nulos), distribución del target, relaciones con drivers potenciales (`num_comments`, `is_self`, `link_flair_text`, tiempo) y utilidad de variables textuales/longitudes.

## Hallazgos principales
- **Estructura:** 857 filas × 19 columnas; 9 `object`, 8 `int64`, 1 `float64`, 1 `datetime64[ns]`.
- **Nulos:** solo en `link_flair_text` (163 faltantes ≈19%). Resto completo.
- **Duplicados:** no evaluados explícitamente; se **asume** `post_id` único (pendiente de verificación).
- **Distribuciones y rangos:**
  - `score`: media 1,346; mediana 32; min 0; max 56,330 → **muy sesgada (cola derecha)** y **leptocúrtica**; abundan **outliers** (posts virales).
  - `num_comments`: media 138; max 6,411 → patrón análogo de alta asimetría.
  - `title_len` [2–300] y `selftext_len` [0–12,293] con gran dispersión; **relación débil** con `score`.
- **Relaciones clave:**
  - `num_comments` ↗ `score` (correlación positiva moderada, r≈0.47).
  - `is_self`: los **enlaces (0)** superan en score a los **textos (1)**.
  - `over_18`, `spoiler`, `locked`: efecto práctico bajo (locked casi constante).
  - **Flairs**: algunos (p.ej. “Misleading Title”, “Release the Epstein Files”) exhiben **scores promedio muy altos** → señales de viralidad temática.
- **Temporal:** picos de score en fechas específicas y leve aumento hacia noviembre/2025.
- **Contenido textual:** títulos de alto score dominados por términos de **política/actualidad** (“Trump”, “Democrat”, “shutdown”, “election”).

## 1–2 visualizaciones representativas 


1) **Scatter `num_comments` vs `score` en escala log (`log1p`)** la tendencia positiva minimizando el efecto de outliers.  


![image.png](attachment:image.png)


![image-3.png](attachment:image-3.png)


2) **Boxplot de `score` por `is_self`** (o por Top-k `link_flair_text`) contrasta el desempeño por tipo de contenido/tema.  


![image-2.png](attachment:image-2.png)



## Riesgos y decisiones tempranas derivadas del EDA
- **Outliers y asimetría extrema:** riesgo de modelos inestables y métricas sesgadas.  
  → *Decisiones:* transformar el target con **`log1p(score)`** y/o **winsorizar**; usar **MAE** además de RMSE.
- **Tamaño de muestra (857):** riesgo de **overfitting**.  
  → *Decisiones:* **validación temporal** (train anterior/test posterior), regularización y baselines simples.
- **Fuga de información:** variables como `post_id`, `url`, `permalink`, `thumbnail`, el propio `score` no deben entrar como features.  
  → *Decisiones:* **excluirlas** del modelado.
- **Nulos en `link_flair_text`:**  
  → *Decisiones:* imputar **“Unknown”** y agrupar flairs raros en **“Other”** para controlar cardinalidad.
- **Texto y alta cardinalidad:** riesgo de sparsidad si se vectoriza todo el texto con pocos datos.  
  → *Decisiones:* empezar con **features ligeras** (longitudes, presencia de keywords) o **TF-IDF** con límites (min_df/max_features).
- **Duplicados no verificados:**  
  → *Decisiones:* ejecutar chequeo de duplicados por `post_id` y deduplicar si aplica.

**Conclusión:** la interacción (comentarios) y el tipo/tema del contenido son los principales impulsores del score; con manejo de outliers, validación temporal y selección cuidadosa de features, `posts` ofrece una base sólida para modelos de predicción de rendimiento.


# 6) Data Wrangling — Resumen (detalle en 02_data_wrangling.ipynb)


## Reglas aplicadas por tema

### Nulos
- Se imputó `link_flair_text` con la categoría `'unknown'` para evitar pérdida de registros.  
- No se eliminaron filas con nulos, ya que las columnas críticas (`score`, `title`, `selftext`, `num_comments`) estaban completas.  
- La evidencia de nulos antes/después se muestra en el bloque de tablas impresas por el código (`— Nulos antes / después`).

### Duplicados
- No se detectan ni se eliminan duplicados explícitamente, ya que el campo `post_id` fue removido por considerarse fuga de información.  
- La estructura original del dataset (857 filas) se conserva intacta tras el wrangling.

### Outliers
- Se aplicó recorte IQR (p25–p75 ± 1.5×IQR) al target `score`, creando `score_clipped`.  
- Se limitó `num_comments` al percentil 99 (`num_comments_capped`), reduciendo valores extremos sin afectar correlación.  
- **Mini-evidencia sugerida:** los histogramas de `score (antes)` y `score_clipped (después)` y el *overlay normalizado* (p1–p99) muestran la reducción de dispersión y simetrización del target.

### Casting / Encoding
- Se convirtieron columnas binarias (`over_18`, `is_self`, `spoiler`, `is_weekend`, `locked`) a `int8`.
- Variables temporales (`year`, `month`, `dayofweek`, `hour`) y longitudes (`title_len`, `selftext_len`) a enteros (`Int64`).
- Categóricas (`subreddit`, `link_flair_text`, `author`) se transformaron a `category` en minúsculas, colapsando niveles con baja frecuencia mediante `collapse_rare()`.
- **Mini-evidencia sugerida:** la tabla de dtypes antes/después muestra la conversión de tipos y reducción de columnas no útiles.

### Reglas de negocio
- Eliminación de columnas con fuga o irrelevantes para el modelado: `post_id`, `url`, `permalink`, `thumbnail`.  
- Cálculo de `recency_days` (diferencia temporal desde la publicación más reciente) como indicador temporal interpretable.  
- Eliminación automática de columnas constantes para evitar ruido o sesgo en el modelado.  
- Definición del target robusto `score_clipped` y del conjunto de features finales, priorizando interpretabilidad y estabilidad.

---

## Mini-evidencias antes/después

| Aspecto | Evidencia | Descripción |
|----------|----------------------|--------------|
| Distribución del target | **Histograma doble (score vs score_clipped)** ![image.png](attachment:image.png) | Muestra la reducción de colas y compresión de escala tras clipping. |
| Densidad relativa | **Overlay normalizado (p1–p99)**  ![image-2.png](attachment:image-2.png)| Comparación directa en densidad para observar suavizado y simetría. |
| Estructura del dataset | **Tabla overview before/after (shape, mean, p95, max)** ![image-3.png](attachment:image-3.png) | Resume efecto de limpieza sobre tamaño y estadísticos clave. |
| Correlación | **Matriz de correlaciones numéricas (post-wrangling)** ![image-4.png](attachment:image-4.png) ![image-5.png](attachment:image-5.png)  | Evalúa interrelaciones y relevancia del target robusto. |

---

## Estado del dataset limpio

- **Tamaño final:** 857 registros × 23 columnas.  
- **Rutas de salida (guardado robusto):**  
  - `../data/processed/train_posts_clean.csv`  
  - `../data/processed/test_posts_clean.csv`
- **Esquema final (principales columnas):**
  - **Target:** `score_clipped`
  - **Variables numéricas:** `num_comments_capped`, `recency_days`, `title_len`, `selftext_len`, `dayofweek`, `month`
  - **Variables categóricas:** `link_flair_text`, `subreddit`, `author`
  - **Binarias:** `is_self`, `over_18`, `spoiler`, `is_weekend`
- **Features seleccionadas (10):**
['num_comments_capped', 'recency_days', 'dayofweek', 'title_len', 'selftext_len', 'is_self', 'month', 'link_flair_text', 'subreddit', 'author']


# 7) Training Model 

#  Datos y Preparación

- **Datasets:** `train_posts_clean.csv` (685×11) y `test_posts_clean.csv` (172×11), verificados con `md5` y `shape`.  
- **Target:** `score_clipped` (versión sin outliers del score).  
- **Métrica:** RMSE (↓ mejor).  
- **Variables clave:**  
  - Numéricas: `num_comments_capped`, `recency_days`, `dayofweek`, `month`, `title_len`, `selftext_len`, `is_self`.  
  - Categóricas: `link_flair_text`, `subreddit`, `author`.  
- **Prevención de fuga:** se eliminaron `post_id`, `url`, `permalink`, `thumbnail`.  

**Tabla breve de features (tipo y razón)**

| Feature              | Tipo      | Razón/hipótesis de valor |
|---|---|---|
| `num_comments_capped` | Numérica  | Señal de interacción temprana; cap al p99 reduce var extrema. |
| `recency_days`       | Numérica  | Efecto de frescura del post. |
| `dayofweek`          | Numérica (entero) | Patrones de consumo por día. |
| `month`              | Numérica (entero) | Estacionalidad y tendencias. |
| `title_len`          | Numérica  | Longitud del título correlaciona con CTR/engagement. |
| `selftext_len`       | Numérica  | Carga informativa del contenido. |
| `is_self`            | Binaria   | Diferencia entre link-post y text-post. |
| `link_flair_text`    | Categórica| Tema/contexto del post (moderación/comunidad). |
| `subreddit`          | Categórica| Efecto de comunidad. |
| `author`             | Categórica| Efecto autor (historial/credibilidad). |

---

# Preprocesamiento

- `ColumnTransformer` con:
  - `StandardScaler` en numéricas.  
  - `OneHotEncoder(handle_unknown="ignore", min_frequency=5)` en categóricas.  
- Integrado en cada pipeline y además guardado como artifact (`preprocessor/`) y local (`../preprocesador/`).  
- Reproducibilidad con `SEED=42` y metadatos loggeados (rutas, features, target, md5).

# Esquema de pipeline —  (Medallion + Registry de Preprocesador)

```
IMEDIA_PROJECT_V2/
├─ pyproject.toml
├─ README.md
├─ uv.lock
├─ LICENSE
├─ .gitignore
├─ .env
├─ .env.example
├─ .venv/                              # (entorno local, opcional)
├─ imedia.egg-info/
├─ src/
│  └─ imedia/                          # código fuente (CLI, clientes, transformadores)
├─ notebooks/
│  ├─ 00_informe_final.ipynb
│  ├─ 01_eda_inicial.ipynb
│  ├─ 02_data_wrangling.ipynb
│  └─ 03-training_model.ipynb
├─ db/
│  └─ imedia.sqlite                    # SILVER en SQLite (dims/facts) para consultas rápidas
├─ data/
│  ├─ raw/
│  │  └─ reddit/
│  │     ├─ posts/part-<batch>-[subreddit].ndjson
│  │     ├─ comments/part-<batch>-[post_id].ndjson
│  │     ├─ subreddits/part-<batch>-[subreddit].ndjson
│  │     └─ hot_sublists/part-<batch>-<estrategia>.ndjson
│  ├─ bronze/
│  │  └─ reddit/
│  │     ├─ posts/YYY=…/MM=…/DD=…/posts__<batch>__<subreddit>.parquet
│  │     ├─ comments/YYY=…/MM=…/DD=…/comments__<batch>__<post_id>.parquet
│  │     ├─ subreddits/subreddits-<batch>-<subreddit>.parquet
│  │     └─ hot_sublists/hot_sublists-<batch>-<uid>.parquet
│  ├─ silver/
│  │  └─ reddit/
│  │     ├─ dim_author.parquet
│  │     ├─ dim_subreddit.parquet
│  │     ├─ fact_comments.parquet
│  │     └─ fact_posts.parquet
│  └─ processed/                       # datasets listos para modelado/validación
│     ├─ train_posts_clean.csv
│     └─ test_posts_clean.csv
└─ preprocesador/                      # REGISTRY de preprocesadores (Pipeline sklearn)
   ├─ elasticnet_preprocessor_20251111_234152/
   │  ├─ MLmodel
   │  ├─ model.pkl                     # objeto Pipeline/ColumnTransformer serializado
   │  ├─ conda.yaml
   │  ├─ python_env.yaml
   │  └─ requirements.txt
   └─ random_forest_preprocessor_20251111_234129/
      ├─ MLmodel
      ├─ model.pkl
      ├─ conda.yaml
      ├─ python_env.yaml
      └─ requirements.txt
```

# Flujo (resumen)
Reddit API
```
  → data/raw/reddit (NDJSON, as-is)
  → data/bronze/reddit (Parquet tipado/flatten, particionado por fecha)
  → data/silver/reddit + db/imedia.sqlite (dims/facts normalizados)
  → data/processed/train_posts_clean.csv y test_posts_clean.csv (wrangling + splits)
  → preprocesador/<modelo>_* (artifact del preprocesador: Pipeline/ColumnTransformer registrado)
```

# Notas
- La carpeta **preprocesador/** guarda el *pipeline de preprocesamiento completo* (con ambiente reproducible) por ejecución/modelo solo de los 2 mejores entre los 3 que se hicieron.
- **processed/** contiene los datasets finales para entrenamiento/evaluación (coherentes con el preprocesador registrado).

---

#  Modelado y Tuning

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)


- Modelos: **ElasticNet**, **RandomForest**, **XGBoost**.  
- HPO con **Hyperopt + MLflow** (runs anidados).  
- Métrica objetivo: **minimizar RMSE (val)**.  
- Comparación:

| Modelo | val_RMSE | test_RMSE |
|---|---:|---:|
| **Random Forest** | 210.75 | **171.82** |
| ElasticNet | 216.74 | 248.97 |
| XGBoost | 220.67 | — |

---

# Selección y Registro

- **Mejor modelo:** Random Forest — menor RMSE y mayor estabilidad en test.  
- **Registry UC:** `workspace.default/EMI_imedia_model`.  
  - v3 → `@champion` (Random Forest)  
  - v4 → `@challenger` (ElasticNet)  
- Registrado el **pipeline completo** (modelo + preprocesador).  

> Resultado final: **Random Forest (RMSE=171.8)** registrado como **Champion** en Unity Catalog, con preprocesador versionado.


# 8) Conclusiones parciales y próximos pasos

## Qué quedó listo en esta entrega (MVP Reddit)
- **Pipeline medallion completo (`raw → bronze → silver → processed`)** funcional y reproducible.  
  - Ingesta automática vía **PRAW (Reddit API)**.  
  - Limpieza y enriquecimiento de datos con trazabilidad y control de calidad (tipos, nulos, fugas, outliers).  
  - Generación de datasets **train/test limpios** (`data/processed/train_posts_clean.csv`, `test_posts_clean.csv`).
- **Validación de calidad de datos y EDA profundo.**  
  - Identificación de sesgo y asimetría del target `score`.  
  - Construcción de `score_clipped` y `num_comments_capped` como targets robustos.  
  - Definición de features finales numéricas, categóricas y binarias interpretables.  
- **Entrenamiento de modelos base (ElasticNet, Random Forest)** con registro automático de artefactos y preprocesadores en `preprocesador/`.  
  - Cada modelo guarda su `Pipeline` completo (`model.pkl`, `MLmodel`, entorno).  
- **Arquitectura reproducible y extensible**:  
  - CLI orquestada con `uv`.  
  - Persistencia dual **Parquet + SQLite** para análisis y consultas rápidas.  
  - Estructura modular lista para extender a otras fuentes (Threads, Facebook, X).

## Limitaciones vigentes
- **Cobertura temática restringida a un subconjunto de subreddits**: requiere ampliación para análisis globales.  
- **Capa GOLD pendiente**, aún sin generación de KPIs ni features semánticas (sentimiento, tópicos, embeddings).  
- **Descarga de comentarios** limitada al primer post por subreddit (flag `--fetch-comments`); falta la opción `--all-comments`.  
- **Métricas y validación**: aún no se incorporan métricas cruzadas (p. ej. R², MAE) ni validación temporal formal con sliding window.  
- **No hay dashboards ni monitoreo automático** de ingesta (pendiente integración con DuckDB/Power BI o Panel).

## Roadmap inmediato
1. **Feature Engineering (GOLD Layer)**  
   - Variables derivadas de engagement relativo, ratio comentarios/score, antigüedad del post (`recency_days_norm`).  
   - Features textuales básicas (TF-IDF de títulos y flairs) y embeddings ligeros para análisis semántico.  
2. **Validación temporal y métricas objetivo**  
   - División `train/test` basada en fechas (`created_dt`), para evitar fuga temporal.  
   - Métricas base: RMSE y MAE sobre `log1p(score)` y `score_clipped`.  
3. **Modelos baseline adicionales**  
   - `Lasso`, `XGBoost`, y `GradientBoostingRegressor` con comparación de desempeño.  
   - Benchmark interpretativo con **SHAP** y gráficos de importancia.  
4. **Automatización y despliegue interno**  
   - Script de entrenamiento reproducible (`train.py`) con parámetros versionados.  
   - Integración de **MLflow/Dagster** para tracking y ejecución orquestada.  
5. **Escalabilidad y nuevas fuentes**  
   - Implementar extracción modular para Threads/Facebook/X con adaptadores genéricos.  
   - Consolidación multi-origen en esquema común (Medallion cross-source).  
6. **Visualización y KPIs**  
   - Dashboard en Power BI o Streamlit: evolución temporal, subreddits más virales, correlaciones, tópicos emergentes.  
   - Indicadores de calidad y cantidad de datos por capa.

---

# 9) Referencias

**Referencias clave**
1. **PRAW (Python Reddit API Wrapper)** — Documentación oficial: [https://praw.readthedocs.io](https://praw.readthedocs.io)  
   Base del módulo de ingesta de Reddit; provee acceso estable y reproducible a datos de comunidades online.
2. **Reddit Developer Docs (API)** — [https://www.reddit.com/dev/api/](https://www.reddit.com/dev/api/)  
   Fuente primaria de especificaciones de endpoints, autenticación y estructura de datos utilizados en IMEDIA.
3. **Databricks (2021). *Medallion Architecture: Simplifying Data Lake Design*.**  
   Referente metodológico para el diseño por capas (`raw → bronze → silver → gold`) adoptado en este proyecto.

---
