In [2]:
import numpy as np
import pandas as pd

def simulate_hcp_brick_poisson(
    n_hcps=400,
    n_bricks=80,
    avg_bricks_per_hcp=2.5,
    avg_hcps_per_brick=18,
    seed=7,
):
    rng = np.random.default_rng(seed)

    # ----- (A) HCP features -----
    specialties = np.array(["GP", "CARDIO", "ENDO", "ONCO", "PULMO"])
    spec = rng.choice(specialties, size=n_hcps, p=[0.45, 0.18, 0.15, 0.12, 0.10])

    seniority = rng.integers(0, 21, size=n_hcps)  # years (0..20)
    potential = rng.lognormal(mean=0.0, sigma=0.6, size=n_hcps)  # positive continuous

    # One-hot for specialty
    spec_df = pd.get_dummies(spec, prefix="spec")
    X = np.column_stack([
        np.ones(n_hcps),                         # intercept
        seniority / 10.0,                        # scaled
        np.log1p(potential),                     # log feature
        spec_df.to_numpy(),                      # dummies
    ])
    feature_names = (["intercept", "seniority_x0.1", "log1p_potential"]
                     + list(spec_df.columns))

    p = X.shape[1]

    # ----- (B) True beta* (ground truth) -----
    beta_true = np.zeros(p)
    beta_true[0] = -0.3                    # intercept
    beta_true[1] =  0.20                   # seniority helps
    beta_true[2] =  0.55                   # potential helps

    # Specialty effects (relative to baseline; here baseline is implicitly captured by intercept)
    # Put mild lifts / penalties
    for j, name in enumerate(feature_names):
        if name == "spec_CARDIO":
            beta_true[j] = 0.25
        elif name == "spec_ONCO":
            beta_true[j] = 0.35
        elif name == "spec_PULMO":
            beta_true[j] = 0.10
        elif name == "spec_ENDO":
            beta_true[j] = 0.15
        # GP left at 0 shift (reference-ish), though with full one-hot it's not a strict reference.
    # (With full one-hot + intercept, there is collinearity; in practice you drop one dummy.
    # For simulation it's fine; for fitting, use a reference category or regularize.)

    # True productivity per HCP
    lambda_true = np.exp(X @ beta_true)

    # ----- (C) Brick membership + exposure w_{h,b} -----
    # Goal: heterogeneous bricks + overlaps.
    # We'll assign each HCP to K bricks, K ~ Poisson(avg_bricks_per_hcp) truncated >=1
    K = rng.poisson(lam=avg_bricks_per_hcp, size=n_hcps)
    K = np.clip(K, 1, max(1, n_bricks // 2))

    # Popularity of bricks (some bricks are "bigger")
    brick_pop = rng.lognormal(mean=0.0, sigma=0.7, size=n_bricks)
    brick_pop = brick_pop / brick_pop.sum()

    # Build sparse membership list
    rows = []
    for h in range(n_hcps):
        bricks_h = rng.choice(n_bricks, size=K[h], replace=False, p=brick_pop)
        # visits per (h,b): more variable, depends on seniority & random
        # visits = base + seniority effect + noise, then clipped >=0
        base = rng.poisson(lam=2.5)  # baseline
        for b in bricks_h:
            visits = base + rng.poisson(lam=0.15 * seniority[h] + 1.0)
            # exposure: use visits directly (or normalized variant)
            w_hb = float(visits)
            if w_hb == 0:
                w_hb = 0.5  # keep small exposure if assigned (optional)
            rows.append((h, b, visits, w_hb))

    hb = pd.DataFrame(rows, columns=["hcp_id", "brick_id", "visits", "w"])

    # Make bricks heterogeneous: optionally drop/keep to target avg_hcps_per_brick
    # We'll just report achieved distribution; simulation already creates variation.

    # ----- (D) Generate latent z* and observed y -----
    # z_{h,b} ~ Poisson(lambda_h * w_{h,b})
    mu = lambda_true[hb["hcp_id"].to_numpy()] * hb["w"].to_numpy()
    z_true = rng.poisson(lam=mu)

    hb["z_true"] = z_true

    # Aggregate observed sales by brick
    y_by_brick = hb.groupby("brick_id")["z_true"].sum().rename("y").reset_index()

    # Pack HCP table
    hcp = pd.DataFrame({
        "hcp_id": np.arange(n_hcps),
        "specialty": spec,
        "seniority": seniority,
        "potential": potential,
        "lambda_true": lambda_true,
    })
    for j, nm in enumerate(feature_names):
        hcp[nm] = X[:, j]

    meta = {
        "feature_names": feature_names,
        "beta_true": beta_true,
        "n_hcps": n_hcps,
        "n_bricks": n_bricks,
    }

    return hcp, hb, y_by_brick, meta

Qu√© te devuelve

- `hcp_df`: tabla HCP con features y `lambda_true`
- `hb_df`: tabla de relaciones HCP‚Äìbrick con `w`, v`isits, y **ground truth** `z_true`
- `y_df`: ventas observadas por brick (lo √∫nico que normalmente tendr√≠as)
- `meta`: `beta_true` y nombres de features

Perfecto ‚Äî vamos **columna por columna**, con **significado estad√≠stico** y **rol en el modelo**.
Me centrar√© en `hcp_df`, que representa el **nivel HCP** (unidad individual).

---

# üìä `hcp_df` ‚Äî explicaci√≥n detallada de cada columna

`hcp_df` contiene **una fila por HCP**.
Conceptualmente mezcla **datos observables** + **verdad simulada** (solo para evaluaci√≥n).

---

## üÜî Identificaci√≥n

### **`hcp_id`**

* Identificador √∫nico del HCP
* Tipo: entero
* Uso:

  * Clave para unir con `hb_df`
  * Nunca entra directamente al modelo

---

## üß† Variables ‚Äúreales‚Äù (observables en la vida real)

Estas son las **features que s√≠ existir√≠an en producci√≥n**.

---

### **`specialty`**

* Tipo: categ√≥rica (`GP`, `CARDIO`, `ENDO`, `ONCO`, `PULMO`)
* Significado:

  * Especialidad m√©dica del HCP
* Uso:

  * Se transforma a *one-hot* (ver columnas `spec_*`)
  * Captura diferencias estructurales de productividad

üìå En el modelo:

> Diferentes especialidades ‚Üí diferente productividad esperada

---

### **`seniority`**

* Tipo: entero (0‚Äì20)
* Significado:

  * A√±os de experiencia del HCP
* Uso:

  * Feature num√©rica
  * Se escala (`seniority / 10`) para estabilidad num√©rica

üìå Interpretaci√≥n:

> Cada +10 a√±os de seniority multiplica la tasa por `exp(Œ≤_seniority)`

---

### **`potential`**

* Tipo: continuo positivo (lognormal)
* Significado:

  * Proxy de ‚Äúpotencial comercial‚Äù del HCP
* Uso:

  * Se transforma como `log1p(potential)`
  * Reduce skew y hace la relaci√≥n m√°s lineal en log-space

üìå Interpretaci√≥n:

> HCPs con mayor potencial generan m√°s ventas esperadas

---

## üßÆ Variables de dise√±o (matriz (X_h))

Estas columnas **s√≠ entran directamente** en:

[
\lambda_h = \exp(X_h \beta)
]

---

### **`intercept`**

* Siempre vale 1
* Significado:

  * Nivel base de productividad
* Uso:

  * Captura la tasa media cuando todas las dem√°s features son 0

üìå Sin intercept:

* el modelo estar√≠a forzado a pasar por el origen
* mala idea en Poisson / Gamma

---

### **`seniority_x0.1`**

* Definici√≥n: `seniority / 10`
* Tipo: continuo
* Significado:

  * Versi√≥n escalada de seniority
* Uso:

  * Mejora convergencia del GLM
  * Hace Œ≤ m√°s interpretable

üìå Interpretaci√≥n de Œ≤:

> +0.2 ‚áí +10 a√±os ‚Üí ~+22% en tasa (exp(0.2))

---

### **`log1p_potential`**

* Definici√≥n: `log(1 + potential)`
* Tipo: continuo
* Significado:

  * Transformaci√≥n suave del potencial
* Uso:

  * Evita que outliers dominen el ajuste

üìå Interpretaci√≥n:

> Relaci√≥n multiplicativa y estable con la productividad

---

### **`spec_GP`, `spec_CARDIO`, `spec_ENDO`, `spec_ONCO`, `spec_PULMO`**

* Tipo: binarias (0/1)
* Significado:

  * One-hot encoding de la especialidad
* Uso:

  * Permite efectos espec√≠ficos por especialidad

‚ö†Ô∏è Nota t√©cnica importante:

* Con **intercept + todas las dummies** hay colinealidad perfecta
* En producci√≥n har√≠as una de estas:

  * eliminar una dummy (categor√≠a de referencia)
  * o usar regularizaci√≥n (ridge)
* En la simulaci√≥n se tolera porque:

  * queremos control total del ground truth
  * EM + ridge lo maneja bien

üìå Interpretaci√≥n:

> Œ≤ positivo ‚áí esa especialidad es m√°s productiva que la media

---

## üîÆ Variables de ‚Äúground truth‚Äù (NO observables en la vida real)

Estas columnas **solo existen para evaluaci√≥n** del m√©todo.

---

### **`lambda_true`**

* Tipo: continuo positivo
* Definici√≥n:
  [
  \lambda_h^{*} = \exp(X_h \beta^{*})
  ]
* Significado:

  * Productividad real subyacente del HCP
* Uso:

  * Comparar con (\hat\lambda_h) estimado por EM
  * Diagn√≥stico de sesgo / varianza

üìå Nunca estar√≠a disponible en datos reales.

---

## üß© Resumen por niveles

### üîπ Observables reales

| Columna     | Uso                |
| ----------- | ------------------ |
| `hcp_id`    | Identificaci√≥n     |
| `specialty` | Feature categ√≥rica |
| `seniority` | Feature num√©rica   |
| `potential` | Feature num√©rica   |

---

### üîπ Dise√±o del modelo

| Columna           | Entra en (X_h)? |
| ----------------- | --------------- |
| `intercept`       | ‚úîÔ∏è              |
| `seniority_x0.1`  | ‚úîÔ∏è              |
| `log1p_potential` | ‚úîÔ∏è              |
| `spec_*`          | ‚úîÔ∏è              |

---

### üîπ Solo para evaluaci√≥n

| Columna       | En producci√≥n |
| ------------- | ------------- |
| `lambda_true` | ‚ùå             |

---

## üß† Lectura mental correcta

> `hcp_df` define **qui√©n es el HCP** y **qu√© esperamos de √©l en promedio**.
> El EM **no aprende ventas por HCP directamente**,
> aprende **c√≥mo esas features explican ventas agregadas por brick**.

---

In [3]:
# Example usage
hcp_df, hb_df, y_df, meta = simulate_hcp_brick_poisson(seed=42)
print(hcp_df.head())

   hcp_id specialty  seniority  potential  lambda_true  intercept  \
0       0      ENDO          0   2.114398     1.607724        1.0   
1       1        GP          6   0.859409     1.174852        1.0   
2       2      ONCO         10   1.243677     2.002635        1.0   
3       3      ENDO         19   0.235521     1.413857        1.0   
4       4        GP         15   0.499669     1.249676        1.0   

   seniority_x0.1  log1p_potential  spec_CARDIO  spec_ENDO  spec_GP  \
0             0.0         1.136036          0.0        1.0      0.0   
1             0.6         0.620259          0.0        0.0      1.0   
2             1.0         0.808116          0.0        0.0      0.0   
3             1.9         0.211493          0.0        1.0      0.0   
4             1.5         0.405245          0.0        0.0      1.0   

   spec_ONCO  spec_PULMO  
0        0.0         0.0  
1        0.0         0.0  
2        1.0         0.0  
3        0.0         0.0  
4        0.0         0.

Perfecto. Vamos **igual de sistem√°tico** con las otras dos tablas.
Primero `hb_df` (nivel HCP‚ÄìBrick), luego `y_df` (nivel Brick).

---

# üìä `hb_df` ‚Äî tabla HCP‚ÄìBrick (el coraz√≥n del problema)

`hb_df` est√° en formato **long** y representa **una relaci√≥n HCP‚ÄìBrick**.
Aqu√≠ viven **las variables latentes y la exposici√≥n**.

---

## üÜî Identificaci√≥n y joins

### **`hcp_id`**

* Identificador del HCP
* FK hacia `hcp_df.hcp_id`
* Uso:

  * unir features (X_h)
  * agrupar resultados por HCP

---

### **`brick_id`**

* Identificador del brick
* FK hacia `y_df.brick_id`
* Uso:

  * agrupar ventas observadas
  * definir los conjuntos (\mathcal{H}_b)

---

## üìà Variables de exposici√≥n (observables reales)

Estas columnas **s√≠ existir√≠an en producci√≥n**.

---

### **`visits`**

* Tipo: entero ‚â• 0
* Significado:

  * N√∫mero de visitas del HCP al brick
* Uso:

  * Proxy de oportunidad / esfuerzo
  * Puede entrar:

    * directamente como `w_{h,b}`
    * o como feature adicional en (X_h) o a nivel interacci√≥n

üìå Intuici√≥n:

> A m√°s visitas ‚Üí mayor exposici√≥n ‚Üí m√°s ventas esperadas

---

### **`w`**

* Tipo: continuo positivo
* Significado:

  * Exposici√≥n efectiva del HCP (h) en el brick (b)
* Uso en el modelo:
  [
  z_{h,b} \sim \text{Poisson}(\lambda_h , w_{h,b})
  ]

En la simulaci√≥n:

* `w ‚âà visits`
* Con un peque√±o floor para evitar ceros

üìå En producci√≥n:

* `w` puede ser:

  * visitas
  * share de territorio
  * tiempo dedicado
  * combinaci√≥n ponderada

---

## üëª Variables latentes (ground truth solo para evaluaci√≥n)

---

### **`z_true`**

* Tipo: entero ‚â• 0
* Significado:

  * Ventas *reales* atribuibles al HCP (h) en el brick (b)
* Generaci√≥n:
  [
  z_{h,b}^* \sim \text{Poisson}(\lambda_h^* w_{h,b})
  ]

üìå En datos reales:

* ‚ùå nunca observable
* ‚úîÔ∏è es lo que EM intenta recuperar **en esperanza**

---

## üß† Rol conceptual de `hb_df`

Esta tabla:

* Define **qui√©n compite con qui√©n** dentro de cada brick
* Define las **restricciones estructurales**:
  [
  y_b = \sum_{h\in\mathcal{H}*b} z*{h,b}
  ]
* Es donde vive el **E-step**

---

## üß© Resumen `hb_df`

| Columna    | Nivel     | En producci√≥n | Rol                     |
| ---------- | --------- | ------------- | ----------------------- |
| `hcp_id`   | ID        | ‚úîÔ∏è            | Join                    |
| `brick_id` | ID        | ‚úîÔ∏è            | Join                    |
| `visits`   | Observada | ‚úîÔ∏è            | Proxy esfuerzo          |
| `w`        | Observada | ‚úîÔ∏è            | Exposici√≥n en el modelo |
| `z_true`   | Latente   | ‚ùå             | Ground truth            |

---

In [4]:
print(hb_df.head())

   hcp_id  brick_id  visits    w  z_true
0       0        45       5  5.0       7
1       0         1       3  3.0       1
2       0        59       2  2.0       4
3       0        76       2  2.0       8
4       1        18       3  3.0       5



---

# üìä `y_df` ‚Äî tabla de ventas por Brick

`y_df` representa **exactamente lo que tienes en la vida real**.

---

## üÜî Identificaci√≥n

### **`brick_id`**

* Identificador √∫nico del brick
* Uso:

  * define la unidad de observaci√≥n
  * join con `hb_df`

---

## üí∞ Variable objetivo observada

---

### **`y`**

* Tipo: entero ‚â• 0
* Significado:

  * Ventas totales del brick
* Definici√≥n:
  [
  y_b = \sum_{h\in\mathcal{H}*b} z*{h,b}
  ]

üìå Este es el **√∫nico target real** del problema.

---

## üß† Rol conceptual de `y_df`

* Es la **likelihood observada**
* EM intenta explicar estos (y_b) usando:

  * estructura de bricks (`hb_df`)
  * productividad HCP (`hcp_df`)
* No hay labels por HCP ‚Üí **problema inverso**

---

## üß© Resumen `y_df`

| Columna    | En producci√≥n | Rol              |
| ---------- | ------------- | ---------------- |
| `brick_id` | ‚úîÔ∏è            | Identificador    |
| `y`        | ‚úîÔ∏è            | Ventas agregadas |

---

In [5]:
print(y_df.head())

   brick_id    y
0         0  297
1         1  172
2         2  134
3         3   23
4         4  209



## üîó C√≥mo encajan las 3 tablas (lectura final)

```
hcp_df   ‚Üí  define Œª_h = exp(X_h Œ≤)
   ‚Üì
hb_df    ‚Üí  define d√≥nde y cu√°nto se expone cada HCP (w_{h,b})
   ‚Üì
y_df     ‚Üí  observa solo la suma por brick
```

EM hace:

* **E-step**: trabaja en `hb_df` (estima zÃÇ)
* **M-step**: trabaja en `hcp_df` (actualiza Œ≤)
* **Likelihood**: vive en `y_df`

---

## ‚úÖ Checkpoint final

Con esto ya tienes:

* modelo te√≥rico ‚úîÔ∏è
* datos mock ‚úîÔ∏è
* interpretaci√≥n de cada columna ‚úîÔ∏è

In [7]:
print(meta)

{'feature_names': ['intercept', 'seniority_x0.1', 'log1p_potential', 'spec_CARDIO', 'spec_ENDO', 'spec_GP', 'spec_ONCO', 'spec_PULMO'], 'beta_true': array([-0.3 ,  0.2 ,  0.55,  0.25,  0.15,  0.  ,  0.35,  0.1 ]), 'n_hcps': 400, 'n_bricks': 80}


In [6]:
print("beta_true:", meta["beta_true"])

beta_true: [-0.3   0.2   0.55  0.25  0.15  0.    0.35  0.1 ]
