## **size**=**`perc_valid_cf_all`**

**Defini√ß√£o do artigo:**
- size = |C|/k
- Onde |C| = n√∫mero de counterfactuals v√°lidos gerados
- k = n√∫mero de counterfactuals solicitados

**No c√≥digo:**



In [None]:
def perc_valid_cf(cf_list, b, y_val, k=None, y_desidered=None):
    n_val = nbr_valid_cf(cf_list, b, y_val, y_desidered)  # |C| - CFs v√°lidos
    k = len(cf_list) if k is None else k
    res = n_val / k  # |C|/k
    return res



E na fun√ß√£o `evaluate_cf_list` do Guidotti ela vem como:


In [None]:
perc_valid_cf_all_ = perc_valid_cf(cf_list, bb, y_val, k=max_nbr_cf)

# Onde `max_nbr_cf` √© o k (n√∫mero de counterfactuals solicitados)
# e a fun√ß√£o nbr_valid_cf √© definida como:
def nbr_valid_cf(cf_list, b, y_val, y_desidered=None):
    y_cf = b.predict(cf_list)
    idx = y_cf != y_val if y_desidered is None else y_cf == y_desidered
    val = np.sum(idx)
    return val


**Detalhamento do c√≥digo:** 

### `nbr_valid_cf()`
1. Faz a predi√ß√£o de todas as inst√¢ncias counterfactual (`cf_list`) usando o modelo black box `b`
2. Cria um array booleano `idx` que indica quais counterfactuals s√£o v√°lidos
3. Se `y_desidered` n√£o √© especificado, considera v√°lido qualquer CF com classe diferente da original (`y_cf != y_val`)
4. Se `y_desidered` √© especificado, considera v√°lido apenas CFs que chegam exatamente naquela classe desejada
5. Retorna a contagem total de CFs v√°lidos

**Interpreta√ß√£o:**
- Um counterfactual √© **v√°lido** se, ao ser classificado pelo modelo, produz uma classe diferente da inst√¢ncia original.
- **Quanto maior, melhor**
- Indica quantos dos CFs gerados realmente funcionam como counterfactuals
- Um m√©todo perfeito teria `nbr_valid_cf = k` (n√∫mero de CFs solicitados)
- `perc_valid_cf` normaliza isso em porcentagem: valores pr√≥ximos a 100% s√£o ideais

### `perc_valid_cf_all()`

**Diferen√ßa crucial:**
- `perc_valid_cf`: divide pelo n√∫mero de CFs **efetivamente gerados**
- `perc_valid_cf_all`: divide por `k` (n√∫mero **solicitado** de CFs)

---

**Resumo:**
- `nbr_valid_cf` = |C| (n√∫mero absoluto de CFs v√°lidos)
- `perc_valid_cf` = |C| / |cf_list| (taxa sobre os CFs efetivamente gerados)
- **`perc_valid_cf_all` = |C| / k (size do artigo - taxa sobre k solicitados)**

Portanto, **`perc_valid_cf_all`** √© a m√©trica "size" mencionada no artigo, representando a propor√ß√£o de counterfactuals v√°lidos em rela√ß√£o ao n√∫mero k solicitado. Ela ajuda pois alguns m√©todos podem gerar menos CFs do que o solicitado.


## **Actionability**

corresponde a **`perc_actionable_cf_all`** no codigo

---

### **Defini√ß√£o do Artigo:**
- $act = |{c ‚àà C | a_A(c, x)}| / k$
- Onde:
  - $|{c ‚àà C | a_A(c, x)}|$ = n√∫mero de counterfactuals que **podem ser realizados** (respeitam constraints)
  - $a_A(c, x)$ = fun√ß√£o que verifica se o counterfactual c √© acion√°vel a partir de x
  - $k$ = n√∫mero de counterfactuals solicitados

---

### **Como funciona no c√≥digo:**

#### **1. Fun√ß√£o base: `nbr_actionable_cf`**
Conta quantos CFs respeitam os constraints (features imut√°veis):



In [None]:
def nbr_actionable_cf(x, cf_list, variable_features):
    nbr_actionable = 0
    nbr_features = cf_list.shape[1]
    for i, cf in enumerate(cf_list):
        constraint_violated = False
        for j in range(nbr_features):
            # Verifica se uma feature foi alterada E n√£o est√° na lista de features vari√°veis
            if cf[j] != x[j] and j not in variable_features:
                constraint_violated = True
                break
        if not constraint_violated:
            nbr_actionable += 1
    return nbr_actionable



**L√≥gica:**
- Para cada counterfactual `cf`:
  - Verifica todas as features modificadas
  - Se alguma feature modificada **N√ÉO est√°** em `variable_features` (√© imut√°vel), o CF viola constraints
  - Conta apenas CFs que **n√£o violam** nenhum constraint

#### **2. Fun√ß√£o de percentual: `perc_actionable_cf`**
Calcula a propor√ß√£o de CFs acion√°veis:



In [None]:
def perc_actionable_cf(x, cf_list, variable_features, k=None):
    n_val = nbr_actionable_cf(x, cf_list, variable_features)  # |{c ‚àà C | aA(c, x)}|
    k = len(cf_list) if k is None else k
    res = n_val / k  # Propor√ß√£o
    return res



#### **3. Na fun√ß√£o `evaluate_cf_list`:**


In [None]:
perc_actionable_cf_all_ = perc_actionable_cf(x, cf_list, variable_features, k=max_nbr_cf)



Onde `max_nbr_cf` √© o **k** solicitado.

### **Resumo:**
- **`nbr_actionable_cf`** = |{c ‚àà C | aA(c, x)}| (n√∫mero absoluto de CFs acion√°veis)
- **`perc_actionable_cf`** = propor√ß√£o sobre CFs efetivamente gerados
- **`perc_actionable_cf_all`** = **act do artigo** = |{c ‚àà C | aA(c, x)}| / k

**Exemplo pr√°tico:**
- Se k=5, t√©cnica gerou 5 CFs, mas apenas 3 respeitam constraints (n√£o modificaram features imut√°veis):
  - `nbr_actionable_cf` = 3
  - `perc_actionable_cf_all` = 3/5 = 0.6 ou 60%
---


## **DETALHAMENTO DAS FUN√á√ïES E DIST√ÇNCIAS IMPLEMENTADAS**

### **1. Fun√ß√µes de Dist√¢ncia Base**

O c√≥digo implementa m√∫ltiplas m√©tricas de dist√¢ncia para acomodar diferentes tipos de dados e necessidades de normaliza√ß√£o:

#### **1.1. Dist√¢ncias para Features Cont√≠nuas**

**Euclidean Distance (L2)**
```python
metric='euclidean'

- Dist√¢ncia padr√£o no espa√ßo euclidiano: $d(x,y) = \sqrt{\sum_{i=1}^{m}(x_i - y_i)^2}$
- **Sens√≠vel √† escala**: features com maior magnitude dominam o c√°lculo
- **Uso**: Quando os dados j√° est√£o normalizados ou escala n√£o √© problema
- **Implementa√ß√µes**: `distance_l2`, `diversity_l2`, `distance_l2j`, `diversity_l2j`

**MAD (Median Absolute Deviation)**


In [None]:
metric='mad'

- **Defini√ß√£o**: MAD mede a dispers√£o robusta de cada feature
  $$MAD_i = \text{median}(|X_i - \text{median}(X_i)|)$$
- **Normaliza√ß√£o**: Cada diferen√ßa √© dividida pelo MAD da respectiva feature
  $$d_{MAD}(x,y) = \sum_{i=1}^{m}\frac{|x_i - y_i|}{MAD_i}$$
- **Vantagens**:
  - Robusto a outliers (usa mediana, n√£o m√©dia)
  - Normaliza automaticamente diferentes escalas
  - N√£o requer normaliza√ß√£o pr√©via dos dados
- **Uso**: **Recomendado** para dados do mundo real com outliers e escalas variadas
- **Implementa√ß√µes**: `distance_mad`, `diversity_mad`, `distance_mh`, `diversity_mh`

**Implementa√ß√£o no c√≥digo:**


In [None]:
def mad_cityblock(u, v, mad):
    u = _validate_vector(u)
    v = _validate_vector(v)
    l1_diff = abs(u - v)
    l1_diff_mad = l1_diff / mad  # Normaliza√ß√£o por MAD
    return l1_diff_mad.sum()

# C√°lculo do MAD
mad = median_absolute_deviation(X[:, continuous_features], axis=0)
mad = np.array([v if v != 0 else 1.0 for v in mad])  # Evita divis√£o por zero



---

#### **1.2. Dist√¢ncias para Features Categ√≥ricas**

**Jaccard Distance**


In [None]:
metric='jaccard'

- **Defini√ß√£o**: Mede dissimilaridade baseada em conjuntos
  $$d_{Jaccard}(x,y) = 1 - \frac{|A \cap B|}{|A \cup B|}$$
- **Caracter√≠sticas**:
  - Varia entre 0 (id√™nticos) e 1 (completamente diferentes)
  - Considera a presen√ßa/aus√™ncia de valores
  - Apropriado para dados bin√°rios ou one-hot encoded
- **Uso**: Quando features categ√≥ricas s√£o representadas como vetores bin√°rios
- **Implementa√ß√µes**: `distance_j`, `diversity_j`, `distance_l2j`, `diversity_l2j`

**Hamming Distance**


In [None]:
metric='hamming'

- **Defini√ß√£o**: Propor√ß√£o de features diferentes
  $$d_{Hamming}(x,y) = \frac{1}{m}\sum_{i=1}^{m}\mathbb{1}_{x_i \neq y_i}$$
- **Caracter√≠sticas**:
  - Varia entre 0 (id√™nticos) e 1 (todas as features diferentes)
  - Trata cada feature igualmente
  - Mais intuitivo para dados categ√≥ricos gerais
- **Uso**: **Recomendado** para features categ√≥ricas nominais
- **Implementa√ß√µes**: `distance_h`, `diversity_h`, `distance_mh`, `diversity_mh`

---

### **2. Dist√¢ncias H√≠bridas (Dados Mistos)**

Para datasets com features cont√≠nuas **e** categ√≥ricas, o c√≥digo implementa combina√ß√µes ponderadas:

#### **2.1. L2 + Jaccard (distance_l2j / diversity_l2j)**


In [None]:
def distance_l2j(x, cf_list, continuous_features, categorical_features, 
                 ratio_cont=None, agg=None):
    dist_cont = continuous_distance(x, cf_list, continuous_features, 
                                   metric='euclidean', X=None, agg=agg)
    dist_cate = categorical_distance(x, cf_list, categorical_features, 
                                    metric='jaccard', agg=agg)
    
    # Pondera√ß√£o proporcional ao n√∫mero de features
    if ratio_cont is None:
        ratio_continuous = len(continuous_features) / nbr_features
        ratio_categorical = len(categorical_features) / nbr_features
    
    dist = ratio_continuous * dist_cont + ratio_categorical * dist_cate
    return dist



**Caracter√≠sticas:**
- Combina Euclidean (cont√≠nuas) + Jaccard (categ√≥ricas)
- Pondera√ß√£o autom√°tica ou manual via `ratio_cont`
- **Limita√ß√£o**: Sens√≠vel √† escala das cont√≠nuas

#### **2.2. MAD + Hamming (distance_mh / diversity_mh) - RECOMENDADA**


In [None]:
def distance_mh(x, cf_list, continuous_features, categorical_features, 
                X, ratio_cont=None, agg=None):
    dist_cont = continuous_distance(x, cf_list, continuous_features, 
                                   metric='mad', X=X, agg=agg)
    dist_cate = categorical_distance(x, cf_list, categorical_features, 
                                    metric='hamming', agg=agg)
    
    dist = ratio_continuous * dist_cont + ratio_categorical * dist_cate
    return dist



**Vantagens sobre L2J:**
- **Robustez**: MAD n√£o √© afetado por outliers
- **Normaliza√ß√£o autom√°tica**: N√£o requer pr√©-processamento
- **Interpretabilidade**: Hamming √© mais intuitivo que Jaccard
- **Escalabilidade**: Melhor performance em datasets grandes

---

### **3. Fun√ß√µes de Agrega√ß√£o (agg)**

Todas as fun√ß√µes de dist√¢ncia/diversidade suportam agrega√ß√£o:



In [None]:
agg=None ou agg='mean'  # Padr√£o: m√©dia aritm√©tica
agg='min'               # M√≠nimo (CF mais pr√≥ximo/similar)
agg='max'               # M√°ximo (CF mais distante/diverso)



**Aplica√ß√µes:**
- **M√©tricas principais** usam `mean` (implementam f√≥rmulas do artigo)
- **M√©tricas auxiliares** usam `min`/`max` para an√°lise detalhada:
  - `distance_mh_min`: CF mais pr√≥ximo (best-case)
  - `distance_mh_max`: CF mais distante (worst-case)
  - `diversity_mh_min`: Par de CFs mais similar
  - `diversity_mh_max`: Par de CFs mais diverso

---

### **4. Compara√ß√£o das Implementa√ß√µes**

| M√©trica | Fun√ß√£o Cont√≠nuas | Fun√ß√£o Categ√≥ricas | Normaliza√ß√£o | Robustez | Uso Recomendado |
|---------|------------------|-------------------|--------------|----------|-----------------|
| **distance_l2** | Euclidean | - | Manual | Baixa | Dados normalizados |
| **distance_mad** | MAD | - | Autom√°tica | Alta | Cont√≠nuas com outliers |
| **distance_j** | - | Jaccard | N/A | M√©dia | Categ√≥ricas bin√°rias |
| **distance_h** | - | Hamming | N/A | Alta | Categ√≥ricas nominais |
| **distance_l2j** | Euclidean | Jaccard | Manual | Baixa | Dados mistos normalizados |
| **distance_mh** | MAD | Hamming | Autom√°tica | **Alta** | **Dados mistos gerais** |

### **Resumo Final:**

1. **MAD** √© prefer√≠vel √† Euclidean por ser robusta e auto-normalizar
2. **Hamming** √© mais intuitiva que Jaccard para categ√≥ricas gerais
3. **distance_mh/diversity_mh** s√£o as implementa√ß√µes **mais robustas** para dados mistos
4. M√©tricas alternativas (l2, l2j) est√£o dispon√≠veis para **compara√ß√£o** ou **casos espec√≠ficos**
5. O par√¢metro `agg` permite an√°lises **detalhadas** al√©m da m√©dia
6. Sempre use o **conjunto de treino X** para calcular MAD (consist√™ncia)

---


## **Implausibility** 

corresponde a fun√ß√£o **`plausibility_nbr_cf`**

### **Defini√ß√£o do Artigo:**
- $impl = (\frac{1}{|C|})\sum_{c‚ààC}{min_{(x‚ààX)}d(c, x)}$
- Onde:
  - |C| = n√∫mero de counterfactuals gerados
  - $min_{(x‚ààX)}d(c, x)$ = dist√¢ncia de cada CF para a inst√¢ncia mais pr√≥xima no conjunto de refer√™ncia X
  - Quanto menor, melhor

### **Como funciona no c√≥digo:**

#### **1. Fun√ß√£o base: `plausibility`**
Calcula a soma das dist√¢ncias de cada CF para a inst√¢ncia mais pr√≥xima no conjunto de refer√™ncia:



In [None]:
def plausibility(x, bb, cf_list, X_test, y_pred, continuous_features_all,
                 categorical_features_all, X_train, ratio_cont):
    sum_dist = 0.0
    for cf in cf_list:
        # 1. Prediz a classe do counterfactual
        y_cf_val = bb.predict(cf.reshape(1, -1))[0]
        
        # 2. Filtra X_test para inst√¢ncias da mesma classe que o CF
        X_test_y = X_test[y_cf_val == y_pred]
        
        # 3. Calcula dist√¢ncias e encontra o √≠ndice da inst√¢ncia mais pr√≥xima
        neigh_dist = distance_mh(x.reshape(1, -1), X_test_y, continuous_features_all,
                        categorical_features_all, X_train, ratio_cont)
        idx_neigh = np.argsort(neigh_dist)[0]
        closest = X_test_y[idx_neigh]
        
        # 4. Calcula dist√¢ncia do CF para a inst√¢ncia mais pr√≥xima
        d = distance_mh(cf, closest.reshape(1, -1), continuous_features_all,
                        categorical_features_all, X_train, ratio_cont)
        sum_dist += d
    
    return sum_dist  # Œ£(c‚ààC) min(x‚ààX) d(c, x)



**Observa√ß√£o importante:** A implementa√ß√£o busca a inst√¢ncia mais pr√≥xima **da mesma classe predita que o CF**, tornando a m√©trica mais refinada.

#### **2. Na fun√ß√£o `evaluate_cf_list`:**
V√°rias varia√ß√µes de plausibility s√£o calculadas:



In [None]:
plausibility_sum = plausibility(...)  # Soma total

# Diferentes normaliza√ß√µes:
plausibility_max_nbr_cf_ = plausibility_sum / max_nbr_cf           # Divide por k solicitado
plausibility_nbr_cf_ = plausibility_sum / nbr_cf_                  # Divide por CFs gerados
plausibility_nbr_valid_cf_ = plausibility_sum / nbr_valid_cf_      # Divide por CFs v√°lidos
plausibility_nbr_actionable_cf_ = plausibility_sum / nbr_actionable_cf_
plausibility_nbr_valid_actionable_cf_ = plausibility_sum / nbr_valid_actionable_cf_



---

### **Resumo:**
- **`plausibility_sum`** = $\sum_{c‚ààC}{min_{(x‚ààX)}d(c, x)}$ (soma total)
- **`plausibility_nbr_cf`** = **impl do artigo**
- Varia√ß√µes alternativas:
  - `plausibility_nbr_valid_cf` = normaliza apenas pelos CFs v√°lidos
  - `plausibility_max_nbr_cf` = normaliza por k solicitado

**Exemplo pr√°tico:**
- Se gerou 5 CFs e a soma das dist√¢ncias m√≠nimas √© 10.0:
  - `plausibility_sum` = 10.0
  - `plausibility_nbr_cf` = 10.0 / 5 = 2.0 (implausibility m√©dia)

**Interpreta√ß√£o:** Valores baixos indicam que os CFs est√£o pr√≥ximos de inst√¢ncias reais do conjunto de refer√™ncia (mais plaus√≠veis). Valores altos indicam CFs distantes da popula√ß√£o conhecida (menos plaus√≠veis/mais implaus√≠veis).

---

Seguindo a defini√ß√£o do artigo, as m√©tricas de **Dissimilarity** correspondem a:

## **$dis_{dist}$ (Distance Dissimilarity)**

### **M√©tricas correspondentes no codigo:**
- **`distance_mh`** (distancia para dados mistos)
- **`distance_l2j`** (alternativa para dados mistos)
- **`distance_mad`** (apenas features cont√≠nuas)
- **`distance_l2`** (apenas features cont√≠nuas)

### **Defini√ß√£o do Artigo:**
- **$dist_{dist} = (\frac{1}{|C|})\sum_{x`‚ààC}{d(x,x`)}$**
- Dist√¢ncia m√©dia entre x original e cada counterfactual
- Quanto menor, melhor (CFs mais pr√≥ximos ao original)

### **Como funciona no c√≥digo:**



In [None]:
distance_mh_ = distance_mh(x, cf_list, continuous_features_all, 
                          categorical_features_all, X_train, ratio_cont)



A fun√ß√£o calcula:
1. Dist√¢ncia de `x` para cada `cf` em `cf_list`
2. Por padr√£o (`agg='mean'`), retorna a **m√©dia** das dist√¢ncias
3. Usa MAD para cont√≠nuas + Hamming para categ√≥ricas

**Varia√ß√µes dispon√≠veis:**
- `distance_mh_min`: dist√¢ncia m√≠nima (CF mais pr√≥ximo)
- `distance_mh_max`: dist√¢ncia m√°xima (CF mais distante)

---

## $dis_{count}$ (Count Dissimilarity)

### **M√©trica correspondente: `avg_nbr_changes`**

### **Defini√ß√£o do Artigo:**
- **$dist_{count} = (\frac{1}{|C|m})\sum_{c‚ààC}\sum_{i=1}^{m}{1_{c_i‚â†x_i}}$**
- o n√∫mero m√©dio de caracter√≠sticas alteradas entre um c contrafactual e x
- Quanto menor, melhor (menos mudan√ßas necess√°rias)

### **Como funciona no c√≥digo:**

#### **1. Fun√ß√£o auxiliar: `nbr_changes_per_cf`**
Conta quantas features foram alteradas em cada CF:



In [None]:
def nbr_changes_per_cf(x, cf_list, continuous_features):
    nbr_features = cf_list.shape[1]
    nbr_changes = np.zeros(len(cf_list))
    for i, cf in enumerate(cf_list):
        for j in range(nbr_features):
            if cf[j] != x[j]:
                # Conta 1 para cont√≠nua, 0.5 para categ√≥rica
                nbr_changes[i] += 1 if j in continuous_features else 0.5
    return nbr_changes



#### **2. Fun√ß√£o principal: `avg_nbr_changes`**
Implementa exatamente a f√≥rmula do artigo:



In [None]:
def avg_nbr_changes(x, cf_list, nbr_features, continuous_features):
    val = np.sum(nbr_changes_per_cf(x, cf_list, continuous_features))
    nbr_cf, _ = cf_list.shape
    return val / (nbr_cf * nbr_features)  # Divide por |C| * m



**No `evaluate_cf_list`:**


In [None]:
avg_nbr_changes_ = avg_nbr_changes(x, cf_list, nbr_features, continuous_features_all)

**Interpreta√ß√£o:** Ambas medem **proximidade** - CFs devem ser diferentes o suficiente para mudar a predi√ß√£o, mas pr√≥ximos o bastante para serem √∫teis e interpret√°veis.

---

## **Diversity** correspondem a:

## **1. div_dist (Distance-Based Diversity)**

### **M√©tricas correspondentes:**
- **`diversity_mh`** (dados mistos)
- **`diversity_l2j`** (alternativa para dados mistos)
- **`diversity_mad`** (apenas features cont√≠nuas)
- **`diversity_l2`** (apenas features cont√≠nuas)

### **Defini√ß√£o do Artigo:**
$$\text{divdist} = \frac{1}{|C|^2} \sum_{c \in C} \sum_{c' \in C} d(c, c')$$

- Dist√¢ncia m√©dia entre **todos os pares** de counterfactuals
- Quanto maior, melhor (CFs mais diversos/diferentes entre si)

In [None]:
def diversity_mh(cf_list, continuous_features, categorical_features, X, ratio_cont=None, agg=None):
    nbr_features = cf_list.shape[1]
    # Diversidade em features cont√≠nuas (MAD)
    dist_cont = continuous_diversity(cf_list, continuous_features, metric='mad', X=X, agg=agg)
    # Diversidade em features categ√≥ricas (Hamming)
    dist_cate = categorical_diversity(cf_list, categorical_features, metric='hamming', agg=agg)
    
    # Combina√ß√£o ponderada
    if ratio_cont is None:
        ratio_continuous = len(continuous_features) / nbr_features
        ratio_categorical = len(categorical_features) / nbr_features
    else:
        ratio_continuous = ratio_cont
        ratio_categorical = 1.0 - ratio_cont
    
    dist = ratio_continuous * dist_cont + ratio_categorical * dist_cate
    return dist

**Varia√ß√µes dispon√≠veis:**
- `diversity_mh_min`: menor dist√¢ncia entre pares (CFs mais similares)
- `diversity_mh_max`: maior dist√¢ncia entre pares (CFs mais distantes)

---

## **2. div_count (Count-Based Diversity)**

**M√©trica correspondente: `count_diversity_all`**

**Defini√ß√£o do Artigo:**
$$\text{divcount} = \frac{1}{|C|^2 m} \sum_{c \in C} \sum_{c' \in C} \sum_{i=1}^{m} \mathbb{1}_{c_i \neq c'_i}$$

- Propor√ß√£o m√©dia de features diferentes entre pares de CFs
- Normalizado por: n√∫mero de pares √ó n√∫mero de features
- Quanto maior, melhor (CFs modificam diferentes features)

**Como funciona no c√≥digo:**

**1. Fun√ß√£o base: `count_diversity`**
Implementa a l√≥gica de contagem:



In [None]:
def count_diversity(cf_list, features, nbr_features, continuous_features):
    nbr_cf = cf_list.shape[0]
    nbr_changes = 0
    
    # Loop sobre todos os pares (i, j)
    for i in range(nbr_cf):
        for j in range(i+1, nbr_cf):  # Evita duplicatas
            # Para cada feature
            for k in features:
                if cf_list[i][k] != cf_list[j][k]:
                    # Peso: 1 para cont√≠nua, 0.5 para categ√≥rica
                    nbr_changes += 1 if k in continuous_features else 0.5
    
    # Normaliza√ß√£o: divide por |C|¬≤ * m
    return nbr_changes / (nbr_cf * nbr_cf * nbr_features)



**Observa√ß√£o:** O loop usa `range(i+1, nbr_cf)` para contar cada par uma vez, mas a divis√£o por `nbr_cf * nbr_cf` normaliza considerando todos os pares ordenados, equivalente √† f√≥rmula do artigo.

#### **2. Fun√ß√£o wrapper: `count_diversity_all`**
Aplica a todas as features:



In [None]:
def count_diversity_all(cf_list, nbr_features, continuous_features):
    # Aplica count_diversity a TODAS as features
    return count_diversity(cf_list, range(cf_list.shape[1]), nbr_features, continuous_features)



**No `evaluate_cf_list`:**


In [None]:
count_diversity_all_ = count_diversity_all(cf_list, nbr_features, continuous_features_all)



---

### **Resumo Comparativo:**

| M√©trica do Artigo | Implementa√ß√£o | F√≥rmula | Dire√ß√£o |
|-------------------|---------------|---------|---------|
| **div_dist** | `diversity_mh` | $\frac{1}{\|C\|^2} \sum_{c \in C} \sum_{c' \in C} d(c, c')$ | ‚Üë maior melhor |
| **div_count** | `count_diversity_all` | $\frac{1}{\|C\|^2 m} \sum_{c \in C} \sum_{c' \in C} \sum_{i=1}^{m} \mathbb{1}_{c_i \neq c'_i}$ | ‚Üë maior melhor |

**Diferen√ßa chave:**
- **div_dist**: mede diversidade no **espa√ßo de features** (dist√¢ncia geom√©trica)
- **div_count**: mede diversidade na **contagem de mudan√ßas** (combinat√≥ria)

**Interpreta√ß√£o:** Alta diversidade significa que o usu√°rio tem m√∫ltiplas op√ß√µes diferentes para reverter a predi√ß√£o negativa, cada uma modificando diferentes combina√ß√µes de features.

---

Seguindo a defini√ß√£o do artigo, a m√©trica de **Discriminative Power** corresponde a:

## **Discriminative Power (dipo)**

### **M√©tricas correspondentes:**
- **`accuracy_knn_sklearn`** (implementa√ß√£o usando sklearn)
- **`accuracy_knn_dist`** (implementa√ß√£o manual com dist√¢ncias customizadas)

### **Defini√ß√£o do Artigo:**
**dipo** = acur√°cia de um classificador 1-Nearest Neighbor treinado com $C \cup \{x\}$ para classificar inst√¢ncias em $X_= \cup X_{\neq}$

Onde:
- $X_= \subset X$: k inst√¢ncias mais pr√≥ximas de x com $b(X_=) = b(x)$ (mesma classe)
- $X_{\neq} \subset X$: k inst√¢ncias mais pr√≥ximas de x com $b(X_{\neq}) \neq b(x)$ (classe diferente)
- Quanto maior, melhor (CFs distinguem bem entre classes)

---

### **Como funciona no c√≥digo:**

#### **1. Fun√ß√£o auxiliar: `select_test_knn`**
Seleciona o conjunto de teste $X_= \cup X_{\neq}$:



In [None]:
def select_test_knn(x, b, X_test, continuous_features, categorical_features, 
                    scaler, test_size=5, get_normalized=False):
    # Predi√ß√µes
    y_val = b.predict(x.reshape(1, -1))
    y_test = b.predict(X_test)
    
    # Normaliza√ß√£o
    nx = scaler.transform(x.reshape(1, -1))
    nX_test = scaler.transform(X_test)
    
    # Calcular dist√¢ncias para X= (mesma classe)
    dist_f = euclidean_jaccard(nx, nX_test[y_test == y_val], 
                               continuous_features, categorical_features)
    
    # Calcular dist√¢ncias para X‚â† (classe diferente)
    dist_cf = euclidean_jaccard(nx, nX_test[y_test != y_val], 
                                continuous_features, categorical_features)
    
    # Selecionar k=test_size inst√¢ncias mais pr√≥ximas de cada classe
    index_f = np.argsort(dist_f)[0][:test_size].tolist()   # X=
    index_cf = np.argsort(dist_cf)[0][:test_size].tolist() # X‚â†
    
    # Combinar: X= ‚à™ X‚â†
    index = np.array(index_f + index_cf)
    
    if get_normalized:
        return X_test[index], nX_test[index]
    return X_test[index]



**Resultado:** Retorna 2√ók inst√¢ncias (k da mesma classe + k da classe oposta)


#### **2. Implementa√ß√£o A: `accuracy_knn_sklearn`**
Usa sklearn para treinar e avaliar o 1NN:



In [None]:
def accuracy_knn_sklearn(x, cf_list, b, X_test, continuous_features, 
                        categorical_features, scaler, test_size=5):
    # 1. Preparar conjunto de treino: C ‚à™ {x}
    clf = KNeighborsClassifier(n_neighbors=1)  # 1-Nearest Neighbor
    X_train = np.vstack([x.reshape(1, -1), cf_list])
    y_train = b.predict(X_train)
    
    # 2. Treinar o 1NN
    clf.fit(X_train, y_train)
    
    # 3. Selecionar conjunto de teste: X= ‚à™ X‚â†
    X_test_knn = select_test_knn(x, b, X_test, continuous_features, 
                                  categorical_features, scaler, test_size)
    
    # 4. Obter predi√ß√µes reais e do 1NN
    y_test = b.predict(X_test_knn)
    y_pred = clf.predict(X_test_knn)
    
    # 5. Calcular acur√°cia (discriminative power)
    return accuracy_score(y_test, y_pred)



---

#### **3. Implementa√ß√£o B: `accuracy_knn_dist`**
Implementa√ß√£o manual com c√°lculo expl√≠cito de dist√¢ncias:



In [None]:
def accuracy_knn_dist(x, cf_list, b, X_test, continuous_features, 
                     categorical_features, scaler, test_size=5):
    # 1. Preparar conjunto de treino: C ‚à™ {x}
    X_train = np.vstack([x.reshape(1, -1), cf_list])
    y_train = b.predict(X_train)
    nX_train = scaler.transform(X_train)
    
    # 2. Selecionar conjunto de teste: X= ‚à™ X‚â†
    X_test_knn, nX_test_knn = select_test_knn(x, b, X_test, 
                                              continuous_features, 
                                              categorical_features, 
                                              scaler, test_size, 
                                              get_normalized=True)
    y_test = b.predict(X_test_knn)
    
    # 3. Classifica√ß√£o manual: para cada inst√¢ncia de teste
    y_pred = list()
    for nx_test in nX_test_knn:
        # Calcular dist√¢ncia para todos no conjunto de treino
        dist = euclidean_jaccard(nx_test, nX_train, 
                                continuous_features, categorical_features)
        # Encontrar o vizinho mais pr√≥ximo (1NN)
        idx = np.argmin(dist)
        # Atribuir classe do vizinho mais pr√≥ximo
        y_pred.append(y_train[idx])
    
    # 4. Calcular acur√°cia (discriminative power)
    return accuracy_score(y_test, y_pred)



---

### **Resumo:**

| M√©trica do Artigo | Implementa√ß√£o | Descri√ß√£o | Dire√ß√£o |
|-------------------|---------------|-----------|---------|
| **dipo** | `accuracy_knn_sklearn` | Acur√°cia 1NN (sklearn) | ‚Üë maior melhor |
| **dipo** | `accuracy_knn_dist` | Acur√°cia 1NN (manual) | ‚Üë maior melhor |

**No `evaluate_cf_list`:**


In [None]:
accuracy_knn_sklearn_ = accuracy_knn_sklearn(x, cf_list, bb, X_test, 
                                            continuous_features_all,
                                            categorical_features_all, 
                                            scaler, test_size=5)

accuracy_knn_dist_ = accuracy_knn_dist(x, cf_list, bb, X_test, 
                                      continuous_features_all,
                                      categorical_features_all, 
                                      scaler, test_size=5)



**Interpreta√ß√£o:** 
- **Alta acur√°cia (pr√≥xima a 1.0)**: Os CFs formam uma boa fronteira de decis√£o, conseguindo distinguir bem entre as classes
- **Baixa acur√°cia (pr√≥xima a 0.5)**: Os CFs n√£o definem bem a fronteira, sugerindo que n√£o s√£o discriminativos ou est√£o confusos

**Por que 1NN?** Pela simplicidade e conex√£o com o racioc√≠nio humano baseado em exemplos - decis√µes s√£o tomadas comparando com o caso mais similar conhecido.

---

## **Runtime**

### **Defini√ß√£o:**

**Runtime** mede o **tempo decorrido** necess√°rio para o explainer gerar os counterfactuals. √â uma m√©trica de **efici√™ncia computacional**.

$$\text{runtime} = t_{\text{end}} - t_{\text{start}}$$

Onde:
- $t_{\text{start}}$ = timestamp no in√≠cio da gera√ß√£o dos CFs
- $t_{\text{end}}$ = timestamp ao final da gera√ß√£o dos CFs
- Medido em **segundos**
- **Quanto menor, melhor**

### **Como funciona no c√≥digo:**

A m√©trica `runtime` n√£o √© calculada dentro de cf_metrics.ipynb, mas sim no **script de experimentos principal** que chama os m√©todos de gera√ß√£o de counterfactuals. O padr√£o t√≠pico seria:



In [None]:
import time

# Antes de gerar CFs
time_start = time.time()

# Gera√ß√£o dos counterfactuals (chamada ao m√©todo)
cf_list = explainer.explain(x, k=5)  # Gera k counterfactuals

# Ap√≥s gera√ß√£o
time_end = time.time()

# Calcula runtime
runtime = time_end - time_start



### **Composi√ß√£o no cf_metrics.ipynb:**

No arquivo cf_metrics.ipynb, h√° **tr√™s m√©tricas de tempo** nas colunas:



In [None]:
columns = [..., 'time_train', 'time_test', 'runtime', ...]

---

## **TABELA RESUMO - M√âTRICAS DE COUNTERFACTUALS**

### **M√©tricas do Artigo de Guidotti**

| M√©trica | Implementa√ß√£o | Equa√ß√£o | Interpreta√ß√£o | Objetivo |
|---------|---------------|---------|-------------|----------|
| **Size** | `perc_valid_cf_all` | $\frac{\|C\|}{k}$ | Propor√ß√£o de CFs v√°lidos gerados | **Maximizar** ‚Üë |
| **Actionability** | `perc_actionable_cf_all` | $\frac{\|\\{c \in C \| a_A(c,x)\\}\|}{k}$ | Propor√ß√£o de CFs que respeitam constraints | **Maximizar** ‚Üë |
| **Implausibility** | `plausibility_nbr_cf` | $\frac{1}{\|C\|}\sum_{c\in C}\min_{x\in X}d(c,x)$ | Dist√¢ncia m√©dia dos CF para as inst√¢ncias mais pr√≥ximas no conjunto de refer√™ncia X | **Minimizar** ‚Üì |
| **Dissimilarity_dist** | `distance_mh` | $\frac{1}{\|C\|}\sum_{c\in C}d(x,c)$ | Dist√¢ncia m√©dia entre x e CFs | **Minimizar** ‚Üì |
| **Dissimilarity_count** | `avg_nbr_changes` | $\frac{1}{\|C\|m}\sum_{c\in C}\sum_{i=1}^{m}\mathbb{1}_{c_i\neq x_i}$ | Propor√ß√£o de features modificadas | **Minimizar** ‚Üì |
| **Diversity_dist** | `diversity_mh` | $\frac{1}{\|C\|^2}\sum_{c\in C}\sum_{c'\in C}d(c,c')$ | Dist√¢ncia m√©dia entre pares de CFs | **Maximizar** ‚Üë |
| **Diversity_count** | `count_diversity_all` | $\frac{1}{\|C\|^2 m}\sum_{c\in C}\sum_{c'\in C}\sum_{i=1}^{m}\mathbb{1}_{c_i\neq c'_i}$ | Propor√ß√£o de features diferentes entre CFs | **Maximizar** ‚Üë |
| **Discriminative Power (Dipo)** | `accuracy_knn_sklearn` | Acur√°cia 1NN em $X_= \cup X_{\neq}$ | Capacidade de distinguir entre duas classes diferentes usando apenas os contrafactuais em C | **Maximizar** ‚Üë |
| **Runtime** | `runtime` | $t_{end} - t_{start}$ | Tempo de execu√ß√£o (segundos) | **Minimizar** ‚Üì |

---

### **Categorias de M√©tricas:**

#### **1. Validade e Aplicabilidade** (devem ser altas)
- **Size**: Garantir que CFs v√°lidos sejam gerados
- **Actionability**: Garantir que CFs sejam implement√°veis

#### **2. Proximidade** (devem ser baixas)
- **dis_dist**: CFs pr√≥ximos ao original (mudan√ßas m√≠nimas)
- **dis_count**: Poucas features modificadas (sparsity)
- **Implausibility**: CFs pr√≥ximos a inst√¢ncias reais

#### **3. Diversidade** (deve ser alta)
- **div_dist**: CFs geometricamente diversos
- **div_count**: CFs modificam diferentes features

#### **4. Qualidade da Explica√ß√£o** (deve ser alta)
- **Discriminative Power**: CFs definem bem a fronteira de decis√£o

#### **5. Robustez** (deve ser baixa)
- **Instability**: CFs consistentes sob perturba√ß√µes

#### **6. Efici√™ncia** (deve ser baixa)
- **Runtime**: Tempo computacional aceit√°vel

---

## **Notas Importantes**

1. **Normaliza√ß√£o**: Todas as m√©tricas de dist√¢ncia dependem da escala dos dados
   - `distance_mh` usa MAD (robusto a outliers)
   - Valores absolutos variam por dataset

2. **Contexto Experimental**:
   - Hardware: Ubuntu 20.04, 252GB RAM, Intel i9 3.30GHz √ó 36
   - Runtime deve ser comparado apenas no mesmo hardware

3. **Implementa√ß√µes Alternativas**:
   - `distance_l2j` vs `distance_mh`: L2+Jaccard vs MAD+Hamming
   - `accuracy_knn_sklearn` vs `accuracy_knn_dist`: sklearn vs implementa√ß√£o manual

4. **M√©tricas Complementares**:
   - Sempre analisar m√∫ltiplas m√©tricas simultaneamente
   - Nenhuma m√©trica isolada captura toda a qualidade dos CFs

---

---

## **VERIFICATION REPORT: Metric Implementations (Updated)**

**Comparison between:**
1. **Theory** (as defined in this notebook / Guidotti's paper)
2. **CounterFactualMetrics.py** (your repo implementation)
3. **ECE/cf_eval/metrics.py** (original source from Riccotti)

---

### **1. Size (`perc_valid_cf_all`) ‚úÖ CORRECT**

| Aspect | Theory | CounterFactualMetrics.py | ECE/cf_eval/metrics.py |
|--------|--------|---------------------------|-------------------------|
| **Formula** | $\frac{\|C\|}{k}$ | `n_val / k` | `n_val / k` |
| **Implementation** | Count CFs where prediction ‚â† original (or = desired) | Same | Same |

**Verdict:** ‚úÖ **Both implementations match the theory exactly.**

---

### **2. Actionability (`perc_actionable_cf_all`) ‚úÖ CORRECT**

| Aspect | Theory | CounterFactualMetrics.py | ECE/cf_eval/metrics.py |
|--------|--------|---------------------------|-------------------------|
| **Formula** | $\frac{\|\\{c \in C \| a_A(c,x)\\}\|}{k}$ | `n_val / k` | `n_val / k` |
| **Logic** | CF is actionable if it only modifies features in `variable_features` | Same | Same |

**Verdict:** ‚úÖ **Both implementations match the theory exactly.**

---

### **3. Implausibility (`plausibility_nbr_cf`) ‚úÖ FIXED**

| Aspect | Theory | CounterFactualMetrics.py | ECE/cf_eval/metrics.py |
|--------|--------|---------------------------|-------------------------|
| **Formula** | $\frac{1}{\|C\|}\sum_{c\in C}\min_{x'\in X}d(c,x')$ | ‚úÖ **FIXED** - Now computes distance from CF to nearest neighbor | üî¥ Bug remains |

**Previous Bug:** The code found the neighbor closest to **x** (original sample), not closest to **cf** (the counterfactual).

**Fix Applied:** Changed `distance_mh(x.reshape(1, -1), X_test_y, ...)` to `distance_mh(cf.reshape(1, -1), X_test_y, ...)` and simplified by using `np.min()` directly.

---

### **4. Dissimilarity_dist (`distance_mh`) ‚úÖ CORRECT**

| Aspect | Theory | CounterFactualMetrics.py | ECE/cf_eval/metrics.py |
|--------|--------|---------------------------|-------------------------|
| **Formula** | $\frac{1}{\|C\|}\sum_{c\in C}d(x,c)$ | Mean of `cdist(x, cf_list)` | Same |
| **Distance** | MAD + Hamming (weighted) | `ratio_cont * mad_dist + ratio_cat * hamming_dist` | Same |

**Verdict:** ‚úÖ **Both implementations match the theory exactly.**

---

### **5. Dissimilarity_count (`avg_nbr_changes`) ‚úÖ CORRECT**

| Aspect | Theory | CounterFactualMetrics.py | ECE/cf_eval/metrics.py |
|--------|--------|---------------------------|-------------------------|
| **Formula** | $\frac{1}{\|C\|m}\sum_{c\in C}\sum_{i=1}^{m}\mathbb{1}_{c_i\neq x_i}$ | `sum(changes) / (nbr_cf * nbr_features)` | Same |

**Note:** Both implementations weight continuous features as 1.0 and categorical as 0.5. This weighting is a design choice not explicitly in Guidotti's formula, but is consistent between both implementations.

**Verdict:** ‚úÖ **Implementations are consistent with each other and reasonable.**

---

### **6. Diversity_dist (`diversity_mh`) ‚úÖ CORRECT**

| Aspect | Theory | CounterFactualMetrics.py | ECE/cf_eval/metrics.py |
|--------|--------|---------------------------|-------------------------|
| **Formula** | $\frac{1}{\|C\|^2}\sum_{c\in C}\sum_{c'\in C}d(c,c')$ | Mean of `pdist(cf_list)` | Same |

**Note:** Both use `pdist` which returns pairwise distances for unique pairs. The `mean` aggregation averages over $\frac{\|C\|(\|C\|-1)}{2}$ pairs. Since it's symmetric, this is mathematically correct.

**Verdict:** ‚úÖ **Both implementations match the theory correctly.**

---

### **7. Diversity_count (`count_diversity_all`) ‚úÖ CORRECT (Your version)**

| Aspect | Theory | CounterFactualMetrics.py | ECE/cf_eval/metrics.py |
|--------|--------|---------------------------|-------------------------|
| **Formula** | $\frac{1}{\|C\|^2 m}\sum_{c\in C}\sum_{c'\in C}\sum_{i=1}^{m}\mathbb{1}_{c_i\neq c'_i}$ | ‚úÖ `k in continuous_features` | üî¥ Bug: `j in continuous_features` |

**ECE Bug:** Line 266 uses `j in continuous_features` where `j` is the CF index, not the feature index `k`.

**Your version is correct** - it properly uses `k in continuous_features`.

---

### **8. Discriminative Power (`accuracy_knn_sklearn`) ‚úÖ FIXED**

| Aspect | Theory | CounterFactualMetrics.py | ECE/cf_eval/metrics.py |
|--------|--------|---------------------------|-------------------------|
| **Method** | 1-NN trained on $C \cup \{x\}$, tested on $X_= \cup X_{\neq}$ | ‚úÖ **FIXED** | üî¥ Bug remains |

**Previous Bug in `select_test_knn`:** Index mapping error - indices from filtered arrays were used directly on `X_test` instead of mapping back to original indices.

**Example of bug:**
```python
# If y_test = [0, 1, 0, 1, 0] and y_val = 0
# same_class indices are [0, 2, 4] in X_test
# But after filtering, if sorted index is [1], code returned X_test[1] instead of X_test[2]
```

**Fix Applied:** Now properly maps filtered array indices back to original `X_test` indices using `np.where()`.

---

### **9. Runtime** ‚úÖ N/A

Runtime is measured externally in the experiment script, not computed by these metric functions.

---

## **SUMMARY OF FIXES APPLIED**

| Metric | Issue | Status | Impact |
|--------|-------|--------|--------|
| **Implausibility** | Was finding neighbor of x, not cf | ‚úÖ **FIXED** | High - was measuring wrong thing |
| **Discriminative Power** | Index mapping bug in `select_test_knn` | ‚úÖ **FIXED** | High - was using wrong test samples |

---

## **REMAINING ECE BUGS (Not Fixed - External Repo)**

| Metric | Bug |
|--------|-----|
| **Implausibility** | Same bug as ours was (uses x instead of cf) |
| **Diversity_count** | Uses `j` (CF index) instead of `k` (feature index) |
| **Discriminative Power** | Same index mapping bug |

---

## **FINAL STATUS**

| Metric | CounterFactualMetrics.py | ECE/cf_eval/metrics.py |
|--------|--------------------------|------------------------|
| Size | ‚úÖ Correct | ‚úÖ Correct |
| Actionability | ‚úÖ Correct | ‚úÖ Correct |
| Implausibility | ‚úÖ **FIXED** | üî¥ Bug |
| Dissimilarity_dist | ‚úÖ Correct | ‚úÖ Correct |
| Dissimilarity_count | ‚úÖ Correct | ‚úÖ Correct |
| Diversity_dist | ‚úÖ Correct | ‚úÖ Correct |
| Diversity_count | ‚úÖ Correct | üî¥ Bug |
| Discriminative Power | ‚úÖ **FIXED** | üî¥ Bug |
| Runtime | ‚úÖ N/A | ‚úÖ N/A |

**All 9 metrics in your CounterFactualMetrics.py are now verified correct! ‚úÖ**