# **Imbalanced correlation**

## Corrélation avec la cible

### Approche initiale

Pour les variables continues, on utilisera les corrélations de Pearson et Spearman (mais pas Kendall qui
1. ne se pondère pas dans son implémentation SKL,
2. connaît des dépassements systématiques pendant son calcul).

Pour les variables discrètes binaires (soit nativement binaires, soit obtenues par le one hot encoding de variables catégorielles) on privilégiera la corrélation de Matthews (MCC).

Dans les 3 cas, nous utilisons la version pondérée de ces mesures pour compenser le déséquilibre important entre les classes. Les poids (coefficients de pondération) sont déterminés de la manière suivante : en posant $n$ la population, $n_0$ et $n_1$ le nombre de clients non défaillant et défaillants, $w_0, w_1 \leftarrow \frac{n}{n_0}, \frac{n}{n_1}$.

**Pb** pas de version pondérée de Pearson ou Spearman dans Pandas, SKL ou Scipy.
Je n'ai pas mieux à essayer pour le moment que https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.weightedtau.html

```Python
from scipy import stats
corr, p_value = stats.weightedtau(x, y, weights)
print("Weighted Rank Correlation : ", corr)
print("P-value : ", p_value)
```

Références sur Pearson, Kendall et Spearman :
* https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
* https://en.wikipedia.org/wiki/Kendall_rank_correlation_coefficient
* https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient

Références sur la corrélation de Matthews pondérées (WMCC) :
* https://en.wikipedia.org/wiki/Phi_coefficient
* https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7
* https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0177678

In [None]:
# Test de la corrélation de Matthews pondérée
from home_credit.load import get_application
from home_credit.utils import get_datablock
from pepper.univar import test_wmcc
app = get_application()
target = get_datablock(app, "TARGET").TARGET
target = target[target > -1]
target.value_counts(dropna=False)
test_wmcc(target)