# Coeficiente de correlación de Mathews 

El coeficiente de correlación de Matthews(MCC) es una medida de la asociación entre dos variables binarias. se puede calcular directamente a partir de la matriz de confusión mediante la fórmula:

MCC = $\frac{TP×TN−FP×FN}{\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}$.

En esta ecuación, TP es el número de verdaderos positivos, TN, el número de verdaderos negativos, FP el número de falsos positivos y FN el número de falsos negativos. Si alguna de las cuatro sumas de dinero en el denominador es cero, el denominador puede ser arbitrariamente a uno; esto se traduce en una Matthews coeficiente de correlación de cero, lo cual puede ser demostrado ser el correcto valor de limitación.


In [1]:
#Uso de la biblioteca sklearn.metrics.matthews_corrcoef
from sklearn.metrics import matthews_corrcoef
from sklearn.metrics import confusion_matrix
import numpy as np

Matriz de confución ideal de dos variables:

In [2]:
y_test = np.random.randint(low = 0, high=2, size=10)
confusion_matrix(y_test,y_test)

array([[7, 0],
       [0, 3]])

In [3]:
matthews_corrcoef(y_test,y_test)

1.0

Matriz de confución, erronea

In [4]:
y_test = np.random.randint(low=0, high=2, size=100)
y_pred = abs(y_test - 1)
confusion_matrix(y_test, y_pred)

array([[ 0, 44],
       [56,  0]])

In [5]:
matthews_corrcoef(y_test, y_pred)

-1.0

Matriz de confución, siempre la misma variable

In [6]:
y_test = np.random.randint(low=0, high=2, size=100)
#y_pred = y_test - np.random.randint(low=1, high=10, size=100)
y_pred = np.zeros(100)
confusion_matrix(y_test, y_pred)

array([[47,  0],
       [53,  0]])

In [7]:
matthews_corrcoef(y_test, y_pred)

  mcc = cov_ytyp / np.sqrt(cov_ytyt * cov_ypyp)


0.0

# Precisión equilibrada (BAC) y tasa de error equilibrada (BER)

La precisión equilibrada es el promedio de la sensibilidad y la especificidad, obtenida al umbralizar los valores de predicción en cero:

BAC = 0.5 * ($\frac{tp}{(tp + fn)}$ + $\frac{tn}{(tn + fp)}$)

La tasa de error equilibrada es su complemento a uno: BER = 1-BAC

Donde tp son los verdaeros positivos, fp son los falsos positivos, tn son los verdaderos negativos y fn son los falsos negativos de la matriz de confusión.

In [8]:
#Uso de la biblioteca sklearn.metrics.balanced_accuracy_score
from sklearn.metrics import balanced_accuracy_score

Matriz de confución ideal de dos variables:

In [9]:
y_test = np.random.randint(low = 0, high=2, size=10)
confusion_matrix(y_test,y_test)

array([[5, 0],
       [0, 5]])

In [10]:
print("BAC: {} ".format(balanced_accuracy_score(y_test,y_test)))
print("BER: {} ".format(1 - balanced_accuracy_score(y_test,y_test)))

BAC: 1.0 
BER: 0.0 


Matriz de confución, erronea

In [11]:
y_test = np.random.randint(low=0, high=2, size=100)
y_pred = abs(y_test - 1)
confusion_matrix(y_test, y_pred)

array([[ 0, 54],
       [46,  0]])

In [12]:
print("BAC: {} ".format(balanced_accuracy_score(y_test,y_test)))
print("BER: {} ".format(1 - balanced_accuracy_score(y_test,y_test)))

BAC: 1.0 
BER: 0.0 


Matriz de confución, siempre la misma variable

In [13]:
y_test = np.random.randint(low=0, high=2, size=100)
#y_pred = y_test - np.random.randint(low=1, high=10, size=100)
y_pred = np.zeros(100)
confusion_matrix(y_test, y_pred)

array([[48,  0],
       [52,  0]])

In [14]:
print("BAC: {} ".format(balanced_accuracy_score(y_test,y_test)))
print("BER: {} ".format(1 - balanced_accuracy_score(y_test,y_test)))

BAC: 1.0 
BER: 0.0 


# Uso en un ejemplo practico

In [15]:
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

X = load_iris().data
y = load_iris().target

#X = StandardScaler().fit_transform(X)
X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size=.3, random_state=42)

In [16]:
from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()

In [17]:
clf.fit(X_train,y_train)

GaussianNB(priors=None, var_smoothing=1e-09)

In [18]:
predict = clf.predict(X_test)
print("Matriz de confusión: \n{}\n".format(confusion_matrix(predict,y_test)))
print("accuracy: {}\n".format(matthews_corrcoef(y_test, predict)))
print("MCC: {}".format(matthews_corrcoef(y_test, predict)))
print("BAC: {}".format(balanced_accuracy_score(y_test, predict)))
print("BER: {}".format(1-balanced_accuracy_score(y_test, predict)))


Matriz de confusión: 
[[19  0  0]
 [ 0 12  0]
 [ 0  1 13]]

accuracy: 0.9667927281716955

MCC: 0.9667927281716955
BAC: 0.9743589743589745
BER: 0.02564102564102555


Se obtienen la mitad de los datos de forma aleatoria entre los indices 40-150 de modo que sean datos desbalanseados 

In [19]:
index = np.random.randint(low=40, high=150, size=75)
X = load_iris().data[index]
y = load_iris().target[index]

#X = StandardScaler().fit_transform(X)
X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size=.5, random_state=42)

In [20]:
print("Datos con target 0: {}".format(sum((y==0)*1)))
print("Datos con target 1: {}".format(sum((y==1)*1)))
print("Datos con target 2: {}".format(sum((y==2)*1)))

Datos con target 0: 9
Datos con target 1: 33
Datos con target 2: 33


In [21]:
clf = GaussianNB()
clf.fit(X_train,y_train)

GaussianNB(priors=None, var_smoothing=1e-09)

In [22]:
predict = clf.predict(X_test)
print("Matriz de confusión: \n{}\n".format(confusion_matrix(predict,y_test)))
print("accuracy: {}\n".format(matthews_corrcoef(y_test, predict)))
print("MCC: {}".format(matthews_corrcoef(y_test, predict)))
print("BAC: {}".format(balanced_accuracy_score(y_test, predict)))
print("BER: {}".format(1-balanced_accuracy_score(y_test, predict)))

Matriz de confusión: 
[[ 4  0  0]
 [ 2 15  1]
 [ 0  0 16]]

accuracy: 0.8774586771515113

MCC: 0.8774586771515113
BAC: 0.8692810457516339
BER: 0.1307189542483661
