In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import ipywidgets as widgets
import warnings
%matplotlib widget
layout = widgets.Layout(align_items = 'center')
warnings.filterwarnings('ignore')

<h2>MÉTRICAS DE ERROR PARA CLASES SESGADAS</h2>
Cuando una clase es poco común dentro del set de datos se la denomina 
<strong>clase sesgada</strong> (Skewed class). Esto se da cuando el 
set de datos posee muchos más ejemplos de una clase que de otra. En
estos casos se dificulta establecer si una reducción del error 
corresponde verdaderamente a una mejora del algoritmo. Por ello se 
utilizan otras métricas:

<table>
  <tr>
    <th></th>
    <th colspan="2">Real</th>
  </tr>
  <tr>
    <th>Predicho</th>
    <th style="text-align:center">1</th>
    <th style="text-align:center">0</th>
  </tr>
  <tr>
      <th style="text-align:center">1</th>
      <td>Verdadero Positivo</td>
      <td>Falso Positivo</td>
  </tr>
  <tr>
      <th style="text-align:center">0</th>
      <td>Falso Negativo</td>
      <td>Verdadero Negativo</td>
  </tr>
</table>


<dl> 
    <dt>PRECISIÓN (Precision):</dt>
        <dd>De todos las salidas predichas como $h=1$, cuantas verdaderamente
            eran $y=1$.
            $$
                P = \frac{True Positives}{Total Predicted Positives} = 
                    \frac{True Positives}{True Positives + False Positives}
            $$
        </dd>
    <br>
    <dt>EXHAUSTIVIDAD (Recall):</dt>
        <dd>De todos las salidas predichas $y=1$, cuantas de ellas fueron detectadas
            correctamente como $y=1$.
            $$
                R = \frac{True Positives}{Total Actual Positives} = 
                    \frac{True Positives}{True Positives + False Negatives}
            $$
        </dd>
    <br>
    <dt>EXACTITUD (Exactitud):</dt>
       <dd>Cuantas salidas fueron predichas correctamente.
           $$
                A = \frac{True Positives + True Negatives}{Total Population} 
            $$
        </dd>
</dl>

<div  class="alert alert-block alert-success"> 
   <ol>
       <li>Al <b>incrementar</b> el valor del 
           umbral en una regresión logística de 2 clases, se 
           obtiene una <b> mayor precisión</b>
           pero un <b>menor exhaustividad</b>.</li>
       <li>Al <strong>disminuir</strong> el valor del umbral
           en una regresión logística de 2 clases, se 
           obtiene un <b> mayor exhaustividad</b>
           pero una <b>menor precisión</b>.</li>
   </ol>
</div>

<dl>
    <dt>VALOR F (F value):</dt>
       <dd>Reune las métricas de Precisión y Exhaustividad en un mismo valor. 
           Puede ser calculado de 2 maneras diferentes:
           <ul>
               <li> AVERAGE: No es una buena métrica. Porque por ejemplo, 
                   si se predicen todos las salidas como $h=1$, el valor 
                   de recall será alto y elevará el valor de average, a 
                   pesar de que el valor de precision sea bajo.
                   $$
                    Average = \frac{P+R}{2} 
                   $$
               </li>
               <li> F SCORE: Es una buena métrica ya que para que su valor
                   sea grande, tanto el valor de precision como el de 
                   recall deben ser grandes.
                   $$
                    F = 2 \frac{PR}{P+R} 
                   $$
               </li>
           </ul>
        </dd>
</dl>

<div  class="alert alert-block alert-warning"> 
   El analisis de precisión y exhaustividad debe hacerse en el set
   de datos de validación cruzada.
</div>

<strong>EJEMPLO:</strong> 
Una empresa posee un nuevo producto que busca promocionar entre sus clientes.
Para que la empresa no contacte para ofrecer este nuevo producto a aquellos 
clientes que no estarán interesados en él, se crea un modelo de Machine 
Learning que permita predecir qué clientes 
de la compañia tienen más probabilidad de aceptar una determinada oferta. 

El modelo acertará cuando:
<ul>
    <li>los clientes contactados, porque el modelo ha predicho que aceptarían, 
        lo hacen (Verdaderos Positivos [TP]).</li>
    <li>los clientes que no son contactados, porque el modelo ha predicho que 
        no aceptarían la oferta, no lo hacen (Verdaderos Negativos [TN]).</li>
</ul>

Sin embargo, el modelo no es perfecto, por lo que:
<ul>
    <li>habrá clientes contactados, porque el modelo ha predicho que aceptarían, 
        que no lo hacen (Falsos Positivos [FP]).</li>
    <li>habrá clientes no contactados, porque el modelo ha predicho que no 
        aceptarían, que en realidad si lo hacen (Falsos Negativos [FN])</li>
</ul>

Si suponemos que se contacta con 100 personas y se asume una clasificación binaria:
<ul>
    <li>0: no está interesado en el nuevo producto.</li>
    <li>1: está interesado en el nuevo producto.</li>
<table>
  <tr>
    <th></th>
    <th colspan="2">Real</th>
  </tr>
  <tr>
    <th>Predicho</th>
    <th style="text-align:center">1</th>
    <th style="text-align:center">0</th>
  </tr>
  <tr>
      <th style="text-align:center">1</th>
      <td>5</td>
      <td>10</td>
  </tr>
  <tr>
      <th style="text-align:center">0</th>
      <td>15</td>
      <td>70</td>
  </tr>
</table>

<ol>
    <li>La métrica de <strong>precisión</strong> permite determinar el 
        porcentaje de los <strong>clientes contactados que están 
        interesados realmente</strong>:
        $$
            P = \frac{TP}{TP+FP}=\frac{5}{5+10} = 0.33
        $$
        En este ejemplo, sólo un 33% de los clientes contactados están realmente 
        interesados. Lo cual implica que el modelo se equivoca un 66% de las 
        veces al predecir que un cliente va a estar interesado en el proucto.
    </li>
    <br>
    <li>La métrica de <strong>exhaustividad</strong> determina el 
        porcentaje de <strong>clientes interesados que es capaz de identificar</strong>:
        $$
            R = \frac{TP}{TP+FN}=\frac{5}{5+15} = 0.25
        $$
        En este ejemplo, el modelo es capaz de identificar sólo un 25% de los 
        clientes que estarían interesados en adquirir el producto.
    </li>
    <br>
    <li>El <strong>valor F combina las medidas de precisión y recall</strong> 
        en un sólo valor, considerando que ambos valores tienen igual nivel de 
        importancia para el modelo. Esto facilita la comparación del rendimiento 
        combinado de la precisión y exhaustividad entre varios modelos:
        $$
            F = 2 \frac{P*R}{P+R} = 2\frac{0.33 * 0.25}{0.33 + 0.25} = 0.28
        $$
    </li>
    <br>
    <li>La <strong>exactitud</strong> mide el porcentaje de <strong>casos en los que 
        el modelo acierta</strong>:
        $$
            A = \frac{TP + TN}{Total Population} =\frac{TP + TN}{TP + TN + FP + FN} \
              =\frac{5+70}{5+70+10+15} = 0.75
        $$
        En este ejemplo, el modelo acierta el 75% de las veces por lo que se 
        podría considerar que es un buen modelo aunque no lo sea. Es por esto 
        que cuando una clase es mucho más probable que otra no se suele 
        utilizar la métrica de exactitud.
   </li>
</ol>
        

El módulo <strong>sklearn.metrics</strong> posee funciones que permites calcular todas estas distintas méricas:

In [None]:
Y = np.hstack([np.ones(20), np.zeros(80)])
H = np.hstack([np.ones(5), np.zeros(15), np.ones(10), np.zeros(70)])

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

cm = confusion_matrix(Y, H)
tn, fp, fn, tp = cm.ravel()

print(f'''La cantidad de Verdaderos Negativos es: {tn}.
La cantidad de Verdaderos Positivos es: {tp}.
La cantidad de Falsos Negativos es: {fn}.
La cantidad de Falsos Positivos es: {fp}.''')

In [None]:
disp = ConfusionMatrixDisplay(confusion_matrix = cm)
disp.plot();

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score

P = precision_score(Y,H)
R = recall_score(Y,H)
F = f1_score(Y,H)
A = accuracy_score(Y,H)

print(f'''El valor de precisión es: {P}.
El valor de exhaustividad es: {R}.
El valor F es: {F:.2f}.
El valor de exactitud es: {A}.''')

In [None]:
from sklearn.metrics import precision_recall_fscore_support

precision_recall_fscore_support(Y, H, average ='binary')

Para evidenciar mejor el problema de la métrica de exactitud, se considera que 
el modelo predice siempre que el cliente no esta interesado:

<table>
  <tr>
    <th></th>
    <th colspan="2">Real</th>
  </tr>
  <tr>
    <th>Predicho</th>
    <th style="text-align:center">1</th>
    <th style="text-align:center">0</th>
  </tr>
  <tr>
      <th style="text-align:center">1</th>
      <td>0</td>
      <td>0</td>
  </tr>
  <tr>
      <th style="text-align:center">0</th>
      <td>20</td>
      <td>80</td>
  </tr>
</table>

En este caso, las méricas de precisión, exhaustividad y Valor F tendrán un
valor igual a 0. Sin embargo, la métrica de exactitud tendrá un valor muy grande 
que podría generar una mala interpretación de que el modelo es bueno:

$$
    A = \frac{0 + 80}{0 + 80 + 0 + 20} = 0.8
$$