Inducción de Reglas
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/statistics-for-analytics/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/statistics-for-analytics/tree/master/) para explorar el repositorio usando `nbviewer`. 

---

# Definición del problema en términos del negocio

Se desea determinar a cuál clase ($A$, $B$ o $C$) pertenece un elemento, a partir de resultados previamente recolectados.

# Definición del problema en términos de los datos

Se tiene un conjunto de 15 ejemplos para los cuales se tienen tres características $x_1$, $x_2$ y $x_3$ y su respectiva clase. Se desea determinar a que clase pertenece un nuevo punto con coordenadas $x_1$, $x_2$ y $x_3$.

     #   x1   x2   x3    y  
    ------------------------
     1    a    g    h    A
     2    a    e    i    A
     3    a    f    h    A
     4    d    f    j    A
     5    d    g    j    A
     6    b    e    i    B 
     7    b    f    i    B
     8    b    f    i    B
     9    c    g    h    B
    10    c    g    h    B
    11    a    e    i    C
    12    b    g    j    C
    13    c    f    j    C
    14    c    g    h    C
    15    c    e    i    C

# Metodología de Solución


## Definición de probabilidad como frecuencia

**Espacio muestral:** se define como el conjunto de todos los posibles resultados de un experimento.

**Ejercicio.--** En la tirada de dos dados, ¿cuál es el espacio muestral?

**Evento:** Es cualquier colección de posibles resultados de un experimento (subconjunto del espacio muestral).

En su forma más simple, el concepto de probabilidad puede interpretarse como la frecuencia con que ocurre un evento. Por ejempo, si en la tirada de dos dados se definen como un evento la cantidad de posibles resultados que dan una suma determinada, entonces:

<img src="images/bayes/tirada-dados.jpg" width=300>


    Pr(𝑋= 2) = 1 / 36   Pr(𝑋= 6) = 5 / 36   Pr(𝑋=10) = 3 / 36
    Pr(𝑋= 3) = 2 / 36   Pr(𝑋= 7) = 6 / 36   Pr(𝑋=11) = 2 / 36
    Pr(𝑋= 4) = 3 / 36   Pr(𝑋= 8) = 5 / 36   Pr(𝑋=12) = 1 / 36
    Pr(𝑋= 5) = 4 / 36   Pr(𝑋= 9) = 4 / 36

**Ejercicio.--** Los soldados mediavales apostaban con dos dados de la siguiente manera: si el resultado es par {2, 4, 6, 8, 10, 12} ganaba el soldado A; y si el resultado es impar {3, 5, 7, 9, 11} ganaba el soldado B. ¿Quién tiene mayor probabilidad de ganar?

**Propiedades y definiciones básicas.**


* Todas las probabilidades deben estar entre $0$ y $1$: 


$$0 \le \text{Pr}(x_i) \le 1$$


* Las probabilidades de eventos mutuamente exclusivos (no pueden ocurrir simultáneamente) y colectivamente exhaustivos (cubren todo el universo de casos posibles) deben sumar la unidad:

$$\sum_{i=1}^n \text{Pr}(x_i) = 1$$


* Probabilidad condicional $\text{Pr}(A \; | \; B)$: probabilidad de que ocurra un evento $A$ sabiendo que otro evento $B$ ya ocurrio.


* Independencia: Si los eventos $A$ y $B$ son independientes:

$$\text{Pr}(A \; |  \; B) = \text{Pr}(A)$$

## Reglas de asociación para clasificación

La metodología 1R se basa en la partición del espacio de entrada usando una y sólo una de las variables (atributos) del problema. Para el problema planteado, una regla basada en el atributo `x1` podría ser:

    if x1 in {a, d}:  y = A
    if x1 in {b}:     y = B
    if x1 in {c}:     y = C


El algoritmo funciona de la siguiente forma: se toma el primer atributo $x_1$ y se divide en grupos por cada  valor que puede tomar dicho atributo, es decir, por `a`, `b`, `c`, y `d`; para cada atributo se determina a que clase es más probable que pertenezca los ejemplos y se asigna dicha clase a dicho atributo. Es decir, para cada atributo se cuentan cuántos ejemplos hay de cada categoría y se asigna la clase por mayoría, esto es, si hay cuatro ejemplos para la categoría `a` de $x_1$ y tres de ellos pertencen a la clase `A` y el restante a `C` se dice que `if x1 == a: y = A`; esto equivale a decir que si `x1 == a` es más probable que el ejemplo pertenezca a la clase sea `A`. Así, el clasificador basado en este atributo podría ser escrito como un sistema de reglas:

    if x1 == a:  y = A
    if x1 == b:  y = B
    if x1 == c:  y = C
    if x1 == d:  y = A
    
       
Al agrupar por $x_1$, este conjunto de reglas se reescribe como:

    if x1 in {a, d}:
        y = A
    elif x1 in {b}:
        y = B
    else:
        y = C
        
Para el clasificador anterior se puede calcular una métrica de error.

Luego se toma el segundo atributo $x_2$ y se procede de igual forma para construir otro clasificador. El proceso se repite hasta obtener un clasificador por cada atributo. Se escoge el clasificador con mayor precisión.

---
**Ejercicio.--** Para el ejemplo planteado, escriba las reglas para los clasificadores para los demás atributos.

---

Para evaluar el desempeño en problemas de clasificación dicotómicos (dos clases mutuamente excluyentes) se usa la siguiente tabla:


             | Pronostico
             |  P     N
    ---------|------------  
          P  |  TP    FN          
    Real     |
          N  |  FP    TN
    
    TP - Verdadero positivo (correcto)
    TN - Verdadero negativo (correcto)
    FN - Falso negativo (mal clasificado)
    FP - Falso positivo (mal clasificado)
    
La medición de la precisión del modelo permite estimar el desempeño del modelo ante nuevos datos.

* Tasa de éxito (porcentaje de patrones clasificados correctamente):


$$\text{success rate} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

* Tasa de error (porcentaje total de patrones clasificados incorrectamente):

$$\text{error rate} = \frac{\text{FP} + \text{FN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}} = 1 - \text{accuracy}$$

* Precisión o valor predictivo positivo: Proporción de casos positivos que fueron verdaderamente positivos.


$$\text{precision} = \frac{\text{TP}}{\text{TP}  + \text{FP}}$$

* Valor predictivo negativo: Proporción de casos negativos que fueron verdaderamente negativos.


$$\text{negative predictive value} = \frac{\text{TN}}{\text{TN}  + \text{FN}}$$

* Sensibilidad, tasa verdadera positiva, recall, sensibilidad: mide la proporción de ejemplos positivos que fueron correctamente clasificados.


$$\text{sensitibity} = \frac{\text{TP}}{\text{TP}  + \text{FN}}$$

* Especifidad o tasa verdadera negativa: mide la proporción de ejemplos negativos correctamente clasificados.


$$\text{specifity} = \frac{\text{TN}}{\text{TN}  + \text{FP}}$$

---
**Ejercicio.--** Para el ejemplo planteado, calcule las métricas de error descritas.

---

Inducción de Reglas
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/statistics-for-analytics/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/statistics-for-analytics/tree/master/) para explorar el repositorio usando `nbviewer`. 